gimi9 Pandas Profiling

Dataset statistics

Number of variables	8
Number of observations	45
Missing cells	91
Missing cells (%)	25.3%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	3.0 KiB
Average record size in memory	67.9 B

Variable types

Text	4
Numeric	1
Categorical	1
Unsupported	1
Boolean	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-1323/S/1/datasetView.do

Alerts

`테이블영문명` has constant value ""	Constant
`데이블한글명` has constant value ""	Constant
`데이터타입` is highly imbalanced (50.1%)	Imbalance
`Null` is highly imbalanced (84.6%)	Imbalance
`테이블영문명` has 44 (97.8%) missing values	Missing
`데이블한글명` has 44 (97.8%) missing values	Missing
`길이` has 3 (6.7%) missing values	Missing
`컬럼순서` has unique values	Unique
`컬럼영문명` has unique values	Unique
`컬럼한글명` has unique values	Unique
`길이` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2023-12-11 06:09:11.635891
Analysis finished	2023-12-11 06:09:12.425452
Duration	0.79 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블영문명
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	44
Missing (%)	97.8%
Memory size	492.0 B

Length

Max length	15
Median length	15
Mean length	15
Min length	15

Characters and Unicode

Total characters	15
Distinct characters	8
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	TN_NRSTR_ND_OBT

Value	Count	Frequency (%)
tn_nrstr_nd_obt	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
T	3	20.0%
N	3	20.0%
_	3	20.0%
R	2	13.3%
S	1	6.7%
D	1	6.7%
O	1	6.7%
B	1	6.7%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	12	80.0%
Connector Punctuation	3	20.0%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
T	3	25.0%
N	3	25.0%
R	2	16.7%
S	1	8.3%
D	1	8.3%
O	1	8.3%
B	1	8.3%

Connector Punctuation

Value	Count	Frequency (%)
_	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	12	80.0%
Common	3	20.0%

Most frequent character per script

Latin

Value	Count	Frequency (%)
T	3	25.0%
N	3	25.0%
R	2	16.7%
S	1	8.3%
D	1	8.3%
O	1	8.3%
B	1	8.3%

Common

Value	Count	Frequency (%)
_	3	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	15	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
T	3	20.0%
N	3	20.0%
_	3	20.0%
R	2	13.3%
S	1	6.7%
D	1	6.7%
O	1	6.7%
B	1	6.7%

데이블한글명
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	44
Missing (%)	97.8%
Memory size	492.0 B

Length

Max length	7
Median length	7
Mean length	7
Min length	7

Characters and Unicode

Total characters	7
Distinct characters	6
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	보호수및노거수

Value	Count	Frequency (%)
보호수및노거수	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
수	2	28.6%
보	1	14.3%
호	1	14.3%
및	1	14.3%
노	1	14.3%
거	1	14.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	7	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
수	2	28.6%
보	1	14.3%
호	1	14.3%
및	1	14.3%
노	1	14.3%
거	1	14.3%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	7	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
수	2	28.6%
보	1	14.3%
호	1	14.3%
및	1	14.3%
노	1	14.3%
거	1	14.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	7	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
수	2	28.6%
보	1	14.3%
호	1	14.3%
및	1	14.3%
노	1	14.3%
거	1	14.3%

컬럼순서
Real number (ℝ)

UNIQUE

Distinct	45
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	23

Minimum	1
Maximum	45
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	537.0 B

Quantile statistics

Minimum	1
5-th percentile	3.2
Q1	12
median	23
Q3	34
95-th percentile	42.8
Maximum	45
Range	44
Interquartile range (IQR)	22

Descriptive statistics

Standard deviation	13.133926
Coefficient of variation (CV)	0.57104024
Kurtosis	-1.2
Mean	23
Median Absolute Deviation (MAD)	11
Skewness	0
Sum	1035
Variance	172.5
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=45)

Value	Count	Frequency (%)
1	1	2.2%
35	1	2.2%
26	1	2.2%
27	1	2.2%
28	1	2.2%
29	1	2.2%
30	1	2.2%
31	1	2.2%
32	1	2.2%
33	1	2.2%
Other values (35)	35	77.8%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	2.2%
2	1	2.2%
3	1	2.2%
4	1	2.2%
5	1	2.2%
6	1	2.2%
7	1	2.2%
8	1	2.2%
9	1	2.2%
10	1	2.2%

Value	Count	Frequency (%)
45	1	2.2%
44	1	2.2%
43	1	2.2%
42	1	2.2%
41	1	2.2%
40	1	2.2%
39	1	2.2%
38	1	2.2%
37	1	2.2%
36	1	2.2%

컬럼영문명
Text

UNIQUE

Distinct	45
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	492.0 B

Length

Max length	10
Median length	9
Mean length	7.6
Min length	3

Characters and Unicode

Total characters	342
Distinct characters	24
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	45 ?
Unique (%)	100.0%

Sample

1st row	OBJECTID
2nd row	GU_NM
3rd row	HNR_NAM
4th row	MTC_AT
5th row	MASTERNO

Value	Count	Frequency (%)
objectid	1	2.2%
pss_man	1	2.2%
sde_knd_nm	1	2.2%
sde_dme_et	1	2.2%
sde_mge_st	1	2.2%
sde_mge_me	1	2.2%
vde_knd_nm	1	2.2%
vde_dme_et	1	2.2%
vde_mge_st	1	2.2%
vde_mge_me	1	2.2%
Other values (35)	35	77.8%

Most occurring characters

Value	Count	Frequency (%)
_	51	14.9%
E	41	12.0%
T	37	10.8%
M	29	8.5%
N	23	6.7%
D	22	6.4%
S	16	4.7%
A	16	4.7%
R	15	4.4%
C	15	4.4%
Other values (14)	77	22.5%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	291	85.1%
Connector Punctuation	51	14.9%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
E	41	14.1%
T	37	12.7%
M	29	10.0%
N	23	7.9%
D	22	7.6%
S	16	5.5%
A	16	5.5%
R	15	5.2%
C	15	5.2%
L	10	3.4%
Other values (13)	67	23.0%

Connector Punctuation

Value	Count	Frequency (%)
_	51	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	291	85.1%
Common	51	14.9%

Most frequent character per script

Latin

Value	Count	Frequency (%)
E	41	14.1%
T	37	12.7%
M	29	10.0%
N	23	7.9%
D	22	7.6%
S	16	5.5%
A	16	5.5%
R	15	5.2%
C	15	5.2%
L	10	3.4%
Other values (13)	67	23.0%

Common

Value	Count	Frequency (%)
_	51	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	342	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	51	14.9%
E	41	12.0%
T	37	10.8%
M	29	8.5%
N	23	6.7%
D	22	6.4%
S	16	4.7%
A	16	4.7%
R	15	4.4%
C	15	4.4%
Other values (14)	77	22.5%

컬럼한글명
Text

UNIQUE

Distinct	45
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	492.0 B

Length

Max length	7
Median length	5
Mean length	4.0222222
Min length	2

Characters and Unicode

Total characters	181
Distinct characters	80
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	45 ?
Unique (%)	100.0%

Sample

1st row	고유번호
2nd row	구명
3rd row	법정동명
4th row	산지여부
5th row	주지번

Value	Count	Frequency (%)
고유번호	1	2.1%
지정사유	1	2.1%
병해피해도	1	2.1%
병해관리상태	1	2.1%
병해관리방안	1	2.1%
충해종류명	1	2.1%
충해피해도	1	2.1%
충해관리상태	1	2.1%
충해관리방안	1	2.1%
기타피해상태	1	2.1%
Other values (37)	37	78.7%

Most occurring characters

Value	Count	Frequency (%)
해	12	6.6%
지	8	4.4%
명	8	4.4%
수	8	4.4%
관	7	3.9%
리	6	3.3%
목	5	2.8%
도	5	2.8%
피	4	2.2%
유	4	2.2%
Other values (70)	114	63.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	179	98.9%
Space Separator	2	1.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
해	12	6.7%
지	8	4.5%
명	8	4.5%
수	8	4.5%
관	7	3.9%
리	6	3.4%
목	5	2.8%
도	5	2.8%
피	4	2.2%
유	4	2.2%
Other values (69)	112	62.6%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	179	98.9%
Common	2	1.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
해	12	6.7%
지	8	4.5%
명	8	4.5%
수	8	4.5%
관	7	3.9%
리	6	3.4%
목	5	2.8%
도	5	2.8%
피	4	2.2%
유	4	2.2%
Other values (69)	112	62.6%

Common

Value	Count	Frequency (%)
	2	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	179	98.9%
ASCII	2	1.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
해	12	6.7%
지	8	4.5%
명	8	4.5%
수	8	4.5%
관	7	3.9%
리	6	3.4%
목	5	2.8%
도	5	2.8%
피	4	2.2%
유	4	2.2%
Other values (69)	112	62.6%

ASCII

Value	Count	Frequency (%)
	2	100.0%

데이터타입
Categorical

IMBALANCE

Distinct	5
Distinct (%)	11.1%
Missing	0
Missing (%)	0.0%
Memory size	492.0 B

NVARCHAR2	33
NUMBER	9
NCLOB	1
VARCHAR2	1
DATE	1

Length

Max length	9
Median length	9
Mean length	8.1777778
Min length	4

Unique

Unique	3 ?
Unique (%)	6.7%

Sample

1st row	NUMBER
2nd row	NVARCHAR2
3rd row	NVARCHAR2
4th row	NVARCHAR2
5th row	NVARCHAR2

Common Values

Value	Count	Frequency (%)
NVARCHAR2	33	73.3%
NUMBER	9	20.0%
NCLOB	1	2.2%
VARCHAR2	1	2.2%
DATE	1	2.2%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
nvarchar2	33	73.3%
number	9	20.0%
nclob	1	2.2%
varchar2	1	2.2%
date	1	2.2%

길이
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	3
Missing (%)	6.7%
Memory size	492.0 B

Null
Boolean

IMBALANCE

Distinct	2
Distinct (%)	4.4%
Missing	0
Missing (%)	0.0%
Memory size	177.0 B

True	44
False	1

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
True	44	97.8%
False	1	2.2%

컬럼순서

컬럼순서

Heatmap
Table

	컬럼순서	컬럼영문명	컬럼한글명	데이터타입	Null
컬럼순서	1.000	1.000	1.000	0.566	0.000
컬럼영문명	1.000	1.000	1.000	1.000	1.000
컬럼한글명	1.000	1.000	1.000	1.000	1.000
데이터타입	0.566	1.000	1.000	1.000	0.038
Null	0.000	1.000	1.000	0.038	1.000

Heatmap
Table

	Null	데이터타입
Null	1.000	0.000
데이터타입	0.000	1.000

Heatmap
Table

	컬럼순서	데이터타입	Null
컬럼순서	1.000	0.269	0.000
데이터타입	0.269	1.000	0.000
Null	0.000	0.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블영문명	데이블한글명	컬럼순서	컬럼영문명	컬럼한글명	데이터타입	길이	Null
0	TN_NRSTR_ND_OBT	보호수및노거수	1	OBJECTID	고유번호	NUMBER	NaN	N
1	<NA>	<NA>	2	GU_NM	구명	NVARCHAR2	252	Y
2	<NA>	<NA>	3	HNR_NAM	법정동명	NVARCHAR2	50	Y
3	<NA>	<NA>	4	MTC_AT	산지여부	NVARCHAR2	1	Y
4	<NA>	<NA>	5	MASTERNO	주지번	NVARCHAR2	4	Y
5	<NA>	<NA>	6	SLAVENO	부지번	NVARCHAR2	4	Y
6	<NA>	<NA>	7	NEADRES_NM	새주소명	NVARCHAR2	90	Y
7	<NA>	<NA>	8	LOCPLC_CN	소재지	NCLOB	NaN	Y
8	<NA>	<NA>	9	JMK_KOR	지목한글	NVARCHAR2	50	Y
9	<NA>	<NA>	10	WDPT_AR	수목면적	NUMBER	38,8	Y

	테이블영문명	데이블한글명	컬럼순서	컬럼영문명	컬럼한글명	데이터타입	길이	Null
35	<NA>	<NA>	36	ATT_WHY	지정사유	NVARCHAR2	100	Y
36	<NA>	<NA>	37	TRE_CRR	나무의특징	NVARCHAR2	50	Y
37	<NA>	<NA>	38	HSY_TDN_CT	연혁 및 전설	NVARCHAR2	50	Y
38	<NA>	<NA>	39	ETC	기타	NVARCHAR2	255	Y
39	<NA>	<NA>	40	TRE_IDN	수목고유번호	NVARCHAR2	50	Y
40	<NA>	<NA>	41	ITM_LVL	품계등급	NUMBER	38,8	Y
41	<NA>	<NA>	42	CREAT_DE	생성일	DATE	NaN	Y
42	<NA>	<NA>	43	PO_FE_NM	사진파일명	NVARCHAR2	30	Y
43	<NA>	<NA>	44	LNG	경도	NVARCHAR2	11	Y
44	<NA>	<NA>	45	LAT	위도	NVARCHAR2	11	Y

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample