gimi9 Pandas Profiling

Dataset statistics

Number of variables	8
Number of observations	37
Missing cells	74
Missing cells (%)	25.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	2.5 KiB
Average record size in memory	68.5 B

Variable types

Text	4
Numeric	1
Categorical	1
Unsupported	1
Boolean	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-319/S/1/datasetView.do

Alerts

`테이블영문명` has constant value ""	Constant
`테이블한글명` has constant value ""	Constant
`컬럼순서` is highly overall correlated with `Null`	High correlation
`Null` is highly overall correlated with `컬럼순서`	High correlation
`테이블영문명` has 36 (97.3%) missing values	Missing
`테이블한글명` has 36 (97.3%) missing values	Missing
`길이` has 2 (5.4%) missing values	Missing
`컬럼순서` has unique values	Unique
`컬럼영문명` has unique values	Unique
`컬럼한글명` has unique values	Unique
`길이` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-20 21:33:26.668526
Analysis finished	2024-04-20 21:33:28.265768
Duration	1.6 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블영문명
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	36
Missing (%)	97.3%
Memory size	424.0 B

Length

Max length	22
Median length	22
Mean length	22
Min length	22

Characters and Unicode

Total characters	22
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	TN_PARK_ND_PVTLND_WDPT

Value	Count	Frequency (%)
tn_park_nd_pvtlnd_wdpt	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
_	4	18.2%
T	3	13.6%
N	3	13.6%
P	3	13.6%
D	3	13.6%
A	1	4.5%
R	1	4.5%
K	1	4.5%
V	1	4.5%
L	1	4.5%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	18	81.8%
Connector Punctuation	4	18.2%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
T	3	16.7%
N	3	16.7%
P	3	16.7%
D	3	16.7%
A	1	5.6%
R	1	5.6%
K	1	5.6%
V	1	5.6%
L	1	5.6%
W	1	5.6%

Connector Punctuation

Value	Count	Frequency (%)
_	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	18	81.8%
Common	4	18.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
T	3	16.7%
N	3	16.7%
P	3	16.7%
D	3	16.7%
A	1	5.6%
R	1	5.6%
K	1	5.6%
V	1	5.6%
L	1	5.6%
W	1	5.6%

Common

Value	Count	Frequency (%)
_	4	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	22	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	4	18.2%
T	3	13.6%
N	3	13.6%
P	3	13.6%
D	3	13.6%
A	1	4.5%
R	1	4.5%
K	1	4.5%
V	1	4.5%
L	1	4.5%

테이블한글명
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	36
Missing (%)	97.3%
Memory size	424.0 B

Length

Max length	8
Median length	8
Mean length	8
Min length	8

Characters and Unicode

Total characters	8
Distinct characters	8
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	공원및사유지수목

Value	Count	Frequency (%)
공원및사유지수목	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
공	1	12.5%
원	1	12.5%
및	1	12.5%
사	1	12.5%
유	1	12.5%
지	1	12.5%
수	1	12.5%
목	1	12.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
공	1	12.5%
원	1	12.5%
및	1	12.5%
사	1	12.5%
유	1	12.5%
지	1	12.5%
수	1	12.5%
목	1	12.5%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
공	1	12.5%
원	1	12.5%
및	1	12.5%
사	1	12.5%
유	1	12.5%
지	1	12.5%
수	1	12.5%
목	1	12.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
공	1	12.5%
원	1	12.5%
및	1	12.5%
사	1	12.5%
유	1	12.5%
지	1	12.5%
수	1	12.5%
목	1	12.5%

컬럼순서
Real number (ℝ)

HIGH CORRELATION UNIQUE

Distinct	37
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	19

Minimum	1
Maximum	37
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	461.0 B

Quantile statistics

Minimum	1
5-th percentile	2.8
Q1	10
median	19
Q3	28
95-th percentile	35.2
Maximum	37
Range	36
Interquartile range (IQR)	18

Descriptive statistics

Standard deviation	10.824355
Coefficient of variation (CV)	0.56970291
Kurtosis	-1.2
Mean	19
Median Absolute Deviation (MAD)	9
Skewness	0
Sum	703
Variance	117.16667
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=37)

Value	Count	Frequency (%)
1	1	2.7%
29	1	2.7%
22	1	2.7%
23	1	2.7%
24	1	2.7%
25	1	2.7%
26	1	2.7%
27	1	2.7%
28	1	2.7%
30	1	2.7%
Other values (27)	27	73.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	2.7%
2	1	2.7%
3	1	2.7%
4	1	2.7%
5	1	2.7%
6	1	2.7%
7	1	2.7%
8	1	2.7%
9	1	2.7%
10	1	2.7%

Value	Count	Frequency (%)
37	1	2.7%
36	1	2.7%
35	1	2.7%
34	1	2.7%
33	1	2.7%
32	1	2.7%
31	1	2.7%
30	1	2.7%
29	1	2.7%
28	1	2.7%

컬럼영문명
Text

UNIQUE

Distinct	37
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	424.0 B

Length

Max length	10
Median length	9
Mean length	6.8648649
Min length	1

Characters and Unicode

Total characters	254
Distinct characters	25
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	37 ?
Unique (%)	100.0%

Sample

1st row	OBJECTID
2nd row	GU_NM
3rd row	HNR_NAM
4th row	MTC_AT
5th row	MASTERNO

Value	Count	Frequency (%)
objectid	1	2.7%
itm_ery	1	2.7%
tre_som	1	2.7%
rnk_lc_cn	1	2.7%
mge_lvl	1	2.7%
spy_sttn	1	2.7%
dme_sttn	1	2.7%
regist_no	1	2.7%
pss_man	1	2.7%
scncenm_nm	1	2.7%
Other values (27)	27	73.0%

Most occurring characters

Value	Count	Frequency (%)
_	34	13.4%
T	26	10.2%
N	26	10.2%
M	23	9.1%
E	21	8.3%
R	14	5.5%
S	13	5.1%
G	11	4.3%
O	9	3.5%
D	9	3.5%
Other values (15)	68	26.8%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	220	86.6%
Connector Punctuation	34	13.4%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
T	26	11.8%
N	26	11.8%
M	23	10.5%
E	21	9.5%
R	14	6.4%
S	13	5.9%
G	11	5.0%
O	9	4.1%
D	9	4.1%
C	9	4.1%
Other values (14)	59	26.8%

Connector Punctuation

Value	Count	Frequency (%)
_	34	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	220	86.6%
Common	34	13.4%

Most frequent character per script

Latin

Value	Count	Frequency (%)
T	26	11.8%
N	26	11.8%
M	23	10.5%
E	21	9.5%
R	14	6.4%
S	13	5.9%
G	11	5.0%
O	9	4.1%
D	9	4.1%
C	9	4.1%
Other values (14)	59	26.8%

Common

Value	Count	Frequency (%)
_	34	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	254	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	34	13.4%
T	26	10.2%
N	26	10.2%
M	23	9.1%
E	21	8.3%
R	14	5.5%
S	13	5.1%
G	11	4.3%
O	9	3.5%
D	9	3.5%
Other values (15)	68	26.8%

컬럼한글명
Text

UNIQUE

Distinct	37
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	424.0 B

Length

Max length	8
Median length	4
Mean length	3.6486486
Min length	2

Characters and Unicode

Total characters	135
Distinct characters	60
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	37 ?
Unique (%)	100.0%

Sample

1st row	고유번호
2nd row	구명
3rd row	법정동명
4th row	산지여부
5th row	주지번

Value	Count	Frequency (%)
좌표	2	5.1%
고유번호	1	2.6%
학명	1	2.6%
품계수종	1	2.6%
품계위치	1	2.6%
관리등급	1	2.6%
지원사항	1	2.6%
피해상태	1	2.6%
등록번호	1	2.6%
소유자	1	2.6%
Other values (28)	28	71.8%

Most occurring characters

Value	Count	Frequency (%)
번	7	5.2%
명	7	5.2%
품	6	4.4%
계	6	4.4%
지	6	4.4%
수	6	4.4%
고	5	3.7%
관	5	3.7%
호	4	3.0%
등	4	3.0%
Other values (50)	79	58.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	131	97.0%
Space Separator	2	1.5%
Uppercase Letter	2	1.5%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
번	7	5.3%
명	7	5.3%
품	6	4.6%
계	6	4.6%
지	6	4.6%
수	6	4.6%
고	5	3.8%
관	5	3.8%
호	4	3.1%
등	4	3.1%
Other values (47)	75	57.3%

Uppercase Letter

Value	Count	Frequency (%)
X	1	50.0%
Y	1	50.0%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	131	97.0%
Common	2	1.5%
Latin	2	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
번	7	5.3%
명	7	5.3%
품	6	4.6%
계	6	4.6%
지	6	4.6%
수	6	4.6%
고	5	3.8%
관	5	3.8%
호	4	3.1%
등	4	3.1%
Other values (47)	75	57.3%

Latin

Value	Count	Frequency (%)
X	1	50.0%
Y	1	50.0%

Common

Value	Count	Frequency (%)
	2	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	131	97.0%
ASCII	4	3.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
번	7	5.3%
명	7	5.3%
품	6	4.6%
계	6	4.6%
지	6	4.6%
수	6	4.6%
고	5	3.8%
관	5	3.8%
호	4	3.1%
등	4	3.1%
Other values (47)	75	57.3%

ASCII

Value	Count	Frequency (%)
	2	50.0%
X	1	25.0%
Y	1	25.0%

데이터타입
Categorical

Distinct	3
Distinct (%)	8.1%
Missing	0
Missing (%)	0.0%
Memory size	424.0 B

NVARCHAR2	24
NUMBER	12
DATE	1

Length

Max length	9
Median length	9
Mean length	7.8918919
Min length	4

Unique

Unique	1 ?
Unique (%)	2.7%

Sample

1st row	NUMBER
2nd row	NVARCHAR2
3rd row	NVARCHAR2
4th row	NVARCHAR2
5th row	NVARCHAR2

Common Values

Value	Count	Frequency (%)
NVARCHAR2	24	64.9%
NUMBER	12	32.4%
DATE	1	2.7%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
nvarchar2	24	64.9%
number	12	32.4%
date	1	2.7%

길이
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	2
Missing (%)	5.4%
Memory size	424.0 B

Null
Boolean

HIGH CORRELATION

Distinct	2
Distinct (%)	5.4%
Missing	0
Missing (%)	0.0%
Memory size	165.0 B

True	29
False	8

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
True	29	78.4%
False	8	21.6%

컬럼순서

컬럼순서

Heatmap
Table

	컬럼순서	컬럼영문명	컬럼한글명	데이터타입	Null
컬럼순서	1.000	1.000	1.000	0.420	0.616
컬럼영문명	1.000	1.000	1.000	1.000	1.000
컬럼한글명	1.000	1.000	1.000	1.000	1.000
데이터타입	0.420	1.000	1.000	1.000	0.000
Null	0.616	1.000	1.000	0.000	1.000

Heatmap
Table

	데이터타입	Null
데이터타입	1.000	0.000
Null	0.000	1.000

Heatmap
Table

	컬럼순서	데이터타입	Null
컬럼순서	1.000	0.105	0.541
데이터타입	0.105	1.000	0.000
Null	0.541	0.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블영문명	테이블한글명	컬럼순서	컬럼영문명	컬럼한글명	데이터타입	길이	Null
0	TN_PARK_ND_PVTLND_WDPT	공원및사유지수목	1	OBJECTID	고유번호	NUMBER	NaN	N
1	<NA>	<NA>	2	GU_NM	구명	NVARCHAR2	252	Y
2	<NA>	<NA>	3	HNR_NAM	법정동명	NVARCHAR2	50	Y
3	<NA>	<NA>	4	MTC_AT	산지여부	NVARCHAR2	1	Y
4	<NA>	<NA>	5	MASTERNO	주지번	NVARCHAR2	4	Y
5	<NA>	<NA>	6	SLAVENO	부지번	NVARCHAR2	4	Y
6	<NA>	<NA>	7	NEADRES_NM	새주소명	NVARCHAR2	90	Y
7	<NA>	<NA>	8	TRE_IDN	수목고유번호	NVARCHAR2	50	Y
8	<NA>	<NA>	9	GU_NO	구번호	NVARCHAR2	200	Y
9	<NA>	<NA>	10	DONG_NM	동명	NVARCHAR2	200	N

	테이블영문명	테이블한글명	컬럼순서	컬럼영문명	컬럼한글명	데이터타입	길이	Null
27	<NA>	<NA>	28	PSS_MAN	소유자	NVARCHAR2	250	Y
28	<NA>	<NA>	29	SCNCENM_NM	학명	NVARCHAR2	750	Y
29	<NA>	<NA>	30	VTN_ERY	식생활력	NUMBER	38,8	Y
30	<NA>	<NA>	31	ITM_LVL	품계등급	NUMBER	38,8	Y
31	<NA>	<NA>	32	MGE_MAN	관리자	NVARCHAR2	250	Y
32	<NA>	<NA>	33	MGE_ORG	관리기관	NVARCHAR2	50	Y
33	<NA>	<NA>	34	CREAT_DE	생성일	DATE	NaN	Y
34	<NA>	<NA>	35	PO_FE_NM	사진파일명	NVARCHAR2	30	Y
35	<NA>	<NA>	36	X	X 좌표	NVARCHAR2	11	Y
36	<NA>	<NA>	37	Y	Y 좌표	NVARCHAR2	11	Y

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample