gimi9 Pandas Profiling

Dataset statistics

Number of variables	9
Number of observations	78
Missing cells	244
Missing cells (%)	34.8%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	5.6 KiB
Average record size in memory	73.7 B

Variable types

Unsupported	3
Text	4
Categorical	1
Boolean	1

Dataset

Description	공시지가 토지특성 2016
Author	국토교통부
URL	https://www.vworld.kr/dtmk/dtmk_ntads_s002.do?dsId=30536

Alerts

`Unnamed: 8` has constant value ""	Constant
`Unnamed: 5` is highly imbalanced (68.7%)	Imbalance
`Unnamed: 1` has 6 (7.7%) missing values	Missing
`Unnamed: 2` has 1 (1.3%) missing values	Missing
`Unnamed: 4` has 5 (6.4%) missing values	Missing
`Unnamed: 5` has 7 (9.0%) missing values	Missing
`Unnamed: 6` has 73 (93.6%) missing values	Missing
`Unnamed: 7` has 75 (96.2%) missing values	Missing
`Unnamed: 8` has 77 (98.7%) missing values	Missing
`테이블정의서` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 7` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-18 00:53:06.880295
Analysis finished	2024-04-18 00:53:08.359536
Duration	1.48 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블정의서
Unsupported

REJECTED UNSUPPORTED

Missing	0
Missing (%)	0.0%
Memory size	756.0 B

Unnamed: 1
Text

MISSING

Distinct	72
Distinct (%)	100.0%
Missing	6
Missing (%)	7.7%
Memory size	756.0 B

Length

Max length	15
Median length	12
Mean length	8.7777778
Min length	3

Characters and Unicode

Total characters	632
Distinct characters	33
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	72 ?
Unique (%)	100.0%

Sample

1st row	컬럼ID
2nd row	STDMT
3rd row	PNU
4th row	LAND_SEQNO
5th row	SGG_CD

Value	Count	Frequency (%)
컬럼id	1	1.4%
stdmt	1	1.4%
calc_jiga	1	1.4%
prev_jiga	1	1.4%
py_jiga	1	1.4%
handwk_yn	1	1.4%
lclw_step_cd	1	1.4%
lclw_mthd_cd	1	1.4%
harm_wast	1	1.4%
harm_rail	1	1.4%
Other values (62)	62	86.1%

Most occurring characters

Value	Count	Frequency (%)
_	77	12.2%
A	59	9.3%
R	41	6.5%
C	37	5.9%
D	34	5.4%
N	34	5.4%
E	32	5.1%
T	32	5.1%
S	30	4.7%
P	27	4.3%
Other values (23)	229	36.2%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	532	84.2%
Connector Punctuation	77	12.2%
Decimal Number	21	3.3%
Other Letter	2	0.3%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
A	59	11.1%
R	41	7.7%
C	37	7.0%
D	34	6.4%
N	34	6.4%
E	32	6.0%
T	32	6.0%
S	30	5.6%
P	27	5.1%
L	25	4.7%
Other values (16)	181	34.0%

Decimal Number

Value	Count	Frequency (%)
2	12	57.1%
1	7	33.3%
3	1	4.8%
4	1	4.8%

Other Letter

Value	Count	Frequency (%)
럼	1	50.0%
컬	1	50.0%

Connector Punctuation

Value	Count	Frequency (%)
_	77	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	532	84.2%
Common	98	15.5%
Hangul	2	0.3%

Most frequent character per script

Latin

Value	Count	Frequency (%)
A	59	11.1%
R	41	7.7%
C	37	7.0%
D	34	6.4%
N	34	6.4%
E	32	6.0%
T	32	6.0%
S	30	5.6%
P	27	5.1%
L	25	4.7%
Other values (16)	181	34.0%

Common

Value	Count	Frequency (%)
_	77	78.6%
2	12	12.2%
1	7	7.1%
3	1	1.0%
4	1	1.0%

Hangul

Value	Count	Frequency (%)
럼	1	50.0%
컬	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	630	99.7%
Hangul	2	0.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	77	12.2%
A	59	9.4%
R	41	6.5%
C	37	5.9%
D	34	5.4%
N	34	5.4%
E	32	5.1%
T	32	5.1%
S	30	4.8%
P	27	4.3%
Other values (21)	227	36.0%

Hangul

Value	Count	Frequency (%)
럼	1	50.0%
컬	1	50.0%

Unnamed: 2
Text

MISSING

Distinct	77
Distinct (%)	100.0%
Missing	1
Missing (%)	1.3%
Memory size	756.0 B

Length

Max length	14
Median length	10
Mean length	5.4805195
Min length	2

Characters and Unicode

Total characters	422
Distinct characters	130
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	77 ?
Unique (%)	100.0%

Sample

1st row	김민호
2nd row	가격업무
3rd row	공시지가 토지특성 2016
4th row	컬럼명
5th row	기준월

Value	Count	Frequency (%)
김민호	1	1.2%
토지구분	1	1.2%
산정지가	1	1.2%
종전지가	1	1.2%
전년지가	1	1.2%
수작업여부	1	1.2%
대규모개발사업단계코드	1	1.2%
대규모개발사업방식코드	1	1.2%
3년전지가	1	1.2%
유해철도	1	1.2%
Other values (70)	70	87.5%

Most occurring characters

Value	Count	Frequency (%)
지	38	9.0%
구	17	4.0%
가	13	3.1%
2	13	3.1%
드	12	2.8%
역	12	2.8%
코	12	2.8%
도	11	2.6%
토	10	2.4%
제	10	2.4%
Other values (120)	274	64.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	385	91.2%
Decimal Number	25	5.9%
Uppercase Letter	8	1.9%
Space Separator	3	0.7%
Other Punctuation	1	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	38	9.9%
구	17	4.4%
가	13	3.4%
드	12	3.1%
역	12	3.1%
코	12	3.1%
도	11	2.9%
토	10	2.6%
제	10	2.6%
시	9	2.3%
Other values (105)	241	62.6%

Uppercase Letter

Value	Count	Frequency (%)
T	2	25.0%
N	1	12.5%
P	1	12.5%
M	1	12.5%
D	1	12.5%
S	1	12.5%
U	1	12.5%

Decimal Number

Value	Count	Frequency (%)
2	13	52.0%
1	8	32.0%
4	1	4.0%
0	1	4.0%
6	1	4.0%
3	1	4.0%

Space Separator

Value	Count	Frequency (%)
	3	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	385	91.2%
Common	29	6.9%
Latin	8	1.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	38	9.9%
구	17	4.4%
가	13	3.4%
드	12	3.1%
역	12	3.1%
코	12	3.1%
도	11	2.9%
토	10	2.6%
제	10	2.6%
시	9	2.3%
Other values (105)	241	62.6%

Common

Value	Count	Frequency (%)
2	13	44.8%
1	8	27.6%
	3	10.3%
,	1	3.4%
4	1	3.4%
0	1	3.4%
6	1	3.4%
3	1	3.4%

Latin

Value	Count	Frequency (%)
T	2	25.0%
N	1	12.5%
P	1	12.5%
M	1	12.5%
D	1	12.5%
S	1	12.5%
U	1	12.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	385	91.2%
ASCII	37	8.8%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
지	38	9.9%
구	17	4.4%
가	13	3.4%
드	12	3.1%
역	12	3.1%
코	12	3.1%
도	11	2.9%
토	10	2.6%
제	10	2.6%
시	9	2.3%
Other values (105)	241	62.6%

ASCII

Value	Count	Frequency (%)
2	13	35.1%
1	8	21.6%
	3	8.1%
T	2	5.4%
N	1	2.7%
P	1	2.7%
,	1	2.7%
M	1	2.7%
D	1	2.7%
S	1	2.7%
Other values (5)	5	13.5%

Unnamed: 3
Categorical

Distinct	6
Distinct (%)	7.7%
Missing	0
Missing (%)	0.0%
Memory size	756.0 B

CHAR	37
NUMBER	21
VARCHAR2	13
<NA>	5
테이블ID	1

Length

Max length	8
Median length	4
Mean length	5.1923077
Min length	2

Unique

Unique	2 ?
Unique (%)	2.6%

Sample

1st row	<NA>
2nd row	테이블ID
3rd row	<NA>
4th row	타입
5th row	CHAR

Common Values

Value	Count	Frequency (%)
CHAR	37	47.4%
NUMBER	21	26.9%
VARCHAR2	13	16.7%
<NA>	5	6.4%
테이블ID	1	1.3%
타입	1	1.3%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
char	37	47.4%
number	21	26.9%
varchar2	13	16.7%
na	5	6.4%
테이블id	1	1.3%
타입	1	1.3%

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	5
Missing (%)	6.4%
Memory size	756.0 B

Unnamed: 5
Boolean

IMBALANCE MISSING

Distinct	2
Distinct (%)	2.8%
Missing	7
Missing (%)	9.0%
Memory size	288.0 B

True	67
False	4
(Missing)	7

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
True	67	85.9%
False	4	5.1%
(Missing)	7	9.0%

Unnamed: 6
Text

MISSING

Distinct	5
Distinct (%)	100.0%
Missing	73
Missing (%)	93.6%
Memory size	756.0 B

Length

Max length	5
Median length	3
Mean length	3.6
Min length	3

Characters and Unicode

Total characters	18
Distinct characters	13
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	5 ?
Unique (%)	100.0%

Sample

1st row	작성일
2nd row	테이블명
3rd row	PK/FK
4th row	PK1
5th row	PK2

Value	Count	Frequency (%)
작성일	1	20.0%
테이블명	1	20.0%
pk/fk	1	20.0%
pk1	1	20.0%
pk2	1	20.0%

Most occurring characters

Value	Count	Frequency (%)
K	4	22.2%
P	3	16.7%
작	1	5.6%
성	1	5.6%
일	1	5.6%
테	1	5.6%
이	1	5.6%
블	1	5.6%
명	1	5.6%
/	1	5.6%
Other values (3)	3	16.7%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	8	44.4%
Other Letter	7	38.9%
Decimal Number	2	11.1%
Other Punctuation	1	5.6%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Uppercase Letter

Value	Count	Frequency (%)
K	4	50.0%
P	3	37.5%
F	1	12.5%

Decimal Number

Value	Count	Frequency (%)
1	1	50.0%
2	1	50.0%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	8	44.4%
Hangul	7	38.9%
Common	3	16.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Latin

Value	Count	Frequency (%)
K	4	50.0%
P	3	37.5%
F	1	12.5%

Common

Value	Count	Frequency (%)
/	1	33.3%
1	1	33.3%
2	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	11	61.1%
Hangul	7	38.9%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	4	36.4%
P	3	27.3%
/	1	9.1%
F	1	9.1%
1	1	9.1%
2	1	9.1%

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Unnamed: 7
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	75
Missing (%)	96.2%
Memory size	756.0 B

Unnamed: 8
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	77
Missing (%)	98.7%
Memory size	756.0 B

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	9
Distinct characters	9
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	참조테이블명/비고

Value	Count	Frequency (%)
참조테이블명/비고	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
참	1	11.1%
조	1	11.1%
테	1	11.1%
이	1	11.1%
블	1	11.1%
명	1	11.1%
/	1	11.1%
비	1	11.1%
고	1	11.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8	88.9%
Other Punctuation	1	11.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8	88.9%
Common	1	11.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8	88.9%
ASCII	1	11.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

ASCII

Value	Count	Frequency (%)
/	1	100.0%

Heatmap
Table

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 5	Unnamed: 6
Unnamed: 1	1.000	1.000	1.000	1.000	1.000
Unnamed: 2	1.000	1.000	1.000	1.000	1.000
Unnamed: 3	1.000	1.000	1.000	0.071	1.000
Unnamed: 5	1.000	1.000	0.071	1.000	NaN
Unnamed: 6	1.000	1.000	1.000	NaN	1.000

Heatmap
Table

	Unnamed: 3	Unnamed: 5
Unnamed: 3	1.000	0.115
Unnamed: 5	0.115	1.000

Heatmap
Table

	Unnamed: 3	Unnamed: 5
Unnamed: 3	1.000	0.115
Unnamed: 5	0.115	1.000

Matrix
Heatmap

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
0	작성자	<NA>	김민호	<NA>	NaN	<NA>	작성일	2017-05-10 00:00:00	<NA>
1	주제영역명	<NA>	가격업무	테이블ID	APMM_NV_LAND_2016	<NA>	테이블명	공시지가 토지특성 2016	<NA>
2	테이블설명	<NA>	공시지가 토지특성 2016	<NA>	NaN	<NA>	<NA>	NaN	<NA>
3	No	컬럼ID	컬럼명	타입	길이(Byte)	<NA>	PK/FK	Default	참조테이블명/비고
4	1	STDMT	기준월	CHAR	2	N	PK1	NaN	<NA>
5	2	PNU	토지코드	VARCHAR2	19	N	PK2	NaN	<NA>
6	3	LAND_SEQNO	토지일련번호	NUMBER	6,0	N	<NA>	NaN	<NA>
7	4	SGG_CD	시군구코드	CHAR	5	Y	<NA>	NaN	<NA>
8	5	LAND_LOC_CD	토지소재지코드	CHAR	5	Y	<NA>	NaN	<NA>
9	6	LAND_GBN	토지구분	CHAR	1	Y	<NA>	NaN	<NA>

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
68	65	CNFER_CD	확인자코드	VARCHAR2	3	Y	<NA>	NaN	<NA>
69	66	VRFY_GBN	검증구분	CHAR	2	Y	<NA>	NaN	<NA>
70	67	PY_VRFY_GBN	전년검증구분	CHAR	2	Y	<NA>	NaN	<NA>
71	68	LAND_MOV_YMD	토지이동일자	VARCHAR2	8	N	<NA>	NaN	<NA>
72	69	LAND_MOV_RSN_CD	토지이동사유코드	VARCHAR2	5	Y	<NA>	NaN	<NA>
73	70	HOUSE_PANN_YN	주택공시여부	CHAR	1	Y	<NA>	NaN	<NA>
74	71	COL_ADM_SECT_CD	원천시군구코드	VARCHAR2	5	Y	<NA>	NaN	<NA>
75	인덱스명	<NA>	인덱스키	<NA>	NaN	<NA>	<NA>	NaN	<NA>
76	APMM_NV_LAND_2016_INX1	<NA>	STDMT, PNU	<NA>	NaN	<NA>	<NA>	NaN	<NA>
77	업무규칙	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	NaN	<NA>

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Other Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Space Separator

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Correlations

Missing values

Sample