gimi9 Pandas Profiling

Dataset statistics

Number of variables	9
Number of observations	38
Missing cells	162
Missing cells (%)	47.4%
Duplicate rows	1
Duplicate rows (%)	2.6%
Total size in memory	2.8 KiB
Average record size in memory	76.5 B

Variable types

Unsupported	3
Text	5
Categorical	1

Dataset

Description	건축물의 사용승인 전 도로명주소 부여를 위해 생성되는 건물 정보
Author	행정안전부
URL	https://www.vworld.kr/dtmk/dtmk_ntads_s002.do?dsId=30056

Alerts

`Unnamed: 8` has constant value ""	Constant
Dataset has 1 (2.6%) duplicate rows	Duplicates
`테이블정의서` has 1 (2.6%) missing values	Missing
`Unnamed: 1` has 6 (15.8%) missing values	Missing
`Unnamed: 2` has 5 (13.2%) missing values	Missing
`Unnamed: 4` has 6 (15.8%) missing values	Missing
`Unnamed: 5` has 38 (100.0%) missing values	Missing
`Unnamed: 6` has 33 (86.8%) missing values	Missing
`Unnamed: 7` has 36 (94.7%) missing values	Missing
`Unnamed: 8` has 37 (97.4%) missing values	Missing
`테이블정의서` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 5` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-17 03:36:06.328001
Analysis finished	2024-04-17 03:36:06.818149
Duration	0.49 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블정의서
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	1
Missing (%)	2.6%
Memory size	436.0 B

Unnamed: 1
Text

MISSING

Distinct	32
Distinct (%)	100.0%
Missing	6
Missing (%)	15.8%
Memory size	436.0 B

Length

Max length	15
Median length	11
Mean length	10.09375
Min length	4

Characters and Unicode

Total characters	323
Distinct characters	29
Distinct categories	6 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	32 ?
Unique (%)	100.0%

Sample

1st row	컬럼ID
2nd row	XGEOMETRY
3rd row	BUL_MAN_NO (PK)
4th row	SIG_CD (PK)
5th row	RN_CD

Value	Count	Frequency (%)
pk	2	5.9%
컬럼id	1	2.9%
mvmn_resn	1	2.9%
li_cd	1	2.9%
mntn_yn	1	2.9%
lnbr_mnnm	1	2.9%
lnbr_slno	1	2.9%
ntfc_de	1	2.9%
mvm_res_cd	1	2.9%
mvmn_de	1	2.9%
Other values (23)	23	67.6%

Most occurring characters

Value	Count	Frequency (%)
_	45	13.9%
	42	13.0%
N	34	10.5%
D	25	7.7%
M	21	6.5%
L	16	5.0%
S	16	5.0%
B	16	5.0%
O	14	4.3%
E	13	4.0%
Other values (19)	81	25.1%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	230	71.2%
Connector Punctuation	45	13.9%
Space Separator	42	13.0%
Open Punctuation	2	0.6%
Close Punctuation	2	0.6%
Other Letter	2	0.6%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
N	34	14.8%
D	25	10.9%
M	21	9.1%
L	16	7.0%
S	16	7.0%
B	16	7.0%
O	14	6.1%
E	13	5.7%
C	12	5.2%
U	10	4.3%
Other values (13)	53	23.0%

Other Letter

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Connector Punctuation

Value	Count	Frequency (%)
_	45	100.0%

Space Separator

Value	Count	Frequency (%)
	42	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	2	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	230	71.2%
Common	91	28.2%
Hangul	2	0.6%

Most frequent character per script

Latin

Value	Count	Frequency (%)
N	34	14.8%
D	25	10.9%
M	21	9.1%
L	16	7.0%
S	16	7.0%
B	16	7.0%
O	14	6.1%
E	13	5.7%
C	12	5.2%
U	10	4.3%
Other values (13)	53	23.0%

Common

Value	Count	Frequency (%)
_	45	49.5%
	42	46.2%
(	2	2.2%
)	2	2.2%

Hangul

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	321	99.4%
Hangul	2	0.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	45	14.0%
	42	13.1%
N	34	10.6%
D	25	7.8%
M	21	6.5%
L	16	5.0%
S	16	5.0%
B	16	5.0%
O	14	4.4%
E	13	4.0%
Other values (17)	79	24.6%

Hangul

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Unnamed: 2
Text

MISSING

Distinct	32
Distinct (%)	97.0%
Missing	5
Missing (%)	13.2%
Memory size	436.0 B

Length

Max length	9
Median length	8
Mean length	5.2121212
Min length	3

Characters and Unicode

Total characters	172
Distinct characters	59
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	31 ?
Unique (%)	93.9%

Sample

1st row	컬럼명
2nd row	공간이미지정보
3rd row	건물일련번호
4th row	시군구코드
5th row	도로명코드

Value	Count	Frequency (%)
이동사유코드	2	6.1%
공간이미지정보	1	3.0%
건물명	1	3.0%
도로구간시군구코드	1	3.0%
지하층수	1	3.0%
지상층수	1	3.0%
건물관리번호	1	3.0%
기초구역번호	1	3.0%
작업일시	1	3.0%
이동일자	1	3.0%
Other values (22)	22	66.7%

Most occurring characters

Value	Count	Frequency (%)
건	13	7.6%
물	13	7.6%
번	12	7.0%
코	9	5.2%
드	9	5.2%
구	8	4.7%
일	7	4.1%
명	6	3.5%
호	6	3.5%
지	5	2.9%
Other values (49)	84	48.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	172	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
건	13	7.6%
물	13	7.6%
번	12	7.0%
코	9	5.2%
드	9	5.2%
구	8	4.7%
일	7	4.1%
명	6	3.5%
호	6	3.5%
지	5	2.9%
Other values (49)	84	48.8%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	172	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
건	13	7.6%
물	13	7.6%
번	12	7.0%
코	9	5.2%
드	9	5.2%
구	8	4.7%
일	7	4.1%
명	6	3.5%
호	6	3.5%
지	5	2.9%
Other values (49)	84	48.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	172	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
건	13	7.6%
물	13	7.6%
번	12	7.0%
코	9	5.2%
드	9	5.2%
구	8	4.7%
일	7	4.1%
명	6	3.5%
호	6	3.5%
지	5	2.9%
Other values (49)	84	48.8%

Unnamed: 3
Categorical

Distinct	5
Distinct (%)	13.2%
Missing	0
Missing (%)	0.0%
Memory size	436.0 B

VARCHAR2	19
NUMBER	11
<NA>	6
테이블ID	1
타입	1

Length

Max length	8
Median length	7
Mean length	6.5526316
Min length	2

Unique

Unique	2 ?
Unique (%)	5.3%

Sample

1st row	<NA>
2nd row	테이블ID
3rd row	<NA>
4th row	타입
5th row	<NA>

Common Values

Value	Count	Frequency (%)
VARCHAR2	19	50.0%
NUMBER	11	28.9%
<NA>	6	15.8%
테이블ID	1	2.6%
타입	1	2.6%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
varchar2	19	50.0%
number	11	28.9%
na	6	15.8%
테이블id	1	2.6%
타입	1	2.6%

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	6
Missing (%)	15.8%
Memory size	436.0 B

Unnamed: 5
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	38
Missing (%)	100.0%
Memory size	474.0 B

Unnamed: 6
Text

MISSING

Distinct	4
Distinct (%)	80.0%
Missing	33
Missing (%)	86.8%
Memory size	436.0 B

Length

Max length	5
Median length	4
Mean length	3.2
Min length	2

Characters and Unicode

Total characters	16
Distinct characters	11
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	60.0%

Sample

1st row	작성일
2nd row	테이블명
3rd row	PK/FK
4th row	PK
5th row	PK

Value	Count	Frequency (%)
pk	2	40.0%
작성일	1	20.0%
테이블명	1	20.0%
pk/fk	1	20.0%

Most occurring characters

Value	Count	Frequency (%)
K	4	25.0%
P	3	18.8%
작	1	6.2%
성	1	6.2%
일	1	6.2%
테	1	6.2%
이	1	6.2%
블	1	6.2%
명	1	6.2%
/	1	6.2%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	8	50.0%
Other Letter	7	43.8%
Other Punctuation	1	6.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Uppercase Letter

Value	Count	Frequency (%)
K	4	50.0%
P	3	37.5%
F	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	8	50.0%
Hangul	7	43.8%
Common	1	6.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Latin

Value	Count	Frequency (%)
K	4	50.0%
P	3	37.5%
F	1	12.5%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	9	56.2%
Hangul	7	43.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	4	44.4%
P	3	33.3%
/	1	11.1%
F	1	11.1%

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Unnamed: 7
Text

MISSING

Distinct	2
Distinct (%)	100.0%
Missing	36
Missing (%)	94.7%
Memory size	436.0 B

Length

Max length	7
Median length	4.5
Mean length	4.5
Min length	2

Characters and Unicode

Total characters	9
Distinct characters	9
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	100.0%

Sample

1st row	건물
2nd row	Default

Value	Count	Frequency (%)
건물	1	50.0%
default	1	50.0%

Most occurring characters

Value	Count	Frequency (%)
건	1	11.1%
물	1	11.1%
D	1	11.1%
e	1	11.1%
f	1	11.1%
a	1	11.1%
u	1	11.1%
l	1	11.1%
t	1	11.1%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	6	66.7%
Other Letter	2	22.2%
Uppercase Letter	1	11.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
e	1	16.7%
f	1	16.7%
a	1	16.7%
u	1	16.7%
l	1	16.7%
t	1	16.7%

Other Letter

Value	Count	Frequency (%)
건	1	50.0%
물	1	50.0%

Uppercase Letter

Value	Count	Frequency (%)
D	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	7	77.8%
Hangul	2	22.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
D	1	14.3%
e	1	14.3%
f	1	14.3%
a	1	14.3%
u	1	14.3%
l	1	14.3%
t	1	14.3%

Hangul

Value	Count	Frequency (%)
건	1	50.0%
물	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	7	77.8%
Hangul	2	22.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
건	1	50.0%
물	1	50.0%

ASCII

Value	Count	Frequency (%)
D	1	14.3%
e	1	14.3%
f	1	14.3%
a	1	14.3%
u	1	14.3%
l	1	14.3%
t	1	14.3%

Unnamed: 8
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	37
Missing (%)	97.4%
Memory size	436.0 B

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	9
Distinct characters	9
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	참조테이블명/비고

Value	Count	Frequency (%)
참조테이블명/비고	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
참	1	11.1%
조	1	11.1%
테	1	11.1%
이	1	11.1%
블	1	11.1%
명	1	11.1%
/	1	11.1%
비	1	11.1%
고	1	11.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8	88.9%
Other Punctuation	1	11.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8	88.9%
Common	1	11.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8	88.9%
ASCII	1	11.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

ASCII

Value	Count	Frequency (%)
/	1	100.0%

Phik (φk)

Heatmap
Table

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 6	Unnamed: 7
Unnamed: 1	1.000	1.000	1.000	1.000	NaN
Unnamed: 2	1.000	1.000	1.000	1.000	NaN
Unnamed: 3	1.000	1.000	1.000	1.000	0.000
Unnamed: 6	1.000	1.000	1.000	1.000	0.000
Unnamed: 7	NaN	NaN	0.000	0.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
0	작성자	<NA>	<NA>	<NA>	NaN	<NA>	작성일	<NA>	<NA>
1	주제영역명	<NA>	<NA>	테이블ID	Z_KAIS_TL_SPBD_BULD	<NA>	테이블명	건물	<NA>
2	테이블설명	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	<NA>	<NA>
3	No	컬럼ID	컬럼명	타입	길이(Byte)	<NA>	PK/FK	Default	참조테이블명/비고
4	1	XGEOMETRY	공간이미지정보	<NA>	NaN	<NA>	<NA>	<NA>	<NA>
5	2	BUL_MAN_NO (PK)	건물일련번호	NUMBER	7	<NA>	PK	<NA>	<NA>
6	3	SIG_CD (PK)	시군구코드	VARCHAR2	5	<NA>	PK	<NA>	<NA>
7	4	RN_CD	도로명코드	VARCHAR2	7	<NA>	<NA>	<NA>	<NA>
8	5	RDS_MAN_NO	도로구간일련번호	NUMBER	12	<NA>	<NA>	<NA>	<NA>
9	6	BSI_INT_SN	기초구간일련번호	NUMBER	10	<NA>	<NA>	<NA>	<NA>

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
28	25	MVMN_DE	이동일자	VARCHAR2	8	<NA>	<NA>	<NA>	<NA>
29	26	OPERT_DE	작업일시	VARCHAR2	14	<NA>	<NA>	<NA>	<NA>
30	27	BSI_ZON_NO	기초구역번호	NUMBER	5	<NA>	<NA>	<NA>	<NA>
31	28	BD_MGT_SN	건물관리번호	VARCHAR2	25	<NA>	<NA>	<NA>	<NA>
32	29	GRO_FLO_CO	지상층수	NUMBER	3	<NA>	<NA>	<NA>	<NA>
33	30	UND_FLO_CO	지하층수	NUMBER	3	<NA>	<NA>	<NA>	<NA>
34	31	RDS_SIG_CD	도로구간시군구코드	VARCHAR2	5	<NA>	<NA>	<NA>	<NA>
35	인덱스명	<NA>	인덱스키	<NA>	NaN	<NA>	<NA>	<NA>	<NA>
36	NaN	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	<NA>	<NA>
37	업무규칙	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	<NA>	<NA>

Most frequently occurring

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 6	Unnamed: 7	Unnamed: 8	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	3

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Other Letter

Connector Punctuation

Space Separator

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Other Letter

Uppercase Letter

Most occurring scripts

Most frequent character per script

Latin

Hangul

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring