gimi9 Pandas Profiling

Dataset statistics

Number of variables	9
Number of observations	30
Missing cells	122
Missing cells (%)	45.2%
Duplicate rows	1
Duplicate rows (%)	3.3%
Total size in memory	2.2 KiB
Average record size in memory	76.4 B

Variable types

Unsupported	3
Text	4
Categorical	1
Boolean	1

Dataset

Description	지구정보진행이력 데이터
Author	한국토지주택공사
URL	https://www.vworld.kr/dtmk/dtmk_ntads_s002.do?dsId=30485

Alerts

`Unnamed: 5` has constant value ""	Constant
`Unnamed: 8` has constant value ""	Constant
Dataset has 1 (3.3%) duplicate rows	Duplicates
`테이블정의서` has 1 (3.3%) missing values	Missing
`Unnamed: 1` has 6 (20.0%) missing values	Missing
`Unnamed: 2` has 5 (16.7%) missing values	Missing
`Unnamed: 4` has 7 (23.3%) missing values	Missing
`Unnamed: 5` has 22 (73.3%) missing values	Missing
`Unnamed: 6` has 25 (83.3%) missing values	Missing
`Unnamed: 7` has 27 (90.0%) missing values	Missing
`Unnamed: 8` has 29 (96.7%) missing values	Missing
`테이블정의서` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 7` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-18 07:54:11.689006
Analysis finished	2024-04-18 07:54:12.314148
Duration	0.63 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블정의서
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	1
Missing (%)	3.3%
Memory size	372.0 B

Unnamed: 1
Text

MISSING

Distinct	24
Distinct (%)	100.0%
Missing	6
Missing (%)	20.0%
Memory size	372.0 B

Length

Max length	18
Median length	14.5
Mean length	11.75
Min length	4

Characters and Unicode

Total characters	282
Distinct characters	25
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	24 ?
Unique (%)	100.0%

Sample

1st row	컬럼ID
2nd row	DSTRC_APPN_NO
3rd row	DSTRC_HIST_NO
4th row	NTFC_BSNS_DSTRC_NO
5th row	NTFC_MNTRNG_NO

Value	Count	Frequency (%)
컬럼id	1	4.2%
dstrc_appn_no	1	4.2%
updt_dt	1	4.2%
updt_id	1	4.2%
regist_dt	1	4.2%
regist_id	1	4.2%
regist_sttus	1	4.2%
chrg_instt_cttpc	1	4.2%
chrg_instt_dept	1	4.2%
chrg_instt_code	1	4.2%
Other values (14)	14	58.3%

Most occurring characters

Value	Count	Frequency (%)
_	39	13.8%
T	34	12.1%
S	25	8.9%
N	24	8.5%
C	24	8.5%
D	23	8.2%
O	17	6.0%
R	16	5.7%
E	16	5.7%
I	11	3.9%
Other values (15)	53	18.8%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	237	84.0%
Connector Punctuation	39	13.8%
Decimal Number	4	1.4%
Other Letter	2	0.7%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
T	34	14.3%
S	25	10.5%
N	24	10.1%
C	24	10.1%
D	23	9.7%
O	17	7.2%
R	16	6.8%
E	16	6.8%
I	11	4.6%
P	9	3.8%
Other values (10)	38	16.0%

Decimal Number

Value	Count	Frequency (%)
2	2	50.0%
1	2	50.0%

Other Letter

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Connector Punctuation

Value	Count	Frequency (%)
_	39	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	237	84.0%
Common	43	15.2%
Hangul	2	0.7%

Most frequent character per script

Latin

Value	Count	Frequency (%)
T	34	14.3%
S	25	10.5%
N	24	10.1%
C	24	10.1%
D	23	9.7%
O	17	7.2%
R	16	6.8%
E	16	6.8%
I	11	4.6%
P	9	3.8%
Other values (10)	38	16.0%

Common

Value	Count	Frequency (%)
_	39	90.7%
2	2	4.7%
1	2	4.7%

Hangul

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	280	99.3%
Hangul	2	0.7%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	39	13.9%
T	34	12.1%
S	25	8.9%
N	24	8.6%
C	24	8.6%
D	23	8.2%
O	17	6.1%
R	16	5.7%
E	16	5.7%
I	11	3.9%
Other values (13)	51	18.2%

Hangul

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Unnamed: 2
Text

MISSING

Distinct	25
Distinct (%)	100.0%
Missing	5
Missing (%)	16.7%
Memory size	372.0 B

Length

Max length	8
Median length	7
Mean length	5.24
Min length	3

Characters and Unicode

Total characters	131
Distinct characters	53
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	25 ?
Unique (%)	100.0%

Sample

1st row	컬럼명
2nd row	지구지정번호
3rd row	지구이력번호
4th row	고시사업지구번호
5th row	고시모니터링번호

Value	Count	Frequency (%)
컬럼명	1	4.0%
고시일자	1	4.0%
고시년도	1	4.0%
수정일시	1	4.0%
수정아이디	1	4.0%
등록일시	1	4.0%
등록아이디	1	4.0%
등록상태	1	4.0%
담당기관연락처	1	4.0%
담당기관부서	1	4.0%
Other values (15)	15	60.0%

Most occurring characters

Value	Count	Frequency (%)
코	8	6.1%
드	8	6.1%
시	8	6.1%
고	6	4.6%
지	5	3.8%
번	5	3.8%
호	5	3.8%
기	4	3.1%
관	4	3.1%
업	4	3.1%
Other values (43)	74	56.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	127	96.9%
Decimal Number	4	3.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
코	8	6.3%
드	8	6.3%
시	8	6.3%
고	6	4.7%
지	5	3.9%
번	5	3.9%
호	5	3.9%
기	4	3.1%
관	4	3.1%
업	4	3.1%
Other values (41)	70	55.1%

Decimal Number

Value	Count	Frequency (%)
2	2	50.0%
1	2	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	127	96.9%
Common	4	3.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
코	8	6.3%
드	8	6.3%
시	8	6.3%
고	6	4.7%
지	5	3.9%
번	5	3.9%
호	5	3.9%
기	4	3.1%
관	4	3.1%
업	4	3.1%
Other values (41)	70	55.1%

Common

Value	Count	Frequency (%)
2	2	50.0%
1	2	50.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	127	96.9%
ASCII	4	3.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
코	8	6.3%
드	8	6.3%
시	8	6.3%
고	6	4.7%
지	5	3.9%
번	5	3.9%
호	5	3.9%
기	4	3.1%
관	4	3.1%
업	4	3.1%
Other values (41)	70	55.1%

ASCII

Value	Count	Frequency (%)
2	2	50.0%
1	2	50.0%

Unnamed: 3
Categorical

Distinct	7
Distinct (%)	23.3%
Missing	0
Missing (%)	0.0%
Memory size	372.0 B

VARCHAR2	11
CHAR	8
<NA>	5
NUMBER	2
DATE	2
Other values (2)	2

Length

Max length	8
Median length	7
Mean length	5.5666667
Min length	2

Unique

Unique	2 ?
Unique (%)	6.7%

Sample

1st row	<NA>
2nd row	테이블ID
3rd row	<NA>
4th row	타입
5th row	CHAR

Common Values

Value	Count	Frequency (%)
VARCHAR2	11	36.7%
CHAR	8	26.7%
<NA>	5	16.7%
NUMBER	2	6.7%
DATE	2	6.7%
테이블ID	1	3.3%
타입	1	3.3%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
varchar2	11	36.7%
char	8	26.7%
na	5	16.7%
number	2	6.7%
date	2	6.7%
테이블id	1	3.3%
타입	1	3.3%

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	7
Missing (%)	23.3%
Memory size	372.0 B

Unnamed: 5
Boolean

CONSTANT MISSING

Distinct	1
Distinct (%)	12.5%
Missing	22
Missing (%)	73.3%
Memory size	192.0 B

False	8
(Missing)	22

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
False	8	26.7%
(Missing)	22	73.3%

Unnamed: 6
Text

MISSING

Distinct	4
Distinct (%)	80.0%
Missing	25
Missing (%)	83.3%
Memory size	372.0 B

Length

Max length	5
Median length	4
Mean length	3.2
Min length	2

Characters and Unicode

Total characters	16
Distinct characters	11
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	60.0%

Sample

1st row	작성일
2nd row	테이블명
3rd row	PK/FK
4th row	PK
5th row	PK

Value	Count	Frequency (%)
pk	2	40.0%
작성일	1	20.0%
테이블명	1	20.0%
pk/fk	1	20.0%

Most occurring characters

Value	Count	Frequency (%)
K	4	25.0%
P	3	18.8%
작	1	6.2%
성	1	6.2%
일	1	6.2%
테	1	6.2%
이	1	6.2%
블	1	6.2%
명	1	6.2%
/	1	6.2%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	8	50.0%
Other Letter	7	43.8%
Other Punctuation	1	6.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Uppercase Letter

Value	Count	Frequency (%)
K	4	50.0%
P	3	37.5%
F	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	8	50.0%
Hangul	7	43.8%
Common	1	6.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Latin

Value	Count	Frequency (%)
K	4	50.0%
P	3	37.5%
F	1	12.5%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	9	56.2%
Hangul	7	43.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	4	44.4%
P	3	33.3%
/	1	11.1%
F	1	11.1%

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Unnamed: 7
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	27
Missing (%)	90.0%
Memory size	372.0 B

Unnamed: 8
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	29
Missing (%)	96.7%
Memory size	372.0 B

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	9
Distinct characters	9
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	참조테이블명/비고

Value	Count	Frequency (%)
참조테이블명/비고	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
참	1	11.1%
조	1	11.1%
테	1	11.1%
이	1	11.1%
블	1	11.1%
명	1	11.1%
/	1	11.1%
비	1	11.1%
고	1	11.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8	88.9%
Other Punctuation	1	11.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8	88.9%
Common	1	11.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8	88.9%
ASCII	1	11.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

ASCII

Value	Count	Frequency (%)
/	1	100.0%

Phik (φk)

Heatmap
Table

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 6
Unnamed: 1	1.000	1.000	1.000	1.000
Unnamed: 2	1.000	1.000	1.000	1.000
Unnamed: 3	1.000	1.000	1.000	1.000
Unnamed: 6	1.000	1.000	1.000	1.000

Matrix
Heatmap

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
0	작성자	<NA>	<NA>	<NA>	NaN	<NA>	작성일	2015-12-23 00:00:00	<NA>
1	주제영역명	<NA>	<NA>	테이블ID	Z_LHSDW_BLS5_DSTRC_PROGRS_HIST	<NA>	테이블명	지구정보진행이력	<NA>
2	테이블설명	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	NaN	<NA>
3	No	컬럼ID	컬럼명	타입	길이(Byte)	<NA>	PK/FK	Default	참조테이블명/비고
4	1	DSTRC_APPN_NO	지구지정번호	CHAR	14	N	PK	NaN	<NA>
5	2	DSTRC_HIST_NO	지구이력번호	NUMBER	22	N	PK	NaN	<NA>
6	3	NTFC_BSNS_DSTRC_NO	고시사업지구번호	NUMBER	22	<NA>	<NA>	NaN	<NA>
7	4	NTFC_MNTRNG_NO	고시모니터링번호	VARCHAR2	128	<NA>	<NA>	NaN	<NA>
8	5	NTFC_BSNS_DSTRC_NM	고시사업지구명	VARCHAR2	100	<NA>	<NA>	NaN	<NA>
9	6	STEP_CODE	단계코드	VARCHAR2	10	N	<NA>	NaN	<NA>

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
20	17	CHRG_INSTT_CTTPC	담당기관연락처	VARCHAR2	20	<NA>	<NA>	NaN	<NA>
21	18	REGIST_STTUS	등록상태	VARCHAR2	3	N	<NA>	NaN	<NA>
22	19	REGIST_ID	등록아이디	VARCHAR2	20	N	<NA>	NaN	<NA>
23	20	REGIST_DT	등록일시	DATE	NaN	N	<NA>	NaN	<NA>
24	21	UPDT_ID	수정아이디	VARCHAR2	20	<NA>	<NA>	NaN	<NA>
25	22	UPDT_DT	수정일시	DATE	NaN	<NA>	<NA>	NaN	<NA>
26	23	NTFC_YEAR	고시년도	CHAR	4	<NA>	<NA>	NaN	<NA>
27	인덱스명	<NA>	인덱스키	<NA>	NaN	<NA>	<NA>	NaN	<NA>
28	NaN	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	NaN	<NA>
29	업무규칙	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	NaN	<NA>

Most frequently occurring

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 5	Unnamed: 6	Unnamed: 8	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	3

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Other Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring