gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	29
Missing cells	83
Missing cells (%)	40.9%
Duplicate rows	1
Duplicate rows (%)	3.4%
Total size in memory	1.7 KiB
Average record size in memory	60.4 B

Variable types

Unsupported	2
Text	3
Categorical	2

Dataset

Description	생활안전지도 보건안전 학교환경 학교환경위생정화구역정보
Author	행정안전부
URL	https://www.vworld.kr/dtmk/dtmk_ntads_s002.do?dsId=30158

Alerts

Dataset has 1 (3.4%) duplicate rows	Duplicates
`Unnamed: 3` is highly overall correlated with `Unnamed: 6`	High correlation
`Unnamed: 6` is highly overall correlated with `Unnamed: 3`	High correlation
`Unnamed: 1` has 19 (65.5%) missing values	Missing
`Unnamed: 2` has 18 (62.1%) missing values	Missing
`Unnamed: 4` has 19 (65.5%) missing values	Missing
`Unnamed: 5` has 27 (93.1%) missing values	Missing
`테이블정의서` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-21 00:58:05.511781
Analysis finished	2024-04-21 00:58:06.414197
Duration	0.9 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블정의서
Unsupported

REJECTED UNSUPPORTED

Missing	0
Missing (%)	0.0%
Memory size	360.0 B

Unnamed: 1
Text

MISSING

Distinct	10
Distinct (%)	100.0%
Missing	19
Missing (%)	65.5%
Memory size	360.0 B

Length

Max length	40
Median length	8.5
Mean length	10.5
Min length	4

Characters and Unicode

Total characters	105
Distinct characters	49
Distinct categories	6 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10 ?
Unique (%)	100.0%

Sample

1st row	컬럼ID
2nd row	OBJT_ID
3rd row	PRPOS_CD
4th row	NTFC_YEAR
5th row	NTFC_NO

Value	Count	Frequency (%)
※	2	10.5%
objt_id	1	5.3%
통합코드	1	5.3%
구별없이	1	5.3%
일반시구	1	5.3%
제공기관기준	1	5.3%
	1	5.3%
관리번호	1	5.3%
정화구역	1	5.3%
컬럼id	1	5.3%
Other values (8)	8	42.1%

Most occurring characters

Value	Count	Frequency (%)
_	8	7.6%
	8	7.6%
C	7	6.7%
N	7	6.7%
D	5	4.8%
T	5	4.8%
G	4	3.8%
R	4	3.8%
P	4	3.8%
S	3	2.9%
Other values (39)	50	47.6%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	55	52.4%
Other Letter	30	28.6%
Connector Punctuation	8	7.6%
Space Separator	8	7.6%
Other Punctuation	3	2.9%
Control	1	1.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
구	3	10.0%
관	2	6.7%
기	2	6.7%
컬	1	3.3%
시	1	3.3%
반	1	3.3%
일	1	3.3%
별	1	3.3%
합	1	3.3%
없	1	3.3%
Other values (16)	16	53.3%

Uppercase Letter

Value	Count	Frequency (%)
C	7	12.7%
N	7	12.7%
D	5	9.1%
T	5	9.1%
G	4	7.3%
R	4	7.3%
P	4	7.3%
S	3	5.5%
O	3	5.5%
M	2	3.6%
Other values (8)	11	20.0%

Other Punctuation

Value	Count	Frequency (%)
※	2	66.7%
:	1	33.3%

Connector Punctuation

Value	Count	Frequency (%)
_	8	100.0%

Space Separator

Value	Count	Frequency (%)
	8	100.0%

Control

Value	Count	Frequency (%)
	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	55	52.4%
Hangul	30	28.6%
Common	20	19.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
구	3	10.0%
관	2	6.7%
기	2	6.7%
컬	1	3.3%
시	1	3.3%
반	1	3.3%
일	1	3.3%
별	1	3.3%
합	1	3.3%
없	1	3.3%
Other values (16)	16	53.3%

Latin

Value	Count	Frequency (%)
C	7	12.7%
N	7	12.7%
D	5	9.1%
T	5	9.1%
G	4	7.3%
R	4	7.3%
P	4	7.3%
S	3	5.5%
O	3	5.5%
M	2	3.6%
Other values (8)	11	20.0%

Common

Value	Count	Frequency (%)
_	8	40.0%
	8	40.0%
※	2	10.0%
	1	5.0%
:	1	5.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	73	69.5%
Hangul	30	28.6%
Punctuation	2	1.9%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	8	11.0%
	8	11.0%
C	7	9.6%
N	7	9.6%
D	5	6.8%
T	5	6.8%
G	4	5.5%
R	4	5.5%
P	4	5.5%
S	3	4.1%
Other values (12)	18	24.7%

Hangul

Value	Count	Frequency (%)
구	3	10.0%
관	2	6.7%
기	2	6.7%
컬	1	3.3%
시	1	3.3%
반	1	3.3%
일	1	3.3%
별	1	3.3%
합	1	3.3%
없	1	3.3%
Other values (16)	16	53.3%

Punctuation

Value	Count	Frequency (%)
※	2	100.0%

Unnamed: 2
Text

MISSING

Distinct	11
Distinct (%)	100.0%
Missing	18
Missing (%)	62.1%
Memory size	360.0 B

Length

Max length	31
Median length	4
Mean length	8.6363636
Min length	3

Characters and Unicode

Total characters	95
Distinct characters	53
Distinct categories	6 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	11 ?
Unique (%)	100.0%

Sample

1st row	A2SM_SchulEnvrnSnitatPrfctnZone
2nd row	생활안전지도 보건안전 학교환경 학교환경위생정화구역정보
3rd row	컬럼명
4th row	일련번호
5th row	용도코드

Value	Count	Frequency (%)
a2sm_schulenvrnsnitatprfctnzone	1	7.1%
생활안전지도	1	7.1%
보건안전	1	7.1%
학교환경	1	7.1%
학교환경위생정화구역정보	1	7.1%
컬럼명	1	7.1%
일련번호	1	7.1%
용도코드	1	7.1%
고시년도	1	7.1%
고시번호	1	7.1%
Other values (4)	4	28.6%

Most occurring characters

Value	Count	Frequency (%)
시	6	6.3%
도	5	5.3%
n	5	5.3%
S	3	3.2%
t	3	3.2%
드	3	3.2%
코	3	3.2%
	3	3.2%
명	3	3.2%
구	3	3.2%
Other values (43)	58	61.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	61	64.2%
Lowercase Letter	21	22.1%
Uppercase Letter	8	8.4%
Space Separator	3	3.2%
Connector Punctuation	1	1.1%
Decimal Number	1	1.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
시	6	9.8%
도	5	8.2%
드	3	4.9%
코	3	4.9%
명	3	4.9%
구	3	4.9%
보	2	3.3%
학	2	3.3%
교	2	3.3%
환	2	3.3%
Other values (21)	30	49.2%

Lowercase Letter

Value	Count	Frequency (%)
n	5	23.8%
t	3	14.3%
c	2	9.5%
r	2	9.5%
h	1	4.8%
u	1	4.8%
l	1	4.8%
v	1	4.8%
i	1	4.8%
a	1	4.8%
Other values (3)	3	14.3%

Uppercase Letter

Value	Count	Frequency (%)
S	3	37.5%
M	1	12.5%
E	1	12.5%
P	1	12.5%
Z	1	12.5%
A	1	12.5%

Space Separator

Value	Count	Frequency (%)
	3	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Decimal Number

Value	Count	Frequency (%)
2	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	61	64.2%
Latin	29	30.5%
Common	5	5.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
시	6	9.8%
도	5	8.2%
드	3	4.9%
코	3	4.9%
명	3	4.9%
구	3	4.9%
보	2	3.3%
학	2	3.3%
교	2	3.3%
환	2	3.3%
Other values (21)	30	49.2%

Latin

Value	Count	Frequency (%)
n	5	17.2%
S	3	10.3%
t	3	10.3%
c	2	6.9%
r	2	6.9%
M	1	3.4%
h	1	3.4%
u	1	3.4%
l	1	3.4%
E	1	3.4%
Other values (9)	9	31.0%

Common

Value	Count	Frequency (%)
	3	60.0%
_	1	20.0%
2	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	61	64.2%
ASCII	34	35.8%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
시	6	9.8%
도	5	8.2%
드	3	4.9%
코	3	4.9%
명	3	4.9%
구	3	4.9%
보	2	3.3%
학	2	3.3%
교	2	3.3%
환	2	3.3%
Other values (21)	30	49.2%

ASCII

Value	Count	Frequency (%)
n	5	14.7%
S	3	8.8%
t	3	8.8%
	3	8.8%
c	2	5.9%
r	2	5.9%
M	1	2.9%
_	1	2.9%
h	1	2.9%
u	1	2.9%
Other values (12)	12	35.3%

Unnamed: 3
Categorical

HIGH CORRELATION

Distinct	5
Distinct (%)	17.2%
Missing	0
Missing (%)	0.0%
Memory size	360.0 B

<NA>	19
VARCHAR2	7
테이블명	1
데이터 타입	1
NUMBER	1

Length

Max length	8
Median length	4
Mean length	5.1034483
Min length	4

Unique

Unique	3 ?
Unique (%)	10.3%

Sample

1st row	테이블명
2nd row	<NA>
3rd row	데이터 타입
4th row	NUMBER
5th row	VARCHAR2

Common Values

Value	Count	Frequency (%)
<NA>	19	65.5%
VARCHAR2	7	24.1%
테이블명	1	3.4%
데이터 타입	1	3.4%
NUMBER	1	3.4%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	19	63.3%
varchar2	7	23.3%
테이블명	1	3.3%
데이터	1	3.3%
타입	1	3.3%
number	1	3.3%

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	19
Missing (%)	65.5%
Memory size	360.0 B

Unnamed: 5
Text

MISSING

Distinct	2
Distinct (%)	100.0%
Missing	27
Missing (%)	93.1%
Memory size	360.0 B

Length

Max length	3
Median length	2.5
Mean length	2.5
Min length	2

Characters and Unicode

Total characters	5
Distinct characters	4
Distinct categories	2 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	100.0%

Sample

1st row	Key
2nd row	PK

Value	Count	Frequency (%)
key	1	50.0%
pk	1	50.0%

Most occurring characters

Value	Count	Frequency (%)
K	2	40.0%
e	1	20.0%
y	1	20.0%
P	1	20.0%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	3	60.0%
Lowercase Letter	2	40.0%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
K	2	66.7%
P	1	33.3%

Lowercase Letter

Value	Count	Frequency (%)
e	1	50.0%
y	1	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	5	100.0%

Most frequent character per script

Latin

Value	Count	Frequency (%)
K	2	40.0%
e	1	20.0%
y	1	20.0%
P	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	5	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	2	40.0%
e	1	20.0%
y	1	20.0%
P	1	20.0%

Unnamed: 6
Categorical

HIGH CORRELATION

Distinct	3
Distinct (%)	10.3%
Missing	0
Missing (%)	0.0%
Memory size	360.0 B

<NA>	23
NOT NULL	5
NULL여부	1

Length

Max length	8
Median length	4
Mean length	4.7586207
Min length	4

Unique

Unique	1 ?
Unique (%)	3.4%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	NULL여부
4th row	NOT NULL
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	23	79.3%
NOT NULL	5	17.2%
NULL여부	1	3.4%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	23	67.6%
not	5	14.7%
null	5	14.7%
null여부	1	2.9%

Heatmap
Table

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 5	Unnamed: 6
Unnamed: 1	1.000	1.000	1.000	0.000	1.000
Unnamed: 2	1.000	1.000	1.000	0.000	1.000
Unnamed: 3	1.000	1.000	1.000	0.000	1.000
Unnamed: 5	0.000	0.000	0.000	1.000	0.000
Unnamed: 6	1.000	1.000	1.000	0.000	1.000

Heatmap
Table

	Unnamed: 6	Unnamed: 3
Unnamed: 6	1.000	0.866
Unnamed: 3	0.866	1.000

Heatmap
Table

	Unnamed: 3	Unnamed: 6
Unnamed: 3	1.000	0.866
Unnamed: 6	0.866	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6
0	테이블ID	<NA>	A2SM_SchulEnvrnSnitatPrfctnZone	테이블명	교육환경보호구역	<NA>	<NA>
1	테이블설명	<NA>	생활안전지도 보건안전 학교환경 학교환경위생정화구역정보	<NA>	NaN	<NA>	<NA>
2	No.	컬럼ID	컬럼명	데이터 타입	길이	Key	NULL여부
3	1	OBJT_ID	일련번호	NUMBER	10	PK	NOT NULL
4	2	PRPOS_CD	용도코드	VARCHAR2	6	<NA>	<NA>
5	3	NTFC_YEAR	고시년도	VARCHAR2	4	<NA>	<NA>
6	4	NTFC_NO	고시번호	VARCHAR2	4	<NA>	<NA>
7	5	CTPRVN_NM	시도명	VARCHAR2	20	<NA>	NOT NULL
8	6	SGG_NM	시군구명	VARCHAR2	20	<NA>	NOT NULL
9	7	CTPRVN_CD	시도코드	VARCHAR2	2	<NA>	NOT NULL

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6
19	17	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
20	18	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
21	19	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
22	20	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
23	21	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
24	22	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
25	23	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
26	24	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
27	25	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
28	기타	※ 정화구역 관리번호 : 제공기관기준 ※ 일반시구 구별없이 통합코드 사용	<NA>	<NA>	NaN	<NA>	<NA>

Most frequently occurring

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 5	Unnamed: 6	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	17

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Connector Punctuation

Space Separator

Control

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Punctuation

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Space Separator

Connector Punctuation

Decimal Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Lowercase Letter

Most occurring scripts

Most frequent character per script

Latin

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Common Values (Plot)

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring