gimi9 Pandas Profiling

Dataset statistics

Number of variables	9
Number of observations	31
Missing cells	132
Missing cells (%)	47.3%
Duplicate rows	1
Duplicate rows (%)	3.2%
Total size in memory	2.3 KiB
Average record size in memory	77.3 B

Variable types

Unsupported	4
Text	4
Categorical	1

Dataset

Description	수질측정망 하천수 지점 정보
Author	국립환경과학원
URL	https://www.vworld.kr/dtmk/dtmk_ntads_s002.do?dsId=30124

Alerts

`Unnamed: 8` has constant value ""	Constant
Dataset has 1 (3.2%) duplicate rows	Duplicates
`테이블정의서` has 1 (3.2%) missing values	Missing
`Unnamed: 1` has 6 (19.4%) missing values	Missing
`Unnamed: 2` has 2 (6.5%) missing values	Missing
`Unnamed: 4` has 6 (19.4%) missing values	Missing
`Unnamed: 5` has 31 (100.0%) missing values	Missing
`Unnamed: 6` has 28 (90.3%) missing values	Missing
`Unnamed: 7` has 28 (90.3%) missing values	Missing
`Unnamed: 8` has 30 (96.8%) missing values	Missing
`테이블정의서` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 5` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 7` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-17 23:21:49.436428
Analysis finished	2024-04-17 23:21:50.610445
Duration	1.17 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블정의서
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	1
Missing (%)	3.2%
Memory size	380.0 B

Unnamed: 1
Text

MISSING

Distinct	25
Distinct (%)	100.0%
Missing	6
Missing (%)	19.4%
Memory size	380.0 B

Length

Max length	10
Median length	8
Mean length	6.44
Min length	3

Characters and Unicode

Total characters	161
Distinct characters	28
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	25 ?
Unique (%)	100.0%

Sample

1st row	컬럼ID
2nd row	FID
3rd row	AREA
4th row	AREA_CD
5th row	WATER

Value	Count	Frequency (%)
컬럼id	1	4.0%
flow_pt	1	4.0%
o_env_std	1	4.0%
wgs84_y	1	4.0%
wgs84_x	1	4.0%
bjd_cd	1	4.0%
major_pt	1	4.0%
water_re	1	4.0%
m_area_re	1	4.0%
clo_year	1	4.0%
Other values (15)	15	60.0%

Most occurring characters

Value	Count	Frequency (%)
_	23	14.3%
T	15	9.3%
E	14	8.7%
A	14	8.7%
R	11	6.8%
D	11	6.8%
S	8	5.0%
C	7	4.3%
M	7	4.3%
N	7	4.3%
Other values (18)	44	27.3%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	132	82.0%
Connector Punctuation	23	14.3%
Decimal Number	4	2.5%
Other Letter	2	1.2%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
T	15	11.4%
E	14	10.6%
A	14	10.6%
R	11	8.3%
D	11	8.3%
S	8	6.1%
C	7	5.3%
M	7	5.3%
N	7	5.3%
W	6	4.5%
Other values (13)	32	24.2%

Decimal Number

Value	Count	Frequency (%)
4	2	50.0%
8	2	50.0%

Other Letter

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Connector Punctuation

Value	Count	Frequency (%)
_	23	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	132	82.0%
Common	27	16.8%
Hangul	2	1.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
T	15	11.4%
E	14	10.6%
A	14	10.6%
R	11	8.3%
D	11	8.3%
S	8	6.1%
C	7	5.3%
M	7	5.3%
N	7	5.3%
W	6	4.5%
Other values (13)	32	24.2%

Common

Value	Count	Frequency (%)
_	23	85.2%
4	2	7.4%
8	2	7.4%

Hangul

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	159	98.8%
Hangul	2	1.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	23	14.5%
T	15	9.4%
E	14	8.8%
A	14	8.8%
R	11	6.9%
D	11	6.9%
S	8	5.0%
C	7	4.4%
M	7	4.4%
N	7	4.4%
Other values (16)	42	26.4%

Hangul

Value	Count	Frequency (%)
컬	1	50.0%
럼	1	50.0%

Unnamed: 2
Text

MISSING

Distinct	29
Distinct (%)	100.0%
Missing	2
Missing (%)	6.5%
Memory size	380.0 B

Length

Max length	20
Median length	6
Mean length	4.6551724
Min length	2

Characters and Unicode

Total characters	135
Distinct characters	70
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	29 ?
Unique (%)	100.0%

Sample

1st row	한기철
2nd row	WEIS
3rd row	물환경정보시스템의 수질측정망하천수지점
4th row	컬럼명
5th row	객체ID

Value	Count	Frequency (%)
weis	1	3.3%
물환경정보시스템의	1	3.3%
인덱스키	1	3.3%
구측정소코드	1	3.3%
구환경기준	1	3.3%
기준y좌표	1	3.3%
기준x좌표	1	3.3%
법정동코드	1	3.3%
주요지점부	1	3.3%
수계대표	1	3.3%
Other values (20)	20	66.7%

Most occurring characters

Value	Count	Frequency (%)
정	6	4.4%
기	6	4.4%
역	5	3.7%
코	5	3.7%
권	5	3.7%
드	5	3.7%
수	5	3.7%
표	4	3.0%
준	4	3.0%
지	4	3.0%
Other values (60)	86	63.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	126	93.3%
Uppercase Letter	8	5.9%
Space Separator	1	0.7%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
정	6	4.8%
기	6	4.8%
역	5	4.0%
코	5	4.0%
권	5	4.0%
드	5	4.0%
수	5	4.0%
표	4	3.2%
준	4	3.2%
지	4	3.2%
Other values (52)	77	61.1%

Uppercase Letter

Value	Count	Frequency (%)
I	2	25.0%
W	1	12.5%
X	1	12.5%
Y	1	12.5%
S	1	12.5%
D	1	12.5%
E	1	12.5%

Space Separator

Value	Count	Frequency (%)
	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	126	93.3%
Latin	8	5.9%
Common	1	0.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
정	6	4.8%
기	6	4.8%
역	5	4.0%
코	5	4.0%
권	5	4.0%
드	5	4.0%
수	5	4.0%
표	4	3.2%
준	4	3.2%
지	4	3.2%
Other values (52)	77	61.1%

Latin

Value	Count	Frequency (%)
I	2	25.0%
W	1	12.5%
X	1	12.5%
Y	1	12.5%
S	1	12.5%
D	1	12.5%
E	1	12.5%

Common

Value	Count	Frequency (%)
	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	126	93.3%
ASCII	9	6.7%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
정	6	4.8%
기	6	4.8%
역	5	4.0%
코	5	4.0%
권	5	4.0%
드	5	4.0%
수	5	4.0%
표	4	3.2%
준	4	3.2%
지	4	3.2%
Other values (52)	77	61.1%

ASCII

Value	Count	Frequency (%)
I	2	22.2%
W	1	11.1%
X	1	11.1%
Y	1	11.1%
S	1	11.1%
	1	11.1%
D	1	11.1%
E	1	11.1%

Unnamed: 3
Categorical

Distinct	6
Distinct (%)	19.4%
Missing	0
Missing (%)	0.0%
Memory size	380.0 B

VARCHAR	21
<NA>	5
NUMERIC	2
테이블ID	1
타입	1

Length

Max length	7
Median length	7
Mean length	6.2903226
Min length	2

Unique

Unique	3 ?
Unique (%)	9.7%

Sample

1st row	<NA>
2nd row	테이블ID
3rd row	<NA>
4th row	타입
5th row	INTEGER

Common Values

Value	Count	Frequency (%)
VARCHAR	21	67.7%
<NA>	5	16.1%
NUMERIC	2	6.5%
테이블ID	1	3.2%
타입	1	3.2%
INTEGER	1	3.2%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
varchar	21	67.7%
na	5	16.1%
numeric	2	6.5%
테이블id	1	3.2%
타입	1	3.2%
integer	1	3.2%

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	6
Missing (%)	19.4%
Memory size	380.0 B

Unnamed: 5
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	31
Missing (%)	100.0%
Memory size	411.0 B

Unnamed: 6
Text

MISSING

Distinct	3
Distinct (%)	100.0%
Missing	28
Missing (%)	90.3%
Memory size	380.0 B

Length

Max length	5
Median length	4
Mean length	4
Min length	3

Characters and Unicode

Total characters	12
Distinct characters	11
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	100.0%

Sample

1st row	작성일
2nd row	테이블명
3rd row	PK/FK

Value	Count	Frequency (%)
작성일	1	33.3%
테이블명	1	33.3%
pk/fk	1	33.3%

Most occurring characters

Value	Count	Frequency (%)
K	2	16.7%
작	1	8.3%
성	1	8.3%
일	1	8.3%
테	1	8.3%
이	1	8.3%
블	1	8.3%
명	1	8.3%
P	1	8.3%
/	1	8.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	7	58.3%
Uppercase Letter	4	33.3%
Other Punctuation	1	8.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Uppercase Letter

Value	Count	Frequency (%)
K	2	50.0%
P	1	25.0%
F	1	25.0%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	7	58.3%
Latin	4	33.3%
Common	1	8.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Latin

Value	Count	Frequency (%)
K	2	50.0%
P	1	25.0%
F	1	25.0%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	7	58.3%
ASCII	5	41.7%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	2	40.0%
P	1	20.0%
/	1	20.0%
F	1	20.0%

Hangul

Value	Count	Frequency (%)
작	1	14.3%
성	1	14.3%
일	1	14.3%
테	1	14.3%
이	1	14.3%
블	1	14.3%
명	1	14.3%

Unnamed: 7
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	28
Missing (%)	90.3%
Memory size	380.0 B

Unnamed: 8
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	30
Missing (%)	96.8%
Memory size	380.0 B

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	9
Distinct characters	9
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	참조테이블명/비고

Value	Count	Frequency (%)
참조테이블명/비고	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
참	1	11.1%
조	1	11.1%
테	1	11.1%
이	1	11.1%
블	1	11.1%
명	1	11.1%
/	1	11.1%
비	1	11.1%
고	1	11.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8	88.9%
Other Punctuation	1	11.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8	88.9%
Common	1	11.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

Common

Value	Count	Frequency (%)
/	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8	88.9%
ASCII	1	11.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
참	1	12.5%
조	1	12.5%
테	1	12.5%
이	1	12.5%
블	1	12.5%
명	1	12.5%
비	1	12.5%
고	1	12.5%

ASCII

Value	Count	Frequency (%)
/	1	100.0%

Phik (φk)

Heatmap
Table

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 6
Unnamed: 1	1.000	1.000	1.000	NaN
Unnamed: 2	1.000	1.000	1.000	1.000
Unnamed: 3	1.000	1.000	1.000	0.000
Unnamed: 6	NaN	1.000	0.000	1.000

Matrix
Heatmap

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
0	작성자	<NA>	한기철	<NA>	NaN	<NA>	작성일	2017-07-05 00:00:00	<NA>
1	주제영역명	<NA>	WEIS	테이블ID	Z_CBDMS_WQS_SITE_MANUAL_A	<NA>	테이블명	수질측정망 하천수기점	<NA>
2	테이블설명	<NA>	물환경정보시스템의 수질측정망하천수지점	<NA>	NaN	<NA>	<NA>	NaN	<NA>
3	No	컬럼ID	컬럼명	타입	길이(Byte)	<NA>	PK/FK	Default	참조테이블명/비고
4	1	FID	객체ID	INTEGER	NaN	<NA>	<NA>	NaN	<NA>
5	2	AREA	권역	VARCHAR	256	<NA>	<NA>	NaN	<NA>
6	3	AREA_CD	권역코드	VARCHAR	256	<NA>	<NA>	NaN	<NA>
7	4	WATER	수계	VARCHAR	256	<NA>	<NA>	NaN	<NA>
8	5	AM_NM	중권역명	VARCHAR	256	<NA>	<NA>	NaN	<NA>
9	6	AM_CD	중권역코드	VARCHAR	256	<NA>	<NA>	NaN	<NA>

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8
21	18	WATER_RE	수계대표	VARCHAR	256	<NA>	<NA>	NaN	<NA>
22	19	MAJOR_PT	주요지점부	VARCHAR	256	<NA>	<NA>	NaN	<NA>
23	20	BJD_CD	법정동코드	VARCHAR	256	<NA>	<NA>	NaN	<NA>
24	21	WGS84_X	기준X좌표	NUMERIC	23	<NA>	<NA>	NaN	<NA>
25	22	WGS84_Y	기준Y좌표	NUMERIC	23	<NA>	<NA>	NaN	<NA>
26	23	O_ENV_STD	구환경기준	VARCHAR	256	<NA>	<NA>	NaN	<NA>
27	24	O_ST_CD	구측정소코드	VARCHAR	256	<NA>	<NA>	NaN	<NA>
28	인덱스명	<NA>	인덱스키	<NA>	NaN	<NA>	<NA>	NaN	<NA>
29	NaN	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	NaN	<NA>
30	업무규칙	<NA>	<NA>	<NA>	NaN	<NA>	<NA>	NaN	<NA>

Most frequently occurring

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 6	Unnamed: 8	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Other Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring