gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	8835
Missing cells	1046
Missing cells (%)	3.9%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	215.8 KiB
Average record size in memory	25.0 B

Variable types

Text	2
Numeric	1

Dataset

Description	경기도 경기통계시스템 통계조사항목관계
Author	경기도
URL	https://data.gg.go.kr/portal/data/service/selectServicePage.do?&infId=3LHWU1U2WHGSPGIY2J8T33564527&infSeq=1

Alerts

조사내용설명 has 1046 (11.8%) missing values Missing

Reproduction

Analysis started	2023-12-10 21:23:51.997270
Analysis finished	2023-12-10 21:23:52.628292
Duration	0.63 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

통계조사ID
Text

Distinct	1257
Distinct (%)	14.2%
Missing	0
Missing (%)	0.0%
Memory size	69.2 KiB

Length

Max length	18
Median length	7
Mean length	7.2016978
Min length	7

Characters and Unicode

Total characters	63627
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	2006083
2nd row	2006083
3rd row	2006084
4th row	2006084
5th row	2006084

Value	Count	Frequency (%)
b21020200327123408	9	0.1%
b21020130717192614	9	0.1%
b21020130719075550	9	0.1%
b21020130719080301	9	0.1%
b21020130719080847	9	0.1%
b21020130719081734	9	0.1%
b21020130719194939	9	0.1%
b21020130719195210	9	0.1%
b21020130720112241	9	0.1%
b21020130719082735	9	0.1%
Other values (1247)	8745	99.0%

Most occurring characters

Value	Count	Frequency (%)
0	19739	31.0%
1	9859	15.5%
9	9058	14.2%
2	7007	11.0%
6	3981	6.3%
7	3050	4.8%
3	2855	4.5%
5	2558	4.0%
8	2495	3.9%
4	2408	3.8%
Other values (2)	617	1.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	63010	99.0%
Uppercase Letter	617	1.0%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	19739	31.3%
1	9859	15.6%
9	9058	14.4%
2	7007	11.1%
6	3981	6.3%
7	3050	4.8%
3	2855	4.5%
5	2558	4.1%
8	2495	4.0%
4	2408	3.8%

Uppercase Letter

Value	Count	Frequency (%)
B	596	96.6%
A	21	3.4%

Most occurring scripts

Value	Count	Frequency (%)
Common	63010	99.0%
Latin	617	1.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	19739	31.3%
1	9859	15.6%
9	9058	14.4%
2	7007	11.1%
6	3981	6.3%
7	3050	4.8%
3	2855	4.5%
5	2558	4.1%
8	2495	4.0%
4	2408	3.8%

Latin

Value	Count	Frequency (%)
B	596	96.6%
A	21	3.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	63627	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	19739	31.0%
1	9859	15.5%
9	9058	14.2%
2	7007	11.0%
6	3981	6.3%
7	3050	4.8%
3	2855	4.5%
5	2558	4.0%
8	2495	3.9%
4	2408	3.8%
Other values (2)	617	1.0%

조사항목ID
Real number (ℝ)

Distinct	9
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	1212013

Minimum	1212010
Maximum	1212018
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	77.8 KiB

Quantile statistics

Minimum	1212010
5-th percentile	1212010
Q1	1212011
median	1212013
Q3	1212015
95-th percentile	1212016
Maximum	1212018
Range	8
Interquartile range (IQR)	4

Descriptive statistics

Standard deviation	2.0167689
Coefficient of variation (CV)	1.6639829 × 10^-6
Kurtosis	-1.2066899
Mean	1212013
Median Absolute Deviation (MAD)	2
Skewness	0.019675221
Sum	1.0708135 × 10¹⁰
Variance	4.0673568
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=9)

Value	Count	Frequency (%)
1212015	1257	14.2%
1212016	1257	14.2%
1212010	1257	14.2%
1212011	1257	14.2%
1212012	1257	14.2%
1212013	1257	14.2%
1212014	1257	14.2%
1212018	18	0.2%
1212017	18	0.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1212010	1257	14.2%
1212011	1257	14.2%
1212012	1257	14.2%
1212013	1257	14.2%
1212014	1257	14.2%
1212015	1257	14.2%
1212016	1257	14.2%
1212017	18	0.2%
1212018	18	0.2%

Value	Count	Frequency (%)
1212018	18	0.2%
1212017	18	0.2%
1212016	1257	14.2%
1212015	1257	14.2%
1212014	1257	14.2%
1212013	1257	14.2%
1212012	1257	14.2%
1212011	1257	14.2%
1212010	1257	14.2%

조사내용설명
Text

MISSING

Distinct	3139
Distinct (%)	40.3%
Missing	1046
Missing (%)	11.8%
Memory size	69.2 KiB

Length

Max length	1024
Median length	588
Mean length	27.131853
Min length	1

Characters and Unicode

Total characters	211330
Distinct characters	781
Distinct categories	17 ?
Distinct scripts	4 ?
Distinct blocks	11 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2935 ?
Unique (%)	37.7%

Sample

1st row	전국 토양에 대한 오염추세를 파악하고 오염 우려지역에 대한 오염실태를 조사하여 토양오염을 예방하고 오염토양을 정화하는 등 토양보전대책을 수립·추진하기 위함
2nd row	○ 토양측정망(지목별 토양오염도) - 중금속(8) : 카드뮴(Cd), 구리(Cu), 비소(Ag), 수은(Hg), 납(Pb), 6가크롬(Cr6+), 아연(Zn), 니켈(Ni) - 일반항목(8) : PCB, CN, 유기인, 페놀, 유류(BTEX, TPH), 불소, TCE, PCE - 토양산도(pH) ○ 토양오염실태(오염우려지역별 토양오염도) - 토양오염의 가능성이 높은 토양오염물질 및 토양pH
3rd row	전국
4th row	사업체
5th row	기타－기타(현황자료)

Value	Count	Frequency (%)
및	1769	4.3%
	1577	3.9%
전국	930	2.3%
등	796	1.9%
사업체	481	1.2%
１년	430	1.1%
기타	363	0.9%
위한	347	0.8%
관한	344	0.8%
활용	325	0.8%
Other values (15568)	33547	82.0%

Most occurring characters

Value	Count	Frequency (%)
	36986	17.5%
,	6818	3.2%
사	4927	2.3%
기	4095	1.9%
업	3217	1.5%
수	3110	1.5%
의	2877	1.4%
자	2810	1.3%
조	2462	1.2%
전	2420	1.1%
Other values (771)	141608	67.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	150649	71.3%
Space Separator	36986	17.5%
Other Punctuation	9666	4.6%
Decimal Number	3715	1.8%
Dash Punctuation	3044	1.4%
Math Symbol	2157	1.0%
Close Punctuation	1955	0.9%
Open Punctuation	1955	0.9%
Uppercase Letter	618	0.3%
Lowercase Letter	440	0.2%
Other values (7)	145	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	4927	3.3%
기	4095	2.7%
업	3217	2.1%
수	3110	2.1%
의	2877	1.9%
자	2810	1.9%
조	2462	1.6%
전	2420	1.6%
한	2152	1.4%
지	2084	1.4%
Other values (643)	120495	80.0%

Lowercase Letter

Value	Count	Frequency (%)
o	80	18.2%
e	51	11.6%
a	34	7.7%
n	31	7.0%
i	30	6.8%
m	27	6.1%
r	26	5.9%
l	24	5.5%
t	20	4.5%
s	18	4.1%
Other values (15)	99	22.5%

Uppercase Letter

Value	Count	Frequency (%)
C	71	11.5%
I	58	9.4%
P	56	9.1%
D	56	9.1%
B	43	7.0%
S	41	6.6%
O	36	5.8%
A	34	5.5%
T	34	5.5%
E	29	4.7%
Other values (15)	160	25.9%

Other Punctuation

Value	Count	Frequency (%)
,	6818	70.5%
·	920	9.5%
.	804	8.3%
:	646	6.7%
：	146	1.5%
/	104	1.1%
．	44	0.5%
&	43	0.4%
;	40	0.4%
#	35	0.4%
Other values (8)	66	0.7%

Decimal Number

Value	Count	Frequency (%)
1	892	24.0%
2	457	12.3%
１	437	11.8%
0	404	10.9%
3	269	7.2%
4	266	7.2%
5	245	6.6%
6	199	5.4%
8	152	4.1%
7	149	4.0%
Other values (5)	245	6.6%

Math Symbol

Value	Count	Frequency (%)
→	1840	85.3%
>	202	9.4%
<	64	3.0%
⇒	24	1.1%
~	12	0.6%
=	5	0.2%
～	4	0.2%
+	4	0.2%
＞	1	< 0.1%
×	1	< 0.1%

Other Number

Value	Count	Frequency (%)
②	6	25.0%
①	6	25.0%
③	4	16.7%
④	3	12.5%
⑥	1	4.2%
⑦	1	4.2%
⑧	1	4.2%
⑨	1	4.2%
⑤	1	4.2%

Other Symbol

Value	Count	Frequency (%)
○	90	84.1%
□	7	6.5%
●	4	3.7%
▶	3	2.8%
㈜	2	1.9%
㎡	1	0.9%

Close Punctuation

Value	Count	Frequency (%)
)	1904	97.4%
）	42	2.1%
」	4	0.2%
]	4	0.2%
』	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
(	1901	97.2%
（	45	2.3%
「	4	0.2%
[	4	0.2%
『	1	0.1%

Dash Punctuation

Value	Count	Frequency (%)
-	1901	62.5%
－	1143	37.5%

Modifier Symbol

Value	Count	Frequency (%)
`	4	66.7%
￣	2	33.3%

Letter Number

Value	Count	Frequency (%)
Ⅱ	2	66.7%
Ⅰ	1	33.3%

Space Separator

Value	Count	Frequency (%)
	36986	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	3	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	150650	71.3%
Common	59618	28.2%
Latin	1061	0.5%
Han	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	4927	3.3%
기	4095	2.7%
업	3217	2.1%
수	3110	2.1%
의	2877	1.9%
자	2810	1.9%
조	2462	1.6%
전	2420	1.6%
한	2152	1.4%
지	2084	1.4%
Other values (643)	120496	80.0%

Common

Value	Count	Frequency (%)
	36986	62.0%
,	6818	11.4%
)	1904	3.2%
-	1901	3.2%
(	1901	3.2%
→	1840	3.1%
－	1143	1.9%
·	920	1.5%
1	892	1.5%
.	804	1.3%
Other values (65)	4509	7.6%

Latin

Value	Count	Frequency (%)
o	80	7.5%
C	71	6.7%
I	58	5.5%
P	56	5.3%
D	56	5.3%
e	51	4.8%
B	43	4.1%
S	41	3.9%
O	36	3.4%
A	34	3.2%
Other values (42)	535	50.4%

Han

Value	Count	Frequency (%)
新	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	150469	71.2%
ASCII	55758	26.4%
None	2920	1.4%
Arrows	1864	0.9%
Compat Jamo	179	0.1%
Geometric Shapes	104	< 0.1%
Enclosed Alphanum	24	< 0.1%
Punctuation	7	< 0.1%
Number Forms	3	< 0.1%
CJK Compat	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	36986	66.3%
,	6818	12.2%
)	1904	3.4%
-	1901	3.4%
(	1901	3.4%
1	892	1.6%
.	804	1.4%
:	646	1.2%
2	457	0.8%
0	404	0.7%
Other values (74)	3045	5.5%

Hangul

Value	Count	Frequency (%)
사	4927	3.3%
기	4095	2.7%
업	3217	2.1%
수	3110	2.1%
의	2877	1.9%
자	2810	1.9%
조	2462	1.6%
전	2420	1.6%
한	2152	1.4%
지	2084	1.4%
Other values (639)	120315	80.0%

Arrows

Value	Count	Frequency (%)
→	1840	98.7%
⇒	24	1.3%

None

Value	Count	Frequency (%)
－	1143	39.1%
·	920	31.5%
１	437	15.0%
：	146	5.0%
５	51	1.7%
（	45	1.5%
．	44	1.5%
）	42	1.4%
２	27	0.9%
３	27	0.9%
Other values (13)	38	1.3%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	172	96.1%
ㆍ	6	3.4%
ㅣ	1	0.6%

Geometric Shapes

Value	Count	Frequency (%)
○	90	86.5%
□	7	6.7%
●	4	3.8%
▶	3	2.9%

Enclosed Alphanum

Value	Count	Frequency (%)
②	6	25.0%
①	6	25.0%
③	4	16.7%
④	3	12.5%
⑥	1	4.2%
⑦	1	4.2%
⑧	1	4.2%
⑨	1	4.2%
⑤	1	4.2%

Punctuation

Value	Count	Frequency (%)
※	3	42.9%
‘	3	42.9%
’	1	14.3%

Number Forms

Value	Count	Frequency (%)
Ⅱ	2	66.7%
Ⅰ	1	33.3%

CJK Compat

Value	Count	Frequency (%)
㎡	1	100.0%

CJK

Value	Count	Frequency (%)
新	1	100.0%

조사항목ID

조사항목ID

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	통계조사ID	조사항목ID	조사내용설명
0	2006083	1212015	전국 토양에 대한 오염추세를 파악하고 오염 우려지역에 대한 오염실태를 조사하여 토양오염을 예방하고 오염토양을 정화하는 등 토양보전대책을 수립·추진하기 위함
1	2006083	1212016	○ 토양측정망(지목별 토양오염도) - 중금속(8) : 카드뮴(Cd), 구리(Cu), 비소(Ag), 수은(Hg), 납(Pb), 6가크롬(Cr6+), 아연(Zn), 니켈(Ni) - 일반항목(8) : PCB, CN, 유기인, 페놀, 유류(BTEX, TPH), 불소, TCE, PCE - 토양산도(pH) ○ 토양오염실태(오염우려지역별 토양오염도) - 토양오염의 가능성이 높은 토양오염물질 및 토양pH
2	2006084	1212010	전국
3	2006084	1212011	사업체
4	2006084	1212012	기타－기타(현황자료)
5	2006084	1212013	１년
6	2006084	1212014	지방청(국립환경과학원) → 환경부(토양지하수과)
7	2006084	1212015	설치 년도가 오래되어 토양 오염이 우려되는 주유소 등 유류 저장시설을 대상으로 관리실태 및 토양오염도 검사를 실시하여 오염 토양 복원조치 등 토양오염 방지 대책을 추진하고자 함
8	2006084	1212016	- 주유소 관리실태 조사 · 토양오염도 검사(정기, 수시) 실시여부 · 토양오염방지시설 적정설치 여부 및 행정처분사항 이행여부 등 - 토양오염도 검사 · 시설부지에 대한 토양오염도조사(시료채취 및 토양오염도 분석(BTEX, TPH)
9	2006085	1212010	전국

	통계조사ID	조사항목ID	조사내용설명
8825	B21020180713171220	1212015	<NA>
8826	B21020200327123408	1212010	<NA>
8827	B21020200327123408	1212011	<NA>
8828	B21020200327123408	1212012	<NA>
8829	B21020200327123408	1212013	<NA>
8830	B21020200327123408	1212014	<NA>
8831	B21020200327123408	1212015	<NA>
8832	B21020200327123408	1212016	<NA>
8833	B21020200327123408	1212017	<NA>
8834	B21020200327123408	1212018	<NA>

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Other Number

Other Symbol

Close Punctuation

Open Punctuation

Dash Punctuation

Modifier Symbol

Letter Number

Space Separator

Initial Punctuation

Connector Punctuation

Final Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Arrows

None

Compat Jamo

Geometric Shapes

Enclosed Alphanum

Punctuation

Number Forms

CJK Compat

CJK

Interactions

Missing values

Sample