gimi9 Pandas Profiling

Dataset statistics

Number of variables	2
Number of observations	211
Missing cells	46
Missing cells (%)	10.9%
Duplicate rows	12
Duplicate rows (%)	5.7%
Total size in memory	3.4 KiB
Average record size in memory	16.6 B

Variable types

Text	2

Dataset

Description	충청남도 청년정책의 비전과 목표를 수립하고 충남도 청년정책을 제안하며 권역별 청년정책 방향을 제안하기 위한 근거 기반 자료로 활용하기 위한 설문 조사 자료
Author	충청남도
URL	https://www.data.go.kr/data/15114711/fileData.do

Alerts

Dataset has 12 (5.7%) duplicate rows	Duplicates
`구분` has 12 (5.7%) missing values	Missing
`Unnamed: 1` has 34 (16.1%) missing values	Missing

Reproduction

Analysis started	2024-03-14 14:05:30.632033
Analysis finished	2024-03-14 14:05:31.617995
Duration	0.99 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

구분
Text

MISSING

Distinct	188
Distinct (%)	94.5%
Missing	12
Missing (%)	5.7%
Memory size	1.8 KiB

Length

Max length	16
Median length	15
Mean length	7.2211055
Min length	2

Characters and Unicode

Total characters	1437
Distinct characters	80
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	177 ?
Unique (%)	88.9%

Sample

1st row	[가중치]
2nd row	[응답자 특성]
3rd row	[A. 정주의사 및 주거환경]
4th row	[B. 정신건강]
5th row	[C. 교육·훈련]

Value	Count	Frequency (%)
적용	87	26.5%
및	6	1.8%
정책	4	1.2%
응답자	3	0.9%
e	2	0.6%
관계	2	0.6%
자산형성	2	0.6%
g	2	0.6%
가족	2	0.6%
f	2	0.6%
Other values (198)	216	65.9%

Most occurring characters

Value	Count	Frequency (%)
	129	9.0%
1	97	6.8%
가	91	6.3%
중	89	6.2%
치	89	6.2%
용	87	6.1%
적	87	6.1%
(	87	6.1%
)	87	6.1%
-	58	4.0%
Other values (70)	536	37.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	557	38.8%
Decimal Number	259	18.0%
Uppercase Letter	193	13.4%
Space Separator	129	9.0%
Open Punctuation	109	7.6%
Close Punctuation	109	7.6%
Dash Punctuation	58	4.0%
Other Punctuation	23	1.6%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
가	91	16.3%
중	89	16.0%
치	89	16.0%
용	87	15.6%
적	87	15.6%
정	8	1.4%
및	6	1.1%
자	5	0.9%
주	5	0.9%
책	4	0.7%
Other values (43)	86	15.4%

Decimal Number

Value	Count	Frequency (%)
1	97	37.5%
2	44	17.0%
3	32	12.4%
4	28	10.8%
6	18	6.9%
5	18	6.9%
7	10	3.9%
8	8	3.1%
9	2	0.8%
0	2	0.8%

Uppercase Letter

Value	Count	Frequency (%)
D	52	26.9%
B	26	13.5%
A	24	12.4%
E	24	12.4%
C	22	11.4%
F	16	8.3%
G	14	7.3%
I	12	6.2%
H	3	1.6%

Open Punctuation

Value	Count	Frequency (%)
(	87	79.8%
[	22	20.2%

Close Punctuation

Value	Count	Frequency (%)
)	87	79.8%
]	22	20.2%

Other Punctuation

Value	Count	Frequency (%)
.	18	78.3%
·	5	21.7%

Space Separator

Value	Count	Frequency (%)
	129	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	58	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	687	47.8%
Hangul	557	38.8%
Latin	193	13.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
가	91	16.3%
중	89	16.0%
치	89	16.0%
용	87	15.6%
적	87	15.6%
정	8	1.4%
및	6	1.1%
자	5	0.9%
주	5	0.9%
책	4	0.7%
Other values (43)	86	15.4%

Common

Value	Count	Frequency (%)
	129	18.8%
1	97	14.1%
(	87	12.7%
)	87	12.7%
-	58	8.4%
2	44	6.4%
3	32	4.7%
4	28	4.1%
[	22	3.2%
]	22	3.2%
Other values (8)	81	11.8%

Latin

Value	Count	Frequency (%)
D	52	26.9%
B	26	13.5%
A	24	12.4%
E	24	12.4%
C	22	11.4%
F	16	8.3%
G	14	7.3%
I	12	6.2%
H	3	1.6%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	875	60.9%
Hangul	557	38.8%
None	5	0.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	129	14.7%
1	97	11.1%
(	87	9.9%
)	87	9.9%
-	58	6.6%
D	52	5.9%
2	44	5.0%
3	32	3.7%
4	28	3.2%
B	26	3.0%
Other values (16)	235	26.9%

Hangul

Value	Count	Frequency (%)
가	91	16.3%
중	89	16.0%
치	89	16.0%
용	87	15.6%
적	87	15.6%
정	8	1.4%
및	6	1.1%
자	5	0.9%
주	5	0.9%
책	4	0.7%
Other values (43)	86	15.4%

None

Value	Count	Frequency (%)
·	5	100.0%

Unnamed: 1
Text

MISSING

Distinct	90
Distinct (%)	50.8%
Missing	34
Missing (%)	16.1%
Memory size	1.8 KiB

Length

Max length	124
Median length	60
Mean length	48.983051
Min length	16

Characters and Unicode

Total characters	8670
Distinct characters	298
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	1.7%

Sample

1st row	응답자 기본사항(가중치 적용)
2nd row	충남 내 거주·생활 여부(가중치 적용)
3rd row	A1. 귀하는 만 19세 이후 다른 시도에서 충청남도로 이사해 오셨습니까?
4th row	A1. 귀하는 만 19세 이후 다른 시도에서 충청남도로 이사해 오셨습니까?
5th row	A1-1. 귀하께서 다른 시도에서 충청남도로 이사해 온 가장 주요한 이유는 무엇입니까?

Value	Count	Frequency (%)
귀하는	76	4.0%
가장	50	2.6%
귀하께서	48	2.5%
무엇입니까	46	2.4%
있는	38	2.0%
있으십니까	36	1.9%
생각하십니까	30	1.6%
모두	28	1.5%
필요한	24	1.3%
이유는	20	1.0%
Other values (481)	1509	79.2%

Most occurring characters

Value	Count	Frequency (%)
	1730	20.0%
하	286	3.3%
.	224	2.6%
는	210	2.4%
니	184	2.1%
?	168	1.9%
까	168	1.9%
이	154	1.8%
귀	152	1.8%
십	121	1.4%
Other values (288)	5273	60.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	5806	67.0%
Space Separator	1730	20.0%
Other Punctuation	482	5.6%
Decimal Number	281	3.2%
Uppercase Letter	175	2.0%
Open Punctuation	66	0.8%
Close Punctuation	66	0.8%
Dash Punctuation	58	0.7%
Math Symbol	6	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
하	286	4.9%
는	210	3.6%
니	184	3.2%
까	168	2.9%
이	154	2.7%
귀	152	2.6%
십	121	2.1%
서	104	1.8%
고	96	1.7%
있	92	1.6%
Other values (258)	4239	73.0%

Decimal Number

Value	Count	Frequency (%)
1	107	38.1%
2	44	15.7%
3	38	13.5%
4	28	10.0%
6	20	7.1%
5	18	6.4%
7	10	3.6%
8	8	2.8%
9	6	2.1%
0	2	0.7%

Uppercase Letter

Value	Count	Frequency (%)
D	50	28.6%
B	24	13.7%
A	22	12.6%
E	22	12.6%
C	20	11.4%
F	14	8.0%
G	12	6.9%
I	10	5.7%
H	1	0.6%

Other Punctuation

Value	Count	Frequency (%)
.	224	46.5%
?	168	34.9%
,	37	7.7%
·	31	6.4%
"	20	4.1%
/	2	0.4%

Space Separator

Value	Count	Frequency (%)
	1730	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	66	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	66	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	58	100.0%

Math Symbol

Value	Count	Frequency (%)
~	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	5806	67.0%
Common	2689	31.0%
Latin	175	2.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
하	286	4.9%
는	210	3.6%
니	184	3.2%
까	168	2.9%
이	154	2.7%
귀	152	2.6%
십	121	2.1%
서	104	1.8%
고	96	1.7%
있	92	1.6%
Other values (258)	4239	73.0%

Common

Value	Count	Frequency (%)
	1730	64.3%
.	224	8.3%
?	168	6.2%
1	107	4.0%
(	66	2.5%
)	66	2.5%
-	58	2.2%
2	44	1.6%
3	38	1.4%
,	37	1.4%
Other values (11)	151	5.6%

Latin

Value	Count	Frequency (%)
D	50	28.6%
B	24	13.7%
A	22	12.6%
E	22	12.6%
C	20	11.4%
F	14	8.0%
G	12	6.9%
I	10	5.7%
H	1	0.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	5806	67.0%
ASCII	2833	32.7%
None	31	0.4%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1730	61.1%
.	224	7.9%
?	168	5.9%
1	107	3.8%
(	66	2.3%
)	66	2.3%
-	58	2.0%
D	50	1.8%
2	44	1.6%
3	38	1.3%
Other values (19)	282	10.0%

Hangul

Value	Count	Frequency (%)
하	286	4.9%
는	210	3.6%
니	184	3.2%
까	168	2.9%
이	154	2.7%
귀	152	2.6%
십	121	2.1%
서	104	1.8%
고	96	1.7%
있	92	1.6%
Other values (258)	4239	73.0%

None

Value	Count	Frequency (%)
·	31	100.0%

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	구분	Unnamed: 1
0	[가중치]	<NA>
1	[응답자 특성]	<NA>
2	[A. 정주의사 및 주거환경]	<NA>
3	[B. 정신건강]	<NA>
4	[C. 교육·훈련]	<NA>
5	[D. 구직 및 취·창업]	<NA>
6	[E. 관계 및 정책 참여]	<NA>
7	[F. 가족 돌봄]	<NA>
8	[G. 자산형성]	<NA>
9	[H. 기타]	<NA>

	구분	Unnamed: 1
201	I1	I1. 다음은 충청남도에서 실시하고 있는 "일자리" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.(중복응답)
202	I1(가중치 적용)	I1. 다음은 충청남도에서 실시하고 있는 "일자리" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.(중복응답)
203	I2	I2. 다음은 충청남도에서 실시하고 있는 "주거" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
204	I2(가중치 적용)	I2. 다음은 충청남도에서 실시하고 있는 "주거" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
205	I3	I3. 다음은 충청남도에서 실시하고 있는 "교육" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
206	I3(가중치 적용)	I3. 다음은 충청남도에서 실시하고 있는 "교육" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
207	I4	I4. 다음은 충청남도에서 실시하고 있는 "복지·문화" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
208	I4(가중치 적용)	I4. 다음은 충청남도에서 실시하고 있는 "복지·문화" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
209	I5	I5. 다음은 충청남도에서 실시하고 있는 "참여·권리" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.
210	I5(가중치 적용)	I5. 다음은 충청남도에서 실시하고 있는 "참여·권리" 관련 사업입니다. 알고 있는 사업을 모두 체크해주십시오.

Most frequently occurring

	구분	Unnamed: 1	# duplicates
11	<NA>	<NA>	12
0	[A. 정주의사 및 주거환경]	<NA>	2
1	[B. 정신건강]	<NA>	2
2	[C. 교육·훈련]	<NA>	2
3	[D. 구직 및 취·창업]	<NA>	2
4	[E. 관계 및 정책 참여]	<NA>	2
5	[F. 가족 돌봄]	<NA>	2
6	[G. 자산형성]	<NA>	2
7	[H. 기타]	<NA>	2
8	[I. 정책 인지도]	<NA>	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Open Punctuation

Close Punctuation

Other Punctuation

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Missing values

Sample

Duplicate rows

Most frequently occurring