gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	1297
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	76
Duplicate rows (%)	5.9%
Total size in memory	40.7 KiB
Average record size in memory	32.1 B

Variable types

Text	3
Categorical	1

Dataset

Description	직종코드 3분류를 파일형태로 제공합니다. 대분류 중분루 소분류로 나뉘며, 1dapth 는 한자리, 2depth는 세자리 , 3depty는 여섯자리로 구성되어 있습니다.
URL	https://www.data.go.kr/data/15120487/fileData.do

Alerts

Dataset has 76 (5.9%) duplicate rows	Duplicates
`대분류` is highly imbalanced (96.9%)	Imbalance

Reproduction

Analysis started	2023-12-12 20:53:20.500366
Analysis finished	2023-12-12 20:53:21.023440
Duration	0.52 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

카테고리 ID
Text

Distinct	1212
Distinct (%)	93.4%
Missing	0
Missing (%)	0.0%
Memory size	10.3 KiB

Length

Max length	6
Median length	6
Mean length	5.4841943
Min length	1

Characters and Unicode

Total characters	7113
Distinct characters	14
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1133 ?
Unique (%)	87.4%

Sample

1st row	1
2nd row	11
3rd row	11100
4th row	11200
5th row	12100

Value	Count	Frequency (%)
703902	3	0.2%
703200	3	0.2%
215200	3	0.2%
231400	3	0.2%
703101	3	0.2%
703102	3	0.2%
24402	2	0.2%
824107	2	0.2%
816200	2	0.2%
550104	2	0.2%
Other values (1202)	1271	98.0%

Most occurring characters

Value	Count	Frequency (%)
0	1929	27.1%
1	1330	18.7%
2	1089	15.3%
3	654	9.2%
4	489	6.9%
5	484	6.8%
8	379	5.3%
6	336	4.7%
9	230	3.2%
7	181	2.5%
Other values (4)	12	0.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	7101	99.8%
Uppercase Letter	12	0.2%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	1929	27.2%
1	1330	18.7%
2	1089	15.3%
3	654	9.2%
4	489	6.9%
5	484	6.8%
8	379	5.3%
6	336	4.7%
9	230	3.2%
7	181	2.5%

Uppercase Letter

Value	Count	Frequency (%)
A	6	50.0%
B	3	25.0%
C	2	16.7%
D	1	8.3%

Most occurring scripts

Value	Count	Frequency (%)
Common	7101	99.8%
Latin	12	0.2%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	1929	27.2%
1	1330	18.7%
2	1089	15.3%
3	654	9.2%
4	489	6.9%
5	484	6.8%
8	379	5.3%
6	336	4.7%
9	230	3.2%
7	181	2.5%

Latin

Value	Count	Frequency (%)
A	6	50.0%
B	3	25.0%
C	2	16.7%
D	1	8.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	7113	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	1929	27.1%
1	1330	18.7%
2	1089	15.3%
3	654	9.2%
4	489	6.9%
5	484	6.8%
8	379	5.3%
6	336	4.7%
9	230	3.2%
7	181	2.5%
Other values (4)	12	0.2%

대분류
Categorical

IMBALANCE

Distinct	14
Distinct (%)	1.1%
Missing	0
Missing (%)	0.0%
Memory size	10.3 KiB

	1284
경영·사무·금융·보험	1
연구 및 공학기술	1
교육·법률·사회복지·경찰·소방 및 군인	1
보건·의료	1
Other values (9)	9

Length

Max length	25
Median length	1
Mean length	1.1333847
Min length	1

Unique

Unique	13 ?
Unique (%)	1.0%

Sample

1st row	경영·사무·금융·보험
2nd row
3rd row
4th row
5th row

Common Values

Value	Count	Frequency (%)
	1284	99.0%
경영·사무·금융·보험	1	0.1%
연구 및 공학기술	1	0.1%
교육·법률·사회복지·경찰·소방 및 군인	1	0.1%
보건·의료	1	0.1%
예술·디자인·방송·스포츠	1	0.1%
미용·여행·숙박·음식·경비·돌봄·청소	1	0.1%
영업·판매·운전·운송	1	0.1%
건설·채굴	1	0.1%
설치·정비·생산-기계·금속·재료	1	0.1%
Other values (4)	4	0.3%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
및	3	15.0%
경영·사무·금융·보험	1	5.0%
건설·채굴	1	5.0%
단순	1	5.0%
제조	1	5.0%
설치·정비·생산-인쇄·목재·공예	1	5.0%
설치·정비·생산-화학·환경·섬유·의복·식품가공	1	5.0%
설치·정비·생산-전기·전자·정보통신	1	5.0%
설치·정비·생산-기계·금속·재료	1	5.0%
영업·판매·운전·운송	1	5.0%
Other values (8)	8	40.0%

중분류
Text

Distinct	113
Distinct (%)	8.7%
Missing	0
Missing (%)	0.0%
Memory size	10.3 KiB

Length

Max length	34
Median length	1
Mean length	2.1935235
Min length	1

Characters and Unicode

Total characters	2845
Distinct characters	247
Distinct categories	7 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	112 ?
Unique (%)	8.6%

Sample

1st row
2nd row	행정·경영·금융·보험 관리직
3rd row
4th row
5th row

Value	Count	Frequency (%)
및	41	12.2%
조작	12	3.6%
사무	8	2.4%
등	8	2.4%
기타	7	2.1%
종사자	7	2.1%
공학기술	6	1.8%
연구	6	1.8%
기계	5	1.5%
전문가	5	1.5%
Other values (194)	232	68.8%

Most occurring characters

Value	Count	Frequency (%)
	1410	49.6%
·	152	5.3%
기	58	2.0%
사	45	1.6%
및	41	1.4%
조	35	1.2%
전	25	0.9%
공	23	0.8%
제	23	0.8%
비	23	0.8%
Other values (237)	1010	35.5%

Most occurring categories

Value	Count	Frequency (%)
Space Separator	1410	49.6%
Other Letter	1225	43.1%
Other Punctuation	164	5.8%
Open Punctuation	18	0.6%
Close Punctuation	18	0.6%
Uppercase Letter	9	0.3%
Decimal Number	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	58	4.7%
사	45	3.7%
및	41	3.3%
조	35	2.9%
전	25	2.0%
공	23	1.9%
제	23	1.9%
비	23	1.9%
자	21	1.7%
작	20	1.6%
Other values (222)	911	74.4%

Uppercase Letter

Value	Count	Frequency (%)
U	2	22.2%
I	1	11.1%
X	1	11.1%
D	1	11.1%
R	1	11.1%
A	1	11.1%
M	1	11.1%
T	1	11.1%

Other Punctuation

Value	Count	Frequency (%)
·	152	92.7%
,	11	6.7%
/	1	0.6%

Space Separator

Value	Count	Frequency (%)
	1410	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	18	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	18	100.0%

Decimal Number

Value	Count	Frequency (%)
3	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	1611	56.6%
Hangul	1225	43.1%
Latin	9	0.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	58	4.7%
사	45	3.7%
및	41	3.3%
조	35	2.9%
전	25	2.0%
공	23	1.9%
제	23	1.9%
비	23	1.9%
자	21	1.7%
작	20	1.6%
Other values (222)	911	74.4%

Latin

Value	Count	Frequency (%)
U	2	22.2%
I	1	11.1%
X	1	11.1%
D	1	11.1%
R	1	11.1%
A	1	11.1%
M	1	11.1%
T	1	11.1%

Common

Value	Count	Frequency (%)
	1410	87.5%
·	152	9.4%
(	18	1.1%
)	18	1.1%
,	11	0.7%
/	1	0.1%
3	1	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1468	51.6%
Hangul	1225	43.1%
None	152	5.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1410	96.0%
(	18	1.2%
)	18	1.2%
,	11	0.7%
U	2	0.1%
I	1	0.1%
/	1	0.1%
X	1	0.1%
3	1	0.1%
D	1	0.1%
Other values (4)	4	0.3%

None

Value	Count	Frequency (%)
·	152	100.0%

Hangul

Value	Count	Frequency (%)
기	58	4.7%
사	45	3.7%
및	41	3.3%
조	35	2.9%
전	25	2.0%
공	23	1.9%
제	23	1.9%
비	23	1.9%
자	21	1.7%
작	20	1.6%
Other values (222)	911	74.4%

소분류
Text

Distinct	1089
Distinct (%)	84.0%
Missing	0
Missing (%)	0.0%
Memory size	10.3 KiB

Length

Max length	42
Median length	31
Mean length	11.46569
Min length	1

Characters and Unicode

Total characters	14871
Distinct characters	485
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1011 ?
Unique (%)	77.9%

Sample

1st row
2nd row
3rd row	의회의원·고위공무원 및 공공단체임원
4th row	기업 고위임원
5th row	정부행정 관리자

Value	Count	Frequency (%)
및	197	6.1%
조작원	109	3.3%
기타	104	3.2%
기술자	65	2.0%
등	56	1.7%
사무원	52	1.6%
연구원	47	1.4%
종사원	40	1.2%
전문가	35	1.1%
포함	35	1.1%
Other values (1402)	2516	77.3%

Most occurring characters

Value	Count	Frequency (%)
	2209	14.9%
원	829	5.6%
·	527	3.5%
기	502	3.4%
사	462	3.1%
조	309	2.1%
)	291	2.0%
(	291	2.0%
자	254	1.7%
리	212	1.4%
Other values (475)	8985	60.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	11260	75.7%
Space Separator	2209	14.9%
Other Punctuation	683	4.6%
Close Punctuation	291	2.0%
Open Punctuation	291	2.0%
Uppercase Letter	120	0.8%
Lowercase Letter	9	0.1%
Dash Punctuation	4	< 0.1%
Decimal Number	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
원	829	7.4%
기	502	4.5%
사	462	4.1%
조	309	2.7%
자	254	2.3%
리	212	1.9%
및	197	1.7%
공	185	1.6%
전	185	1.6%
무	160	1.4%
Other values (435)	7965	70.7%

Uppercase Letter

Value	Count	Frequency (%)
A	20	16.7%
T	16	13.3%
C	13	10.8%
D	9	7.5%
I	8	6.7%
S	8	6.7%
P	6	5.0%
B	5	4.2%
R	5	4.2%
N	4	3.3%
Other values (12)	26	21.7%

Lowercase Letter

Value	Count	Frequency (%)
n	2	22.2%
e	2	22.2%
g	1	11.1%
i	1	11.1%
r	1	11.1%
a	1	11.1%
l	1	11.1%

Other Punctuation

Value	Count	Frequency (%)
·	527	77.2%
,	150	22.0%
/	5	0.7%
&	1	0.1%

Decimal Number

Value	Count	Frequency (%)
1	2	50.0%
3	1	25.0%
9	1	25.0%

Space Separator

Value	Count	Frequency (%)
	2209	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	291	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	291	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	11260	75.7%
Common	3482	23.4%
Latin	129	0.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
원	829	7.4%
기	502	4.5%
사	462	4.1%
조	309	2.7%
자	254	2.3%
리	212	1.9%
및	197	1.7%
공	185	1.6%
전	185	1.6%
무	160	1.4%
Other values (435)	7965	70.7%

Latin

Value	Count	Frequency (%)
A	20	15.5%
T	16	12.4%
C	13	10.1%
D	9	7.0%
I	8	6.2%
S	8	6.2%
P	6	4.7%
B	5	3.9%
R	5	3.9%
N	4	3.1%
Other values (19)	35	27.1%

Common

Value	Count	Frequency (%)
	2209	63.4%
·	527	15.1%
)	291	8.4%
(	291	8.4%
,	150	4.3%
/	5	0.1%
-	4	0.1%
1	2	0.1%
&	1	< 0.1%
3	1	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	11260	75.7%
ASCII	3084	20.7%
None	527	3.5%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	2209	71.6%
)	291	9.4%
(	291	9.4%
,	150	4.9%
A	20	0.6%
T	16	0.5%
C	13	0.4%
D	9	0.3%
I	8	0.3%
S	8	0.3%
Other values (29)	69	2.2%

Hangul

Value	Count	Frequency (%)
원	829	7.4%
기	502	4.5%
사	462	4.1%
조	309	2.7%
자	254	2.3%
리	212	1.9%
및	197	1.7%
공	185	1.6%
전	185	1.6%
무	160	1.4%
Other values (435)	7965	70.7%

None

Value	Count	Frequency (%)
·	527	100.0%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	카테고리 ID	대분류	중분류	소분류
0	1	경영·사무·금융·보험
1	11		행정·경영·금융·보험 관리직
2	11100			의회의원·고위공무원 및 공공단체임원
3	11200			기업 고위임원
4	12100			정부행정 관리자
5	12200			경영지원 관리자
6	12201			경영기획 부서장
7	12202			인사·노무·교육·총무·감사 부서장
8	12203			자재·구매 부서장
9	12204			재무·회계·경리 부서장

	카테고리 ID	중분류	소분류
1287	903100		조림·산림경영인 및 벌목원
1288	903900		임산물 채취 및 기타 임업 종사원
1289	134	어업 종사자
1290	904100		양식원
1291	904200		어부 및 해녀
1292	135	농림어업 단순 종사자
1293	905000		농림어업 단순 종사원
1294	905001		농업 단순 종사원
1295	905002		임업 단순 종사원(산림보호감시, 산불감시원 등)
1296	905003		어업 단순 종사원

Most frequently occurring

	카테고리 ID	소분류	# duplicates
5	215200	대학 교육 조교(TA) 및 연구 조교(RA)	3
7	231400	직업상담사	3
51	703101	건축 배관공(옥내급수관,상하수배관,위생 배관)	3
52	703102	가스 배관공(가스관 설치원)	3
53	703200	공업 배관공(플랜트,항공,선박,철도차량)	3
54	703902	배관 보조원	3
0	134301	정보시스템 운영자	2
1	159100	제도사	2
2	214401	미술 강사	2
3	214402	음악 강사	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Decimal Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

None

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Other Punctuation

Decimal Number

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Missing values

Sample

Duplicate rows

Most frequently occurring