gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	822
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	25.8 KiB
Average record size in memory	32.2 B

Variable types

Categorical	3
Text	1

Dataset

Description	보건복지부장관이 인정하는 외국학교 현황(직종별 인정학교 국가 및 학교명)을 제공합니다.인정학교는 "보건의료인국가시험 응시자격 관련 외국학교 등 인정기준" 제4조(재검토기한)에 의거 그 타당성을 검토하여 개선 등의 조치를 할 수 있으며, 인정현황은 인정심사 신청 시 작성된 국가 및 교명을 바탕으로 생성된 데이터이므로 현재 변경된 사항이 있을 수 있으며, 국가 및 학교명이 상이하거나 외국학교 졸업자의 응시자격 관련은 별도 문의가 필요합니다.
Author	한국보건의료인국가시험원
URL	https://www.data.go.kr/data/15126577/fileData.do

Alerts

`직종` is highly overall correlated with `구분`	High correlation
`구분` is highly overall correlated with `직종`	High correlation
`구분` is highly imbalanced (65.2%)	Imbalance

Reproduction

Analysis started	2024-03-14 23:33:29.390574
Analysis finished	2024-03-14 23:33:30.425566
Duration	1.03 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

직종
Categorical

HIGH CORRELATION

Distinct	20
Distinct (%)	2.4%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

간호사	256
약사	186
의사	162
치과의사	131
안경사	17
Other values (15)	70

Length

Max length	11
Median length	9
Mean length	2.9513382
Min length	2

Unique

Unique	4 ?
Unique (%)	0.5%

Sample

1st row	직종구분
2nd row	의사
3rd row	의사
4th row	의사
5th row	의사

Common Values

Value	Count	Frequency (%)
간호사	256	31.1%
약사	186	22.6%
의사	162	19.7%
치과의사	131	15.9%
안경사	17	2.1%
2급 언어재활사	13	1.6%
조산사	8	1.0%
임상병리사	8	1.0%
치과기공사	7	0.9%
치과위생사	6	0.7%
Other values (10)	28	3.4%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
간호사	256	30.5%
약사	186	22.2%
의사	162	19.3%
치과의사	131	15.6%
안경사	17	2.0%
2급	15	1.8%
언어재활사	13	1.5%
조산사	8	1.0%
임상병리사	8	1.0%
치과기공사	7	0.8%
Other values (11)	36	4.3%

구분
Categorical

HIGH CORRELATION IMBALANCE

Distinct	8
Distinct (%)	1.0%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

94.07.07 이후	670
94.07.07 이전	73
95.10.05 이후	43
<NA>	17
95.10.05 이전	13
Other values (3)	6

Length

Max length	20
Median length	11
Mean length	10.86618
Min length	4

Unique

Unique	2 ?
Unique (%)	0.2%

Sample

1st row	관련 법령 개정에 따라 응시자격 구분
2nd row	94.07.07 이전
3rd row	94.07.07 이전
4th row	94.07.07 이전
5th row	94.07.07 이전

Common Values

Value	Count	Frequency (%)
94.07.07 이후	670	81.5%
94.07.07 이전	73	8.9%
95.10.05 이후	43	5.2%
<NA>	17	2.1%
95.10.05 이전	13	1.6%
11.09.01 이후	4	0.5%
관련 법령 개정에 따라 응시자격 구분	1	0.1%
12.09.01 이후	1	0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
94.07.07	743	45.6%
이후	718	44.0%
이전	86	5.3%
95.10.05	56	3.4%
na	17	1.0%
11.09.01	4	0.2%
관련	1	0.1%
법령	1	0.1%
개정에	1	0.1%
따라	1	0.1%
Other values (3)	3	0.2%

국가명
Categorical

Distinct	48
Distinct (%)	5.8%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

미국	319
일본	148
필리핀	60
호주	55
독일	51
Other values (43)	189

Length

Max length	8
Median length	2
Mean length	2.379562
Min length	2

Unique

Unique	17 ?
Unique (%)	2.1%

Sample

1st row	학교 소속 국가
2nd row	대만
3rd row	도미니카
4th row	독일
5th row	독일

Common Values

Value	Count	Frequency (%)
미국	319	38.8%
일본	148	18.0%
필리핀	60	7.3%
호주	55	6.7%
독일	51	6.2%
영국	37	4.5%
캐나다	23	2.8%
대만	12	1.5%
러시아	11	1.3%
뉴질랜드	10	1.2%
Other values (38)	96	11.7%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
미국	319	38.7%
일본	148	18.0%
필리핀	60	7.3%
호주	55	6.7%
독일	53	6.4%
영국	37	4.5%
캐나다	23	2.8%
대만	12	1.5%
러시아	11	1.3%
뉴질랜드	10	1.2%
Other values (38)	96	11.7%

학교명
Text

Distinct	749
Distinct (%)	91.1%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

Length

Max length	195
Median length	88
Mean length	33.756691
Min length	6

Characters and Unicode

Total characters	27748
Distinct characters	486
Distinct categories	15 ?
Distinct scripts	5 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	689 ?
Unique (%)	83.8%

Sample

1st row	인정학교는 "보건의료인국가시험 응시자격 관련 외국학교 등 인정기준" 제4조(재검토기한)에 의거 그 타당성을 검토하여 개선 등의 조치를 할 수 있으며, 인정 현황은 인정심사 신청 시 작성된 국가 및 교명을 바탕으로 생성된 데이터이므로 현재 변경된 사항이 있을 수 있으며, 국가 및 학교명이 상이하거나 외국학교 졸업자의 응시자격 관련은 별도 문의 필요.
2nd row	臺北醫學院(Taipei Medical College)(교명변경, 臺北醫學大學(Taipei Medical University))
3rd row	Ross University School of Medicine
4th row	Albert Ludwigs Universität Freiburg, Medizinisch Fakultät
5th row	Universität Zu Köln, Medizinische Fakultät

Value	Count	Frequency (%)
university	567	16.5%
of	389	11.3%
college	111	3.2%
school	70	2.0%
medical	69	2.0%
state	58	1.7%
medicine	47	1.4%
the	45	1.3%
pharmacy	31	0.9%
new	31	0.9%
Other values (1083)	2015	58.7%

Most occurring characters

Value	Count	Frequency (%)
	2621	9.4%
i	2372	8.5%
e	2290	8.3%
n	1640	5.9%
t	1559	5.6%
o	1374	5.0%
a	1365	4.9%
r	1364	4.9%
s	1295	4.7%
l	914	3.3%
Other values (476)	10954	39.5%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	19197	69.2%
Uppercase Letter	2770	10.0%
Space Separator	2621	9.4%
Other Letter	2401	8.7%
Other Punctuation	186	0.7%
Close Punctuation	185	0.7%
Open Punctuation	185	0.7%
Decimal Number	100	0.4%
Dash Punctuation	74	0.3%
Final Punctuation	20	0.1%
Other values (5)	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
學	208	8.7%
大	122	5.1%
학	82	3.4%
科	62	2.6%
교	59	2.5%
護	59	2.5%
看	59	2.5%
校	52	2.2%
專	39	1.6%
경	39	1.6%
Other values (384)	1620	67.5%

Lowercase Letter

Value	Count	Frequency (%)
i	2372	12.4%
e	2290	11.9%
n	1640	8.5%
t	1559	8.1%
o	1374	7.2%
a	1365	7.1%
r	1364	7.1%
s	1295	6.7%
l	914	4.8%
y	801	4.2%
Other values (22)	4223	22.0%

Uppercase Letter

Value	Count	Frequency (%)
U	670	24.2%
C	275	9.9%
S	270	9.7%
M	253	9.1%
T	126	4.5%
N	117	4.2%
P	114	4.1%
D	113	4.1%
A	102	3.7%
B	74	2.7%
Other values (17)	656	23.7%

Decimal Number

Value	Count	Frequency (%)
0	39	39.0%
2	26	26.0%
1	17	17.0%
7	4	4.0%
3	4	4.0%
6	3	3.0%
4	3	3.0%
8	2	2.0%
9	1	1.0%
5	1	1.0%

Other Punctuation

Value	Count	Frequency (%)
,	114	61.3%
.	51	27.4%
'	8	4.3%
&	8	4.3%
"	2	1.1%
:	1	0.5%
/	1	0.5%
＆	1	0.5%

Letter Number

Value	Count	Frequency (%)
Ⅲ	1	33.3%
Ⅴ	1	33.3%
Ⅵ	1	33.3%

Dash Punctuation

Value	Count	Frequency (%)
-	73	98.6%
–	1	1.4%

Final Punctuation

Value	Count	Frequency (%)
’	19	95.0%
”	1	5.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	1	50.0%
“	1	50.0%

Space Separator

Value	Count	Frequency (%)
	2621	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	185	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	185	100.0%

Control

Value	Count	Frequency (%)
	2	100.0%

Modifier Letter

Value	Count	Frequency (%)
ー	1	100.0%

Math Symbol

Value	Count	Frequency (%)
=	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	21970	79.2%
Common	3377	12.2%
Han	1515	5.5%
Hangul	874	3.1%
Katakana	12	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
學	208	13.7%
大	122	8.1%
科	62	4.1%
護	59	3.9%
看	59	3.9%
校	52	3.4%
專	39	2.6%
門	37	2.4%
醫	33	2.2%
立	29	1.9%
Other values (223)	815	53.8%

Hangul

Value	Count	Frequency (%)
학	82	9.4%
교	59	6.8%
경	39	4.5%
전	34	3.9%
변	30	3.4%
문	29	3.3%
명	28	3.2%
대	26	3.0%
과	26	3.0%
간	25	2.9%
Other values (145)	496	56.8%

Latin

Value	Count	Frequency (%)
i	2372	10.8%
e	2290	10.4%
n	1640	7.5%
t	1559	7.1%
o	1374	6.3%
a	1365	6.2%
r	1364	6.2%
s	1295	5.9%
l	914	4.2%
y	801	3.6%
Other values (52)	6996	31.8%

Common

Value	Count	Frequency (%)
	2621	77.6%
)	185	5.5%
(	185	5.5%
,	114	3.4%
-	73	2.2%
.	51	1.5%
0	39	1.2%
2	26	0.8%
’	19	0.6%
1	17	0.5%
Other values (20)	47	1.4%

Katakana

Value	Count	Frequency (%)
セ	3	25.0%
ン	3	25.0%
タ	3	25.0%
ク	1	8.3%
キ	1	8.3%
チ	1	8.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	25251	91.0%
CJK	1503	5.4%
Hangul	874	3.1%
None	69	0.2%
Punctuation	23	0.1%
Katakana	13	< 0.1%
CJK Compat Ideographs	12	< 0.1%
Number Forms	3	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	2621	10.4%
i	2372	9.4%
e	2290	9.1%
n	1640	6.5%
t	1559	6.2%
o	1374	5.4%
a	1365	5.4%
r	1364	5.4%
s	1295	5.1%
l	914	3.6%
Other values (65)	8457	33.5%

CJK

Value	Count	Frequency (%)
學	208	13.8%
大	122	8.1%
科	62	4.1%
護	59	3.9%
看	59	3.9%
校	52	3.5%
專	39	2.6%
門	37	2.5%
醫	33	2.2%
立	29	1.9%
Other values (216)	803	53.4%

Hangul

Value	Count	Frequency (%)
학	82	9.4%
교	59	6.8%
경	39	4.5%
전	34	3.9%
변	30	3.4%
문	29	3.3%
명	28	3.2%
대	26	3.0%
과	26	3.0%
간	25	2.9%
Other values (145)	496	56.8%

None

Value	Count	Frequency (%)
ä	49	71.0%
ü	12	17.4%
é	2	2.9%
ö	2	2.9%
ç	1	1.4%
ó	1	1.4%
Ö	1	1.4%
＆	1	1.4%

Punctuation

Value	Count	Frequency (%)
’	19	82.6%
‘	1	4.3%
“	1	4.3%
”	1	4.3%
–	1	4.3%

CJK Compat Ideographs

Value	Count	Frequency (%)
療	3	25.0%
立	3	25.0%
連	2	16.7%
鹿	1	8.3%
理	1	8.3%
臨	1	8.3%
奈	1	8.3%

Katakana

Value	Count	Frequency (%)
セ	3	23.1%
ン	3	23.1%
タ	3	23.1%
ク	1	7.7%
ー	1	7.7%
キ	1	7.7%
チ	1	7.7%

Number Forms

Value	Count	Frequency (%)
Ⅲ	1	33.3%
Ⅴ	1	33.3%
Ⅵ	1	33.3%

Heatmap
Table

	직종	구분	국가명
직종	1.000	0.958	0.594
구분	0.958	1.000	0.788
국가명	0.594	0.788	1.000

Heatmap
Table

	구분	국가명	직종
구분	1.000	0.446	0.855
국가명	0.446	1.000	0.178
직종	0.855	0.178	1.000

Heatmap
Table

	직종	구분	국가명
직종	1.000	0.855	0.178
구분	0.855	1.000	0.446
국가명	0.178	0.446	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	직종	구분	국가명	학교명
0	직종구분	관련 법령 개정에 따라 응시자격 구분	학교 소속 국가	인정학교는 "보건의료인국가시험 응시자격 관련 외국학교 등 인정기준" 제4조(재검토기한)에 의거 그 타당성을 검토하여 개선 등의 조치를 할 수 있으며, 인정 현황은 인정심사 신청 시 작성된 국가 및 교명을 바탕으로 생성된 데이터이므로 현재 변경된 사항이 있을 수 있으며, 국가 및 학교명이 상이하거나 외국학교 졸업자의 응시자격 관련은 별도 문의 필요.
1	의사	94.07.07 이전	대만	臺北醫學院(Taipei Medical College)(교명변경, 臺北醫學大學(Taipei Medical University))
2	의사	94.07.07 이전	도미니카	Ross University School of Medicine
3	의사	94.07.07 이전	독일	Albert Ludwigs Universität Freiburg, Medizinisch Fakultät
4	의사	94.07.07 이전	독일	Universität Zu Köln, Medizinische Fakultät
5	의사	94.07.07 이전	미국	Tulane University School of Medicine
6	의사	94.07.07 이전	미국	University of Nebraska College of Medicine
7	의사	94.07.07 이전	미얀마	Yangon University, Institute of Medicine
8	의사	94.07.07 이전	아르헨티나	Universidad de Cordoba
9	의사	94.07.07 이전	일본	九州大學(Kyushu University)

	직종	구분	국가명	학교명
812	2급 언어재활사	<NA>	미국	Kent State University(Master’s Degree)
813	2급 언어재활사	<NA>	미국	University of Northern colorado(Master’s Degree)
814	2급 언어재활사	<NA>	미국	Teachers College, Columbia University(Master’s Degree)
815	2급 언어재활사	<NA>	미국	University of Redlands(Master’s Degree)
816	2급 언어재활사	<NA>	캐나다	McGill University(Master’s Degree)
817	2급 언어재활사	<NA>	호주	University of Sydney
818	1급 장애인재활상담사	<NA>	미국	The University of Iowa(Doctor’s Degree)
819	1급 응급구조사	<NA>	호주	Flinders University
820	2급 응급구조사	<NA>	미국	Erie County Fire Training Academy
821	2급 응급구조사	<NA>	미국	EMT&FIRE TRAINING INCORPORATION

Overview

Variables

Common Values

Length

Common Values

Length

Common Values (Plot)

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Letter Number

Dash Punctuation

Final Punctuation

Initial Punctuation

Space Separator

Close Punctuation

Open Punctuation

Control

Modifier Letter

Math Symbol

Most occurring scripts

Most frequent character per script

Han

Hangul

Latin

Common

Katakana

Most occurring blocks

Most frequent character per block

ASCII

CJK

Hangul

None

Punctuation

CJK Compat Ideographs

Katakana

Number Forms

Correlations

Missing values

Sample