gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	10000
Missing cells	4
Missing cells (%)	< 0.1%
Duplicate rows	22
Duplicate rows (%)	0.2%
Total size in memory	312.5 KiB
Average record size in memory	32.0 B

Variable types

Text	3

Dataset

Description	건강보험심사평가원 데이터베이스에 구축된 코드마스터 정보
Author	건강보험심사평가원
URL	https://www.data.go.kr/data/15067468/fileData.do

Alerts

Dataset has 22 (0.2%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 05:23:22.341138
Analysis finished	2023-12-12 05:23:23.237438
Duration	0.9 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

코드유형
Text

Distinct	2806
Distinct (%)	28.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	29
Median length	24
Mean length	14.3301
Min length	4

Characters and Unicode

Total characters	143301
Distinct characters	116
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1323 ?
Unique (%)	13.2%

Sample

1st row	DUR_CVAPL_PRS_DIV_CD
2nd row	PPR_REFM_ERR_CD
3rd row	CVAPL_APL_STAT_CD
4th row	DATA_TRSMRCV_CD
5th row	PAY_CND_TY_CD

Value	Count	Frequency (%)
err_cd	328	3.3%
extr_snd_univ_cd	304	3.0%
fct_model_dtl_cd	185	1.8%
drg_exm_cd	165	1.7%
ppr_refm_err_cd	142	1.4%
refm_czitm_cd	139	1.4%
fct_model_cd	86	0.9%
bm_diag_cd	86	0.9%
mdiv_dstr_cd	84	0.8%
sct_cd	83	0.8%
Other values (2796)	8398	84.0%

Most occurring characters

Value	Count	Frequency (%)
_	27964	19.5%
D	16601	11.6%
C	16223	11.3%
T	11556	8.1%
R	8661	6.0%
P	6990	4.9%
S	6921	4.8%
M	5612	3.9%
E	4713	3.3%
A	4373	3.1%
Other values (106)	33687	23.5%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	112032	78.2%
Connector Punctuation	27964	19.5%
Other Letter	3151	2.2%
Decimal Number	154	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
코	422	13.4%
드	422	13.4%
분	224	7.1%
구	131	4.2%
사	126	4.0%
류	100	3.2%
료	100	3.2%
과	92	2.9%
진	88	2.8%
목	88	2.8%
Other values (70)	1358	43.1%

Uppercase Letter

Value	Count	Frequency (%)
D	16601	14.8%
C	16223	14.5%
T	11556	10.3%
R	8661	7.7%
P	6990	6.2%
S	6921	6.2%
M	5612	5.0%
E	4713	4.2%
A	4373	3.9%
N	4291	3.8%
Other values (16)	26091	23.3%

Decimal Number

Value	Count	Frequency (%)
1	52	33.8%
4	32	20.8%
2	21	13.6%
9	14	9.1%
5	13	8.4%
3	10	6.5%
0	8	5.2%
7	3	1.9%
8	1	0.6%

Connector Punctuation

Value	Count	Frequency (%)
_	27964	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	112032	78.2%
Common	28118	19.6%
Hangul	3151	2.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
코	422	13.4%
드	422	13.4%
분	224	7.1%
구	131	4.2%
사	126	4.0%
류	100	3.2%
료	100	3.2%
과	92	2.9%
진	88	2.8%
목	88	2.8%
Other values (70)	1358	43.1%

Latin

Value	Count	Frequency (%)
D	16601	14.8%
C	16223	14.5%
T	11556	10.3%
R	8661	7.7%
P	6990	6.2%
S	6921	6.2%
M	5612	5.0%
E	4713	4.2%
A	4373	3.9%
N	4291	3.8%
Other values (16)	26091	23.3%

Common

Value	Count	Frequency (%)
_	27964	99.5%
1	52	0.2%
4	32	0.1%
2	21	0.1%
9	14	< 0.1%
5	13	< 0.1%
3	10	< 0.1%
0	8	< 0.1%
7	3	< 0.1%
8	1	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	140150	97.8%
Hangul	3151	2.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	27964	20.0%
D	16601	11.8%
C	16223	11.6%
T	11556	8.2%
R	8661	6.2%
P	6990	5.0%
S	6921	4.9%
M	5612	4.0%
E	4713	3.4%
A	4373	3.1%
Other values (26)	30536	21.8%

Hangul

Value	Count	Frequency (%)
코	422	13.4%
드	422	13.4%
분	224	7.1%
구	131	4.2%
사	126	4.0%
류	100	3.2%
료	100	3.2%
과	92	2.9%
진	88	2.8%
목	88	2.8%
Other values (70)	1358	43.1%

코드
Text

Distinct	3207
Distinct (%)	32.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	8
Mean length	4.2084
Min length	1

Characters and Unicode

Total characters	42084
Distinct characters	58
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2588 ?
Unique (%)	25.9%

Sample

1st row	10
2nd row	68601
3rd row	9
4th row	3
5th row	G

Value	Count	Frequency (%)
1	857	8.6%
2	715	7.1%
3	496	5.0%
4	348	3.5%
5	261	2.6%
0	212	2.1%
6	168	1.7%
9	151	1.5%
7	142	1.4%
10	112	1.1%
Other values (3180)	6538	65.4%

Most occurring characters

Value	Count	Frequency (%)
	15939	37.9%
0	5570	13.2%
1	4423	10.5%
2	3106	7.4%
3	2059	4.9%
4	1560	3.7%
5	1337	3.2%
6	1037	2.5%
9	943	2.2%
7	898	2.1%
Other values (48)	5212	12.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	21780	51.8%
Space Separator	15939	37.9%
Uppercase Letter	4266	10.1%
Currency Symbol	60	0.1%
Lowercase Letter	26	0.1%
Connector Punctuation	5	< 0.1%
Other Punctuation	5	< 0.1%
Other Letter	2	< 0.1%
Math Symbol	1	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
C	407	9.5%
A	390	9.1%
N	344	8.1%
R	319	7.5%
D	289	6.8%
B	278	6.5%
M	264	6.2%
H	222	5.2%
U	185	4.3%
X	180	4.2%
Other values (16)	1388	32.5%

Lowercase Letter

Value	Count	Frequency (%)
a	4	15.4%
c	4	15.4%
b	3	11.5%
i	3	11.5%
n	2	7.7%
r	2	7.7%
g	2	7.7%
p	1	3.8%
h	1	3.8%
m	1	3.8%
Other values (3)	3	11.5%

Decimal Number

Value	Count	Frequency (%)
0	5570	25.6%
1	4423	20.3%
2	3106	14.3%
3	2059	9.5%
4	1560	7.2%
5	1337	6.1%
6	1037	4.8%
9	943	4.3%
7	898	4.1%
8	847	3.9%

Other Punctuation

Value	Count	Frequency (%)
*	2	40.0%
#	2	40.0%
,	1	20.0%

Other Letter

Value	Count	Frequency (%)
동	1	50.0%
자	1	50.0%

Space Separator

Value	Count	Frequency (%)
	15939	100.0%

Currency Symbol

Value	Count	Frequency (%)
$	60	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	5	100.0%

Math Symbol

Value	Count	Frequency (%)
+	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	37790	89.8%
Latin	4292	10.2%
Hangul	2	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
C	407	9.5%
A	390	9.1%
N	344	8.0%
R	319	7.4%
D	289	6.7%
B	278	6.5%
M	264	6.2%
H	222	5.2%
U	185	4.3%
X	180	4.2%
Other values (29)	1414	32.9%

Common

Value	Count	Frequency (%)
	15939	42.2%
0	5570	14.7%
1	4423	11.7%
2	3106	8.2%
3	2059	5.4%
4	1560	4.1%
5	1337	3.5%
6	1037	2.7%
9	943	2.5%
7	898	2.4%
Other values (7)	918	2.4%

Hangul

Value	Count	Frequency (%)
동	1	50.0%
자	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	42082	> 99.9%
Hangul	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	15939	37.9%
0	5570	13.2%
1	4423	10.5%
2	3106	7.4%
3	2059	4.9%
4	1560	3.7%
5	1337	3.2%
6	1037	2.5%
9	943	2.2%
7	898	2.1%
Other values (46)	5210	12.4%

Hangul

Value	Count	Frequency (%)
동	1	50.0%
자	1	50.0%

코드명
Text

Distinct	7626
Distinct (%)	76.3%
Missing	4
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	118
Median length	105
Mean length	8.6283513
Min length	1

Characters and Unicode

Total characters	86249
Distinct characters	753
Distinct categories	16 ?
Distinct scripts	4 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	6715 ?
Unique (%)	67.2%

Sample

1st row	우편
2nd row	사용기간_19일반오류
3rd row	점검오류 9차
4th row	UNIX(대구지원2)
5th row	급여특정내역 or 급여연령

Value	Count	Frequency (%)
인사	304	1.9%
기타	213	1.3%
및	145	0.9%
등	73	0.5%
	68	0.4%
또는	68	0.4%
관련	58	0.4%
조정	58	0.4%
해당사항없음	57	0.4%
경우	56	0.4%
Other values (9103)	14873	93.1%

Most occurring characters

Value	Count	Frequency (%)
	5994	6.9%
_	1874	2.2%
기	1652	1.9%
사	1647	1.9%
료	1337	1.6%
의	1323	1.5%
정	1122	1.3%
원	1067	1.2%
)	1050	1.2%
(	1049	1.2%
Other values (743)	68134	79.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66518	77.1%
Space Separator	5994	6.9%
Decimal Number	3148	3.6%
Lowercase Letter	2642	3.1%
Uppercase Letter	2345	2.7%
Connector Punctuation	1874	2.2%
Close Punctuation	1103	1.3%
Open Punctuation	1102	1.3%
Other Punctuation	868	1.0%
Dash Punctuation	402	0.5%
Other values (6)	253	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	1652	2.5%
사	1647	2.5%
료	1337	2.0%
의	1323	2.0%
정	1122	1.7%
원	1067	1.6%
인	1025	1.5%
일	950	1.4%
수	874	1.3%
관	874	1.3%
Other values (639)	54647	82.2%

Lowercase Letter

Value	Count	Frequency (%)
e	279	10.6%
o	258	9.8%
i	233	8.8%
a	200	7.6%
r	194	7.3%
s	185	7.0%
n	173	6.5%
l	158	6.0%
t	156	5.9%
m	144	5.5%
Other values (18)	662	25.1%

Uppercase Letter

Value	Count	Frequency (%)
C	193	8.2%
T	183	7.8%
R	175	7.5%
I	175	7.5%
D	162	6.9%
A	147	6.3%
Z	133	5.7%
P	126	5.4%
E	125	5.3%
S	122	5.2%
Other values (16)	804	34.3%

Other Punctuation

Value	Count	Frequency (%)
,	381	43.9%
.	151	17.4%
/	101	11.6%
%	79	9.1%
:	57	6.6%
'	45	5.2%
·	39	4.5%
*	7	0.8%
&	5	0.6%
‰	1	0.1%
Other values (2)	2	0.2%

Decimal Number

Value	Count	Frequency (%)
1	710	22.6%
2	591	18.8%
0	587	18.6%
5	234	7.4%
3	224	7.1%
4	220	7.0%
8	182	5.8%
7	149	4.7%
6	135	4.3%
9	116	3.7%

Math Symbol

Value	Count	Frequency (%)
~	92	42.4%
+	44	20.3%
>	30	13.8%
<	21	9.7%
=	19	8.8%
↔	6	2.8%
×	4	1.8%
∼	1	0.5%

Letter Number

Value	Count	Frequency (%)
Ⅰ	10	41.7%
Ⅱ	9	37.5%
Ⅲ	2	8.3%
Ⅶ	1	4.2%
Ⅳ	1	4.2%
Ⅵ	1	4.2%

Close Punctuation

Value	Count	Frequency (%)
)	1050	95.2%
]	52	4.7%
』	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
(	1049	95.2%
[	52	4.7%
『	1	0.1%

Initial Punctuation

Value	Count	Frequency (%)
‘	3	75.0%
“	1	25.0%

Space Separator

Value	Count	Frequency (%)
	5994	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1874	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	402	100.0%

Modifier Symbol

Value	Count	Frequency (%)
^	4	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	3	100.0%

Currency Symbol

Value	Count	Frequency (%)
$	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66518	77.1%
Common	14720	17.1%
Latin	5008	5.8%
Greek	3	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	1652	2.5%
사	1647	2.5%
료	1337	2.0%
의	1323	2.0%
정	1122	1.7%
원	1067	1.6%
인	1025	1.5%
일	950	1.4%
수	874	1.3%
관	874	1.3%
Other values (639)	54647	82.2%

Latin

Value	Count	Frequency (%)
e	279	5.6%
o	258	5.2%
i	233	4.7%
a	200	4.0%
r	194	3.9%
C	193	3.9%
s	185	3.7%
T	183	3.7%
R	175	3.5%
I	175	3.5%
Other values (48)	2933	58.6%

Common

Value	Count	Frequency (%)
	5994	40.7%
_	1874	12.7%
)	1050	7.1%
(	1049	7.1%
1	710	4.8%
2	591	4.0%
0	587	4.0%
-	402	2.7%
,	381	2.6%
5	234	1.6%
Other values (34)	1848	12.6%

Greek

Value	Count	Frequency (%)
δ	2	66.7%
β	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66510	77.1%
ASCII	19644	22.8%
None	48	0.1%
Number Forms	24	< 0.1%
Compat Jamo	8	< 0.1%
Punctuation	8	< 0.1%
Arrows	6	< 0.1%
Math Operators	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	5994	30.5%
_	1874	9.5%
)	1050	5.3%
(	1049	5.3%
1	710	3.6%
2	591	3.0%
0	587	3.0%
-	402	2.0%
,	381	1.9%
e	279	1.4%
Other values (76)	6727	34.2%

Hangul

Value	Count	Frequency (%)
기	1652	2.5%
사	1647	2.5%
료	1337	2.0%
의	1323	2.0%
정	1122	1.7%
원	1067	1.6%
인	1025	1.5%
일	950	1.4%
수	874	1.3%
관	874	1.3%
Other values (636)	54639	82.2%

None

Value	Count	Frequency (%)
·	39	81.2%
×	4	8.3%
δ	2	4.2%
』	1	2.1%
『	1	2.1%
β	1	2.1%

Number Forms

Value	Count	Frequency (%)
Ⅰ	10	41.7%
Ⅱ	9	37.5%
Ⅲ	2	8.3%
Ⅶ	1	4.2%
Ⅳ	1	4.2%
Ⅵ	1	4.2%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	6	75.0%
ㄱ	1	12.5%
ㄴ	1	12.5%

Arrows

Value	Count	Frequency (%)
↔	6	100.0%

Punctuation

Value	Count	Frequency (%)
‘	3	37.5%
’	3	37.5%
“	1	12.5%
‰	1	12.5%

Math Operators

Value	Count	Frequency (%)
∼	1	100.0%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	코드유형	코드	코드명
11332	DUR_CVAPL_PRS_DIV_CD	10	우편
25071	PPR_REFM_ERR_CD	68601	사용기간_19일반오류
7655	CVAPL_APL_STAT_CD	9	점검오류 9차
8446	DATA_TRSMRCV_CD	3	UNIX(대구지원2)
23923	PAY_CND_TY_CD	G	급여특정내역 or 급여연령
28067	REGT_DTL_TP_CD	3	신설
33894	WK_STAT_CD	5	휴가
33028	TMCAT_PRS_PRG_STAT_CD	61	독립적검토 신청 접수
34046	WRC_ISUD_RLTN_CD	B8	처외조부
11896	EMY_RDP_TP_CD	11	외국인-소재확인자

	코드유형	코드	코드명
28202	REQ_PRS_RST_CD	40	접수중
23721	OVL_INFM_SVC_MGMT_RS_CD	20399	기타
18224	IX_CD	b3	정기검사 실시주기 충족률<INVST_CD=09>, 정신과 간호인력 1인당 1일 입원 환자수 <INVST_CD=07>
17979	INZ_TP_CD	5	전라권
5607	CLFY_CD	B3	임시직(주 30시간 이상)
31705	SRCH_TP_CD	4	기관소개
5594	CLFY_CD	B13	정규직 단시간(주 36~40시간 미만)
7752	CVAPL_DATA_CHG_TY_CD	12	핸드폰번호
31828	SRCMT_SPC_FLD_CD	10803	종양_간
31788	SRCMT_DTL_SBJT_CD	2300	가정의학과

Most frequently occurring

	코드유형	코드	코드명	# duplicates
0	ANCE_DESC_CD	1	본인일부	2
1	ANCE_DESC_CD	2	100/100	2
2	MDIV_DSTR_CD	141	성남 광주 하남	2
3	MDIV_DSTR_CD	202	양구군 인제군	2
4	MDIV_DSTR_CD	204	삼척시 동해시	2
5	MDIV_DSTR_CD	304	진천군	2
6	MDIV_DSTR_CD	307	충주시	2
7	MDIV_DSTR_CD	308	제천시	2
8	MDIV_DSTR_CD	414	아산시	2
9	MDIV_DSTR_CD	424	연기군	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Connector Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Other Letter

Space Separator

Currency Symbol

Connector Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Letter Number

Close Punctuation

Open Punctuation

Initial Punctuation

Space Separator

Connector Punctuation

Dash Punctuation

Modifier Symbol

Final Punctuation

Currency Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Greek

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Number Forms

Compat Jamo

Arrows

Punctuation

Math Operators

Missing values

Sample

Duplicate rows

Most frequently occurring