gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	625.0 KiB
Average record size in memory	64.0 B

Variable types

Text	6
Categorical	1

Dataset

Description	국가인재원 도서관 소장 도서 목록(24.1.29.기준)입니다.(연번,서명,저자,발행처,발행연도,등록번호,청구기호,구분)총 34,690권입니다. (일반 27,670 / 원내 발간 6,265 / 비도서 755)상세 내용은 "nhi.go.kr/lib"에서 알아보실 수 있습니다.
Author	인사혁신처
URL	https://www.data.go.kr/data/15083411/fileData.do

Alerts

등록번호 has unique values Unique

Reproduction

Analysis started	2024-03-14 21:14:57.429237
Analysis finished	2024-03-14 21:15:01.801378
Duration	4.37 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

서명
Text

Distinct	9116
Distinct (%)	91.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	118
Median length	66
Mean length	13.3445
Min length	1

Characters and Unicode

Total characters	133445
Distinct characters	1501
Distinct categories	13 ?
Distinct scripts	4 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8752 ?
Unique (%)	87.5%

Sample

1st row	한국민족문화대백과사전 14
2nd row	인문융합역량 향상과정 v.22
3rd row	실낙원
4th row	1분만에 변신하고 평생 변화하라!
5th row	1등은 당신처럼 SNS 하지 않는다

Value	Count	Frequency (%)
연구	260	0.8%
위한	237	0.8%
사례	232	0.8%
관한	162	0.5%
및	155	0.5%
2	108	0.4%
이야기	104	0.3%
나는	96	0.3%
1	90	0.3%
	86	0.3%
Other values (14999)	29117	95.0%

Most occurring characters

Value	Count	Frequency (%)
	20719	15.5%
의	2936	2.2%
정	2137	1.6%
(	1866	1.4%
)	1866	1.4%
사	1835	1.4%
기	1652	1.2%
이	1636	1.2%
한	1525	1.1%
과	1488	1.1%
Other values (1491)	95785	71.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	95575	71.6%
Space Separator	20719	15.5%
Decimal Number	5392	4.0%
Lowercase Letter	3766	2.8%
Uppercase Letter	2007	1.5%
Open Punctuation	1883	1.4%
Close Punctuation	1883	1.4%
Other Punctuation	1723	1.3%
Dash Punctuation	335	0.3%
Letter Number	110	0.1%
Other values (3)	52	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	2936	3.1%
정	2137	2.2%
사	1835	1.9%
기	1652	1.7%
이	1636	1.7%
한	1525	1.6%
과	1488	1.6%
제	1423	1.5%
리	1415	1.5%
는	1323	1.4%
Other values (1388)	78205	81.8%

Lowercase Letter

Value	Count	Frequency (%)
e	449	11.9%
v	377	10.0%
i	305	8.1%
n	291	7.7%
a	286	7.6%
o	273	7.2%
r	254	6.7%
t	237	6.3%
s	208	5.5%
c	183	4.9%
Other values (16)	903	24.0%

Uppercase Letter

Value	Count	Frequency (%)
S	197	9.8%
E	185	9.2%
T	165	8.2%
C	160	8.0%
D	136	6.8%
B	133	6.6%
I	118	5.9%
R	117	5.8%
H	104	5.2%
O	98	4.9%
Other values (16)	594	29.6%

Other Punctuation

Value	Count	Frequency (%)
.	656	38.1%
,	482	28.0%
:	209	12.1%
?	99	5.7%
·	97	5.6%
!	69	4.0%
/	33	1.9%
'	29	1.7%
&	28	1.6%
%	12	0.7%
Other values (5)	9	0.5%

Decimal Number

Value	Count	Frequency (%)
1	1192	22.1%
2	1042	19.3%
0	901	16.7%
3	464	8.6%
5	445	8.3%
4	316	5.9%
9	290	5.4%
6	288	5.3%
7	259	4.8%
8	195	3.6%

Letter Number

Value	Count	Frequency (%)
Ⅱ	48	43.6%
Ⅰ	43	39.1%
Ⅲ	10	9.1%
Ⅳ	3	2.7%
Ⅴ	2	1.8%
Ⅶ	2	1.8%
Ⅵ	1	0.9%
ⅱ	1	0.9%

Math Symbol

Value	Count	Frequency (%)
=	20	42.6%
~	13	27.7%
>	5	10.6%
<	5	10.6%
+	4	8.5%

Open Punctuation

Value	Count	Frequency (%)
(	1866	99.1%
[	7	0.4%
「	6	0.3%
『	4	0.2%

Close Punctuation

Value	Count	Frequency (%)
)	1866	99.1%
]	7	0.4%
」	6	0.3%
』	4	0.2%

Other Symbol

Value	Count	Frequency (%)
│	3	75.0%
℃	1	25.0%

Space Separator

Value	Count	Frequency (%)
	20719	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	335	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	94695	71.0%
Common	31987	24.0%
Latin	5883	4.4%
Han	880	0.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	2936	3.1%
정	2137	2.3%
사	1835	1.9%
기	1652	1.7%
이	1636	1.7%
한	1525	1.6%
과	1488	1.6%
제	1423	1.5%
리	1415	1.5%
는	1323	1.4%
Other values (1079)	77325	81.7%

Han

Value	Count	Frequency (%)
國	36	4.1%
大	30	3.4%
韓	27	3.1%
政	21	2.4%
法	20	2.3%
民	18	2.0%
集	16	1.8%
史	16	1.8%
律	14	1.6%
沿	14	1.6%
Other values (299)	668	75.9%

Latin

Value	Count	Frequency (%)
e	449	7.6%
v	377	6.4%
i	305	5.2%
n	291	4.9%
a	286	4.9%
o	273	4.6%
r	254	4.3%
t	237	4.0%
s	208	3.5%
S	197	3.3%
Other values (50)	3006	51.1%

Common

Value	Count	Frequency (%)
	20719	64.8%
(	1866	5.8%
)	1866	5.8%
1	1192	3.7%
2	1042	3.3%
0	901	2.8%
.	656	2.1%
,	482	1.5%
3	464	1.5%
5	445	1.4%
Other values (33)	2354	7.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	94695	71.0%
ASCII	37633	28.2%
CJK	860	0.6%
None	123	0.1%
Number Forms	110	0.1%
CJK Compat Ideographs	20	< 0.1%
Box Drawing	3	< 0.1%
Letterlike Symbols	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	20719	55.1%
(	1866	5.0%
)	1866	5.0%
1	1192	3.2%
2	1042	2.8%
0	901	2.4%
.	656	1.7%
,	482	1.3%
3	464	1.2%
e	449	1.2%
Other values (75)	7996	21.2%

Hangul

Value	Count	Frequency (%)
의	2936	3.1%
정	2137	2.3%
사	1835	1.9%
기	1652	1.7%
이	1636	1.7%
한	1525	1.6%
과	1488	1.6%
제	1423	1.5%
리	1415	1.5%
는	1323	1.4%
Other values (1079)	77325	81.7%

None

Value	Count	Frequency (%)
·	97	78.9%
「	6	4.9%
」	6	4.9%
『	4	3.3%
』	4	3.3%
？	3	2.4%
＆	2	1.6%
／	1	0.8%

Number Forms

Value	Count	Frequency (%)
Ⅱ	48	43.6%
Ⅰ	43	39.1%
Ⅲ	10	9.1%
Ⅳ	3	2.7%
Ⅴ	2	1.8%
Ⅶ	2	1.8%
Ⅵ	1	0.9%
ⅱ	1	0.9%

CJK

Value	Count	Frequency (%)
國	36	4.2%
大	30	3.5%
韓	27	3.1%
政	21	2.4%
法	20	2.3%
民	18	2.1%
集	16	1.9%
史	16	1.9%
律	14	1.6%
沿	14	1.6%
Other values (288)	648	75.3%

CJK Compat Ideographs

Value	Count	Frequency (%)
列	5	25.0%
歷	4	20.0%
老	2	10.0%
理	2	10.0%
女	1	5.0%
臨	1	5.0%
論	1	5.0%
勞	1	5.0%
宅	1	5.0%
林	1	5.0%

Box Drawing

Value	Count	Frequency (%)
│	3	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
℃	1	100.0%

저자
Text

Distinct	6119
Distinct (%)	61.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	67
Median length	46
Mean length	5.8896
Min length	1

Characters and Unicode

Total characters	58896
Distinct characters	977
Distinct categories	10 ?
Distinct scripts	7 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	5117 ?
Unique (%)	51.2%

Sample

1st row	한국정신문화연구원
2nd row	국가공무원인재개발원
3rd row	밀턴, 존
4th row	건설교통부
5th row	정진수

Value	Count	Frequency (%)
중앙공무원교육원	1118	8.5%
국가공무원인재개발원	294	2.2%
한국행정연구원	116	0.9%
이비에스	85	0.6%
편	77	0.6%
한국행정학회	59	0.4%
존	48	0.4%
총무처	40	0.3%
신임관리자과정	37	0.3%
데이비드	34	0.3%
Other values (7146)	11228	85.5%

Most occurring characters

Value	Count	Frequency (%)
원	3553	6.0%
	3136	5.3%
,	1903	3.2%
무	1602	2.7%
공	1531	2.6%
이	1379	2.3%
교	1284	2.2%
중	1228	2.1%
육	1207	2.0%
앙	1184	2.0%
Other values (967)	40889	69.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	49384	83.8%
Space Separator	3136	5.3%
Lowercase Letter	2875	4.9%
Other Punctuation	2029	3.4%
Uppercase Letter	998	1.7%
Decimal Number	271	0.5%
Close Punctuation	90	0.2%
Open Punctuation	90	0.2%
Dash Punctuation	19	< 0.1%
Math Symbol	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
원	3553	7.2%
무	1602	3.2%
공	1531	3.1%
이	1379	2.8%
교	1284	2.6%
중	1228	2.5%
육	1207	2.4%
앙	1184	2.4%
정	962	1.9%
스	914	1.9%
Other values (871)	34540	69.9%

Lowercase Letter

Value	Count	Frequency (%)
e	344	12.0%
a	324	11.3%
n	268	9.3%
i	230	8.0%
r	224	7.8%
l	189	6.6%
o	184	6.4%
s	147	5.1%
t	144	5.0%
h	98	3.4%
Other values (35)	723	25.1%

Uppercase Letter

Value	Count	Frequency (%)
M	80	8.0%
S	76	7.6%
B	74	7.4%
D	73	7.3%
J	70	7.0%
C	65	6.5%
R	60	6.0%
K	57	5.7%
A	55	5.5%
E	50	5.0%
Other values (16)	338	33.9%

Decimal Number

Value	Count	Frequency (%)
1	57	21.0%
4	44	16.2%
2	39	14.4%
5	37	13.7%
9	25	9.2%
8	18	6.6%
0	16	5.9%
7	14	5.2%
3	13	4.8%
6	8	3.0%

Other Punctuation

Value	Count	Frequency (%)
,	1903	93.8%
.	110	5.4%
·	7	0.3%
'	5	0.2%
?	2	0.1%
&	1	< 0.1%
？	1	< 0.1%

Close Punctuation

Value	Count	Frequency (%)
]	82	91.1%
)	8	8.9%

Open Punctuation

Value	Count	Frequency (%)
[	82	91.1%
(	8	8.9%

Math Symbol

Value	Count	Frequency (%)
<	2	50.0%
>	2	50.0%

Space Separator

Value	Count	Frequency (%)
	3136	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	19	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	49112	83.4%
Common	5639	9.6%
Latin	3819	6.5%
Han	254	0.4%
Cyrillic	54	0.1%
Katakana	14	< 0.1%
Hiragana	4	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
원	3553	7.2%
무	1602	3.3%
공	1531	3.1%
이	1379	2.8%
교	1284	2.6%
중	1228	2.5%
육	1207	2.5%
앙	1184	2.4%
정	962	2.0%
스	914	1.9%
Other values (756)	34268	69.8%

Han

Value	Count	Frequency (%)
院	16	6.3%
硏	15	5.9%
務	11	4.3%
部	8	3.1%
修	8	3.1%
行	8	3.1%
政	8	3.1%
究	7	2.8%
國	7	2.8%
地	6	2.4%
Other values (94)	160	63.0%

Latin

Value	Count	Frequency (%)
e	344	9.0%
a	324	8.5%
n	268	7.0%
i	230	6.0%
r	224	5.9%
l	189	4.9%
o	184	4.8%
s	147	3.8%
t	144	3.8%
h	98	2.6%
Other values (40)	1667	43.7%

Common

Value	Count	Frequency (%)
	3136	55.6%
,	1903	33.7%
.	110	2.0%
]	82	1.5%
[	82	1.5%
1	57	1.0%
4	44	0.8%
2	39	0.7%
5	37	0.7%
9	25	0.4%
Other values (15)	124	2.2%

Cyrillic

Value	Count	Frequency (%)
о	9	16.7%
а	6	11.1%
т	5	9.3%
к	4	7.4%
р	4	7.4%
и	4	7.4%
в	3	5.6%
д	3	5.6%
е	2	3.7%
н	2	3.7%
Other values (11)	12	22.2%

Katakana

Value	Count	Frequency (%)
オ	2	14.3%
ロ	2	14.3%
グ	2	14.3%
シ	2	14.3%
イ	2	14.3%
ズ	2	14.3%
カ	2	14.3%

Hiragana

Value	Count	Frequency (%)
つ	1	25.0%
じ	1	25.0%
め	1	25.0%
ゆ	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	49111	83.4%
ASCII	9450	16.0%
CJK	248	0.4%
Cyrillic	54	0.1%
Katakana	14	< 0.1%
None	8	< 0.1%
CJK Compat Ideographs	6	< 0.1%
Hiragana	4	< 0.1%
Compat Jamo	1	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
원	3553	7.2%
무	1602	3.3%
공	1531	3.1%
이	1379	2.8%
교	1284	2.6%
중	1228	2.5%
육	1207	2.5%
앙	1184	2.4%
정	962	2.0%
스	914	1.9%
Other values (755)	34267	69.8%

ASCII

Value	Count	Frequency (%)
	3136	33.2%
,	1903	20.1%
e	344	3.6%
a	324	3.4%
n	268	2.8%
i	230	2.4%
r	224	2.4%
l	189	2.0%
o	184	1.9%
s	147	1.6%
Other values (63)	2501	26.5%

CJK

Value	Count	Frequency (%)
院	16	6.5%
硏	15	6.0%
務	11	4.4%
部	8	3.2%
修	8	3.2%
行	8	3.2%
政	8	3.2%
究	7	2.8%
國	7	2.8%
地	6	2.4%
Other values (89)	154	62.1%

Cyrillic

Value	Count	Frequency (%)
о	9	16.7%
а	6	11.1%
т	5	9.3%
к	4	7.4%
р	4	7.4%
и	4	7.4%
в	3	5.6%
д	3	5.6%
е	2	3.7%
н	2	3.7%
Other values (11)	12	22.2%

None

Value	Count	Frequency (%)
·	7	87.5%
？	1	12.5%

Katakana

Value	Count	Frequency (%)
オ	2	14.3%
ロ	2	14.3%
グ	2	14.3%
シ	2	14.3%
イ	2	14.3%
ズ	2	14.3%
カ	2	14.3%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	2	33.3%
沈	1	16.7%
林	1	16.7%
聯	1	16.7%
凌	1	16.7%

Hiragana

Value	Count	Frequency (%)
つ	1	25.0%
じ	1	25.0%
め	1	25.0%
ゆ	1	25.0%

Compat Jamo

Value	Count	Frequency (%)
ㅈ	1	100.0%

발행처
Text

Distinct	2539
Distinct (%)	25.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	34
Median length	28
Mean length	5.5644
Min length	1

Characters and Unicode

Total characters	55644
Distinct characters	771
Distinct categories	9 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1507 ?
Unique (%)	15.1%

Sample

1st row	한국정신문화연구원
2nd row	국가공무원인재개발원
3rd row	문학동네
4th row	건설교통부
5th row	나비의활주로

Value	Count	Frequency (%)
중앙공무원교육원	1454	13.9%
국가공무원인재개발원	297	2.8%
한국행정연구원	197	1.9%
김영사	137	1.3%
문학동네	134	1.3%
21세기북스	94	0.9%
위즈덤하우스	90	0.9%
민음사	89	0.9%
열린책들	67	0.6%
한국행정학회	63	0.6%
Other values (2591)	7830	74.9%

Most occurring characters

Value	Count	Frequency (%)
원	4340	7.8%
무	2019	3.6%
공	1891	3.4%
교	1762	3.2%
사	1721	3.1%
육	1618	2.9%
중	1591	2.9%
앙	1579	2.8%
스	1331	2.4%
국	1132	2.0%
Other values (761)	36660	65.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	52119	93.7%
Uppercase Letter	1123	2.0%
Lowercase Letter	1006	1.8%
Space Separator	452	0.8%
Decimal Number	318	0.6%
Open Punctuation	242	0.4%
Close Punctuation	242	0.4%
Other Punctuation	116	0.2%
Dash Punctuation	26	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
원	4340	8.3%
무	2019	3.9%
공	1891	3.6%
교	1762	3.4%
사	1721	3.3%
육	1618	3.1%
중	1591	3.1%
앙	1579	3.0%
스	1331	2.6%
국	1132	2.2%
Other values (690)	33135	63.6%

Uppercase Letter

Value	Count	Frequency (%)
B	186	16.6%
S	139	12.4%
K	115	10.2%
E	99	8.8%
R	82	7.3%
H	72	6.4%
M	66	5.9%
A	45	4.0%
O	43	3.8%
C	41	3.7%
Other values (15)	235	20.9%

Lowercase Letter

Value	Count	Frequency (%)
o	152	15.1%
e	105	10.4%
s	92	9.1%
a	88	8.7%
n	71	7.1%
r	68	6.8%
i	67	6.7%
t	51	5.1%
k	47	4.7%
l	45	4.5%
Other values (14)	220	21.9%

Decimal Number

Value	Count	Frequency (%)
2	149	46.9%
1	142	44.7%
0	8	2.5%
3	7	2.2%
5	4	1.3%
8	4	1.3%
6	2	0.6%
7	2	0.6%

Other Punctuation

Value	Count	Frequency (%)
,	58	50.0%
&	20	17.2%
:	13	11.2%
.	11	9.5%
＆	8	6.9%
·	2	1.7%
/	2	1.7%
@	2	1.7%

Open Punctuation

Value	Count	Frequency (%)
(	233	96.3%
[	9	3.7%

Close Punctuation

Value	Count	Frequency (%)
)	233	96.3%
]	9	3.7%

Space Separator

Value	Count	Frequency (%)
	452	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	26	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	51844	93.2%
Latin	2129	3.8%
Common	1396	2.5%
Han	275	0.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
원	4340	8.4%
무	2019	3.9%
공	1891	3.6%
교	1762	3.4%
사	1721	3.3%
육	1618	3.1%
중	1591	3.1%
앙	1579	3.0%
스	1331	2.6%
국	1132	2.2%
Other values (602)	32860	63.4%

Han

Value	Count	Frequency (%)
社	26	9.5%
文	15	5.5%
院	12	4.4%
英	11	4.0%
務	10	3.6%
硏	10	3.6%
行	9	3.3%
政	9	3.3%
部	8	2.9%
修	8	2.9%
Other values (78)	157	57.1%

Latin

Value	Count	Frequency (%)
B	186	8.7%
o	152	7.1%
S	139	6.5%
K	115	5.4%
e	105	4.9%
E	99	4.7%
s	92	4.3%
a	88	4.1%
R	82	3.9%
H	72	3.4%
Other values (39)	999	46.9%

Common

Value	Count	Frequency (%)
	452	32.4%
(	233	16.7%
)	233	16.7%
2	149	10.7%
1	142	10.2%
,	58	4.2%
-	26	1.9%
&	20	1.4%
:	13	0.9%
.	11	0.8%
Other values (12)	59	4.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	51844	93.2%
ASCII	3515	6.3%
CJK	273	0.5%
None	10	< 0.1%
CJK Compat Ideographs	2	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
원	4340	8.4%
무	2019	3.9%
공	1891	3.6%
교	1762	3.4%
사	1721	3.3%
육	1618	3.1%
중	1591	3.1%
앙	1579	3.0%
스	1331	2.6%
국	1132	2.2%
Other values (602)	32860	63.4%

ASCII

Value	Count	Frequency (%)
	452	12.9%
(	233	6.6%
)	233	6.6%
B	186	5.3%
o	152	4.3%
2	149	4.2%
1	142	4.0%
S	139	4.0%
K	115	3.3%
e	105	3.0%
Other values (59)	1609	45.8%

CJK

Value	Count	Frequency (%)
社	26	9.5%
文	15	5.5%
院	12	4.4%
英	11	4.0%
務	10	3.7%
硏	10	3.7%
行	9	3.3%
政	9	3.3%
部	8	2.9%
修	8	2.9%
Other values (76)	155	56.8%

None

Value	Count	Frequency (%)
＆	8	80.0%
·	2	20.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
利	1	50.0%
聯	1	50.0%

발행연도
Text

Distinct	113
Distinct (%)	1.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	4
Mean length	4.033
Min length	4

Characters and Unicode

Total characters	40330
Distinct characters	24
Distinct categories	7 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	43 ?
Unique (%)	0.4%

Sample

1st row	1990
2nd row	2023
3rd row	2010
4th row	2005
5th row	2022

Value	Count	Frequency (%)
2008	720	7.2%
2012	606	6.1%
2007	558	5.6%
2018	543	5.4%
2006	504	5.0%
2003	428	4.3%
2001	425	4.2%
2002	385	3.8%
2020	371	3.7%
2021	349	3.5%
Other values (88)	5113	51.1%

Most occurring characters

Value	Count	Frequency (%)
0	13850	34.3%
2	11185	27.7%
1	5905	14.6%
9	3138	7.8%
8	1703	4.2%
7	1078	2.7%
3	985	2.4%
6	910	2.3%
5	709	1.8%
4	659	1.6%
Other values (14)	208	0.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	40122	99.5%
Dash Punctuation	153	0.4%
Other Letter	41	0.1%
Lowercase Letter	4	< 0.1%
Close Punctuation	4	< 0.1%
Open Punctuation	3	< 0.1%
Space Separator	3	< 0.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	13850	34.5%
2	11185	27.9%
1	5905	14.7%
9	3138	7.8%
8	1703	4.2%
7	1078	2.7%
3	985	2.5%
6	910	2.3%
5	709	1.8%
4	659	1.6%

Other Letter

Value	Count	Frequency (%)
불	10	24.4%
가	9	22.0%
인	9	22.0%
확	9	22.0%
발	1	2.4%
행	1	2.4%
년	1	2.4%
명	1	2.4%

Close Punctuation

Value	Count	Frequency (%)
]	3	75.0%
》	1	25.0%

Dash Punctuation

Value	Count	Frequency (%)
-	153	100.0%

Lowercase Letter

Value	Count	Frequency (%)
c	4	100.0%

Open Punctuation

Value	Count	Frequency (%)
[	3	100.0%

Space Separator

Value	Count	Frequency (%)
	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	40285	99.9%
Hangul	41	0.1%
Latin	4	< 0.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	13850	34.4%
2	11185	27.8%
1	5905	14.7%
9	3138	7.8%
8	1703	4.2%
7	1078	2.7%
3	985	2.4%
6	910	2.3%
5	709	1.8%
4	659	1.6%
Other values (5)	163	0.4%

Hangul

Value	Count	Frequency (%)
불	10	24.4%
가	9	22.0%
인	9	22.0%
확	9	22.0%
발	1	2.4%
행	1	2.4%
년	1	2.4%
명	1	2.4%

Latin

Value	Count	Frequency (%)
c	4	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	40288	99.9%
Hangul	41	0.1%
None	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	13850	34.4%
2	11185	27.8%
1	5905	14.7%
9	3138	7.8%
8	1703	4.2%
7	1078	2.7%
3	985	2.4%
6	910	2.3%
5	709	1.8%
4	659	1.6%
Other values (5)	166	0.4%

Hangul

Value	Count	Frequency (%)
불	10	24.4%
가	9	22.0%
인	9	22.0%
확	9	22.0%
발	1	2.4%
행	1	2.4%
년	1	2.4%
명	1	2.4%

None

Value	Count	Frequency (%)
》	1	100.0%

등록번호
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	15
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	CEM019594
2nd row	CCM006573
3rd row	CEM042841
4th row	CEM032596
5th row	CEM052794

Value	Count	Frequency (%)
cem019594	1	< 0.1%
cem031738	1	< 0.1%
cem038838	1	< 0.1%
cem049362	1	< 0.1%
cem040423	1	< 0.1%
cem041112	1	< 0.1%
cem053735	1	< 0.1%
cem030015	1	< 0.1%
cem037128	1	< 0.1%
cem027616	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
0	16641	18.5%
C	11750	13.1%
M	10000	11.1%
E	7995	8.9%
4	6774	7.5%
3	6697	7.4%
2	5289	5.9%
5	4815	5.3%
1	4365	4.9%
6	3999	4.4%
Other values (5)	11675	13.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	60000	66.7%
Uppercase Letter	30000	33.3%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	16641	27.7%
4	6774	11.3%
3	6697	11.2%
2	5289	8.8%
5	4815	8.0%
1	4365	7.3%
6	3999	6.7%
7	3873	6.5%
8	3843	6.4%
9	3704	6.2%

Uppercase Letter

Value	Count	Frequency (%)
C	11750	39.2%
M	10000	33.3%
E	7995	26.7%
D	221	0.7%
W	34	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	60000	66.7%
Latin	30000	33.3%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	16641	27.7%
4	6774	11.3%
3	6697	11.2%
2	5289	8.8%
5	4815	8.0%
1	4365	7.3%
6	3999	6.7%
7	3873	6.5%
8	3843	6.4%
9	3704	6.2%

Latin

Value	Count	Frequency (%)
C	11750	39.2%
M	10000	33.3%
E	7995	26.7%
D	221	0.7%
W	34	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	16641	18.5%
C	11750	13.1%
M	10000	11.1%
E	7995	8.9%
4	6774	7.5%
3	6697	7.4%
2	5289	5.9%
5	4815	5.3%
1	4365	4.9%
6	3999	4.4%
Other values (5)	11675	13.0%

청구기호
Text

Distinct	9772
Distinct (%)	97.7%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	31
Median length	27
Mean length	13.9855
Min length	7

Characters and Unicode

Total characters	139855
Distinct characters	560
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9615 ?
Unique (%)	96.2%

Sample

1st row	RE 031 한17ㅎ V.14
2nd row	전문 350.07 11 v.22
3rd row	N 841 밀884ㅅ
4th row	혁신 350.261 건53ㅇ
5th row	325.555 정78ㅇ

Value	Count	Frequency (%)
350.21991	523	1.9%
v.2	475	1.7%
350.1	465	1.7%
ci	464	1.7%
v.1	427	1.5%
정책	402	1.4%
중61	361	1.3%
813.6	336	1.2%
중61ㄱ	274	1.0%
813.7	272	1.0%
Other values (9229)	23752	85.6%

Most occurring characters

Value	Count	Frequency (%)
	17751	12.7%
1	13310	9.5%
.	11682	8.4%
3	11323	8.1%
2	9638	6.9%
5	8147	5.8%
0	7650	5.5%
9	7093	5.1%
8	6694	4.8%
6	6068	4.3%
Other values (550)	40499	29.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80676	57.7%
Other Letter	21364	15.3%
Space Separator	17751	12.7%
Other Punctuation	11685	8.4%
Uppercase Letter	3956	2.8%
Lowercase Letter	2510	1.8%
Dash Punctuation	1722	1.2%
Close Punctuation	93	0.1%
Open Punctuation	93	0.1%
Letter Number	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
ㅇ	1716	8.0%
ㄱ	1301	6.1%
중	1199	5.6%
ㅅ	1158	5.4%
ㅈ	946	4.4%
ㅎ	894	4.2%
김	869	4.1%
이	811	3.8%
정	711	3.3%
한	599	2.8%
Other values (487)	11160	52.2%

Uppercase Letter

Value	Count	Frequency (%)
V	1293	32.7%
C	757	19.1%
I	468	11.8%
T	292	7.4%
N	222	5.6%
A	179	4.5%
D	159	4.0%
P	117	3.0%
G	115	2.9%
M	110	2.8%
Other values (11)	244	6.2%

Lowercase Letter

Value	Count	Frequency (%)
v	1769	70.5%
c	643	25.6%
e	18	0.7%
a	14	0.6%
p	11	0.4%
t	7	0.3%
o	7	0.3%
m	6	0.2%
d	6	0.2%
i	5	0.2%
Other values (10)	24	1.0%

Decimal Number

Value	Count	Frequency (%)
1	13310	16.5%
3	11323	14.0%
2	9638	11.9%
5	8147	10.1%
0	7650	9.5%
9	7093	8.8%
8	6694	8.3%
6	6068	7.5%
7	5485	6.8%
4	5268	6.5%

Other Punctuation

Value	Count	Frequency (%)
.	11682	> 99.9%
,	1	< 0.1%
\	1	< 0.1%
'	1	< 0.1%

Close Punctuation

Value	Count	Frequency (%)
)	92	98.9%
]	1	1.1%

Open Punctuation

Value	Count	Frequency (%)
(	92	98.9%
[	1	1.1%

Letter Number

Value	Count	Frequency (%)
Ⅰ	3	60.0%
Ⅱ	2	40.0%

Space Separator

Value	Count	Frequency (%)
	17751	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1722	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	112020	80.1%
Hangul	21364	15.3%
Latin	6471	4.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
ㅇ	1716	8.0%
ㄱ	1301	6.1%
중	1199	5.6%
ㅅ	1158	5.4%
ㅈ	946	4.4%
ㅎ	894	4.2%
김	869	4.1%
이	811	3.8%
정	711	3.3%
한	599	2.8%
Other values (487)	11160	52.2%

Latin

Value	Count	Frequency (%)
v	1769	27.3%
V	1293	20.0%
C	757	11.7%
c	643	9.9%
I	468	7.2%
T	292	4.5%
N	222	3.4%
A	179	2.8%
D	159	2.5%
P	117	1.8%
Other values (33)	572	8.8%

Common

Value	Count	Frequency (%)
	17751	15.8%
1	13310	11.9%
.	11682	10.4%
3	11323	10.1%
2	9638	8.6%
5	8147	7.3%
0	7650	6.8%
9	7093	6.3%
8	6694	6.0%
6	6068	5.4%
Other values (10)	12664	11.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	118486	84.7%
Hangul	12328	8.8%
Compat Jamo	9036	6.5%
Number Forms	5	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	17751	15.0%
1	13310	11.2%
.	11682	9.9%
3	11323	9.6%
2	9638	8.1%
5	8147	6.9%
0	7650	6.5%
9	7093	6.0%
8	6694	5.6%
6	6068	5.1%
Other values (51)	19130	16.1%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	1716	19.0%
ㄱ	1301	14.4%
ㅅ	1158	12.8%
ㅈ	946	10.5%
ㅎ	894	9.9%
ㄷ	536	5.9%
ㅁ	521	5.8%
ㄴ	469	5.2%
ㅂ	459	5.1%
ㅊ	332	3.7%
Other values (9)	704	7.8%

Hangul

Value	Count	Frequency (%)
중	1199	9.7%
김	869	7.0%
이	811	6.6%
정	711	5.8%
한	599	4.9%
책	437	3.5%
신	353	2.9%
박	320	2.6%
전	276	2.2%
임	236	1.9%
Other values (468)	6517	52.9%

Number Forms

Value	Count	Frequency (%)
Ⅰ	3	60.0%
Ⅱ	2	40.0%

구분
Categorical

Distinct	3
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

일반도서	8027
원내발간	1752
비도서	221

Length

Max length	4
Median length	4
Mean length	3.9779
Min length	3

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	일반도서
2nd row	원내발간
3rd row	일반도서
4th row	일반도서
5th row	일반도서

Common Values

Value	Count	Frequency (%)
일반도서	8027	80.3%
원내발간	1752	17.5%
비도서	221	2.2%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
일반도서	8027	80.3%
원내발간	1752	17.5%
비도서	221	2.2%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	서명	저자	발행처	발행연도	등록번호	청구기호	구분
2006	한국민족문화대백과사전 14	한국정신문화연구원	한국정신문화연구원	1990	CEM019594	RE 031 한17ㅎ V.14	일반도서
33908	인문융합역량 향상과정 v.22	국가공무원인재개발원	국가공무원인재개발원	2023	CCM006573	전문 350.07 11 v.22	원내발간
17336	실낙원	밀턴, 존	문학동네	2010	CEM042841	N 841 밀884ㅅ	일반도서
7753	1분만에 변신하고 평생 변화하라!	건설교통부	건설교통부	2005	CEM032596	혁신 350.261 건53ㅇ	일반도서
26416	1등은 당신처럼 SNS 하지 않는다	정진수	나비의활주로	2022	CEM052794	325.555 정78ㅇ	일반도서
16973	거의 모든 사생활의 역사	브라이슨, 빌	까치글방	2011	CEM042475	N 595.09 브292ㄱ	일반도서
19897	사랑을 쓰다, 그리다, 그리워하다	이상	루이앤휴잇	2016	CEM045411	816.7 이52ㅅ	일반도서
1395	동유럽 민박여행(1)	서길수	한우리	1990	CEM012291	980.24 서19ㄷ V.1	일반도서
11256	그림에, 마음을 놓다	이주은	앨리스	2008	CEM036616	650.4 이77ㄱ	일반도서
33506	적극행정 실천과정 v.1	국가공무원인재개발원	국가공무원인재개발원	2020	CCM006151	전문 350.07 39 v.1	원내발간

	서명	저자	발행처	발행연도	등록번호	청구기호	구분
26195	능소화 부럽구나	목영만	책문	2019	CEM052573	143.5 목64ㄴ	일반도서
3415	위대한 대통령은 무엇이 다른가	그린슈타인,프레드	위즈덤하우스	2001	CEM026925	350.21 그239ㅇ김	일반도서
11981	빌 클린턴의 마이 라이프	클린턴, 월리엄 제퍼슨	물푸레	2004	CEM037365	340.99 정64ㅂ	일반도서
24144	미움, 우정, 구애, 사랑, 결혼	먼로, 앨리스	웅진지식하우스	2020	CEM049664	843 먼295ㅁ	일반도서
1400	남의 문화유산 답사기 1	전유성	가서원	1997	CEM012297	980.24 전67ㄴ V.1	일반도서
11341	(엇갈리는 사랑을 이어주는)사랑의 테라피	클레멘트, 도린	꽃삽	2008	CEM036706	859.3 클233ㅅ	일반도서
13970	부자 통장	박종기	청림	2011	CEM039427	327.04 박75ㅂ	일반도서
16829	거짓의 미술관	이자우, 랄프	비룡소	2011	CEM042321	853 이72ㄱ v.1	일반도서
16965	1만 시간의 법칙	이상훈	위즈덤하우스	2010	CEM042467	N 325.211 이52ㅇ	일반도서
17736	2030 에너지전쟁	예긴, 대니얼	올(사피엔스21)	2013	CEM043242	321.3 예18ㅇ	일반도서

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Letter Number

Math Symbol

Open Punctuation

Close Punctuation

Other Symbol

Space Separator

Dash Punctuation

Modifier Symbol

Most occurring scripts

Most frequent character per script

Hangul

Han

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Number Forms

CJK

CJK Compat Ideographs

Box Drawing

Letterlike Symbols

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Close Punctuation

Open Punctuation

Math Symbol

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Han

Latin

Common

Cyrillic

Katakana

Hiragana

Most occurring blocks

Most frequent character per block

Hangul

ASCII

CJK

Cyrillic

None

Katakana

CJK Compat Ideographs

Hiragana

Compat Jamo

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Open Punctuation

Close Punctuation

Space Separator

Dash Punctuation

Most occurring scripts