gimi9 Pandas Profiling

Dataset statistics

Number of variables	18
Number of observations	10000
Missing cells	149156
Missing cells (%)	82.9%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	1.4 MiB
Average record size in memory	152.0 B

Variable types

Text	18

Dataset

Description	충남도서관 소장 도서에 대한 정보로, 개별 도서에 대한 메타데이터(서명, 저자명, 발행처, 청구기호, ISBN 등의 정보)가 포함되어 있습니다.
Author	충청남도
URL	https://www.data.go.kr/data/15119625/fileData.do

Alerts

`Unnamed: 17` has constant value ""	Constant
`Unnamed: 3` has 9432 (94.3%) missing values	Missing
`Unnamed: 4` has 9848 (98.5%) missing values	Missing
`Unnamed: 5` has 9952 (99.5%) missing values	Missing
`Unnamed: 6` has 9978 (99.8%) missing values	Missing
`Unnamed: 7` has 9992 (99.9%) missing values	Missing
`Unnamed: 8` has 9992 (99.9%) missing values	Missing
`Unnamed: 9` has 9993 (99.9%) missing values	Missing
`Unnamed: 10` has 9993 (99.9%) missing values	Missing
`Unnamed: 11` has 9994 (99.9%) missing values	Missing
`Unnamed: 12` has 9995 (> 99.9%) missing values	Missing
`Unnamed: 13` has 9995 (> 99.9%) missing values	Missing
`Unnamed: 14` has 9997 (> 99.9%) missing values	Missing
`Unnamed: 15` has 9998 (> 99.9%) missing values	Missing
`Unnamed: 16` has 9998 (> 99.9%) missing values	Missing
`Unnamed: 17` has 9999 (> 99.9%) missing values	Missing
`등록번호` has unique values	Unique

Reproduction

Analysis started	2023-12-11 23:56:44.344465
Analysis finished	2023-12-11 23:56:47.635674
Duration	3.29 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

등록번호
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	KM0014734
2nd row	KM0037125
3rd row	KM0014384
4th row	KM0070897
5th row	KM0050375

Value	Count	Frequency (%)
km0014734	1	< 0.1%
km0072056	1	< 0.1%
km0067012	1	< 0.1%
km0024686	1	< 0.1%
km0072750	1	< 0.1%
km0044749	1	< 0.1%
km0060830	1	< 0.1%
km0017991	1	< 0.1%
km0075184	1	< 0.1%
km0070269	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
0	25155	28.0%
K	10000	11.1%
M	10000	11.1%
5	5465	6.1%
6	5437	6.0%
3	5333	5.9%
2	5302	5.9%
1	5291	5.9%
4	5268	5.9%
7	5104	5.7%
Other values (2)	7645	8.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	70000	77.8%
Uppercase Letter	20000	22.2%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	25155	35.9%
5	5465	7.8%
6	5437	7.8%
3	5333	7.6%
2	5302	7.6%
1	5291	7.6%
4	5268	7.5%
7	5104	7.3%
8	3833	5.5%
9	3812	5.4%

Uppercase Letter

Value	Count	Frequency (%)
K	10000	50.0%
M	10000	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	70000	77.8%
Latin	20000	22.2%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	25155	35.9%
5	5465	7.8%
6	5437	7.8%
3	5333	7.6%
2	5302	7.6%
1	5291	7.6%
4	5268	7.5%
7	5104	7.3%
8	3833	5.5%
9	3812	5.4%

Latin

Value	Count	Frequency (%)
K	10000	50.0%
M	10000	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	25155	28.0%
K	10000	11.1%
M	10000	11.1%
5	5465	6.1%
6	5437	6.0%
3	5333	5.9%
2	5302	5.9%
1	5291	5.9%
4	5268	5.9%
7	5104	5.7%
Other values (2)	7645	8.5%

서명
Text

Distinct	9332
Distinct (%)	93.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	235
Median length	152
Mean length	21.1572
Min length	1

Characters and Unicode

Total characters	211572
Distinct characters	2206
Distinct categories	16 ?
Distinct scripts	5 ?
Distinct blocks	14 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8752 ?
Unique (%)	87.5%

Sample

1st row	고구려왕조 700년사
2nd row	知的財産權의 刑事的理解
3rd row	한국행정의 과제와 개혁
4th row	모두의 파이썬 : 20일 만에 배우는 프로그래밍 기초 : 개정 2판
5th row	(만들면서 배우는)Android game programming : 기초부터 배우는 게임 프로그래밍의 원리

Value	Count	Frequency (%)
	5193	10.7%
2	300	0.6%
1	299	0.6%
장편소설	288	0.6%
of	285	0.6%
the	206	0.4%
연구	192	0.4%
위한	185	0.4%
및	171	0.4%
3	151	0.3%
Other values (21318)	41424	85.1%

Most occurring characters

Value	Count	Frequency (%)
	39169	18.5%
:	4257	2.0%
의	3889	1.8%
e	3099	1.5%
사	2502	1.2%
기	2490	1.2%
i	2463	1.2%
n	2452	1.2%
o	2449	1.2%
a	2276	1.1%
Other values (2196)	146526	69.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	120109	56.8%
Space Separator	39169	18.5%
Lowercase Letter	27067	12.8%
Decimal Number	7474	3.5%
Other Punctuation	7091	3.4%
Uppercase Letter	4967	2.3%
Open Punctuation	2054	1.0%
Close Punctuation	2041	1.0%
Math Symbol	974	0.5%
Dash Punctuation	514	0.2%
Other values (6)	112	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	3889	3.2%
사	2502	2.1%
기	2490	2.1%
이	2086	1.7%
한	1807	1.5%
학	1500	1.2%
지	1483	1.2%
과	1373	1.1%
대	1371	1.1%
리	1302	1.1%
Other values (2074)	100306	83.5%

Lowercase Letter

Value	Count	Frequency (%)
e	3099	11.4%
i	2463	9.1%
n	2452	9.1%
o	2449	9.0%
a	2276	8.4%
t	2181	8.1%
r	1851	6.8%
s	1502	5.5%
l	1190	4.4%
c	1058	3.9%
Other values (16)	6546	24.2%

Uppercase Letter

Value	Count	Frequency (%)
S	456	9.2%
C	416	8.4%
T	391	7.9%
A	357	7.2%
I	339	6.8%
E	321	6.5%
P	270	5.4%
D	251	5.1%
O	244	4.9%
N	231	4.7%
Other values (16)	1691	34.0%

Other Punctuation

Value	Count	Frequency (%)
:	4257	60.0%
.	1894	26.7%
·	397	5.6%
'	143	2.0%
/	94	1.3%
!	92	1.3%
?	80	1.1%
&	64	0.9%
＆	25	0.4%
"	16	0.2%
Other values (11)	29	0.4%

Decimal Number

Value	Count	Frequency (%)
2	1739	23.3%
1	1646	22.0%
0	1573	21.0%
3	556	7.4%
9	525	7.0%
4	386	5.2%
5	300	4.0%
6	268	3.6%
7	256	3.4%
8	225	3.0%

Math Symbol

Value	Count	Frequency (%)
=	821	84.3%
+	75	7.7%
~	64	6.6%
<	4	0.4%
>	4	0.4%
∼	3	0.3%
＋	1	0.1%
≫	1	0.1%
≪	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
(	1953	95.1%
[	79	3.8%
『	15	0.7%
「	4	0.2%
《	1	< 0.1%
［	1	< 0.1%
【	1	< 0.1%

Close Punctuation

Value	Count	Frequency (%)
)	1940	95.1%
]	79	3.9%
』	15	0.7%
」	4	0.2%
》	1	< 0.1%
】	1	< 0.1%
］	1	< 0.1%

Letter Number

Value	Count	Frequency (%)
Ⅱ	42	45.2%
Ⅰ	39	41.9%
Ⅲ	7	7.5%
Ⅳ	4	4.3%
Ⅴ	1	1.1%

Other Symbol

Value	Count	Frequency (%)
★	5	62.5%
▼	1	12.5%
ⓔ	1	12.5%
℃	1	12.5%

Other Number

Value	Count	Frequency (%)
①	3	60.0%
②	2	40.0%

Space Separator

Value	Count	Frequency (%)
	39169	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	514	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	3	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	2	100.0%

Control

Value	Count	Frequency (%)
	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	112952	53.4%
Common	59336	28.0%
Latin	32127	15.2%
Han	7142	3.4%
Katakana	15	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	3889	3.4%
사	2502	2.2%
기	2490	2.2%
이	2086	1.8%
한	1807	1.6%
학	1500	1.3%
지	1483	1.3%
과	1373	1.2%
대	1371	1.2%
리	1302	1.2%
Other values (1123)	93149	82.5%

Han

Value	Count	Frequency (%)
學	270	3.8%
國	178	2.5%
論	174	2.4%
韓	135	1.9%
法	112	1.6%
大	108	1.5%
文	94	1.3%
政	86	1.2%
行	85	1.2%
史	84	1.2%
Other values (927)	5816	81.4%

Common

Value	Count	Frequency (%)
	39169	66.0%
:	4257	7.2%
(	1953	3.3%
)	1940	3.3%
.	1894	3.2%
2	1739	2.9%
1	1646	2.8%
0	1573	2.7%
=	821	1.4%
3	556	0.9%
Other values (55)	3788	6.4%

Latin

Value	Count	Frequency (%)
e	3099	9.6%
i	2463	7.7%
n	2452	7.6%
o	2449	7.6%
a	2276	7.1%
t	2181	6.8%
r	1851	5.8%
s	1502	4.7%
l	1190	3.7%
c	1058	3.3%
Other values (47)	11606	36.1%

Katakana

Value	Count	Frequency (%)
カ	2	13.3%
ッ	1	6.7%
ポ	1	6.7%
ケ	1	6.7%
レ	1	6.7%
ツ	1	6.7%
シ	1	6.7%
ブ	1	6.7%
ロ	1	6.7%
グ	1	6.7%
Other values (4)	4	26.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	112849	53.3%
ASCII	90880	43.0%
CJK	6955	3.3%
None	471	0.2%
CJK Compat Ideographs	187	0.1%
Compat Jamo	103	< 0.1%
Number Forms	93	< 0.1%
Katakana	15	< 0.1%
Enclosed Alphanum	6	< 0.1%
Misc Symbols	5	< 0.1%
Other values (4)	8	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	39169	43.1%
:	4257	4.7%
e	3099	3.4%
i	2463	2.7%
n	2452	2.7%
o	2449	2.7%
a	2276	2.5%
t	2181	2.4%
(	1953	2.1%
)	1940	2.1%
Other values (80)	28641	31.5%

Hangul

Value	Count	Frequency (%)
의	3889	3.4%
사	2502	2.2%
기	2490	2.2%
이	2086	1.8%
한	1807	1.6%
학	1500	1.3%
지	1483	1.3%
과	1373	1.2%
대	1371	1.2%
리	1302	1.2%
Other values (1117)	93046	82.5%

None

Value	Count	Frequency (%)
·	397	84.3%
＆	25	5.3%
『	15	3.2%
』	15	3.2%
」	4	0.8%
「	4	0.8%
＋	1	0.2%
．	1	0.2%
《	1	0.2%
》	1	0.2%
Other values (7)	7	1.5%

CJK

Value	Count	Frequency (%)
學	270	3.9%
國	178	2.6%
論	174	2.5%
韓	135	1.9%
法	112	1.6%
大	108	1.6%
文	94	1.4%
政	86	1.2%
行	85	1.2%
史	84	1.2%
Other values (885)	5629	80.9%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	95	92.2%
ㅇ	3	2.9%
ㅎ	2	1.9%
ㅈ	1	1.0%
ㅅ	1	1.0%
ㄱ	1	1.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	42	45.2%
Ⅰ	39	41.9%
Ⅲ	7	7.5%
Ⅳ	4	4.3%
Ⅴ	1	1.1%

CJK Compat Ideographs

Value	Count	Frequency (%)
理	32	17.1%
李	26	13.9%
力	17	9.1%
論	12	6.4%
歷	8	4.3%
黎	8	4.3%
女	8	4.3%
金	7	3.7%
六	5	2.7%
年	5	2.7%
Other values (32)	59	31.6%

Misc Symbols

Value	Count	Frequency (%)
★	5	100.0%

Math Operators

Value	Count	Frequency (%)
∼	3	60.0%
≫	1	20.0%
≪	1	20.0%

Enclosed Alphanum

Value	Count	Frequency (%)
①	3	50.0%
②	2	33.3%
ⓔ	1	16.7%

Katakana

Value	Count	Frequency (%)
カ	2	13.3%
ッ	1	6.7%
ポ	1	6.7%
ケ	1	6.7%
レ	1	6.7%
ツ	1	6.7%
シ	1	6.7%
ブ	1	6.7%
ロ	1	6.7%
グ	1	6.7%
Other values (4)	4	26.7%

Punctuation

Value	Count	Frequency (%)
…	1	100.0%

Geometric Shapes

Value	Count	Frequency (%)
▼	1	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
℃	1	100.0%

청구기호
Text

Distinct	8558
Distinct (%)	85.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	114
Median length	81
Mean length	12.1173
Min length	1

Characters and Unicode

Total characters	121173
Distinct characters	813
Distinct categories	11 ?
Distinct scripts	4 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7679 ?
Unique (%)	76.8%

Sample

1st row	911.032-조738ㄱ
2nd row	365.23-강713ㅈ
3rd row	351.1-한744ㅎㄱ
4th row	005.133-이436ㅁ
5th row	005.319-황644ㅇ

Value	Count	Frequency (%)
	134	1.2%
080-대383-r	35	0.3%
그리고	25	0.2%
337-충85ㅊ-g	20	0.2%
322.004-국464ㄱ-g	18	0.2%
811.608-미735	15	0.1%
320.911-한419ㅇ-g	14	0.1%
그	13	0.1%
the	13	0.1%
위한	12	0.1%
Other values (9448)	11087	97.4%

Most occurring characters

Value	Count	Frequency (%)
-	11119	9.2%
3	10071	8.3%
1	9898	8.2%
5	7573	6.2%
.	7562	6.2%
8	7280	6.0%
9	7218	6.0%
6	6891	5.7%
7	6765	5.6%
2	6155	5.1%
Other values (803)	40641	33.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	72287	59.7%
Other Letter	25059	20.7%
Dash Punctuation	11119	9.2%
Other Punctuation	7711	6.4%
Uppercase Letter	1968	1.6%
Space Separator	1913	1.6%
Lowercase Letter	1047	0.9%
Math Symbol	28	< 0.1%
Close Punctuation	22	< 0.1%
Open Punctuation	14	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
ㅇ	1578	6.3%
김	1460	5.8%
이	1372	5.5%
ㅅ	1258	5.0%
ㄱ	1242	5.0%
ㅎ	1223	4.9%
ㅈ	1069	4.3%
ㄷ	595	2.4%
박	538	2.1%
ㅂ	509	2.0%
Other values (718)	14215	56.7%

Uppercase Letter

Value	Count	Frequency (%)
G	483	24.5%
R	401	20.4%
C	323	16.4%
E	230	11.7%
X	221	11.2%
U	103	5.2%
T	40	2.0%
A	32	1.6%
O	13	0.7%
I	12	0.6%
Other values (16)	110	5.6%

Lowercase Letter

Value	Count	Frequency (%)
o	119	11.4%
e	118	11.3%
a	92	8.8%
r	89	8.5%
n	87	8.3%
t	80	7.6%
i	77	7.4%
s	60	5.7%
d	46	4.4%
c	38	3.6%
Other values (16)	241	23.0%

Decimal Number

Value	Count	Frequency (%)
3	10071	13.9%
1	9898	13.7%
5	7573	10.5%
8	7280	10.1%
9	7218	10.0%
6	6891	9.5%
7	6765	9.4%
2	6155	8.5%
4	5799	8.0%
0	4637	6.4%

Other Punctuation

Value	Count	Frequency (%)
.	7562	98.1%
:	109	1.4%
?	16	0.2%
!	8	0.1%
'	7	0.1%
·	5	0.1%
&	3	< 0.1%
＆	1	< 0.1%

Math Symbol

Value	Count	Frequency (%)
=	20	71.4%
~	6	21.4%
<	1	3.6%
>	1	3.6%

Close Punctuation

Value	Count	Frequency (%)
)	20	90.9%
]	1	4.5%
』	1	4.5%

Open Punctuation

Value	Count	Frequency (%)
(	12	85.7%
[	1	7.1%
『	1	7.1%

Letter Number

Value	Count	Frequency (%)
Ⅰ	3	60.0%
Ⅴ	1	20.0%
Ⅱ	1	20.0%

Dash Punctuation

Value	Count	Frequency (%)
-	11119	100.0%

Space Separator

Value	Count	Frequency (%)
	1913	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	93094	76.8%
Hangul	25044	20.7%
Latin	3020	2.5%
Han	15	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
ㅇ	1578	6.3%
김	1460	5.8%
이	1372	5.5%
ㅅ	1258	5.0%
ㄱ	1242	5.0%
ㅎ	1223	4.9%
ㅈ	1069	4.3%
ㄷ	595	2.4%
박	538	2.1%
ㅂ	509	2.0%
Other values (703)	14200	56.7%

Latin

Value	Count	Frequency (%)
G	483	16.0%
R	401	13.3%
C	323	10.7%
E	230	7.6%
X	221	7.3%
o	119	3.9%
e	118	3.9%
U	103	3.4%
a	92	3.0%
r	89	2.9%
Other values (45)	841	27.8%

Common

Value	Count	Frequency (%)
-	11119	11.9%
3	10071	10.8%
1	9898	10.6%
5	7573	8.1%
.	7562	8.1%
8	7280	7.8%
9	7218	7.8%
6	6891	7.4%
7	6765	7.3%
2	6155	6.6%
Other values (20)	12562	13.5%

Han

Value	Count	Frequency (%)
性	1	6.7%
建	1	6.7%
築	1	6.7%
道	1	6.7%
德	1	6.7%
燃	1	6.7%
燒	1	6.7%
編	1	6.7%
中	1	6.7%
政	1	6.7%
Other values (5)	5	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	96101	79.3%
Hangul	15433	12.7%
Compat Jamo	9611	7.9%
CJK	15	< 0.1%
None	8	< 0.1%
Number Forms	5	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	11119	11.6%
3	10071	10.5%
1	9898	10.3%
5	7573	7.9%
.	7562	7.9%
8	7280	7.6%
9	7218	7.5%
6	6891	7.2%
7	6765	7.0%
2	6155	6.4%
Other values (68)	15569	16.2%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	1578	16.4%
ㅅ	1258	13.1%
ㄱ	1242	12.9%
ㅎ	1223	12.7%
ㅈ	1069	11.1%
ㄷ	595	6.2%
ㅂ	509	5.3%
ㅁ	475	4.9%
ㅊ	422	4.4%
ㄴ	386	4.0%
Other values (9)	854	8.9%

Hangul

Value	Count	Frequency (%)
김	1460	9.5%
이	1372	8.9%
박	538	3.5%
한	493	3.2%
정	349	2.3%
최	307	2.0%
조	303	2.0%
충	222	1.4%
신	202	1.3%
오	193	1.3%
Other values (684)	9994	64.8%

None

Value	Count	Frequency (%)
·	5	62.5%
『	1	12.5%
』	1	12.5%
＆	1	12.5%

Number Forms

Value	Count	Frequency (%)
Ⅰ	3	60.0%
Ⅴ	1	20.0%
Ⅱ	1	20.0%

CJK

Value	Count	Frequency (%)
性	1	6.7%
建	1	6.7%
築	1	6.7%
道	1	6.7%
德	1	6.7%
燃	1	6.7%
燒	1	6.7%
編	1	6.7%
中	1	6.7%
政	1	6.7%
Other values (5)	5	33.3%

Unnamed: 3
Text

MISSING

Distinct	530
Distinct (%)	93.3%
Missing	9432
Missing (%)	94.3%
Memory size	156.2 KiB

Length

Max length	66
Median length	42
Mean length	11.700704
Min length	1

Characters and Unicode

Total characters	6646
Distinct characters	429
Distinct categories	11 ?
Distinct scripts	4 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	502 ?
Unique (%)	88.4%

Sample

1st row	911.075-최645ㅂ-C
2nd row	680.01-남463ㅇ
3rd row	610.9205-승293ㄱ
4th row	340.911-월323ㅂ
5th row	미래-

Value	Count	Frequency (%)
	23	2.8%
그리고	15	1.8%
대한	5	0.6%
건축	4	0.5%
the	4	0.5%
future	4	0.5%
toward	4	0.5%
and	4	0.5%
젠더	3	0.4%
접근	3	0.4%
Other values (706)	758	91.7%

Most occurring characters

Value	Count	Frequency (%)
1	514	7.7%
-	463	7.0%
	397	6.0%
3	386	5.8%
8	349	5.3%
.	341	5.1%
9	326	4.9%
2	296	4.5%
4	287	4.3%
6	286	4.3%
Other values (419)	3001	45.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	3180	47.8%
Other Letter	1861	28.0%
Dash Punctuation	463	7.0%
Space Separator	397	6.0%
Other Punctuation	367	5.5%
Lowercase Letter	280	4.2%
Uppercase Letter	75	1.1%
Close Punctuation	9	0.1%
Open Punctuation	7	0.1%
Math Symbol	6	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
ㅇ	77	4.1%
김	73	3.9%
이	71	3.8%
ㄱ	65	3.5%
ㅅ	55	3.0%
ㅎ	37	2.0%
ㅈ	35	1.9%
한	33	1.8%
ㅂ	31	1.7%
의	31	1.7%
Other values (358)	1353	72.7%

Lowercase Letter

Value	Count	Frequency (%)
t	30	10.7%
e	30	10.7%
o	24	8.6%
a	23	8.2%
u	20	7.1%
r	19	6.8%
h	17	6.1%
i	16	5.7%
c	16	5.7%
s	16	5.7%
Other values (12)	69	24.6%

Uppercase Letter

Value	Count	Frequency (%)
G	19	25.3%
R	17	22.7%
C	7	9.3%
F	6	8.0%
P	5	6.7%
A	5	6.7%
T	5	6.7%
S	4	5.3%
J	2	2.7%
M	1	1.3%
Other values (4)	4	5.3%

Decimal Number

Value	Count	Frequency (%)
1	514	16.2%
3	386	12.1%
8	349	11.0%
9	326	10.3%
2	296	9.3%
4	287	9.0%
6	286	9.0%
5	281	8.8%
7	235	7.4%
0	220	6.9%

Other Punctuation

Value	Count	Frequency (%)
.	341	92.9%
:	19	5.2%
!	4	1.1%
·	2	0.5%
/	1	0.3%

Math Symbol

Value	Count	Frequency (%)
=	4	66.7%
<	1	16.7%
>	1	16.7%

Close Punctuation

Value	Count	Frequency (%)
)	8	88.9%
』	1	11.1%

Open Punctuation

Value	Count	Frequency (%)
(	6	85.7%
『	1	14.3%

Dash Punctuation

Value	Count	Frequency (%)
-	463	100.0%

Space Separator

Value	Count	Frequency (%)
	397	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅴ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	4429	66.6%
Hangul	1848	27.8%
Latin	356	5.4%
Han	13	0.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
ㅇ	77	4.2%
김	73	4.0%
이	71	3.8%
ㄱ	65	3.5%
ㅅ	55	3.0%
ㅎ	37	2.0%
ㅈ	35	1.9%
한	33	1.8%
ㅂ	31	1.7%
의	31	1.7%
Other values (345)	1340	72.5%

Latin

Value	Count	Frequency (%)
t	30	8.4%
e	30	8.4%
o	24	6.7%
a	23	6.5%
u	20	5.6%
G	19	5.3%
r	19	5.3%
R	17	4.8%
h	17	4.8%
i	16	4.5%
Other values (27)	141	39.6%

Common

Value	Count	Frequency (%)
1	514	11.6%
-	463	10.5%
	397	9.0%
3	386	8.7%
8	349	7.9%
.	341	7.7%
9	326	7.4%
2	296	6.7%
4	287	6.5%
6	286	6.5%
Other values (14)	784	17.7%

Han

Value	Count	Frequency (%)
地	1	7.7%
都	1	7.7%
市	1	7.7%
域	1	7.7%
開	1	7.7%
發	1	7.7%
法	1	7.7%
令	1	7.7%
日	1	7.7%
備	1	7.7%
Other values (3)	3	23.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	4780	71.9%
Hangul	1435	21.6%
Compat Jamo	413	6.2%
CJK	13	0.2%
None	4	0.1%
Number Forms	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	514	10.8%
-	463	9.7%
	397	8.3%
3	386	8.1%
8	349	7.3%
.	341	7.1%
9	326	6.8%
2	296	6.2%
4	287	6.0%
6	286	6.0%
Other values (47)	1135	23.7%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	77	18.6%
ㄱ	65	15.7%
ㅅ	55	13.3%
ㅎ	37	9.0%
ㅈ	35	8.5%
ㅂ	31	7.5%
ㄷ	27	6.5%
ㅁ	21	5.1%
ㄴ	18	4.4%
ㅍ	16	3.9%
Other values (6)	31	7.5%

Hangul

Value	Count	Frequency (%)
김	73	5.1%
이	71	4.9%
한	33	2.3%
의	31	2.2%
리	27	1.9%
박	27	1.9%
정	24	1.7%
조	22	1.5%
고	22	1.5%
그	20	1.4%
Other values (329)	1085	75.6%

None

Value	Count	Frequency (%)
·	2	50.0%
『	1	25.0%
』	1	25.0%

CJK

Value	Count	Frequency (%)
地	1	7.7%
都	1	7.7%
市	1	7.7%
域	1	7.7%
開	1	7.7%
發	1	7.7%
法	1	7.7%
令	1	7.7%
日	1	7.7%
備	1	7.7%
Other values (3)	3	23.1%

Number Forms

Value	Count	Frequency (%)
Ⅴ	1	100.0%

Unnamed: 4
Text

MISSING

Distinct	144
Distinct (%)	94.7%
Missing	9848
Missing (%)	98.5%
Memory size	156.2 KiB

Length

Max length	35
Median length	23
Mean length	11.796053
Min length	2

Characters and Unicode

Total characters	1793
Distinct characters	238
Distinct categories	9 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	140 ?
Unique (%)	92.1%

Sample

1st row	181.3-이611ㅇ
2nd row	기계설비 전량수록
3rd row	그밖의 중세 발명품들
4th row	004.588-나215ㅋ
5th row	511.49-페352ㅁ대

Value	Count	Frequency (%)
기계설비	4	1.9%
377.604-박547ㅅ	4	1.9%
전량수록	4	1.9%
of	3	1.4%
발명품들	2	0.9%
중심으로	2	0.9%
	2	0.9%
그밖의	2	0.9%
politiker	2	0.9%
중세	2	0.9%
Other values (184)	184	87.2%

Most occurring characters

Value	Count	Frequency (%)
1	126	7.0%
3	118	6.6%
-	116	6.5%
	99	5.5%
5	98	5.5%
.	91	5.1%
2	83	4.6%
4	79	4.4%
9	78	4.4%
8	73	4.1%
Other values (228)	832	46.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	835	46.6%
Other Letter	501	27.9%
Dash Punctuation	116	6.5%
Lowercase Letter	113	6.3%
Space Separator	99	5.5%
Other Punctuation	96	5.4%
Uppercase Letter	19	1.1%
Close Punctuation	8	0.4%
Open Punctuation	6	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
이	23	4.6%
ㅇ	19	3.8%
김	15	3.0%
ㄱ	15	3.0%
ㅎ	13	2.6%
ㅅ	12	2.4%
의	9	1.8%
박	9	1.8%
ㅁ	8	1.6%
최	8	1.6%
Other values (181)	370	73.9%

Lowercase Letter

Value	Count	Frequency (%)
e	15	13.3%
i	14	12.4%
o	13	11.5%
t	8	7.1%
r	8	7.1%
p	6	5.3%
l	6	5.3%
s	6	5.3%
n	5	4.4%
a	5	4.4%
Other values (9)	27	23.9%

Decimal Number

Value	Count	Frequency (%)
1	126	15.1%
3	118	14.1%
5	98	11.7%
2	83	9.9%
4	79	9.5%
9	78	9.3%
8	73	8.7%
7	65	7.8%
6	62	7.4%
0	53	6.3%

Uppercase Letter

Value	Count	Frequency (%)
R	6	31.6%
C	3	15.8%
G	2	10.5%
P	2	10.5%
H	1	5.3%
U	1	5.3%
E	1	5.3%
F	1	5.3%
K	1	5.3%
T	1	5.3%

Other Punctuation

Value	Count	Frequency (%)
.	91	94.8%
:	2	2.1%
?	2	2.1%
·	1	1.0%

Dash Punctuation

Value	Count	Frequency (%)
-	116	100.0%

Space Separator

Value	Count	Frequency (%)
	99	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	8	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	1160	64.7%
Hangul	496	27.7%
Latin	132	7.4%
Han	5	0.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
이	23	4.6%
ㅇ	19	3.8%
김	15	3.0%
ㄱ	15	3.0%
ㅎ	13	2.6%
ㅅ	12	2.4%
의	9	1.8%
박	9	1.8%
ㅁ	8	1.6%
최	8	1.6%
Other values (176)	365	73.6%

Latin

Value	Count	Frequency (%)
e	15	11.4%
i	14	10.6%
o	13	9.8%
t	8	6.1%
r	8	6.1%
p	6	4.5%
l	6	4.5%
R	6	4.5%
s	6	4.5%
n	5	3.8%
Other values (19)	45	34.1%

Common

Value	Count	Frequency (%)
1	126	10.9%
3	118	10.2%
-	116	10.0%
	99	8.5%
5	98	8.4%
.	91	7.8%
2	83	7.2%
4	79	6.8%
9	78	6.7%
8	73	6.3%
Other values (8)	199	17.2%

Han

Value	Count	Frequency (%)
紀	1	20.0%
調	1	20.0%
時	1	20.0%
集	1	20.0%
行	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1291	72.0%
Hangul	391	21.8%
Compat Jamo	105	5.9%
CJK	5	0.3%
None	1	0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	126	9.8%
3	118	9.1%
-	116	9.0%
	99	7.7%
5	98	7.6%
.	91	7.0%
2	83	6.4%
4	79	6.1%
9	78	6.0%
8	73	5.7%
Other values (36)	330	25.6%

Hangul

Value	Count	Frequency (%)
이	23	5.9%
김	15	3.8%
의	9	2.3%
박	9	2.3%
최	8	2.0%
기	7	1.8%
설	6	1.5%
정	6	1.5%
리	5	1.3%
조	5	1.3%
Other values (161)	298	76.2%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	19	18.1%
ㄱ	15	14.3%
ㅎ	13	12.4%
ㅅ	12	11.4%
ㅁ	8	7.6%
ㅂ	7	6.7%
ㅈ	6	5.7%
ㄷ	6	5.7%
ㅍ	4	3.8%
ㅌ	4	3.8%
Other values (5)	11	10.5%

CJK

Value	Count	Frequency (%)
紀	1	20.0%
調	1	20.0%
時	1	20.0%
集	1	20.0%
行	1	20.0%

None

Value	Count	Frequency (%)
·	1	100.0%

Unnamed: 5
Text

MISSING

Distinct	43
Distinct (%)	89.6%
Missing	9952
Missing (%)	99.5%
Memory size	156.2 KiB

Length

Max length	80
Median length	17.5
Mean length	13.458333
Min length	2

Characters and Unicode

Total characters	646
Distinct characters	145
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	40 ?
Unique (%)	83.3%

Sample

1st row	532.8-건947ㄱ
2nd row	920.3-프868ㅋ
3rd row	수능 완벽대비
4th row	532.8-건947ㄱ
5th row	머신러닝까지

Value	Count	Frequency (%)
532.8-건947ㄱ	4	5.1%
and	3	3.8%
of	2	2.5%
920.3-프868ㅋ	2	2.5%
	2	2.5%
strafrechtsreformer	2	2.5%
350.01-나251ㅎ	1	1.3%
양자	1	1.3%
아이덴티티	1	1.3%
811.7-김719ㅅ	1	1.3%
Other values (60)	60	75.9%

Most occurring characters

Value	Count	Frequency (%)
	52	8.0%
-	28	4.3%
1	25	3.9%
3	23	3.6%
.	23	3.6%
5	22	3.4%
2	22	3.4%
a	21	3.3%
e	21	3.3%
7	20	3.1%
Other values (135)	389	60.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	199	30.8%
Lowercase Letter	175	27.1%
Other Letter	145	22.4%
Space Separator	52	8.0%
Dash Punctuation	28	4.3%
Other Punctuation	26	4.0%
Uppercase Letter	11	1.7%
Open Punctuation	6	0.9%
Close Punctuation	4	0.6%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
ㄱ	7	4.8%
이	6	4.1%
ㅅ	5	3.4%
김	5	3.4%
양	4	2.8%
건	4	2.8%
아	3	2.1%
일	3	2.1%
기	3	2.1%
ㅎ	3	2.1%
Other values (87)	102	70.3%

Lowercase Letter

Value	Count	Frequency (%)
a	21	12.0%
e	21	12.0%
r	17	9.7%
t	15	8.6%
n	14	8.0%
o	14	8.0%
i	12	6.9%
s	12	6.9%
d	8	4.6%
l	8	4.6%
Other values (10)	33	18.9%

Decimal Number

Value	Count	Frequency (%)
1	25	12.6%
3	23	11.6%
5	22	11.1%
2	22	11.1%
7	20	10.1%
8	20	10.1%
0	19	9.5%
4	18	9.0%
9	18	9.0%
6	12	6.0%

Uppercase Letter

Value	Count	Frequency (%)
G	2	18.2%
P	1	9.1%
A	1	9.1%
S	1	9.1%
L	1	9.1%
B	1	9.1%
N	1	9.1%
K	1	9.1%
D	1	9.1%
F	1	9.1%

Other Punctuation

Value	Count	Frequency (%)
.	23	88.5%
&	1	3.8%
:	1	3.8%
·	1	3.8%

Space Separator

Value	Count	Frequency (%)
	52	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	28	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	6	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	315	48.8%
Latin	186	28.8%
Hangul	145	22.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
ㄱ	7	4.8%
이	6	4.1%
ㅅ	5	3.4%
김	5	3.4%
양	4	2.8%
건	4	2.8%
아	3	2.1%
일	3	2.1%
기	3	2.1%
ㅎ	3	2.1%
Other values (87)	102	70.3%

Latin

Value	Count	Frequency (%)
a	21	11.3%
e	21	11.3%
r	17	9.1%
t	15	8.1%
n	14	7.5%
o	14	7.5%
i	12	6.5%
s	12	6.5%
d	8	4.3%
l	8	4.3%
Other values (20)	44	23.7%

Common

Value	Count	Frequency (%)
	52	16.5%
-	28	8.9%
1	25	7.9%
3	23	7.3%
.	23	7.3%
5	22	7.0%
2	22	7.0%
7	20	6.3%
8	20	6.3%
0	19	6.0%
Other values (8)	61	19.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	500	77.4%
Hangul	119	18.4%
Compat Jamo	26	4.0%
None	1	0.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	52	10.4%
-	28	5.6%
1	25	5.0%
3	23	4.6%
.	23	4.6%
5	22	4.4%
2	22	4.4%
a	21	4.2%
e	21	4.2%
7	20	4.0%
Other values (37)	243	48.6%

Compat Jamo

Value	Count	Frequency (%)
ㄱ	7	26.9%
ㅅ	5	19.2%
ㅎ	3	11.5%
ㅋ	3	11.5%
ㅁ	2	7.7%
ㅇ	2	7.7%
ㅍ	1	3.8%
ㅌ	1	3.8%
ㅊ	1	3.8%
ㅈ	1	3.8%

Hangul

Value	Count	Frequency (%)
이	6	5.0%
김	5	4.2%
양	4	3.4%
건	4	3.4%
아	3	2.5%
일	3	2.5%
기	3	2.5%
신	2	1.7%
박	2	1.7%
화	2	1.7%
Other values (77)	85	71.4%

None

Value	Count	Frequency (%)
·	1	100.0%

Unnamed: 6
Text

MISSING

Distinct	21
Distinct (%)	95.5%
Missing	9978
Missing (%)	99.8%
Memory size	156.2 KiB

Length

Max length	16
Median length	12
Mean length	9.6818182
Min length	2

Characters and Unicode

Total characters	213
Distinct characters	65
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	20 ?
Unique (%)	90.9%

Sample

1st row	747-박642ㅂ
2nd row	005.76-김123ㅂ
3rd row	이광수(무정)
4th row	붉은방)
5th row	김소진(자전거 도둑)

Value	Count	Frequency (%)
360.1-노766ㄱ윤	2	8.3%
517-권662ㅇ	1	4.2%
747-박642ㅂ	1	4.2%
830.9-손527ㅈ	1	4.2%
대전	1	4.2%
322.8-이187ㄱ	1	4.2%
195.3-박621ㅈ	1	4.2%
띠	1	4.2%
뫼비우스의	1	4.2%
안수길(북간도	1	4.2%
Other values (13)	13	54.2%

Most occurring characters

Value	Count	Frequency (%)
-	15	7.0%
6	14	6.6%
7	13	6.1%
5	12	5.6%
.	11	5.2%
1	11	5.2%
3	10	4.7%
0	10	4.7%
2	10	4.7%
	9	4.2%
Other values (55)	98	46.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	101	47.4%
Other Letter	66	31.0%
Dash Punctuation	15	7.0%
Other Punctuation	11	5.2%
Space Separator	9	4.2%
Close Punctuation	6	2.8%
Open Punctuation	3	1.4%
Uppercase Letter	2	0.9%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
이	4	6.1%
ㅈ	3	4.5%
ㅇ	3	4.5%
김	3	4.5%
ㄱ	3	4.5%
ㅂ	2	3.0%
전	2	3.0%
박	2	3.0%
윤	2	3.0%
도	2	3.0%
Other values (38)	40	60.6%

Decimal Number

Value	Count	Frequency (%)
6	14	13.9%
7	13	12.9%
5	12	11.9%
1	11	10.9%
3	10	9.9%
0	10	9.9%
2	10	9.9%
9	8	7.9%
8	8	7.9%
4	5	5.0%

Uppercase Letter

Value	Count	Frequency (%)
T	1	50.0%
R	1	50.0%

Dash Punctuation

Value	Count	Frequency (%)
-	15	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	11	100.0%

Space Separator

Value	Count	Frequency (%)
	9	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	6	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	145	68.1%
Hangul	66	31.0%
Latin	2	0.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
이	4	6.1%
ㅈ	3	4.5%
ㅇ	3	4.5%
김	3	4.5%
ㄱ	3	4.5%
ㅂ	2	3.0%
전	2	3.0%
박	2	3.0%
윤	2	3.0%
도	2	3.0%
Other values (38)	40	60.6%

Common

Value	Count	Frequency (%)
-	15	10.3%
6	14	9.7%
7	13	9.0%
5	12	8.3%
.	11	7.6%
1	11	7.6%
3	10	6.9%
0	10	6.9%
2	10	6.9%
	9	6.2%
Other values (5)	30	20.7%

Latin

Value	Count	Frequency (%)
T	1	50.0%
R	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	147	69.0%
Hangul	52	24.4%
Compat Jamo	14	6.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	15	10.2%
6	14	9.5%
7	13	8.8%
5	12	8.2%
.	11	7.5%
1	11	7.5%
3	10	6.8%
0	10	6.8%
2	10	6.8%
	9	6.1%
Other values (7)	32	21.8%

Hangul

Value	Count	Frequency (%)
이	4	7.7%
김	3	5.8%
전	2	3.8%
박	2	3.8%
윤	2	3.8%
도	2	3.8%
노	2	3.8%
수	2	3.8%
뫼	1	1.9%
권	1	1.9%
Other values (31)	31	59.6%

Compat Jamo

Value	Count	Frequency (%)
ㅈ	3	21.4%
ㅇ	3	21.4%
ㄱ	3	21.4%
ㅂ	2	14.3%
ㅎ	1	7.1%
ㅊ	1	7.1%
ㅅ	1	7.1%

Unnamed: 7
Text

MISSING

Distinct	8
Distinct (%)	100.0%
Missing	9992
Missing (%)	99.9%
Memory size	156.2 KiB

Length

Max length	12
Median length	9.5
Mean length	7.875
Min length	2

Characters and Unicode

Total characters	63
Distinct characters	42
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8 ?
Unique (%)	100.0%

Sample

1st row	김동인(배따라기
2nd row	강석경(숲속의 방)
3rd row	박상률(봄바람)
4th row	강경애(인간문제)
5th row	영화

Value	Count	Frequency (%)
김동인(배따라기	1	10.0%
강석경(숲속의	1	10.0%
방	1	10.0%
박상률(봄바람	1	10.0%
강경애(인간문제	1	10.0%
영화	1	10.0%
전광용(사수	1	10.0%
전상국(우리들의	1	10.0%
날개	1	10.0%
울산	1	10.0%

Most occurring characters

Value	Count	Frequency (%)
	9	14.3%
(	6	9.5%
)	3	4.8%
의	2	3.2%
인	2	3.2%
전	2	3.2%
상	2	3.2%
강	2	3.2%
경	2	3.2%
영	1	1.6%
Other values (32)	32	50.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	45	71.4%
Space Separator	9	14.3%
Open Punctuation	6	9.5%
Close Punctuation	3	4.8%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	2	4.4%
인	2	4.4%
전	2	4.4%
상	2	4.4%
강	2	4.4%
경	2	4.4%
영	1	2.2%
화	1	2.2%
광	1	2.2%
용	1	2.2%
Other values (29)	29	64.4%

Space Separator

Value	Count	Frequency (%)
	9	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	6	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	45	71.4%
Common	18	28.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	2	4.4%
인	2	4.4%
전	2	4.4%
상	2	4.4%
강	2	4.4%
경	2	4.4%
영	1	2.2%
화	1	2.2%
광	1	2.2%
용	1	2.2%
Other values (29)	29	64.4%

Common

Value	Count	Frequency (%)
	9	50.0%
(	6	33.3%
)	3	16.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	45	71.4%
ASCII	18	28.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	9	50.0%
(	6	33.3%
)	3	16.7%

Hangul

Value	Count	Frequency (%)
의	2	4.4%
인	2	4.4%
전	2	4.4%
상	2	4.4%
강	2	4.4%
경	2	4.4%
영	1	2.2%
화	1	2.2%
광	1	2.2%
용	1	2.2%
Other values (29)	29	64.4%

Unnamed: 8
Text

MISSING

Distinct	8
Distinct (%)	100.0%
Missing	9992
Missing (%)	99.9%
Memory size	156.2 KiB

Length

Max length	11
Median length	9
Mean length	7.375
Min length	3

Characters and Unicode

Total characters	59
Distinct characters	40
Distinct categories	6 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8 ?
Unique (%)	100.0%

Sample

1st row	감자
2nd row	최일남(흐르는 북)
3rd row	신경숙(외딴 방
4th row	박태원(천변풍경
5th row	101-김696ㅅ

Value	Count	Frequency (%)
감자	1	8.3%
최일남(흐르는	1	8.3%
북	1	8.3%
신경숙(외딴	1	8.3%
방	1	8.3%
박태원(천변풍경	1	8.3%
101-김696ㅅ	1	8.3%
끼삐딴	1	8.3%
리	1	8.3%
우상의	1	8.3%
Other values (2)	2	16.7%

Most occurring characters

Value	Count	Frequency (%)
	11	18.6%
(	3	5.1%
경	3	5.1%
)	3	5.1%
1	2	3.4%
딴	2	3.4%
6	2	3.4%
의	1	1.7%
상	1	1.7%
0	1	1.7%
Other values (30)	30	50.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	35	59.3%
Space Separator	11	18.6%
Decimal Number	6	10.2%
Open Punctuation	3	5.1%
Close Punctuation	3	5.1%
Dash Punctuation	1	1.7%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
경	3	8.6%
딴	2	5.7%
의	1	2.9%
상	1	2.9%
김	1	2.9%
물	1	2.9%
ㅅ	1	2.9%
변	1	2.9%
끼	1	2.9%
삐	1	2.9%
Other values (22)	22	62.9%

Decimal Number

Value	Count	Frequency (%)
1	2	33.3%
6	2	33.3%
0	1	16.7%
9	1	16.7%

Space Separator

Value	Count	Frequency (%)
	11	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	35	59.3%
Common	24	40.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
경	3	8.6%
딴	2	5.7%
의	1	2.9%
상	1	2.9%
김	1	2.9%
물	1	2.9%
ㅅ	1	2.9%
변	1	2.9%
끼	1	2.9%
삐	1	2.9%
Other values (22)	22	62.9%

Common

Value	Count	Frequency (%)
	11	45.8%
(	3	12.5%
)	3	12.5%
1	2	8.3%
6	2	8.3%
0	1	4.2%
-	1	4.2%
9	1	4.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	34	57.6%
ASCII	24	40.7%
Compat Jamo	1	1.7%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	11	45.8%
(	3	12.5%
)	3	12.5%
1	2	8.3%
6	2	8.3%
0	1	4.2%
-	1	4.2%
9	1	4.2%

Hangul

Value	Count	Frequency (%)
경	3	8.8%
딴	2	5.9%
의	1	2.9%
상	1	2.9%
김	1	2.9%
물	1	2.9%
변	1	2.9%
끼	1	2.9%
삐	1	2.9%
리	1	2.9%
Other values (21)	21	61.8%

Compat Jamo

Value	Count	Frequency (%)
ㅅ	1	100.0%

Unnamed: 9
Text

MISSING

Distinct	7
Distinct (%)	100.0%
Missing	9993
Missing (%)	99.9%
Memory size	156.2 KiB

Length

Max length	14
Median length	12
Mean length	10.571429
Min length	3

Characters and Unicode

Total characters	74
Distinct characters	46
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7 ?
Unique (%)	100.0%

Sample

1st row	광염 소나타)
2nd row	이인성(당신에 대해서)
3rd row	감자 먹는 사람들)
4th row	소설가 구보 씨의 일일)
5th row	강신재(젊은 느티나무)

Value	Count	Frequency (%)
광염	1	6.2%
소나타	1	6.2%
이인성(당신에	1	6.2%
대해서	1	6.2%
감자	1	6.2%
먹는	1	6.2%
사람들	1	6.2%
소설가	1	6.2%
구보	1	6.2%
씨의	1	6.2%
Other values (6)	6	37.5%

Most occurring characters

Value	Count	Frequency (%)
	16	21.6%
)	6	8.1%
(	3	4.1%
소	2	2.7%
나	2	2.7%
일	2	2.7%
인	2	2.7%
강	2	2.7%
신	2	2.7%
티	1	1.4%
Other values (36)	36	48.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	49	66.2%
Space Separator	16	21.6%
Close Punctuation	6	8.1%
Open Punctuation	3	4.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
소	2	4.1%
나	2	4.1%
일	2	4.1%
인	2	4.1%
강	2	4.1%
신	2	4.1%
티	1	2.0%
씨	1	2.0%
의	1	2.0%
재	1	2.0%
Other values (33)	33	67.3%

Space Separator

Value	Count	Frequency (%)
	16	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	6	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	49	66.2%
Common	25	33.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
소	2	4.1%
나	2	4.1%
일	2	4.1%
인	2	4.1%
강	2	4.1%
신	2	4.1%
티	1	2.0%
씨	1	2.0%
의	1	2.0%
재	1	2.0%
Other values (33)	33	67.3%

Common

Value	Count	Frequency (%)
	16	64.0%
)	6	24.0%
(	3	12.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	49	66.2%
ASCII	25	33.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	16	64.0%
)	6	24.0%
(	3	12.0%

Hangul

Value	Count	Frequency (%)
소	2	4.1%
나	2	4.1%
일	2	4.1%
인	2	4.1%
강	2	4.1%
신	2	4.1%
티	1	2.0%
씨	1	2.0%
의	1	2.0%
재	1	2.0%
Other values (33)	33	67.3%

Unnamed: 10
Text

MISSING

Distinct	7
Distinct (%)	100.0%
Missing	9993
Missing (%)	99.9%
Memory size	156.2 KiB

Length

Max length	15
Median length	12
Mean length	10.571429
Min length	3

Characters and Unicode

Total characters	74
Distinct characters	53
Distinct categories	7 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7 ?
Unique (%)	100.0%

Sample

1st row	현진건(할머니의 죽음
2nd row	김학철(종횡만리)
3rd row	성석제(오랜지 맛 오렌지)
4th row	박영준(모범 경작생)
5th row	최인훈(광장)

Value	Count	Frequency (%)
현진건(할머니의	1	9.1%
죽음	1	9.1%
김학철(종횡만리	1	9.1%
성석제(오랜지	1	9.1%
맛	1	9.1%
오렌지	1	9.1%
박영준(모범	1	9.1%
경작생	1	9.1%
최인훈(광장	1	9.1%
813.6082-김964ㄲ	1	9.1%

Most occurring characters

Value	Count	Frequency (%)
	10	13.5%
(	5	6.8%
)	4	5.4%
지	2	2.7%
오	2	2.7%
6	2	2.7%
김	2	2.7%
8	2	2.7%
광	1	1.4%
범	1	1.4%
Other values (43)	43	58.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	43	58.1%
Space Separator	10	13.5%
Decimal Number	10	13.5%
Open Punctuation	5	6.8%
Close Punctuation	4	5.4%
Other Punctuation	1	1.4%
Dash Punctuation	1	1.4%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	2	4.7%
오	2	4.7%
김	2	4.7%
광	1	2.3%
범	1	2.3%
경	1	2.3%
작	1	2.3%
생	1	2.3%
최	1	2.3%
인	1	2.3%
Other values (30)	30	69.8%

Decimal Number

Value	Count	Frequency (%)
6	2	20.0%
8	2	20.0%
1	1	10.0%
3	1	10.0%
0	1	10.0%
2	1	10.0%
9	1	10.0%
4	1	10.0%

Space Separator

Value	Count	Frequency (%)
	10	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	5	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	4	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	43	58.1%
Common	31	41.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	2	4.7%
오	2	4.7%
김	2	4.7%
광	1	2.3%
범	1	2.3%
경	1	2.3%
작	1	2.3%
생	1	2.3%
최	1	2.3%
인	1	2.3%
Other values (30)	30	69.8%

Common

Value	Count	Frequency (%)
	10	32.3%
(	5	16.1%
)	4	12.9%
6	2	6.5%
8	2	6.5%
1	1	3.2%
3	1	3.2%
.	1	3.2%
0	1	3.2%
2	1	3.2%
Other values (3)	3	9.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	42	56.8%
ASCII	31	41.9%
Compat Jamo	1	1.4%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	10	32.3%
(	5	16.1%
)	4	12.9%
6	2	6.5%
8	2	6.5%
1	1	3.2%
3	1	3.2%
.	1	3.2%
0	1	3.2%
2	1	3.2%
Other values (3)	3	9.7%

Hangul

Value	Count	Frequency (%)
지	2	4.8%
오	2	4.8%
김	2	4.8%
광	1	2.4%
범	1	2.4%
경	1	2.4%
작	1	2.4%
생	1	2.4%
최	1	2.4%
인	1	2.4%
Other values (29)	29	69.0%

Compat Jamo

Value	Count	Frequency (%)
ㄲ	1	100.0%

Unnamed: 11
Text

MISSING

Distinct	6
Distinct (%)	100.0%
Missing	9994
Missing (%)	99.9%
Memory size	156.2 KiB

Length

Max length	14
Median length	12
Mean length	9.5
Min length	3

Characters and Unicode

Total characters	57
Distinct characters	40
Distinct categories	7 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	6 ?
Unique (%)	100.0%

Sample

1st row	운수 좋은 날
2nd row	813.6082-김964ㄲ
3rd row	이영도(드래곤 라자)
4th row	김유정(만무방
5th row	김정한(모래톱 이야기

Value	Count	Frequency (%)
운수	1	10.0%
좋은	1	10.0%
날	1	10.0%
813.6082-김964ㄲ	1	10.0%
이영도(드래곤	1	10.0%
라자	1	10.0%
김유정(만무방	1	10.0%
김정한(모래톱	1	10.0%
이야기	1	10.0%
충남	1	10.0%

Most occurring characters

Value	Count	Frequency (%)
	9	15.8%
김	3	5.3%
(	3	5.3%
8	2	3.5%
이	2	3.5%
6	2	3.5%
래	2	3.5%
정	2	3.5%
기	1	1.8%
유	1	1.8%
Other values (30)	30	52.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	32	56.1%
Decimal Number	10	17.5%
Space Separator	9	15.8%
Open Punctuation	3	5.3%
Close Punctuation	1	1.8%
Other Punctuation	1	1.8%
Dash Punctuation	1	1.8%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	3	9.4%
이	2	6.2%
래	2	6.2%
정	2	6.2%
기	1	3.1%
유	1	3.1%
곤	1	3.1%
라	1	3.1%
자	1	3.1%
만	1	3.1%
Other values (17)	17	53.1%

Decimal Number

Value	Count	Frequency (%)
8	2	20.0%
6	2	20.0%
1	1	10.0%
3	1	10.0%
0	1	10.0%
2	1	10.0%
9	1	10.0%
4	1	10.0%

Space Separator

Value	Count	Frequency (%)
	9	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	32	56.1%
Common	25	43.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	3	9.4%
이	2	6.2%
래	2	6.2%
정	2	6.2%
기	1	3.1%
유	1	3.1%
곤	1	3.1%
라	1	3.1%
자	1	3.1%
만	1	3.1%
Other values (17)	17	53.1%

Common

Value	Count	Frequency (%)
	9	36.0%
(	3	12.0%
8	2	8.0%
6	2	8.0%
)	1	4.0%
.	1	4.0%
1	1	4.0%
3	1	4.0%
0	1	4.0%
2	1	4.0%
Other values (3)	3	12.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	31	54.4%
ASCII	25	43.9%
Compat Jamo	1	1.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	9	36.0%
(	3	12.0%
8	2	8.0%
6	2	8.0%
)	1	4.0%
.	1	4.0%
1	1	4.0%
3	1	4.0%
0	1	4.0%
2	1	4.0%
Other values (3)	3	12.0%

Hangul

Value	Count	Frequency (%)
김	3	9.7%
이	2	6.5%
래	2	6.5%
정	2	6.5%
기	1	3.2%
유	1	3.2%
곤	1	3.2%
라	1	3.2%
자	1	3.2%
만	1	3.2%
Other values (16)	16	51.6%

Compat Jamo

Value	Count	Frequency (%)
ㄲ	1	100.0%

Unnamed: 12
Text

MISSING

Distinct	5
Distinct (%)	100.0%
Missing	9995
Missing (%)	> 99.9%
Memory size	156.2 KiB

Length

Max length	20
Median length	5
Mean length	7
Min length	3

Characters and Unicode

Total characters	35
Distinct characters	23
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	5 ?
Unique (%)	100.0%

Sample

1st row	고향)
2nd row	윤영수(민사95다 6008호 사건)
3rd row	봄봄
4th row	수라도)
5th row	전북

Value	Count	Frequency (%)
고향	1	14.3%
윤영수(민사95다	1	14.3%
6008호	1	14.3%
사건	1	14.3%
봄봄	1	14.3%
수라도	1	14.3%
전북	1	14.3%

Most occurring characters

Value	Count	Frequency (%)
	7	20.0%
)	3	8.6%
수	2	5.7%
봄	2	5.7%
사	2	5.7%
0	2	5.7%
6	1	2.9%
전	1	2.9%
도	1	2.9%
라	1	2.9%
Other values (13)	13	37.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	18	51.4%
Space Separator	7	20.0%
Decimal Number	6	17.1%
Close Punctuation	3	8.6%
Open Punctuation	1	2.9%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
수	2	11.1%
봄	2	11.1%
사	2	11.1%
전	1	5.6%
도	1	5.6%
라	1	5.6%
건	1	5.6%
호	1	5.6%
다	1	5.6%
고	1	5.6%
Other values (5)	5	27.8%

Decimal Number

Value	Count	Frequency (%)
0	2	33.3%
6	1	16.7%
8	1	16.7%
5	1	16.7%
9	1	16.7%

Space Separator

Value	Count	Frequency (%)
	7	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	18	51.4%
Common	17	48.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
수	2	11.1%
봄	2	11.1%
사	2	11.1%
전	1	5.6%
도	1	5.6%
라	1	5.6%
건	1	5.6%
호	1	5.6%
다	1	5.6%
고	1	5.6%
Other values (5)	5	27.8%

Common

Value	Count	Frequency (%)
	7	41.2%
)	3	17.6%
0	2	11.8%
6	1	5.9%
8	1	5.9%
5	1	5.9%
9	1	5.9%
(	1	5.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	18	51.4%
ASCII	17	48.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	7	41.2%
)	3	17.6%
0	2	11.8%
6	1	5.9%
8	1	5.9%
5	1	5.9%
9	1	5.9%
(	1	5.9%

Hangul

Value	Count	Frequency (%)
수	2	11.1%
봄	2	11.1%
사	2	11.1%
전	1	5.6%
도	1	5.6%
라	1	5.6%
건	1	5.6%
호	1	5.6%
다	1	5.6%
고	1	5.6%
Other values (5)	5	27.8%

Unnamed: 13
Text

MISSING

Distinct	4
Distinct (%)	80.0%
Missing	9995
Missing (%)	> 99.9%
Memory size	156.2 KiB

Length

Max length	14
Median length	12
Mean length	9.6
Min length	3

Characters and Unicode

Total characters	48
Distinct characters	28
Distinct categories	7 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	60.0%

Sample

1st row	나도향(벙어리 삼룡)
2nd row	813.6082-김964ㄲ
3rd row	동백꽃)
4th row	813.6082-김964ㄲ
5th row	전남

Value	Count	Frequency (%)
813.6082-김964ㄲ	2	33.3%
나도향(벙어리	1	16.7%
삼룡	1	16.7%
동백꽃	1	16.7%
전남	1	16.7%

Most occurring characters

Value	Count	Frequency (%)
8	4	8.3%
6	4	8.3%
	4	8.3%
김	2	4.2%
)	2	4.2%
1	2	4.2%
ㄲ	2	4.2%
9	2	4.2%
4	2	4.2%
-	2	4.2%
Other values (18)	22	45.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	20	41.7%
Other Letter	17	35.4%
Space Separator	4	8.3%
Close Punctuation	2	4.2%
Dash Punctuation	2	4.2%
Other Punctuation	2	4.2%
Open Punctuation	1	2.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	2	11.8%
ㄲ	2	11.8%
삼	1	5.9%
전	1	5.9%
꽃	1	5.9%
백	1	5.9%
동	1	5.9%
룡	1	5.9%
도	1	5.9%
리	1	5.9%
Other values (5)	5	29.4%

Decimal Number

Value	Count	Frequency (%)
8	4	20.0%
6	4	20.0%
1	2	10.0%
9	2	10.0%
4	2	10.0%
2	2	10.0%
0	2	10.0%
3	2	10.0%

Space Separator

Value	Count	Frequency (%)
	4	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	2	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	31	64.6%
Hangul	17	35.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	2	11.8%
ㄲ	2	11.8%
삼	1	5.9%
전	1	5.9%
꽃	1	5.9%
백	1	5.9%
동	1	5.9%
룡	1	5.9%
도	1	5.9%
리	1	5.9%
Other values (5)	5	29.4%

Common

Value	Count	Frequency (%)
8	4	12.9%
6	4	12.9%
	4	12.9%
)	2	6.5%
1	2	6.5%
9	2	6.5%
4	2	6.5%
-	2	6.5%
2	2	6.5%
0	2	6.5%
Other values (3)	5	16.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	31	64.6%
Hangul	15	31.2%
Compat Jamo	2	4.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
8	4	12.9%
6	4	12.9%
	4	12.9%
)	2	6.5%
1	2	6.5%
9	2	6.5%
4	2	6.5%
-	2	6.5%
2	2	6.5%
0	2	6.5%
Other values (3)	5	16.1%

Hangul

Value	Count	Frequency (%)
김	2	13.3%
삼	1	6.7%
전	1	6.7%
꽃	1	6.7%
백	1	6.7%
동	1	6.7%
룡	1	6.7%
도	1	6.7%
리	1	6.7%
어	1	6.7%
Other values (4)	4	26.7%

Compat Jamo

Value	Count	Frequency (%)
ㄲ	2	100.0%

Unnamed: 14
Text

MISSING

Distinct	3
Distinct (%)	100.0%
Missing	9997
Missing (%)	> 99.9%
Memory size	156.2 KiB

Length

Max length	14
Median length	13
Mean length	10
Min length	3

Characters and Unicode

Total characters	30
Distinct characters	25
Distinct categories	6 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	100.0%

Sample

1st row	813.6082-김964ㄲ
2nd row	이효석(메밀꽃 필 무렵
3rd row	경북

Value	Count	Frequency (%)
813.6082-김964ㄲ	1	20.0%
이효석(메밀꽃	1	20.0%
필	1	20.0%
무렵	1	20.0%
경북	1	20.0%

Most occurring characters

Value	Count	Frequency (%)
	4	13.3%
6	2	6.7%
8	2	6.7%
.	1	3.3%
3	1	3.3%
경	1	3.3%
렵	1	3.3%
무	1	3.3%
필	1	3.3%
꽃	1	3.3%
Other values (15)	15	50.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	13	43.3%
Decimal Number	10	33.3%
Space Separator	4	13.3%
Other Punctuation	1	3.3%
Open Punctuation	1	3.3%
Dash Punctuation	1	3.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
경	1	7.7%
렵	1	7.7%
무	1	7.7%
필	1	7.7%
꽃	1	7.7%
밀	1	7.7%
메	1	7.7%
석	1	7.7%
효	1	7.7%
이	1	7.7%
Other values (3)	3	23.1%

Decimal Number

Value	Count	Frequency (%)
6	2	20.0%
8	2	20.0%
3	1	10.0%
1	1	10.0%
4	1	10.0%
9	1	10.0%
2	1	10.0%
0	1	10.0%

Space Separator

Value	Count	Frequency (%)
	4	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	17	56.7%
Hangul	13	43.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
경	1	7.7%
렵	1	7.7%
무	1	7.7%
필	1	7.7%
꽃	1	7.7%
밀	1	7.7%
메	1	7.7%
석	1	7.7%
효	1	7.7%
이	1	7.7%
Other values (3)	3	23.1%

Common

Value	Count	Frequency (%)
	4	23.5%
6	2	11.8%
8	2	11.8%
.	1	5.9%
3	1	5.9%
(	1	5.9%
1	1	5.9%
4	1	5.9%
9	1	5.9%
-	1	5.9%
Other values (2)	2	11.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	17	56.7%
Hangul	12	40.0%
Compat Jamo	1	3.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	4	23.5%
6	2	11.8%
8	2	11.8%
.	1	5.9%
3	1	5.9%
(	1	5.9%
1	1	5.9%
4	1	5.9%
9	1	5.9%
-	1	5.9%
Other values (2)	2	11.8%

Hangul

Value	Count	Frequency (%)
경	1	8.3%
렵	1	8.3%
무	1	8.3%
필	1	8.3%
꽃	1	8.3%
밀	1	8.3%
메	1	8.3%
석	1	8.3%
효	1	8.3%
이	1	8.3%
Other values (2)	2	16.7%

Compat Jamo

Value	Count	Frequency (%)
ㄲ	1	100.0%

Unnamed: 15
Text

MISSING

Distinct	2
Distinct (%)	100.0%
Missing	9998
Missing (%)	> 99.9%
Memory size	156.2 KiB

Length

Max length	3
Median length	3
Mean length	3
Min length	3

Characters and Unicode

Total characters	6
Distinct characters	5
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	100.0%

Sample

1st row	산)
2nd row	경남

Value	Count	Frequency (%)
산	1	50.0%
경남	1	50.0%

Most occurring characters

Value	Count	Frequency (%)
	2	33.3%
산	1	16.7%
)	1	16.7%
경	1	16.7%
남	1	16.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	3	50.0%
Space Separator	2	33.3%
Close Punctuation	1	16.7%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
산	1	33.3%
경	1	33.3%
남	1	33.3%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	3	50.0%
Hangul	3	50.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
산	1	33.3%
경	1	33.3%
남	1	33.3%

Common

Value	Count	Frequency (%)
	2	66.7%
)	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	3	50.0%
Hangul	3	50.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	2	66.7%
)	1	33.3%

Hangul

Value	Count	Frequency (%)
산	1	33.3%
경	1	33.3%
남	1	33.3%

Unnamed: 16
Text

MISSING

Distinct	2
Distinct (%)	100.0%
Missing	9998
Missing (%)	> 99.9%
Memory size	156.2 KiB

Length

Max length	14
Median length	8.5
Mean length	8.5
Min length	3

Characters and Unicode

Total characters	17
Distinct characters	15
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	100.0%

Sample

1st row	813.6082-김964ㄲ
2nd row	제주

Value	Count	Frequency (%)
813.6082-김964ㄲ	1	50.0%
제주	1	50.0%

Most occurring characters

Value	Count	Frequency (%)
8	2	11.8%
6	2	11.8%
1	1	5.9%
3	1	5.9%
.	1	5.9%
0	1	5.9%
2	1	5.9%
-	1	5.9%
김	1	5.9%
9	1	5.9%
Other values (5)	5	29.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	10	58.8%
Other Letter	4	23.5%
Other Punctuation	1	5.9%
Dash Punctuation	1	5.9%
Space Separator	1	5.9%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
8	2	20.0%
6	2	20.0%
1	1	10.0%
3	1	10.0%
0	1	10.0%
2	1	10.0%
9	1	10.0%
4	1	10.0%

Other Letter

Value	Count	Frequency (%)
김	1	25.0%
ㄲ	1	25.0%
제	1	25.0%
주	1	25.0%

Other Punctuation

Value	Count	Frequency (%)
.	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Space Separator

Value	Count	Frequency (%)
	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	13	76.5%
Hangul	4	23.5%

Most frequent character per script

Common

Value	Count	Frequency (%)
8	2	15.4%
6	2	15.4%
1	1	7.7%
3	1	7.7%
.	1	7.7%
0	1	7.7%
2	1	7.7%
-	1	7.7%
9	1	7.7%
4	1	7.7%

Hangul

Value	Count	Frequency (%)
김	1	25.0%
ㄲ	1	25.0%
제	1	25.0%
주	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	13	76.5%
Hangul	3	17.6%
Compat Jamo	1	5.9%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
8	2	15.4%
6	2	15.4%
1	1	7.7%
3	1	7.7%
.	1	7.7%
0	1	7.7%
2	1	7.7%
-	1	7.7%
9	1	7.7%
4	1	7.7%

Hangul

Value	Count	Frequency (%)
김	1	33.3%
제	1	33.3%
주	1	33.3%

Compat Jamo

Value	Count	Frequency (%)
ㄲ	1	100.0%

Unnamed: 17
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	9999
Missing (%)	> 99.9%
Memory size	156.2 KiB

Length

Max length	11
Median length	11
Mean length	11
Min length	11

Characters and Unicode

Total characters	11
Distinct characters	9
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	539.9-경228ㅈ

Value	Count	Frequency (%)
539.9-경228ㅈ	1	100.0%

Most occurring characters

Value	Count	Frequency (%)
9	2	18.2%
2	2	18.2%
5	1	9.1%
3	1	9.1%
.	1	9.1%
-	1	9.1%
경	1	9.1%
8	1	9.1%
ㅈ	1	9.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	7	63.6%
Other Letter	2	18.2%
Other Punctuation	1	9.1%
Dash Punctuation	1	9.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
9	2	28.6%
2	2	28.6%
5	1	14.3%
3	1	14.3%
8	1	14.3%

Other Letter

Value	Count	Frequency (%)
경	1	50.0%
ㅈ	1	50.0%

Other Punctuation

Value	Count	Frequency (%)
.	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	9	81.8%
Hangul	2	18.2%

Most frequent character per script

Common

Value	Count	Frequency (%)
9	2	22.2%
2	2	22.2%
5	1	11.1%
3	1	11.1%
.	1	11.1%
-	1	11.1%
8	1	11.1%

Hangul

Value	Count	Frequency (%)
경	1	50.0%
ㅈ	1	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	9	81.8%
Hangul	1	9.1%
Compat Jamo	1	9.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
9	2	22.2%
2	2	22.2%
5	1	11.1%
3	1	11.1%
.	1	11.1%
-	1	11.1%
8	1	11.1%

Hangul

Value	Count	Frequency (%)
경	1	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㅈ	1	100.0%

Phik (φk)

Heatmap
Table

	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8	Unnamed: 9	Unnamed: 10	Unnamed: 11	Unnamed: 12	Unnamed: 13	Unnamed: 14	Unnamed: 15	Unnamed: 16
Unnamed: 5	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 6	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 7	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 8	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 9	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 10	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 11	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 12	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 13	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 14	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.000	0.000
Unnamed: 15	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	1.000	0.000
Unnamed: 16	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	0.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	등록번호	서명	청구기호	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8	Unnamed: 9	Unnamed: 10	Unnamed: 11	Unnamed: 12	Unnamed: 13	Unnamed: 14	Unnamed: 15	Unnamed: 16	Unnamed: 17
11707	KM0014734	고구려왕조 700년사	911.032-조738ㄱ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
30433	KM0037125	知的財産權의 刑事的理解	365.23-강713ㅈ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
11432	KM0014384	한국행정의 과제와 개혁	351.1-한744ㅎㄱ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
60780	KM0070897	모두의 파이썬 : 20일 만에 배우는 프로그래밍 기초 : 개정 2판	005.133-이436ㅁ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
41701	KM0050375	(만들면서 배우는)Android game programming : 기초부터 배우는 게임 프로그래밍의 원리	005.319-황644ㅇ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
306	KM0000481	航空工學問題叢書	558.076-김826ㅎㄱ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
13284	KM0016620	(최신)소방설비	539.99-박514ㅅ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
4933	KM0006387	디자인 재료학	600.23-임942ㄷ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
53218	KM0063173	100℃ : 뜨거운 기억	6월민주항쟁	911.075-최645ㅂ-C	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
47934	KM0057439	보조공학총론 = Assistive technology	510.74-한515ㅂ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>

	등록번호	서명	청구기호	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8	Unnamed: 9	Unnamed: 10	Unnamed: 11	Unnamed: 12	Unnamed: 13	Unnamed: 14	Unnamed: 15	Unnamed: 16	Unnamed: 17
43086	KM0052016	지방분산 · 분권과 국토균형발전의 대응과제 (Ⅲ) 자료집 (1) : 전략거점과 주변지역 간 연계를 통한 개발효과 확대방안	359.005-국464ㄱㅈ-G	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
43163	KM0052101	(2011) 국가정보화백서 = National Informatization White Paper	020.13-행981ㄱ-G	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
13631	KM0017008	하수도시설기준	539.2-환919ㅎ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
62274	KM0072392	애썼다	오늘의 공무원 : 오늘도 국가 뒤에서 묵묵히 일하고 있는 공무원들에게	818-영413ㅇ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
60908	KM0071025	(2021 필기) 지적기사·산업기사 = Cadastral surveying	533.077-송648ㅈ-EX	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
57378	KM0067459	현대 행정의 가치와 윤리	350.019-김967ㅎ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
56660	KM0066712	왜요	그 말이 어때서요? : 나도 모르게 쓰는 차별의 언어	330.911-김882ㅇ	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
1458	KM0001867	地下水工學	537.4-이731ㅈ김	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
3493	KM0004510	韓國圖書館法令集	021.311-한479ㅎ-R	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
7813	KM0009811	(圖解式)物理ㆍ化學實驗大辭典 = Physics chemistry experimental dictionary	431.03-문592ㅁ-R	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Open Punctuation

Close Punctuation

Letter Number

Other Symbol

Other Number

Space Separator

Dash Punctuation

Connector Punctuation

Modifier Symbol

Control

Most occurring scripts

Most frequent character per script

Hangul

Han

Common

Latin

Katakana

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

CJK

Compat Jamo

Number Forms

CJK Compat Ideographs

Misc Symbols

Math Operators

Enclosed Alphanum

Katakana

Punctuation

Geometric Shapes

Letterlike Symbols

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Math Symbol

Close Punctuation

Open Punctuation

Letter Number

Dash Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

Compat Jamo