gimi9 Pandas Profiling

Dataset statistics

Number of variables	53
Number of observations	2272
Missing cells	37784
Missing cells (%)	31.4%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	971.9 KiB
Average record size in memory	438.1 B

Variable types

Text	26
Categorical	17
Numeric	3
DateTime	1
Boolean	3
Unsupported	3

Dataset

Description	한국학중앙연구원 해외한국학지원사업 연구성과 상세정보
Author	한국학중앙연구원
URL	https://www.data.go.kr/data/15049068/fileData.do

Alerts

`SUBTITLE_KOR` has constant value ""	Constant
`PAPER_PAGE_START` has constant value ""	Constant
`PAPER_PAGE_END` has constant value ""	Constant
`PDF_PAGE_START` has constant value ""	Constant
`PDF_PAGE_END` has constant value ""	Constant
`PROJECTYEAR_END` is highly imbalanced (98.7%)	Imbalance
`SERIAL_NUMBER` is highly imbalanced (99.2%)	Imbalance
`VOLUME` is highly imbalanced (99.2%)	Imbalance
`NUMBER` is highly imbalanced (99.3%)	Imbalance
`SEARCH_YN` is highly imbalanced (87.2%)	Imbalance
`IS_OPEN` is highly imbalanced (99.0%)	Imbalance
`ERASE_YN` is highly imbalanced (92.7%)	Imbalance
`REGISTER` is highly imbalanced (69.8%)	Imbalance
`MODIFIER` is highly imbalanced (78.2%)	Imbalance
`ERASER` is highly imbalanced (95.3%)	Imbalance
`TITLE_ENG` has 889 (39.1%) missing values	Missing
`TITLE_KOR` has 164 (7.2%) missing values	Missing
`SUBTITLE_ENG` has 2269 (99.9%) missing values	Missing
`SUBTITLE_KOR` has 2271 (> 99.9%) missing values	Missing
`SUBTITLE_ORI` has 2263 (99.6%) missing values	Missing
`AUTHOR_ORI` has 104 (4.6%) missing values	Missing
`AUTHOR_KOR` has 1599 (70.4%) missing values	Missing
`AUTHOR_ENG` has 1214 (53.4%) missing values	Missing
`AUTHOR_ETC` has 1736 (76.4%) missing values	Missing
`ORGANIZATION_ORI` has 319 (14.0%) missing values	Missing
`ORGANIZATION_KOR` has 550 (24.2%) missing values	Missing
`ORGANIZATION_ENG` has 545 (24.0%) missing values	Missing
`ORGANIZATION_ETC` has 2126 (93.6%) missing values	Missing
`NATION` has 436 (19.2%) missing values	Missing
`PUBLISH_DATE` has 2235 (98.4%) missing values	Missing
`PUBLISHER` has 2236 (98.4%) missing values	Missing
`ISBN` has 2249 (99.0%) missing values	Missing
`ISSN` has 2259 (99.4%) missing values	Missing
`SORT_TITLE_ENG` has 889 (39.1%) missing values	Missing
`SORT_TITLE_KOR` has 166 (7.3%) missing values	Missing
`FILE_NAME` has 2272 (100.0%) missing values	Missing
`ROOT_DIR` has 2272 (100.0%) missing values	Missing
`SUB_DIR` has 2272 (100.0%) missing values	Missing
`MODIFIED_DATE` has 2193 (96.5%) missing values	Missing
`ERASE_DATE` has 2252 (99.1%) missing values	Missing
`CATALOG_ID` has unique values	Unique
`FILE_NAME` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`ROOT_DIR` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`SUB_DIR` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`SUB_INDEX` has 226 (9.9%) zeros	Zeros

Reproduction

Analysis started	2023-12-12 15:43:02.858721
Analysis finished	2023-12-12 15:43:07.664270
Duration	4.81 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

CATALOG_ID
Text

UNIQUE

Distinct	2272
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

Length

Max length	10
Median length	10
Mean length	9.4920775
Min length	5

Characters and Unicode

Total characters	21566
Distinct characters	18
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2272 ?
Unique (%)	100.0%

Sample

1st row	05R42
2nd row	05R42_0001
3rd row	05R42_0002
4th row	05R42_0003
5th row	05R42_0004

Value	Count	Frequency (%)
05r42	1	< 0.1%
09c02_0036	1	< 0.1%
09c02_0038	1	< 0.1%
09c02_0031	1	< 0.1%
09c02_0032	1	< 0.1%
09c02_0033	1	< 0.1%
09c02_0034	1	< 0.1%
09c02_0035	1	< 0.1%
09c02_0029	1	< 0.1%
09c02_0028	1	< 0.1%
Other values (2262)	2262	99.6%

Most occurring characters

Value	Count	Frequency (%)
0	8283	38.4%
1	2327	10.8%
_	2040	9.5%
C	1678	7.8%
6	1109	5.1%
2	1021	4.7%
7	955	4.4%
9	930	4.3%
8	710	3.3%
5	709	3.3%
Other values (8)	1804	8.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	17248	80.0%
Uppercase Letter	2272	10.5%
Connector Punctuation	2040	9.5%
Lowercase Letter	6	< 0.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	8283	48.0%
1	2327	13.5%
6	1109	6.4%
2	1021	5.9%
7	955	5.5%
9	930	5.4%
8	710	4.1%
5	709	4.1%
3	620	3.6%
4	584	3.4%

Uppercase Letter

Value	Count	Frequency (%)
C	1678	73.9%
P	319	14.0%
R	273	12.0%
S	2	0.1%

Lowercase Letter

Value	Count	Frequency (%)
a	3	50.0%
b	2	33.3%
d	1	16.7%

Connector Punctuation

Value	Count	Frequency (%)
_	2040	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	19288	89.4%
Latin	2278	10.6%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	8283	42.9%
1	2327	12.1%
_	2040	10.6%
6	1109	5.7%
2	1021	5.3%
7	955	5.0%
9	930	4.8%
8	710	3.7%
5	709	3.7%
3	620	3.2%

Latin

Value	Count	Frequency (%)
C	1678	73.7%
P	319	14.0%
R	273	12.0%
a	3	0.1%
b	2	0.1%
S	2	0.1%
d	1	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	21566	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	8283	38.4%
1	2327	10.8%
_	2040	9.5%
C	1678	7.8%
6	1109	5.1%
2	1021	4.7%
7	955	4.4%
9	930	4.3%
8	710	3.3%
5	709	3.3%
Other values (8)	1804	8.4%

PARENT_CATALOG_ID
Text

Distinct	99
Distinct (%)	4.4%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

Length

Max length	5
Median length	5
Mean length	4.5915493
Min length	1

Characters and Unicode

Total characters	10432
Distinct characters	13
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	5 ?
Unique (%)	0.2%

Sample

1st row	0
2nd row	05R42
3rd row	05R42
4th row	05R42
5th row	05R42

Value	Count	Frequency (%)
0	232	10.2%
09c02	111	4.9%
09c05	106	4.7%
06c17	104	4.6%
07c06	89	3.9%
08c09	70	3.1%
07c15	67	2.9%
06c10	61	2.7%
07c18	58	2.6%
09c15	57	2.5%
Other values (89)	1317	58.0%

Most occurring characters

Value	Count	Frequency (%)
0	3332	31.9%
C	1613	15.5%
1	1437	13.8%
6	771	7.4%
9	669	6.4%
7	658	6.3%
2	433	4.2%
8	424	4.1%
5	371	3.6%
P	301	2.9%
Other values (3)	423	4.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	8392	80.4%
Uppercase Letter	2040	19.6%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	3332	39.7%
1	1437	17.1%
6	771	9.2%
9	669	8.0%
7	658	7.8%
2	433	5.2%
8	424	5.1%
5	371	4.4%
4	175	2.1%
3	122	1.5%

Uppercase Letter

Value	Count	Frequency (%)
C	1613	79.1%
P	301	14.8%
R	126	6.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	8392	80.4%
Latin	2040	19.6%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	3332	39.7%
1	1437	17.1%
6	771	9.2%
9	669	8.0%
7	658	7.8%
2	433	5.2%
8	424	5.1%
5	371	4.4%
4	175	2.1%
3	122	1.5%

Latin

Value	Count	Frequency (%)
C	1613	79.1%
P	301	14.8%
R	126	6.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	10432	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	3332	31.9%
C	1613	15.5%
1	1437	13.8%
6	771	7.4%
9	669	6.4%
7	658	6.3%
2	433	4.2%
8	424	4.1%
5	371	3.6%
P	301	2.9%
Other values (3)	423	4.1%

TITLE_ENG
Text

MISSING

Distinct	1373
Distinct (%)	99.3%
Missing	889
Missing (%)	39.1%
Memory size	17.9 KiB

Length

Max length	296
Median length	132
Mean length	75.751988
Min length	10

Characters and Unicode

Total characters	104765
Distinct characters	260
Distinct categories	14 ?
Distinct scripts	6 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1363 ?
Unique (%)	98.6%

Sample

1st row	Korean-English Dictionary in Hindi Pronunciation
2nd row	Korean-English Dictionary in Hindi Pronunciation (ㄱ)
3rd row	Korean-English Dictionary in Hindi Pronunciation (ㄴ)
4th row	Korean-English Dictionary in Hindi Pronunciation (ㄷ)
5th row	Korean-English Dictionary in Hindi Pronunciation (ㄹ,ㅁ)

Value	Count	Frequency (%)
of	1113	7.2%
the	1069	6.9%
in	814	5.3%
and	808	5.2%
korean	596	3.9%
on	252	1.6%
a	251	1.6%
korea	224	1.5%
	98	0.6%
south	92	0.6%
Other values (3997)	10126	65.6%

Most occurring characters

Value	Count	Frequency (%)
	14088	13.4%
e	8819	8.4%
n	8043	7.7%
o	7415	7.1%
a	7262	6.9%
i	6890	6.6%
t	5885	5.6%
r	5103	4.9%
s	4442	4.2%
l	2698	2.6%
Other values (250)	34120	32.6%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	76166	72.7%
Space Separator	14088	13.4%
Uppercase Letter	11587	11.1%
Other Punctuation	1075	1.0%
Decimal Number	711	0.7%
Dash Punctuation	531	0.5%
Other Letter	142	0.1%
Final Punctuation	134	0.1%
Open Punctuation	117	0.1%
Close Punctuation	115	0.1%
Other values (4)	99	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
한	3	2.1%
核	2	1.4%
다	2	1.4%
보	2	1.4%
的	2	1.4%
古	2	1.4%
훈	2	1.4%
의	2	1.4%
시	2	1.4%
대	2	1.4%
Other values (116)	121	85.2%

Lowercase Letter

Value	Count	Frequency (%)
e	8819	11.6%
n	8043	10.6%
o	7415	9.7%
a	7262	9.5%
i	6890	9.0%
t	5885	7.7%
r	5103	6.7%
s	4442	5.8%
l	2698	3.5%
h	2641	3.5%
Other values (41)	16968	22.3%

Uppercase Letter

Value	Count	Frequency (%)
K	1181	10.2%
C	1081	9.3%
S	1012	8.7%
T	872	7.5%
A	857	7.4%
P	711	6.1%
E	651	5.6%
I	583	5.0%
N	551	4.8%
R	521	4.5%
Other values (30)	3567	30.8%

Other Punctuation

Value	Count	Frequency (%)
:	420	39.1%
'	228	21.2%
,	218	20.3%
.	111	10.3%
"	44	4.1%
/	35	3.3%
!	5	0.5%
;	4	0.4%
·	4	0.4%
&	3	0.3%
Other values (2)	3	0.3%

Decimal Number

Value	Count	Frequency (%)
1	160	22.5%
0	147	20.7%
9	99	13.9%
2	91	12.8%
8	48	6.8%
5	41	5.8%
6	40	5.6%
7	34	4.8%
4	27	3.8%
3	24	3.4%

Open Punctuation

Value	Count	Frequency (%)
(	111	94.9%
[	4	3.4%
（	1	0.9%
「	1	0.9%

Close Punctuation

Value	Count	Frequency (%)
)	109	94.8%
]	4	3.5%
）	1	0.9%
」	1	0.9%

Math Symbol

Value	Count	Frequency (%)
<	8	42.1%
>	8	42.1%
~	2	10.5%
+	1	5.3%

Dash Punctuation

Value	Count	Frequency (%)
-	530	99.8%
－	1	0.2%

Final Punctuation

Value	Count	Frequency (%)
’	79	59.0%
”	55	41.0%

Initial Punctuation

Value	Count	Frequency (%)
“	55	80.9%
‘	13	19.1%

Space Separator

Value	Count	Frequency (%)
	14088	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	10	100.0%

Other Symbol

Value	Count	Frequency (%)
™	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	87447	83.5%
Common	16870	16.1%
Cyrillic	305	0.3%
Hangul	72	0.1%
Han	70	0.1%
Greek	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
한	3	4.2%
다	2	2.8%
보	2	2.8%
훈	2	2.8%
의	2	2.8%
시	2	2.8%
대	2	2.8%
리	2	2.8%
ㅍ	1	1.4%
연	1	1.4%
Other values (53)	53	73.6%

Han

Value	Count	Frequency (%)
核	2	2.9%
的	2	2.9%
古	2	2.9%
看	2	2.9%
理	2	2.9%
府	2	2.9%
義	2	2.9%
簡	1	1.4%
諺	1	1.4%
年	1	1.4%
Other values (53)	53	75.7%

Latin

Value	Count	Frequency (%)
e	8819	10.1%
n	8043	9.2%
o	7415	8.5%
a	7262	8.3%
i	6890	7.9%
t	5885	6.7%
r	5103	5.8%
s	4442	5.1%
l	2698	3.1%
h	2641	3.0%
Other values (44)	28249	32.3%

Common

Value	Count	Frequency (%)
	14088	83.5%
-	530	3.1%
:	420	2.5%
'	228	1.4%
,	218	1.3%
1	160	0.9%
0	147	0.9%
.	111	0.7%
(	111	0.7%
)	109	0.6%
Other values (33)	748	4.4%

Cyrillic

Value	Count	Frequency (%)
п	46	15.1%
а	41	13.4%
е	38	12.5%
о	36	11.8%
г	32	10.5%
К	22	7.2%
и	9	3.0%
с	7	2.3%
у	7	2.3%
А	7	2.3%
Other values (26)	60	19.7%

Greek

Value	Count	Frequency (%)
γ	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	104098	99.4%
Cyrillic	305	0.3%
Punctuation	203	0.2%
CJK	67	0.1%
Hangul	57	0.1%
None	15	< 0.1%
Compat Jamo	15	< 0.1%
CJK Compat Ideographs	3	< 0.1%
Letterlike Symbols	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	14088	13.5%
e	8819	8.5%
n	8043	7.7%
o	7415	7.1%
a	7262	7.0%
i	6890	6.6%
t	5885	5.7%
r	5103	4.9%
s	4442	4.3%
l	2698	2.6%
Other values (72)	33453	32.1%

Punctuation

Value	Count	Frequency (%)
’	79	38.9%
”	55	27.1%
“	55	27.1%
‘	13	6.4%
…	1	0.5%

Cyrillic

Value	Count	Frequency (%)
п	46	15.1%
а	41	13.4%
е	38	12.5%
о	36	11.8%
г	32	10.5%
К	22	7.2%
и	9	3.0%
с	7	2.3%
у	7	2.3%
А	7	2.3%
Other values (26)	60	19.7%

None

Value	Count	Frequency (%)
·	4	26.7%
，	2	13.3%
Ｒ	2	13.3%
）	1	6.7%
（	1	6.7%
ß	1	6.7%
」	1	6.7%
「	1	6.7%
－	1	6.7%
γ	1	6.7%

Hangul

Value	Count	Frequency (%)
한	3	5.3%
다	2	3.5%
보	2	3.5%
훈	2	3.5%
의	2	3.5%
시	2	3.5%
대	2	3.5%
리	2	3.5%
연	1	1.8%
구	1	1.8%
Other values (38)	38	66.7%

CJK

Value	Count	Frequency (%)
核	2	3.0%
的	2	3.0%
古	2	3.0%
看	2	3.0%
理	2	3.0%
府	2	3.0%
義	2	3.0%
簡	1	1.5%
諺	1	1.5%
年	1	1.5%
Other values (50)	50	74.6%

Letterlike Symbols

Value	Count	Frequency (%)
™	2	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㅍ	1	6.7%
ㄱ	1	6.7%
ㅌ	1	6.7%
ㅋ	1	6.7%
ㅊ	1	6.7%
ㅈ	1	6.7%
ㅇ	1	6.7%
ㅅ	1	6.7%
ㄴ	1	6.7%
ㄷ	1	6.7%
Other values (5)	5	33.3%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	1	33.3%
讀	1	33.3%
吏	1	33.3%

TITLE_KOR
Text

MISSING

Distinct	2065
Distinct (%)	98.0%
Missing	164
Missing (%)	7.2%
Memory size	17.9 KiB

Length

Max length	88
Median length	60
Mean length	27.387097
Min length	1

Characters and Unicode

Total characters	57732
Distinct characters	1423
Distinct categories	12 ?
Distinct scripts	5 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2022 ?
Unique (%)	95.9%

Sample

1st row	힌디어로 발음하는 인도의 한영 대사전
2nd row	힌디어로 발음하는 인도의 한영 대사전 - ㄱ(기역)
3rd row	힌디어로 발음하는 인도의 한영 대사전 - ㄴ(니은)
4th row	힌디어로 발음하는 인도의 한영 대사전 - ㄷ(디귿)
5th row	힌디어로 발음하는 인도의 한영 대사전 - ㄹ, ㅁ(리을, 미음)

Value	Count	Frequency (%)
대한	297	2.2%
	237	1.7%
한국	223	1.6%
한국어	217	1.6%
연구	169	1.2%
중심으로	156	1.1%
한국의	89	0.6%
대하여	72	0.5%
중국	65	0.5%
및	63	0.5%
Other values (7018)	12172	88.5%

Most occurring characters

Value	Count	Frequency (%)
	11693	20.3%
의	2468	4.3%
한	1780	3.1%
국	1378	2.4%
에	925	1.6%
어	901	1.6%
대	844	1.5%
과	780	1.4%
사	666	1.2%
중	537	0.9%
Other values (1413)	35760	61.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	41813	72.4%
Space Separator	11693	20.3%
Other Punctuation	969	1.7%
Decimal Number	880	1.5%
Lowercase Letter	612	1.1%
Dash Punctuation	472	0.8%
Open Punctuation	396	0.7%
Close Punctuation	395	0.7%
Uppercase Letter	238	0.4%
Final Punctuation	95	0.2%
Other values (2)	169	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	2468	5.9%
한	1780	4.3%
국	1378	3.3%
에	925	2.2%
어	901	2.2%
대	844	2.0%
과	780	1.9%
사	666	1.6%
중	537	1.3%
문	526	1.3%
Other values (1297)	31008	74.2%

Lowercase Letter

Value	Count	Frequency (%)
a	63	10.3%
i	61	10.0%
n	53	8.7%
o	53	8.7%
e	52	8.5%
t	43	7.0%
l	30	4.9%
r	27	4.4%
s	21	3.4%
g	20	3.3%
Other values (30)	189	30.9%

Uppercase Letter

Value	Count	Frequency (%)
A	24	10.1%
P	22	9.2%
C	17	7.1%
S	16	6.7%
I	15	6.3%
K	14	5.9%
E	13	5.5%
T	13	5.5%
L	11	4.6%
O	11	4.6%
Other values (16)	82	34.5%

Other Punctuation

Value	Count	Frequency (%)
:	387	39.9%
,	189	19.5%
'	165	17.0%
·	97	10.0%
"	73	7.5%
.	25	2.6%
/	22	2.3%
!	4	0.4%
…	2	0.2%
，	2	0.2%
Other values (2)	3	0.3%

Decimal Number

Value	Count	Frequency (%)
1	195	22.2%
0	183	20.8%
9	121	13.8%
2	118	13.4%
8	63	7.2%
5	48	5.5%
3	43	4.9%
6	41	4.7%
7	38	4.3%
4	30	3.4%

Open Punctuation

Value	Count	Frequency (%)
(	239	60.4%
『	69	17.4%
《	47	11.9%
「	19	4.8%
〈	15	3.8%
[	6	1.5%
〔	1	0.3%

Close Punctuation

Value	Count	Frequency (%)
)	238	60.3%
』	69	17.5%
》	47	11.9%
」	19	4.8%
〉	15	3.8%
]	6	1.5%
〕	1	0.3%

Math Symbol

Value	Count	Frequency (%)
≪	16	21.6%
≫	16	21.6%
~	15	20.3%
>	12	16.2%
<	12	16.2%
+	2	2.7%
=	1	1.4%

Dash Punctuation

Value	Count	Frequency (%)
-	470	99.6%
―	2	0.4%

Final Punctuation

Value	Count	Frequency (%)
’	51	53.7%
”	44	46.3%

Initial Punctuation

Value	Count	Frequency (%)
‘	51	53.7%
“	44	46.3%

Space Separator

Value	Count	Frequency (%)
	11693	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	40027	69.3%
Common	15069	26.1%
Han	1786	3.1%
Latin	813	1.4%
Cyrillic	37	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	2468	6.2%
한	1780	4.4%
국	1378	3.4%
에	925	2.3%
어	901	2.3%
대	844	2.1%
과	780	1.9%
사	666	1.7%
중	537	1.3%
문	526	1.3%
Other values (702)	29222	73.0%

Han

Value	Count	Frequency (%)
韓	50	2.8%
日	37	2.1%
國	35	2.0%
語	33	1.8%
中	29	1.6%
朝	29	1.6%
鮮	26	1.5%
本	25	1.4%
文	25	1.4%
學	20	1.1%
Other values (585)	1477	82.7%

Common

Value	Count	Frequency (%)
	11693	77.6%
-	470	3.1%
:	387	2.6%
(	239	1.6%
)	238	1.6%
1	195	1.3%
,	189	1.3%
0	183	1.2%
'	165	1.1%
9	121	0.8%
Other values (40)	1189	7.9%

Latin

Value	Count	Frequency (%)
a	63	7.7%
i	61	7.5%
n	53	6.5%
o	53	6.5%
e	52	6.4%
t	43	5.3%
l	30	3.7%
r	27	3.3%
A	24	3.0%
P	22	2.7%
Other values (39)	385	47.4%

Cyrillic

Value	Count	Frequency (%)
е	5	13.5%
а	4	10.8%
и	4	10.8%
о	3	8.1%
с	3	8.1%
н	3	8.1%
т	2	5.4%
р	2	5.4%
л	2	5.4%
в	2	5.4%
Other values (7)	7	18.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	40005	69.3%
ASCII	15255	26.4%
CJK	1768	3.1%
None	401	0.7%
Punctuation	194	0.3%
Cyrillic	37	0.1%
Math Operators	32	0.1%
Compat Jamo	22	< 0.1%
CJK Compat Ideographs	18	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	11693	76.7%
-	470	3.1%
:	387	2.5%
(	239	1.6%
)	238	1.6%
1	195	1.3%
,	189	1.2%
0	183	1.2%
'	165	1.1%
9	121	0.8%
Other values (69)	1375	9.0%

Hangul

Value	Count	Frequency (%)
의	2468	6.2%
한	1780	4.4%
국	1378	3.4%
에	925	2.3%
어	901	2.3%
대	844	2.1%
과	780	1.9%
사	666	1.7%
중	537	1.3%
문	526	1.3%
Other values (687)	29200	73.0%

None

Value	Count	Frequency (%)
·	97	24.2%
』	69	17.2%
『	69	17.2%
》	47	11.7%
《	47	11.7%
」	19	4.7%
「	19	4.7%
〈	15	3.7%
〉	15	3.7%
，	2	0.5%
Other values (2)	2	0.5%

Punctuation

Value	Count	Frequency (%)
’	51	26.3%
‘	51	26.3%
”	44	22.7%
“	44	22.7%
…	2	1.0%
―	2	1.0%

CJK

Value	Count	Frequency (%)
韓	50	2.8%
日	37	2.1%
國	35	2.0%
語	33	1.9%
中	29	1.6%
朝	29	1.6%
鮮	26	1.5%
本	25	1.4%
文	25	1.4%
學	20	1.1%
Other values (570)	1459	82.5%

Math Operators

Value	Count	Frequency (%)
≪	16	50.0%
≫	16	50.0%

Cyrillic

Value	Count	Frequency (%)
е	5	13.5%
а	4	10.8%
и	4	10.8%
о	3	8.1%
с	3	8.1%
н	3	8.1%
т	2	5.4%
р	2	5.4%
л	2	5.4%
в	2	5.4%
Other values (7)	7	18.9%

CJK Compat Ideographs

Value	Count	Frequency (%)
金	2	11.1%
李	2	11.1%
栗	2	11.1%
女	1	5.6%
烈	1	5.6%
歷	1	5.6%
聯	1	5.6%
論	1	5.6%
良	1	5.6%
兩	1	5.6%
Other values (5)	5	27.8%

Compat Jamo

Value	Count	Frequency (%)
ㅡ	2	9.1%
ㄴ	2	9.1%
ㅊ	2	9.1%
ㅋ	2	9.1%
ㅌ	2	9.1%
ㅍ	2	9.1%
ㅂ	2	9.1%
ㄹ	1	4.5%
ㅁ	1	4.5%
ㅎ	1	4.5%
Other values (5)	5	22.7%

TITLE_ORI
Text

Distinct	2243
Distinct (%)	98.8%
Missing	2
Missing (%)	0.1%
Memory size	17.9 KiB

Length

Max length	209
Median length	126
Mean length	50.67489
Min length	3

Characters and Unicode

Total characters	115032
Distinct characters	1636
Distinct categories	14 ?
Distinct scripts	8 ?
Distinct blocks	12 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2216 ?
Unique (%)	97.6%

Sample

1st row	힌디어로 발음하는 인도의 한영 대사전
2nd row	힌디어로 발음하는 인도의 한영 대사전 - ㄱ(기역)
3rd row	힌디어로 발음하는 인도의 한영 대사전 - ㄴ(니은)
4th row	힌디어로 발음하는 인도의 한영 대사전 - ㄷ(디귿)
5th row	힌디어로 발음하는 인도의 한영 대사전 - ㄹ, ㅁ(리을, 미음)

Value	Count	Frequency (%)
the	725	4.0%
of	652	3.6%
in	594	3.3%
and	549	3.0%
korean	452	2.5%
	259	1.4%
korea	183	1.0%
a	178	1.0%
on	140	0.8%
중심으로	122	0.7%
Other values (7441)	14306	78.8%

Most occurring characters

Value	Count	Frequency (%)
	15938	13.9%
e	6493	5.6%
n	5793	5.0%
a	5241	4.6%
o	5240	4.6%
i	4947	4.3%
t	4227	3.7%
r	3810	3.3%
s	3304	2.9%
l	2033	1.8%
Other values (1626)	58006	50.4%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	63475	55.2%
Other Letter	18684	16.2%
Space Separator	15938	13.9%
Uppercase Letter	12842	11.2%
Other Punctuation	1119	1.0%
Decimal Number	972	0.8%
Dash Punctuation	757	0.7%
Open Punctuation	369	0.3%
Close Punctuation	368	0.3%
Final Punctuation	248	0.2%
Other values (4)	260	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	821	4.4%
한	509	2.7%
국	426	2.3%
어	312	1.7%
중	307	1.6%
에	297	1.6%
대	288	1.5%
과	288	1.5%
학	261	1.4%
문	241	1.3%
Other values (1445)	14934	79.9%

Lowercase Letter

Value	Count	Frequency (%)
e	6493	10.2%
n	5793	9.1%
a	5241	8.3%
o	5240	8.3%
i	4947	7.8%
t	4227	6.7%
r	3810	6.0%
s	3304	5.2%
l	2033	3.2%
h	1790	2.8%
Other values (51)	20597	32.4%

Uppercase Letter

Value	Count	Frequency (%)
K	889	6.9%
C	756	5.9%
S	752	5.9%
T	734	5.7%
A	677	5.3%
N	572	4.5%
I	538	4.2%
E	511	4.0%
P	466	3.6%
R	412	3.2%
Other values (50)	6535	50.9%

Other Punctuation

Value	Count	Frequency (%)
:	463	41.4%
,	272	24.3%
'	165	14.7%
.	68	6.1%
·	54	4.8%
/	45	4.0%
、	22	2.0%
"	6	0.5%
!	5	0.4%
，	5	0.4%
Other values (6)	14	1.3%

Decimal Number

Value	Count	Frequency (%)
1	224	23.0%
0	194	20.0%
9	140	14.4%
2	116	11.9%
8	68	7.0%
5	54	5.6%
6	51	5.2%
7	45	4.6%
3	44	4.5%
4	36	3.7%

Math Symbol

Value	Count	Frequency (%)
≪	17	21.2%
≫	17	21.2%
<	16	20.0%
>	15	18.8%
~	10	12.5%
+	2	2.5%
×	1	1.2%
÷	1	1.2%
=	1	1.2%

Open Punctuation

Value	Count	Frequency (%)
(	201	54.5%
『	70	19.0%
《	53	14.4%
「	23	6.2%
〈	12	3.3%
[	9	2.4%
（	1	0.3%

Close Punctuation

Value	Count	Frequency (%)
)	200	54.3%
』	70	19.0%
》	53	14.4%
」	23	6.2%
〉	12	3.3%
]	9	2.4%
）	1	0.3%

Dash Punctuation

Value	Count	Frequency (%)
-	754	99.6%
―	2	0.3%
－	1	0.1%

Final Punctuation

Value	Count	Frequency (%)
’	132	53.2%
”	116	46.8%

Initial Punctuation

Value	Count	Frequency (%)
“	116	66.3%
‘	59	33.7%

Modifier Symbol

Value	Count	Frequency (%)
`	3	75.0%
¨	1	25.0%

Space Separator

Value	Count	Frequency (%)
	15938	100.0%

Other Symbol

Value	Count	Frequency (%)
™	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	64186	55.8%
Common	20031	17.4%
Hangul	13754	12.0%
Cyrillic	12130	10.5%
Han	4557	4.0%
Hiragana	293	0.3%
Katakana	80	0.1%
Greek	1	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
的	195	4.3%
朝	148	3.2%
中	147	3.2%
日	116	2.5%
韓	88	1.9%
文	68	1.5%
究	56	1.2%
本	55	1.2%
化	48	1.1%
語	43	0.9%
Other values (846)	3593	78.8%

Hangul

Value	Count	Frequency (%)
의	821	6.0%
한	509	3.7%
국	426	3.1%
어	312	2.3%
중	307	2.2%
에	297	2.2%
대	288	2.1%
과	288	2.1%
학	261	1.9%
문	241	1.8%
Other values (528)	10004	72.7%

Cyrillic

Value	Count	Frequency (%)
о	994	8.2%
и	789	6.5%
е	780	6.4%
а	597	4.9%
н	591	4.9%
с	547	4.5%
р	539	4.4%
к	429	3.5%
т	426	3.5%
О	394	3.2%
Other values (55)	6044	49.8%

Common

Value	Count	Frequency (%)
	15938	79.6%
-	754	3.8%
:	463	2.3%
,	272	1.4%
1	224	1.1%
(	201	1.0%
)	200	1.0%
0	194	1.0%
'	165	0.8%
9	140	0.7%
Other values (50)	1480	7.4%

Latin

Value	Count	Frequency (%)
e	6493	10.1%
n	5793	9.0%
a	5241	8.2%
o	5240	8.2%
i	4947	7.7%
t	4227	6.6%
r	3810	5.9%
s	3304	5.1%
l	2033	3.2%
h	1790	2.8%
Other values (45)	21308	33.2%

Hiragana

Value	Count	Frequency (%)
の	82	28.0%
と	42	14.3%
に	33	11.3%
て	14	4.8%
る	14	4.8%
を	13	4.4%
つ	11	3.8%
い	11	3.8%
か	10	3.4%
け	8	2.7%
Other values (24)	55	18.8%

Katakana

Value	Count	Frequency (%)
ア	22	27.5%
ジ	14	17.5%
ダ	6	7.5%
リ	4	5.0%
ン	3	3.8%
ツ	3	3.8%
シ	2	2.5%
ム	2	2.5%
ラ	2	2.5%
プ	2	2.5%
Other values (17)	20	25.0%

Greek

Value	Count	Frequency (%)
γ	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	83343	72.5%
Hangul	13737	11.9%
Cyrillic	12130	10.5%
CJK	4531	3.9%
Punctuation	427	0.4%
None	413	0.4%
Hiragana	293	0.3%
Katakana	80	0.1%
Math Operators	34	< 0.1%
CJK Compat Ideographs	26	< 0.1%
Other values (2)	18	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	15938	19.1%
e	6493	7.8%
n	5793	7.0%
a	5241	6.3%
o	5240	6.3%
i	4947	5.9%
t	4227	5.1%
r	3810	4.6%
s	3304	4.0%
l	2033	2.4%
Other values (75)	26317	31.6%

Cyrillic

Value	Count	Frequency (%)
о	994	8.2%
и	789	6.5%
е	780	6.4%
а	597	4.9%
н	591	4.9%
с	547	4.5%
р	539	4.4%
к	429	3.5%
т	426	3.5%
О	394	3.2%
Other values (55)	6044	49.8%

Hangul

Value	Count	Frequency (%)
의	821	6.0%
한	509	3.7%
국	426	3.1%
어	312	2.3%
중	307	2.2%
에	297	2.2%
대	288	2.1%
과	288	2.1%
학	261	1.9%
문	241	1.8%
Other values (512)	9987	72.7%

CJK

Value	Count	Frequency (%)
的	195	4.3%
朝	148	3.3%
中	147	3.2%
日	116	2.6%
韓	88	1.9%
文	68	1.5%
究	56	1.2%
本	55	1.2%
化	48	1.1%
語	43	0.9%
Other values (829)	3567	78.7%

Punctuation

Value	Count	Frequency (%)
’	132	30.9%
”	116	27.2%
“	116	27.2%
‘	59	13.8%
…	2	0.5%
―	2	0.5%

Hiragana

Value	Count	Frequency (%)
の	82	28.0%
と	42	14.3%
に	33	11.3%
て	14	4.8%
る	14	4.8%
を	13	4.4%
つ	11	3.8%
い	11	3.8%
か	10	3.4%
け	8	2.7%
Other values (24)	55	18.8%

None

Value	Count	Frequency (%)
『	70	16.9%
』	70	16.9%
·	54	13.1%
》	53	12.8%
《	53	12.8%
「	23	5.6%
」	23	5.6%
、	22	5.3%
〉	12	2.9%
〈	12	2.9%
Other values (12)	21	5.1%

Katakana

Value	Count	Frequency (%)
ア	22	27.5%
ジ	14	17.5%
ダ	6	7.5%
リ	4	5.0%
ン	3	3.8%
ツ	3	3.8%
シ	2	2.5%
ム	2	2.5%
ラ	2	2.5%
プ	2	2.5%
Other values (17)	20	25.0%

Math Operators

Value	Count	Frequency (%)
≪	17	50.0%
≫	17	50.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	4	15.4%
論	4	15.4%
栗	2	7.7%
金	2	7.7%
樂	2	7.7%
理	1	3.8%
聯	1	3.8%
良	1	3.8%
流	1	3.8%
類	1	3.8%
Other values (7)	7	26.9%

Compat Jamo

Value	Count	Frequency (%)
ㅡ	2	11.8%
ㄹ	1	5.9%
ㅁ	1	5.9%
ㄷ	1	5.9%
ㄴ	1	5.9%
ㅊ	1	5.9%
ㅋ	1	5.9%
ㅌ	1	5.9%
ㅍ	1	5.9%
ㅎ	1	5.9%
Other values (6)	6	35.3%

Letterlike Symbols

Value	Count	Frequency (%)
™	1	100.0%

SUBTITLE_ENG
Text

MISSING

Distinct	3
Distinct (%)	100.0%
Missing	2269
Missing (%)	99.9%
Memory size	17.9 KiB

Length

Max length	108
Median length	106
Mean length	73
Min length	5

Characters and Unicode

Total characters	219
Distinct characters	46
Distinct categories	10 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	100.0%

Sample

1st row	#NAME
2nd row	Restudy on the Battle of Dingmao and The Negotiation Between Houjin and Chosn Dynasty Concerning the Battle
3rd row	The Comparative Analysis on the Scholarly Journals of“Korean Studies”and “Contemporary Korea”( 1996 －2010)

Value	Count	Frequency (%)
the	5	16.1%
on	2	6.5%
battle	2	6.5%
and	2	6.5%
name	1	3.2%
comparative	1	3.2%
1996	1	3.2%
korea”	1	3.2%
“contemporary	1	3.2%
studies”and	1	3.2%
Other values (14)	14	45.2%

Most occurring characters

Value	Count	Frequency (%)
	29	13.2%
e	18	8.2%
n	18	8.2%
o	17	7.8%
a	16	7.3%
t	15	6.8%
r	8	3.7%
i	8	3.7%
s	7	3.2%
h	7	3.2%
Other values (36)	76	34.7%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	150	68.5%
Space Separator	29	13.2%
Uppercase Letter	24	11.0%
Decimal Number	8	3.7%
Final Punctuation	2	0.9%
Initial Punctuation	2	0.9%
Dash Punctuation	1	0.5%
Open Punctuation	1	0.5%
Other Punctuation	1	0.5%
Close Punctuation	1	0.5%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
e	18	12.0%
n	18	12.0%
o	17	11.3%
a	16	10.7%
t	15	10.0%
r	8	5.3%
i	8	5.3%
s	7	4.7%
h	7	4.7%
l	6	4.0%
Other values (11)	30	20.0%

Uppercase Letter

Value	Count	Frequency (%)
C	4	16.7%
B	3	12.5%
K	2	8.3%
S	2	8.3%
A	2	8.3%
T	2	8.3%
N	2	8.3%
D	2	8.3%
J	1	4.2%
H	1	4.2%
Other values (3)	3	12.5%

Decimal Number

Value	Count	Frequency (%)
0	2	25.0%
1	2	25.0%
9	2	25.0%
6	1	12.5%
2	1	12.5%

Space Separator

Value	Count	Frequency (%)
	29	100.0%

Final Punctuation

Value	Count	Frequency (%)
”	2	100.0%

Initial Punctuation

Value	Count	Frequency (%)
“	2	100.0%

Dash Punctuation

Value	Count	Frequency (%)
－	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Other Punctuation

Value	Count	Frequency (%)
#	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	174	79.5%
Common	45	20.5%

Most frequent character per script

Latin

Value	Count	Frequency (%)
e	18	10.3%
n	18	10.3%
o	17	9.8%
a	16	9.2%
t	15	8.6%
r	8	4.6%
i	8	4.6%
s	7	4.0%
h	7	4.0%
l	6	3.4%
Other values (24)	54	31.0%

Common

Value	Count	Frequency (%)
	29	64.4%
”	2	4.4%
0	2	4.4%
1	2	4.4%
9	2	4.4%
“	2	4.4%
6	1	2.2%
2	1	2.2%
－	1	2.2%
(	1	2.2%
Other values (2)	2	4.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	214	97.7%
Punctuation	4	1.8%
None	1	0.5%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	29	13.6%
e	18	8.4%
n	18	8.4%
o	17	7.9%
a	16	7.5%
t	15	7.0%
r	8	3.7%
i	8	3.7%
s	7	3.3%
h	7	3.3%
Other values (33)	71	33.2%

Punctuation

Value	Count	Frequency (%)
”	2	50.0%
“	2	50.0%

None

Value	Count	Frequency (%)
－	1	100.0%

SUBTITLE_KOR
Text

CONSTANT MISSING

Distinct	1
Distinct (%)	100.0%
Missing	2271
Missing (%)	> 99.9%
Memory size	17.9 KiB

Length

Max length	20
Median length	20
Mean length	20
Min length	20

Characters and Unicode

Total characters	20
Distinct characters	17
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	100.0%

Sample

1st row	현대 한국의 정토사회와 인드라넷 운동

Value	Count	Frequency (%)
현대	1	20.0%
한국의	1	20.0%
정토사회와	1	20.0%
인드라넷	1	20.0%
운동	1	20.0%

Most occurring characters

Value	Count	Frequency (%)
	4	20.0%
현	1	5.0%
회	1	5.0%
운	1	5.0%
넷	1	5.0%
라	1	5.0%
드	1	5.0%
인	1	5.0%
와	1	5.0%
사	1	5.0%
Other values (7)	7	35.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	16	80.0%
Space Separator	4	20.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
현	1	6.2%
회	1	6.2%
운	1	6.2%
넷	1	6.2%
라	1	6.2%
드	1	6.2%
인	1	6.2%
와	1	6.2%
사	1	6.2%
대	1	6.2%
Other values (6)	6	37.5%

Space Separator

Value	Count	Frequency (%)
	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	16	80.0%
Common	4	20.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
현	1	6.2%
회	1	6.2%
운	1	6.2%
넷	1	6.2%
라	1	6.2%
드	1	6.2%
인	1	6.2%
와	1	6.2%
사	1	6.2%
대	1	6.2%
Other values (6)	6	37.5%

Common

Value	Count	Frequency (%)
	4	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	16	80.0%
ASCII	4	20.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	4	100.0%

Hangul

Value	Count	Frequency (%)
현	1	6.2%
회	1	6.2%
운	1	6.2%
넷	1	6.2%
라	1	6.2%
드	1	6.2%
인	1	6.2%
와	1	6.2%
사	1	6.2%
대	1	6.2%
Other values (6)	6	37.5%

SUBTITLE_ORI
Text

MISSING

Distinct	9
Distinct (%)	100.0%
Missing	2263
Missing (%)	99.6%
Memory size	17.9 KiB

Length

Max length	89
Median length	39
Mean length	43.888889
Min length	5

Characters and Unicode

Total characters	395
Distinct characters	132
Distinct categories	12 ?
Distinct scripts	5 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9 ?
Unique (%)	100.0%

Sample

1st row	THE JUNGTO SOCIETY AND THE INDRA'S NET COMMUNITY MOVEMENT IN CONTEMPORARY KOREA
2nd row	성리학사상 한국성리학의 위상과 역할 - 주자성리학과 한국성리학 비교연구
3rd row	“丁卯之役”及金判的再探
4th row	Reading between the Lines: Automated Content Analysis of North Korean Nuclear Rhetooric
5th row	Women’s Citizenship and Civil Society in South Korea: Gender Politics in Labor Movements

Value	Count	Frequency (%)
the	3	5.3%
in	3	5.3%
society	2	3.5%
and	2	3.5%
korea	2	3.5%
	2	3.5%
movements	1	1.8%
nuclear	1	1.8%
rhetooric	1	1.8%
women’s	1	1.8%
Other values (39)	39	68.4%

Most occurring characters

Value	Count	Frequency (%)
	51	12.9%
e	19	4.8%
o	14	3.5%
n	14	3.5%
i	14	3.5%
t	13	3.3%
N	11	2.8%
E	9	2.3%
a	8	2.0%
T	8	2.0%
Other values (122)	234	59.2%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	130	32.9%
Uppercase Letter	90	22.8%
Other Letter	87	22.0%
Space Separator	51	12.9%
Other Punctuation	9	2.3%
Dash Punctuation	8	2.0%
Decimal Number	8	2.0%
Close Punctuation	4	1.0%
Open Punctuation	4	1.0%
Final Punctuation	2	0.5%
Other values (2)	2	0.5%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
학	4	4.6%
리	4	4.6%
성	4	4.6%
한	3	3.4%
の	3	3.4%
국	3	3.4%
전	2	2.3%
과	2	2.3%
的	2	2.3%
を	2	2.3%
Other values (56)	58	66.7%

Lowercase Letter

Value	Count	Frequency (%)
e	19	14.6%
o	14	10.8%
n	14	10.8%
i	14	10.8%
t	13	10.0%
a	8	6.2%
r	7	5.4%
s	7	5.4%
h	5	3.8%
l	4	3.1%
Other values (12)	25	19.2%

Uppercase Letter

Value	Count	Frequency (%)
N	11	12.2%
E	9	10.0%
T	8	8.9%
M	7	7.8%
A	7	7.8%
O	7	7.8%
C	6	6.7%
R	6	6.7%
S	4	4.4%
I	4	4.4%
Other values (11)	21	23.3%

Other Punctuation

Value	Count	Frequency (%)
\	4	44.4%
:	2	22.2%
、	1	11.1%
'	1	11.1%
#	1	11.1%

Decimal Number

Value	Count	Frequency (%)
1	2	25.0%
9	2	25.0%
0	2	25.0%
6	1	12.5%
2	1	12.5%

Close Punctuation

Value	Count	Frequency (%)
》	2	50.0%
)	1	25.0%
）	1	25.0%

Open Punctuation

Value	Count	Frequency (%)
《	2	50.0%
(	1	25.0%
（	1	25.0%

Dash Punctuation

Value	Count	Frequency (%)
-	4	50.0%
―	4	50.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	50.0%
”	1	50.0%

Space Separator

Value	Count	Frequency (%)
	51	100.0%

Math Symbol

Value	Count	Frequency (%)
～	1	100.0%

Initial Punctuation

Value	Count	Frequency (%)
“	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	220	55.7%
Common	88	22.3%
Hangul	42	10.6%
Han	30	7.6%
Hiragana	15	3.8%

Most frequent character per script

Latin

Value	Count	Frequency (%)
e	19	8.6%
o	14	6.4%
n	14	6.4%
i	14	6.4%
t	13	5.9%
N	11	5.0%
E	9	4.1%
a	8	3.6%
T	8	3.6%
r	7	3.2%
Other values (33)	103	46.8%

Han

Value	Count	Frequency (%)
的	2	6.7%
政	1	3.3%
析	1	3.3%
分	1	3.3%
比	1	3.3%
代	1	3.3%
控	1	3.3%
成	1	3.3%
究	1	3.3%
例	1	3.3%
Other values (19)	19	63.3%

Hangul

Value	Count	Frequency (%)
학	4	9.5%
리	4	9.5%
성	4	9.5%
한	3	7.1%
국	3	7.1%
전	2	4.8%
과	2	4.8%
상	2	4.8%
구	1	2.4%
연	1	2.4%
Other values (16)	16	38.1%

Common

Value	Count	Frequency (%)
	51	58.0%
-	4	4.5%
\	4	4.5%
―	4	4.5%
》	2	2.3%
1	2	2.3%
:	2	2.3%
9	2	2.3%
0	2	2.3%
《	2	2.3%
Other values (13)	13	14.8%

Hiragana

Value	Count	Frequency (%)
の	3	20.0%
を	2	13.3%
に	2	13.3%
く	1	6.7%
だ	1	6.7%
さ	1	6.7%
て	1	6.7%
い	1	6.7%
え	1	6.7%
た	1	6.7%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	293	74.2%
Hangul	42	10.6%
CJK	30	7.6%
Hiragana	15	3.8%
None	8	2.0%
Punctuation	7	1.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	51	17.4%
e	19	6.5%
o	14	4.8%
n	14	4.8%
i	14	4.8%
t	13	4.4%
N	11	3.8%
E	9	3.1%
a	8	2.7%
T	8	2.7%
Other values (46)	132	45.1%

Punctuation

Value	Count	Frequency (%)
―	4	57.1%
’	1	14.3%
“	1	14.3%
”	1	14.3%

Hangul

Value	Count	Frequency (%)
학	4	9.5%
리	4	9.5%
성	4	9.5%
한	3	7.1%
국	3	7.1%
전	2	4.8%
과	2	4.8%
상	2	4.8%
구	1	2.4%
연	1	2.4%
Other values (16)	16	38.1%

Hiragana

Value	Count	Frequency (%)
の	3	20.0%
を	2	13.3%
に	2	13.3%
く	1	6.7%
だ	1	6.7%
さ	1	6.7%
て	1	6.7%
い	1	6.7%
え	1	6.7%
た	1	6.7%

None

Value	Count	Frequency (%)
》	2	25.0%
《	2	25.0%
～	1	12.5%
（	1	12.5%
、	1	12.5%
）	1	12.5%

CJK

Value	Count	Frequency (%)
的	2	6.7%
政	1	3.3%
析	1	3.3%
分	1	3.3%
比	1	3.3%
代	1	3.3%
控	1	3.3%
成	1	3.3%
究	1	3.3%
例	1	3.3%
Other values (19)	19	63.3%

AUTHOR_ORI
Text

MISSING

Distinct	1743
Distinct (%)	80.4%
Missing	104
Missing (%)	4.6%
Memory size	17.9 KiB

Length

Max length	67
Median length	62
Mean length	10.502306
Min length	1

Characters and Unicode

Total characters	22769
Distinct characters	706
Distinct categories	10 ?
Distinct scripts	6 ?
Distinct blocks	7 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1475 ?
Unique (%)	68.0%

Sample

1st row	김도영
2nd row	김도영
3rd row	김도영
4th row	김도영
5th row	김도영

Value	Count	Frequency (%)
kim	114	2.8%
lee	53	1.3%
park	47	1.2%
김관웅	29	0.7%
ким	24	0.6%
shin	23	0.6%
а	20	0.5%
j	17	0.4%
yoon	15	0.4%
han	15	0.4%
Other values (2416)	3653	91.1%

Most occurring characters

Value	Count	Frequency (%)
	1849	8.1%
n	1521	6.7%
a	1266	5.6%
o	1203	5.3%
e	1105	4.9%
i	985	4.3%
u	702	3.1%
h	618	2.7%
g	616	2.7%
r	590	2.6%
Other values (696)	12314	54.1%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	12739	55.9%
Uppercase Letter	4178	18.3%
Other Letter	2953	13.0%
Space Separator	1849	8.1%
Other Punctuation	696	3.1%
Dash Punctuation	308	1.4%
Close Punctuation	22	0.1%
Open Punctuation	22	0.1%
Decimal Number	1	< 0.1%
Math Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	175	5.9%
이	67	2.3%
영	66	2.2%
웅	47	1.6%
金	43	1.5%
정	40	1.4%
호	36	1.2%
박	34	1.2%
최	33	1.1%
관	33	1.1%
Other values (566)	2379	80.6%

Lowercase Letter

Value	Count	Frequency (%)
n	1521	11.9%
a	1266	9.9%
o	1203	9.4%
e	1105	8.7%
i	985	7.7%
u	702	5.5%
h	618	4.9%
g	616	4.8%
r	590	4.6%
m	388	3.0%
Other values (50)	3745	29.4%

Uppercase Letter

Value	Count	Frequency (%)
S	428	10.2%
K	339	8.1%
H	266	6.4%
J	247	5.9%
M	207	5.0%
Y	183	4.4%
A	164	3.9%
C	157	3.8%
L	147	3.5%
P	144	3.4%
Other values (48)	1896	45.4%

Other Punctuation

Value	Count	Frequency (%)
.	360	51.7%
;	286	41.1%
,	40	5.7%
'	10	1.4%

Close Punctuation

Value	Count	Frequency (%)
)	18	81.8%
]	4	18.2%

Open Punctuation

Value	Count	Frequency (%)
(	18	81.8%
[	4	18.2%

Space Separator

Value	Count	Frequency (%)
	1849	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	308	100.0%

Decimal Number

Value	Count	Frequency (%)
3	1	100.0%

Math Symbol

Value	Count	Frequency (%)
÷	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14803	65.0%
Common	2899	12.7%
Cyrillic	2114	9.3%
Hangul	2031	8.9%
Han	897	3.9%
Katakana	25	0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
金	43	4.8%
李	28	3.1%
美	15	1.7%
玉	14	1.6%
文	14	1.6%
朴	12	1.3%
李	11	1.2%
崔	11	1.2%
鄭	11	1.2%
海	10	1.1%
Other values (324)	728	81.2%

Hangul

Value	Count	Frequency (%)
김	175	8.6%
이	67	3.3%
영	66	3.2%
웅	47	2.3%
정	40	2.0%
호	36	1.8%
박	34	1.7%
최	33	1.6%
관	33	1.6%
장	28	1.4%
Other values (217)	1472	72.5%

Cyrillic

Value	Count	Frequency (%)
а	241	11.4%
н	131	6.2%
А	127	6.0%
и	119	5.6%
о	83	3.9%
в	80	3.8%
е	80	3.8%
м	68	3.2%
М	66	3.1%
л	64	3.0%
Other values (52)	1055	49.9%

Latin

Value	Count	Frequency (%)
n	1521	10.3%
a	1266	8.6%
o	1203	8.1%
e	1105	7.5%
i	985	6.7%
u	702	4.7%
h	618	4.2%
g	616	4.2%
r	590	4.0%
S	428	2.9%
Other values (46)	5769	39.0%

Katakana

Value	Count	Frequency (%)
ン	6	24.0%
ョ	3	12.0%
チ	3	12.0%
ム	2	8.0%
ヶ	1	4.0%
ク	1	4.0%
ソ	1	4.0%
キ	1	4.0%
ヒ	1	4.0%
ギ	1	4.0%
Other values (5)	5	20.0%

Common

Value	Count	Frequency (%)
	1849	63.8%
.	360	12.4%
-	308	10.6%
;	286	9.9%
,	40	1.4%
)	18	0.6%
(	18	0.6%
'	10	0.3%
]	4	0.1%
[	4	0.1%
Other values (2)	2	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	17696	77.7%
Cyrillic	2114	9.3%
Hangul	2031	8.9%
CJK	881	3.9%
Katakana	25	0.1%
CJK Compat Ideographs	16	0.1%
None	6	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1849	10.4%
n	1521	8.6%
a	1266	7.2%
o	1203	6.8%
e	1105	6.2%
i	985	5.6%
u	702	4.0%
h	618	3.5%
g	616	3.5%
r	590	3.3%
Other values (53)	7241	40.9%

Cyrillic

Value	Count	Frequency (%)
а	241	11.4%
н	131	6.2%
А	127	6.0%
и	119	5.6%
о	83	3.9%
в	80	3.8%
е	80	3.8%
м	68	3.2%
М	66	3.1%
л	64	3.0%
Other values (52)	1055	49.9%

Hangul

Value	Count	Frequency (%)
김	175	8.6%
이	67	3.3%
영	66	3.2%
웅	47	2.3%
정	40	2.0%
호	36	1.8%
박	34	1.7%
최	33	1.6%
관	33	1.6%
장	28	1.4%
Other values (217)	1472	72.5%

CJK

Value	Count	Frequency (%)
金	43	4.9%
李	28	3.2%
美	15	1.7%
玉	14	1.6%
文	14	1.6%
朴	12	1.4%
崔	11	1.2%
鄭	11	1.2%
海	10	1.1%
石	10	1.1%
Other values (320)	713	80.9%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	11	68.8%
寧	2	12.5%
柳	2	12.5%
梁	1	6.2%

Katakana

Value	Count	Frequency (%)
ン	6	24.0%
ョ	3	12.0%
チ	3	12.0%
ム	2	8.0%
ヶ	1	4.0%
ク	1	4.0%
ソ	1	4.0%
キ	1	4.0%
ヒ	1	4.0%
ギ	1	4.0%
Other values (5)	5	20.0%

None

Value	Count	Frequency (%)
ð	2	33.3%
ı	1	16.7%
Þ	1	16.7%
÷	1	16.7%
Ð	1	16.7%

AUTHOR_KOR
Text

MISSING

Distinct	472
Distinct (%)	70.1%
Missing	1599
Missing (%)	70.4%
Memory size	17.9 KiB

Length

Max length	21
Median length	3
Mean length	3.2897474
Min length	1

Characters and Unicode

Total characters	2214
Distinct characters	231
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	374 ?
Unique (%)	55.6%

Sample

1st row	김도영
2nd row	김도영
3rd row	김도영
4th row	김도영
5th row	김도영

Value	Count	Frequency (%)
김관웅	30	4.3%
김도영	11	1.6%
김호웅	9	1.3%
	8	1.1%
안평추	8	1.1%
정광	7	1.0%
오상순	6	0.9%
김춘선	6	0.9%
장광군	5	0.7%
장흥권	5	0.7%
Other values (480)	607	86.5%

Most occurring characters

Value	Count	Frequency (%)
김	180	8.1%
이	69	3.1%
영	66	3.0%
정	50	2.3%
웅	48	2.2%
;	44	2.0%
호	37	1.7%
최	35	1.6%
관	34	1.5%
박	31	1.4%
Other values (221)	1620	73.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2140	96.7%
Other Punctuation	45	2.0%
Space Separator	29	1.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	180	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1561	72.9%

Other Punctuation

Value	Count	Frequency (%)
;	44	97.8%
,	1	2.2%

Space Separator

Value	Count	Frequency (%)
	29	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2140	96.7%
Common	74	3.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	180	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1561	72.9%

Common

Value	Count	Frequency (%)
;	44	59.5%
	29	39.2%
,	1	1.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2140	96.7%
ASCII	74	3.3%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
김	180	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1561	72.9%

ASCII

Value	Count	Frequency (%)
;	44	59.5%
	29	39.2%
,	1	1.4%

AUTHOR_ENG
Text

MISSING

Distinct	885
Distinct (%)	83.6%
Missing	1214
Missing (%)	53.4%
Memory size	17.9 KiB

Length

Max length	67
Median length	60
Mean length	16.147448
Min length	1

Characters and Unicode

Total characters	17084
Distinct characters	66
Distinct categories	6 ?
Distinct scripts	4 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	750 ?
Unique (%)	70.9%

Sample

1st row	Jungmin Seo;Dong-Hoon Seol
2nd row	Mary Deborah Lee
3rd row	Kyung-Tae Park
4th row	Whi Chang
5th row	Soo Hyun Jang

Value	Count	Frequency (%)
kim	119	4.6%
lee	55	2.1%
park	48	1.9%
shin	22	0.9%
j	18	0.7%
han	16	0.6%
yoon	15	0.6%
s	14	0.5%
young	14	0.5%
suh	13	0.5%
Other values (1417)	2240	87.0%

Most occurring characters

Value	Count	Frequency (%)
n	1544	9.0%
	1519	8.9%
a	1278	7.5%
o	1199	7.0%
e	1116	6.5%
i	997	5.8%
u	712	4.2%
g	633	3.7%
h	604	3.5%
r	579	3.4%
Other values (56)	6903	40.4%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	11470	67.1%
Uppercase Letter	3375	19.8%
Space Separator	1519	8.9%
Other Punctuation	393	2.3%
Dash Punctuation	324	1.9%
Other Letter	3	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
S	413	12.2%
K	343	10.2%
H	278	8.2%
J	255	7.6%
M	206	6.1%
Y	189	5.6%
A	176	5.2%
C	164	4.9%
P	149	4.4%
L	148	4.4%
Other values (19)	1054	31.2%

Lowercase Letter

Value	Count	Frequency (%)
n	1544	13.5%
a	1278	11.1%
o	1199	10.5%
e	1116	9.7%
i	997	8.7%
u	712	6.2%
g	633	5.5%
h	604	5.3%
r	579	5.0%
k	385	3.4%
Other values (18)	2423	21.1%

Other Punctuation

Value	Count	Frequency (%)
;	204	51.9%
.	131	33.3%
,	49	12.5%
'	9	2.3%

Other Letter

Value	Count	Frequency (%)
김	1	33.3%
향	1	33.3%
해	1	33.3%

Space Separator

Value	Count	Frequency (%)
	1519	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	324	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14841	86.9%
Common	2236	13.1%
Cyrillic	4	< 0.1%
Hangul	3	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
n	1544	10.4%
a	1278	8.6%
o	1199	8.1%
e	1116	7.5%
i	997	6.7%
u	712	4.8%
g	633	4.3%
h	604	4.1%
r	579	3.9%
S	413	2.8%
Other values (43)	5766	38.9%

Common

Value	Count	Frequency (%)
	1519	67.9%
-	324	14.5%
;	204	9.1%
.	131	5.9%
,	49	2.2%
'	9	0.4%

Cyrillic

Value	Count	Frequency (%)
о	1	25.0%
В	1	25.0%
Н	1	25.0%
А	1	25.0%

Hangul

Value	Count	Frequency (%)
김	1	33.3%
향	1	33.3%
해	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	17076	> 99.9%
Cyrillic	4	< 0.1%
Hangul	3	< 0.1%
None	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
n	1544	9.0%
	1519	8.9%
a	1278	7.5%
o	1199	7.0%
e	1116	6.5%
i	997	5.8%
u	712	4.2%
g	633	3.7%
h	604	3.5%
r	579	3.4%
Other values (48)	6895	40.4%

Cyrillic

Value	Count	Frequency (%)
о	1	25.0%
В	1	25.0%
Н	1	25.0%
А	1	25.0%

Hangul

Value	Count	Frequency (%)
김	1	33.3%
향	1	33.3%
해	1	33.3%

None

Value	Count	Frequency (%)
ı	1	100.0%

AUTHOR_ETC
Text

MISSING

Distinct	448
Distinct (%)	83.6%
Missing	1736
Missing (%)	76.4%
Memory size	17.9 KiB

Length

Max length	62
Median length	34
Mean length	7.3246269
Min length	1

Characters and Unicode

Total characters	3926
Distinct characters	450
Distinct categories	9 ?
Distinct scripts	5 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	385 ?
Unique (%)	71.8%

Sample

1st row	李奎泰
2nd row	李奎泰
3rd row	俊美
4th row	邵雍
5th row	斗音

Value	Count	Frequency (%)
ким	24	2.8%
а	19	2.2%
пак	12	1.4%
с	12	1.4%
м	11	1.3%
	10	1.1%
鄭光	7	0.8%
и	7	0.8%
тен	6	0.7%
л	6	0.7%
Other values (573)	756	86.9%

Most occurring characters

Value	Count	Frequency (%)
	337	8.6%
а	238	6.1%
.	233	5.9%
н	128	3.3%
А	124	3.2%
и	118	3.0%
о	81	2.1%
в	78	2.0%
е	76	1.9%
;	75	1.9%
Other values (440)	2438	62.1%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	1478	37.6%
Uppercase Letter	923	23.5%
Other Letter	873	22.2%
Space Separator	337	8.6%
Other Punctuation	310	7.9%
Dash Punctuation	2	0.1%
Open Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%
Decimal Number	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
金	40	4.6%
李	30	3.4%
光	15	1.7%
文	14	1.6%
鄭	13	1.5%
美	13	1.5%
朴	12	1.4%
崔	10	1.1%
海	10	1.1%
王	10	1.1%
Other values (330)	706	80.9%

Lowercase Letter

Value	Count	Frequency (%)
а	238	16.1%
н	128	8.7%
и	118	8.0%
о	81	5.5%
в	78	5.3%
е	76	5.1%
м	68	4.6%
л	62	4.2%
р	59	4.0%
к	47	3.2%
Other values (41)	523	35.4%

Uppercase Letter

Value	Count	Frequency (%)
А	124	13.4%
М	66	7.2%
К	63	6.8%
Н	60	6.5%
С	54	5.9%
В	53	5.7%
И	43	4.7%
Е	35	3.8%
Б	34	3.7%
Д	30	3.3%
Other values (40)	361	39.1%

Other Punctuation

Value	Count	Frequency (%)
.	233	75.2%
;	75	24.2%
'	1	0.3%
,	1	0.3%

Space Separator

Value	Count	Frequency (%)
	337	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Decimal Number

Value	Count	Frequency (%)
3	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Cyrillic	2078	52.9%
Han	855	21.8%
Common	652	16.6%
Latin	323	8.2%
Katakana	18	0.5%

Most frequent character per script

Han

Value	Count	Frequency (%)
金	40	4.7%
李	30	3.5%
光	15	1.8%
文	14	1.6%
鄭	13	1.5%
美	13	1.5%
朴	12	1.4%
崔	10	1.2%
海	10	1.2%
王	10	1.2%
Other values (316)	688	80.5%

Cyrillic

Value	Count	Frequency (%)
а	238	11.5%
н	128	6.2%
А	124	6.0%
и	118	5.7%
о	81	3.9%
в	78	3.8%
е	76	3.7%
м	68	3.3%
М	66	3.2%
К	63	3.0%
Other values (52)	1038	50.0%

Latin

Value	Count	Frequency (%)
n	31	9.6%
h	27	8.4%
T	26	8.0%
a	20	6.2%
e	18	5.6%
i	17	5.3%
g	16	5.0%
r	15	4.6%
N	12	3.7%
u	12	3.7%
Other values (29)	129	39.9%

Katakana

Value	Count	Frequency (%)
ン	3	16.7%
チ	2	11.1%
ョ	2	11.1%
ヒ	1	5.6%
ウ	1	5.6%
ク	1	5.6%
ド	1	5.6%
ソ	1	5.6%
ヤ	1	5.6%
ギ	1	5.6%
Other values (4)	4	22.2%

Common

Value	Count	Frequency (%)
	337	51.7%
.	233	35.7%
;	75	11.5%
-	2	0.3%
'	1	0.2%
(	1	0.2%
,	1	0.2%
)	1	0.2%
3	1	0.2%

Most occurring blocks

Value	Count	Frequency (%)
Cyrillic	2078	52.9%
ASCII	975	24.8%
CJK	842	21.4%
Katakana	18	0.5%
CJK Compat Ideographs	13	0.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	337	34.6%
.	233	23.9%
;	75	7.7%
n	31	3.2%
h	27	2.8%
T	26	2.7%
a	20	2.1%
e	18	1.8%
i	17	1.7%
g	16	1.6%
Other values (38)	175	17.9%

Cyrillic

Value	Count	Frequency (%)
а	238	11.5%
н	128	6.2%
А	124	6.0%
и	118	5.7%
о	81	3.9%
в	78	3.8%
е	76	3.7%
м	68	3.3%
М	66	3.2%
К	63	3.0%
Other values (52)	1038	50.0%

CJK

Value	Count	Frequency (%)
金	40	4.8%
李	30	3.6%
光	15	1.8%
文	14	1.7%
鄭	13	1.5%
美	13	1.5%
朴	12	1.4%
崔	10	1.2%
海	10	1.2%
王	10	1.2%
Other values (312)	675	80.2%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	8	61.5%
柳	2	15.4%
寧	2	15.4%
梁	1	7.7%

Katakana

Value	Count	Frequency (%)
ン	3	16.7%
チ	2	11.1%
ョ	2	11.1%
ヒ	1	5.6%
ウ	1	5.6%
ク	1	5.6%
ド	1	5.6%
ソ	1	5.6%
ヤ	1	5.6%
ギ	1	5.6%
Other values (4)	4	22.2%

ORGANIZATION_ORI
Text

MISSING

Distinct	882
Distinct (%)	45.2%
Missing	319
Missing (%)	14.0%
Memory size	17.9 KiB

Length

Max length	107
Median length	81
Mean length	17.97235
Min length	1

Characters and Unicode

Total characters	35100
Distinct characters	509
Distinct categories	11 ?
Distinct scripts	7 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	622 ?
Unique (%)	31.8%

Sample

1st row	University of Delhi
2nd row	University of Delhi
3rd row	University of Delhi
4th row	University of Delhi
5th row	University of Delhi

Value	Count	Frequency (%)
university	733	15.3%
of	405	8.4%
the	115	2.4%
national	82	1.7%
연변대학교	66	1.4%
studies	54	1.1%
연변대학	53	1.1%
중앙민족대학교	46	1.0%
им	46	1.0%
조선사회과학원	39	0.8%
Other values (1126)	3166	65.9%

Most occurring characters

Value	Count	Frequency (%)
	2860	8.1%
i	2537	7.2%
n	2048	5.8%
e	1977	5.6%
t	1536	4.4%
o	1487	4.2%
a	1407	4.0%
r	1342	3.8%
s	1297	3.7%
y	1005	2.9%
Other values (499)	17604	50.2%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	22893	65.2%
Other Letter	5116	14.6%
Uppercase Letter	3723	10.6%
Space Separator	2860	8.1%
Other Punctuation	321	0.9%
Dash Punctuation	71	0.2%
Open Punctuation	46	0.1%
Close Punctuation	46	0.1%
Decimal Number	17	< 0.1%
Final Punctuation	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
학	629	12.3%
대	580	11.3%
교	410	8.0%
大	272	5.3%
연	156	3.0%
국	131	2.6%
변	121	2.4%
중	114	2.2%
앙	94	1.8%
원	88	1.7%
Other values (375)	2521	49.3%

Lowercase Letter

Value	Count	Frequency (%)
i	2537	11.1%
n	2048	8.9%
e	1977	8.6%
t	1536	6.7%
o	1487	6.5%
a	1407	6.1%
r	1342	5.9%
s	1297	5.7%
y	1005	4.4%
v	852	3.7%
Other values (47)	7405	32.3%

Uppercase Letter

Value	Count	Frequency (%)
U	836	22.5%
S	445	12.0%
C	213	5.7%
A	186	5.0%
T	173	4.6%
N	156	4.2%
H	133	3.6%
K	131	3.5%
I	118	3.2%
M	105	2.8%
Other values (38)	1227	33.0%

Other Punctuation

Value	Count	Frequency (%)
,	115	35.8%
.	109	34.0%
;	81	25.2%
'	8	2.5%
&	4	1.2%
:	2	0.6%
/	2	0.6%

Decimal Number

Value	Count	Frequency (%)
2	9	52.9%
7	4	23.5%
3	3	17.6%
1	1	5.9%

Final Punctuation

Value	Count	Frequency (%)
’	4	80.0%
”	1	20.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	1	50.0%
“	1	50.0%

Space Separator

Value	Count	Frequency (%)
	2860	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	71	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	46	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	46	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	22429	63.9%
Cyrillic	4186	11.9%
Hangul	3966	11.3%
Common	3368	9.6%
Han	1130	3.2%
Katakana	20	0.1%
Greek	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
학	629	15.9%
대	580	14.6%
교	410	10.3%
연	156	3.9%
국	131	3.3%
변	121	3.1%
중	114	2.9%
앙	94	2.4%
원	88	2.2%
사	82	2.1%
Other values (183)	1561	39.4%

Han

Value	Count	Frequency (%)
大	272	24.1%
延	61	5.4%
院	51	4.5%
學	38	3.4%
中	36	3.2%
科	28	2.5%
京	24	2.1%
山	24	2.1%
社	21	1.9%
校	20	1.8%
Other values (171)	555	49.1%

Latin

Value	Count	Frequency (%)
i	2537	11.3%
n	2048	9.1%
e	1977	8.8%
t	1536	6.8%
o	1487	6.6%
a	1407	6.3%
r	1342	6.0%
s	1297	5.8%
y	1005	4.5%
v	852	3.8%
Other values (42)	6941	30.9%

Cyrillic

Value	Count	Frequency (%)
и	427	10.2%
а	391	9.3%
н	305	7.3%
т	296	7.1%
с	287	6.9%
е	266	6.4%
о	198	4.7%
р	171	4.1%
к	171	4.1%
в	142	3.4%
Other values (42)	1532	36.6%

Common

Value	Count	Frequency (%)
	2860	84.9%
,	115	3.4%
.	109	3.2%
;	81	2.4%
-	71	2.1%
(	46	1.4%
)	46	1.4%
2	9	0.3%
'	8	0.2%
’	4	0.1%
Other values (9)	19	0.6%

Katakana

Value	Count	Frequency (%)
ル	4	20.0%
ソ	4	20.0%
ウ	4	20.0%
ク	1	5.0%
ッ	1	5.0%
リ	1	5.0%
ト	1	5.0%
カ	1	5.0%
ラ	1	5.0%
ジ	1	5.0%

Greek

Value	Count	Frequency (%)
γ	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	25790	73.5%
Cyrillic	4186	11.9%
Hangul	3966	11.3%
CJK	1128	3.2%
Katakana	20	0.1%
Punctuation	7	< 0.1%
CJK Compat Ideographs	2	< 0.1%
None	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	2860	11.1%
i	2537	9.8%
n	2048	7.9%
e	1977	7.7%
t	1536	6.0%
o	1487	5.8%
a	1407	5.5%
r	1342	5.2%
s	1297	5.0%
y	1005	3.9%
Other values (57)	8294	32.2%

Hangul

Value	Count	Frequency (%)
학	629	15.9%
대	580	14.6%
교	410	10.3%
연	156	3.9%
국	131	3.3%
변	121	3.1%
중	114	2.9%
앙	94	2.4%
원	88	2.2%
사	82	2.1%
Other values (183)	1561	39.4%

Cyrillic

Value	Count	Frequency (%)
и	427	10.2%
а	391	9.3%
н	305	7.3%
т	296	7.1%
с	287	6.9%
е	266	6.4%
о	198	4.7%
р	171	4.1%
к	171	4.1%
в	142	3.4%
Other values (42)	1532	36.6%

CJK

Value	Count	Frequency (%)
大	272	24.1%
延	61	5.4%
院	51	4.5%
學	38	3.4%
中	36	3.2%
科	28	2.5%
京	24	2.1%
山	24	2.1%
社	21	1.9%
校	20	1.8%
Other values (169)	553	49.0%

Punctuation

Value	Count	Frequency (%)
’	4	57.1%
‘	1	14.3%
“	1	14.3%
”	1	14.3%

Katakana

Value	Count	Frequency (%)
ル	4	20.0%
ソ	4	20.0%
ウ	4	20.0%
ク	1	5.0%
ッ	1	5.0%
リ	1	5.0%
ト	1	5.0%
カ	1	5.0%
ラ	1	5.0%
ジ	1	5.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
女	1	50.0%
林	1	50.0%

None

Value	Count	Frequency (%)
γ	1	100.0%

ORGANIZATION_KOR
Text

MISSING

Distinct	495
Distinct (%)	28.7%
Missing	550
Missing (%)	24.2%
Memory size	17.9 KiB

Length

Max length	36
Median length	31
Mean length	7.4947735
Min length	1

Characters and Unicode

Total characters	12906
Distinct characters	381
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	255 ?
Unique (%)	14.8%

Sample

1st row	델리대학교
2nd row	델리대학교
3rd row	델리대학교
4th row	델리대학교
5th row	델리대학교

Value	Count	Frequency (%)
연변대학교	137	7.4%
중앙민족대학교	71	3.8%
서울대학교	53	2.9%
조선사회과학원	39	2.1%
한국학중앙연구원	35	1.9%
푸단대학교	32	1.7%
고려대학교	31	1.7%
산둥대학교	26	1.4%
중앙대학교	25	1.4%
하와이대학교	25	1.4%
Other values (513)	1376	74.4%

Most occurring characters

Value	Count	Frequency (%)
학	1782	13.8%
대	1643	12.7%
교	1607	12.5%
국	277	2.1%
연	267	2.1%
스	240	1.9%
사	186	1.4%
이	173	1.3%
중	171	1.3%
원	169	1.3%
Other values (371)	6391	49.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	12624	97.8%
Space Separator	128	1.0%
Other Punctuation	97	0.8%
Decimal Number	18	0.1%
Close Punctuation	12	0.1%
Dash Punctuation	12	0.1%
Open Punctuation	12	0.1%
Uppercase Letter	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
학	1782	14.1%
대	1643	13.0%
교	1607	12.7%
국	277	2.2%
연	267	2.1%
스	240	1.9%
사	186	1.5%
이	173	1.4%
중	171	1.4%
원	169	1.3%
Other values (358)	6109	48.4%

Decimal Number

Value	Count	Frequency (%)
2	9	50.0%
7	4	22.2%
3	3	16.7%
0	1	5.6%
1	1	5.6%

Other Punctuation

Value	Count	Frequency (%)
;	86	88.7%
,	11	11.3%

Uppercase Letter

Value	Count	Frequency (%)
M	2	66.7%
G	1	33.3%

Space Separator

Value	Count	Frequency (%)
	128	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	12	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	12	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	12	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	12624	97.8%
Common	279	2.2%
Latin	3	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
학	1782	14.1%
대	1643	13.0%
교	1607	12.7%
국	277	2.2%
연	267	2.1%
스	240	1.9%
사	186	1.5%
이	173	1.4%
중	171	1.4%
원	169	1.3%
Other values (358)	6109	48.4%

Common

Value	Count	Frequency (%)
	128	45.9%
;	86	30.8%
)	12	4.3%
-	12	4.3%
(	12	4.3%
,	11	3.9%
2	9	3.2%
7	4	1.4%
3	3	1.1%
0	1	0.4%

Latin

Value	Count	Frequency (%)
M	2	66.7%
G	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	12624	97.8%
ASCII	282	2.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
학	1782	14.1%
대	1643	13.0%
교	1607	12.7%
국	277	2.2%
연	267	2.1%
스	240	1.9%
사	186	1.5%
이	173	1.4%
중	171	1.4%
원	169	1.3%
Other values (358)	6109	48.4%

ASCII

Value	Count	Frequency (%)
	128	45.4%
;	86	30.5%
)	12	4.3%
-	12	4.3%
(	12	4.3%
,	11	3.9%
2	9	3.2%
7	4	1.4%
3	3	1.1%
M	2	0.7%
Other values (3)	3	1.1%

ORGANIZATION_ENG
Text

MISSING

Distinct	529
Distinct (%)	30.6%
Missing	545
Missing (%)	24.0%
Memory size	17.9 KiB

Length

Max length	122
Median length	79
Mean length	28
Min length	6

Characters and Unicode

Total characters	48356
Distinct characters	67
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	288 ?
Unique (%)	16.7%

Sample

1st row	University of Delhi
2nd row	University of Delhi
3rd row	University of Delhi
4th row	University of Delhi
5th row	University of Delhi

Value	Count	Frequency (%)
university	1495	24.4%
of	626	10.2%
the	184	3.0%
national	157	2.6%
yanbian	150	2.5%
studies	125	2.0%
for	87	1.4%
and	82	1.3%
central	75	1.2%
nationalities	73	1.2%
Other values (684)	3068	50.1%

Most occurring characters

Value	Count	Frequency (%)
i	5253	10.9%
n	4411	9.1%
	4395	9.1%
e	3864	8.0%
a	3073	6.4%
t	2984	6.2%
o	2648	5.5%
r	2573	5.3%
s	2556	5.3%
y	1978	4.1%
Other values (57)	14621	30.2%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	37912	78.4%
Uppercase Letter	5675	11.7%
Space Separator	4395	9.1%
Other Punctuation	206	0.4%
Dash Punctuation	92	0.2%
Close Punctuation	34	0.1%
Open Punctuation	34	0.1%
Final Punctuation	5	< 0.1%
Decimal Number	2	< 0.1%
Initial Punctuation	1	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
U	1608	28.3%
S	691	12.2%
C	389	6.9%
N	346	6.1%
T	303	5.3%
K	280	4.9%
A	258	4.5%
Y	227	4.0%
F	205	3.6%
H	166	2.9%
Other values (17)	1202	21.2%

Lowercase Letter

Value	Count	Frequency (%)
i	5253	13.9%
n	4411	11.6%
e	3864	10.2%
a	3073	8.1%
t	2984	7.9%
o	2648	7.0%
r	2573	6.8%
s	2556	6.7%
y	1978	5.2%
v	1639	4.3%
Other values (16)	6933	18.3%

Other Punctuation

Value	Count	Frequency (%)
,	84	40.8%
;	83	40.3%
'	19	9.2%
&	9	4.4%
.	9	4.4%
:	2	1.0%

Final Punctuation

Value	Count	Frequency (%)
’	4	80.0%
”	1	20.0%

Space Separator

Value	Count	Frequency (%)
	4395	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	92	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	34	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	34	100.0%

Decimal Number

Value	Count	Frequency (%)
3	2	100.0%

Initial Punctuation

Value	Count	Frequency (%)
“	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	43586	90.1%
Common	4769	9.9%
Cyrillic	1	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
i	5253	12.1%
n	4411	10.1%
e	3864	8.9%
a	3073	7.1%
t	2984	6.8%
o	2648	6.1%
r	2573	5.9%
s	2556	5.9%
y	1978	4.5%
v	1639	3.8%
Other values (42)	12607	28.9%

Common

Value	Count	Frequency (%)
	4395	92.2%
-	92	1.9%
,	84	1.8%
;	83	1.7%
)	34	0.7%
(	34	0.7%
'	19	0.4%
&	9	0.2%
.	9	0.2%
’	4	0.1%
Other values (4)	6	0.1%

Cyrillic

Value	Count	Frequency (%)
К	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	48349	> 99.9%
Punctuation	6	< 0.1%
Cyrillic	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
i	5253	10.9%
n	4411	9.1%
	4395	9.1%
e	3864	8.0%
a	3073	6.4%
t	2984	6.2%
o	2648	5.5%
r	2573	5.3%
s	2556	5.3%
y	1978	4.1%
Other values (53)	14614	30.2%

Punctuation

Value	Count	Frequency (%)
’	4	66.7%
“	1	16.7%
”	1	16.7%

Cyrillic

Value	Count	Frequency (%)
К	1	100.0%

ORGANIZATION_ETC
Text

MISSING

Distinct	114
Distinct (%)	78.1%
Missing	2126
Missing (%)	93.6%
Memory size	17.9 KiB

Length

Max length	107
Median length	58
Mean length	34.219178
Min length	1

Characters and Unicode

Total characters	4996
Distinct characters	147
Distinct categories	9 ?
Distinct scripts	5 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	66.4%

Sample

1st row	上海市案
2nd row	Казахстан
3rd row	Каз УМОиМЯ им. Абылай хана
4th row	КазУМОиМЯ имени Абылай хана
5th row	КазНУ им.

Value	Count	Frequency (%)
им	44	7.1%
университет	36	5.8%
государственный	33	5.4%
институт	29	4.7%
и	22	3.6%
арабаева	16	2.6%
ташкентский	15	2.4%
казахский	11	1.8%
кгу	10	1.6%
педагогический	10	1.6%
Other values (189)	390	63.3%

Most occurring characters

Value	Count	Frequency (%)
	472	9.4%
и	414	8.3%
а	373	7.5%
н	297	5.9%
т	286	5.7%
с	278	5.6%
е	259	5.2%
о	192	3.8%
р	168	3.4%
к	165	3.3%
Other values (137)	2092	41.9%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	3724	74.5%
Uppercase Letter	575	11.5%
Space Separator	472	9.4%
Other Punctuation	130	2.6%
Other Letter	79	1.6%
Dash Punctuation	6	0.1%
Open Punctuation	4	0.1%
Close Punctuation	4	0.1%
Decimal Number	2	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
и	414	11.1%
а	373	10.0%
н	297	8.0%
т	286	7.7%
с	278	7.5%
е	259	7.0%
о	192	5.2%
р	168	4.5%
к	165	4.4%
в	139	3.7%
Other values (41)	1153	31.0%

Other Letter

Value	Count	Frequency (%)
院	6	7.6%
大	5	6.3%
中	3	3.8%
科	3	3.8%
技	3	3.8%
央	2	2.5%
香	2	2.5%
港	2	2.5%
治	2	2.5%
政	2	2.5%
Other values (40)	49	62.0%

Uppercase Letter

Value	Count	Frequency (%)
Г	69	12.0%
У	69	12.0%
И	61	10.6%
К	60	10.4%
А	49	8.5%
Т	39	6.8%
Н	30	5.2%
М	24	4.2%
Р	23	4.0%
В	18	3.1%
Other values (26)	133	23.1%

Other Punctuation

Value	Count	Frequency (%)
.	93	71.5%
,	34	26.2%
;	2	1.5%
&	1	0.8%

Decimal Number

Value	Count	Frequency (%)
1	1	50.0%
2	1	50.0%

Space Separator

Value	Count	Frequency (%)
	472	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	6	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	4	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Cyrillic	4051	81.1%
Common	618	12.4%
Latin	248	5.0%
Han	76	1.5%
Katakana	3	0.1%

Most frequent character per script

Cyrillic

Value	Count	Frequency (%)
и	414	10.2%
а	373	9.2%
н	297	7.3%
т	286	7.1%
с	278	6.9%
е	259	6.4%
о	192	4.7%
р	168	4.1%
к	165	4.1%
в	139	3.4%
Other values (42)	1480	36.5%

Han

Value	Count	Frequency (%)
院	6	7.9%
大	5	6.6%
中	3	3.9%
科	3	3.9%
技	3	3.9%
央	2	2.6%
香	2	2.6%
港	2	2.6%
治	2	2.6%
政	2	2.6%
Other values (37)	46	60.5%

Latin

Value	Count	Frequency (%)
i	31	12.5%
a	23	9.3%
c	20	8.1%
h	19	7.7%
n	18	7.3%
g	16	6.5%
N	12	4.8%
u	10	4.0%
t	10	4.0%
H	10	4.0%
Other values (25)	79	31.9%

Common

Value	Count	Frequency (%)
	472	76.4%
.	93	15.0%
,	34	5.5%
-	6	1.0%
(	4	0.6%
)	4	0.6%
;	2	0.3%
1	1	0.2%
2	1	0.2%
&	1	0.2%

Katakana

Value	Count	Frequency (%)
ラ	1	33.3%
ジ	1	33.3%
オ	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
Cyrillic	4051	81.1%
ASCII	866	17.3%
CJK	76	1.5%
Katakana	3	0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	472	54.5%
.	93	10.7%
,	34	3.9%
i	31	3.6%
a	23	2.7%
c	20	2.3%
h	19	2.2%
n	18	2.1%
g	16	1.8%
N	12	1.4%
Other values (35)	128	14.8%

Cyrillic

Value	Count	Frequency (%)
и	414	10.2%
а	373	9.2%
н	297	7.3%
т	286	7.1%
с	278	6.9%
е	259	6.4%
о	192	4.7%
р	168	4.1%
к	165	4.1%
в	139	3.4%
Other values (42)	1480	36.5%

CJK

Value	Count	Frequency (%)
院	6	7.9%
大	5	6.6%
中	3	3.9%
科	3	3.9%
技	3	3.9%
央	2	2.6%
香	2	2.6%
港	2	2.6%
治	2	2.6%
政	2	2.6%
Other values (37)	46	60.5%

Katakana

Value	Count	Frequency (%)
ラ	1	33.3%
ジ	1	33.3%
オ	1	33.3%

NATION
Text

MISSING

Distinct	64
Distinct (%)	3.5%
Missing	436
Missing (%)	19.2%
Memory size	17.9 KiB

Length

Max length	39
Median length	9
Mean length	9.1633987
Min length	9

Characters and Unicode

Total characters	16824
Distinct characters	27
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	24 ?
Unique (%)	1.3%

Sample

1st row	NATION_IN
2nd row	NATION_IN
3rd row	NATION_IN
4th row	NATION_IN
5th row	NATION_IN

Value	Count	Frequency (%)
nation_cn	508	27.7%
nation_kr	458	24.9%
nation_us	157	8.6%
nation_jp	112	6.1%
nation_au	75	4.1%
nation_uz	60	3.3%
nation_fr	42	2.3%
nation_kp	40	2.2%
nation_kz	38	2.1%
nation_ru	31	1.7%
Other values (54)	315	17.2%

Most occurring characters

Value	Count	Frequency (%)
N	4318	25.7%
A	1973	11.7%
T	1905	11.3%
I	1894	11.3%
O	1883	11.2%
_	1866	11.1%
K	581	3.5%
R	564	3.4%
C	541	3.2%
U	344	2.0%
Other values (17)	955	5.7%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	14928	88.7%
Connector Punctuation	1866	11.1%
Other Punctuation	30	0.2%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
N	4318	28.9%
A	1973	13.2%
T	1905	12.8%
I	1894	12.7%
O	1883	12.6%
K	581	3.9%
R	564	3.8%
C	541	3.6%
U	344	2.3%
S	170	1.1%
Other values (15)	755	5.1%

Connector Punctuation

Value	Count	Frequency (%)
_	1866	100.0%

Other Punctuation

Value	Count	Frequency (%)
;	30	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14928	88.7%
Common	1896	11.3%

Most frequent character per script

Latin

Value	Count	Frequency (%)
N	4318	28.9%
A	1973	13.2%
T	1905	12.8%
I	1894	12.7%
O	1883	12.6%
K	581	3.9%
R	564	3.8%
C	541	3.6%
U	344	2.3%
S	170	1.1%
Other values (15)	755	5.1%

Common

Value	Count	Frequency (%)
_	1866	98.4%
;	30	1.6%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	16824	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
N	4318	25.7%
A	1973	11.7%
T	1905	11.3%
I	1894	11.3%
O	1883	11.2%
_	1866	11.1%
K	581	3.5%
R	564	3.4%
C	541	3.2%
U	344	2.0%
Other values (17)	955	5.7%

SUPPORT
Categorical

Distinct	4
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

SUPPORT_C	1678
SUPPORT_J	319
SUPPORT_R	273
SUPPORT_P	2

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	SUPPORT_R
2nd row	SUPPORT_R
3rd row	SUPPORT_R
4th row	SUPPORT_R
5th row	SUPPORT_R

Common Values

Value	Count	Frequency (%)
SUPPORT_C	1678	73.9%
SUPPORT_J	319	14.0%
SUPPORT_R	273	12.0%
SUPPORT_P	2	0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
support_c	1678	73.9%
support_j	319	14.0%
support_r	273	12.0%
support_p	2	0.1%

CATEGORY
Categorical

Distinct	13
Distinct (%)	0.6%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

CATEGORY_H	629
CATEGORY_B	350
CATEGORY_G	284
CATEGORY_E	276
CATEGORY_C	200
Other values (8)	533

Length

Max length	10
Median length	10
Mean length	9.9894366
Min length	4

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	CATEGORY_H
2nd row	CATEGORY_H
3rd row	CATEGORY_H
4th row	CATEGORY_H
5th row	CATEGORY_H

Common Values

Value	Count	Frequency (%)
CATEGORY_H	629	27.7%
CATEGORY_B	350	15.4%
CATEGORY_G	284	12.5%
CATEGORY_E	276	12.1%
CATEGORY_C	200	8.8%
CATEGORY_L	121	5.3%
CATEGORY_I	119	5.2%
CATEGORY_D	102	4.5%
CATEGORY_N	99	4.4%
CATEGORY_J	76	3.3%
Other values (3)	16	0.7%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
category_h	629	27.7%
category_b	350	15.4%
category_g	284	12.5%
category_e	276	12.1%
category_c	200	8.8%
category_l	121	5.3%
category_i	119	5.2%
category_d	102	4.5%
category_n	99	4.4%
category_j	76	3.3%
Other values (3)	16	0.7%

LANGUAGE
Categorical

Distinct	17
Distinct (%)	0.7%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

LANGUAGE_EN	949
LANGUAGE_KO	726
LANGUAGE_ZH	249
LANGUAGE_RU	199
LANGUAGE_JA	63
Other values (12)	86

Length

Max length	11
Median length	11
Mean length	10.987676
Min length	4

Unique

Unique	4 ?
Unique (%)	0.2%

Sample

1st row	LANGUAGE_HI
2nd row	LANGUAGE_HI
3rd row	LANGUAGE_HI
4th row	LANGUAGE_HI
5th row	LANGUAGE_HI

Common Values

Value	Count	Frequency (%)
LANGUAGE_EN	949	41.8%
LANGUAGE_KO	726	32.0%
LANGUAGE_ZH	249	11.0%
LANGUAGE_RU	199	8.8%
LANGUAGE_JA	63	2.8%
LANGUAGE_FR	40	1.8%
LANGUAGE_VI	17	0.7%
LANGUAGE_HI	11	0.5%
<NA>	4	0.2%
LANGUAGE_TH	3	0.1%
Other values (7)	11	0.5%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
language_en	949	41.8%
language_ko	726	32.0%
language_zh	249	11.0%
language_ru	199	8.8%
language_ja	63	2.8%
language_fr	40	1.8%
language_vi	17	0.7%
language_hi	11	0.5%
na	4	0.2%
language_th	3	0.1%
Other values (7)	11	0.5%

PAPER_PAGE_START
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

0	2272

Length

Max length	1
Median length	1
Mean length	1
Min length	1

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	0
2nd row	0
3rd row	0
4th row	0
5th row	0

Common Values

Value	Count	Frequency (%)
0	2272	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
0	2272	100.0%

PAPER_PAGE_END
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

0	2272

Length

Max length	1
Median length	1
Mean length	1
Min length	1

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	0
2nd row	0
3rd row	0
4th row	0
5th row	0

Common Values

Value	Count	Frequency (%)
0	2272	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
0	2272	100.0%

PDF_PAGE_START
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

0	2272

Length

Max length	1
Median length	1
Mean length	1
Min length	1

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	0
2nd row	0
3rd row	0
4th row	0
5th row	0

Common Values

Value	Count	Frequency (%)
0	2272	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
0	2272	100.0%

PDF_PAGE_END
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

0	2272

Length

Max length	1
Median length	1
Mean length	1
Min length	1

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	0
2nd row	0
3rd row	0
4th row	0
5th row	0

Common Values

Value	Count	Frequency (%)
0	2272	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
0	2272	100.0%

PAGES
Real number (ℝ)

Distinct	202
Distinct (%)	8.9%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	31.889965

Minimum	1
Maximum	3433
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	20.1 KiB

Quantile statistics

Minimum	1
5-th percentile	2
Q1	5
median	10
Q3	18
95-th percentile	153.45
Maximum	3433
Range	3432
Interquartile range (IQR)	13

Descriptive statistics

Standard deviation	110.01015
Coefficient of variation (CV)	3.4496792
Kurtosis	416.05574
Mean	31.889965
Median Absolute Deviation (MAD)	6
Skewness	15.616348
Sum	72454
Variance	12102.233
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
2	177	7.8%
10	131	5.8%
6	129	5.7%
7	124	5.5%
4	116	5.1%
8	112	4.9%
1	109	4.8%
12	105	4.6%
14	96	4.2%
5	95	4.2%
Other values (192)	1078	47.4%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	109	4.8%
2	177	7.8%
3	94	4.1%
4	116	5.1%
5	95	4.2%
6	129	5.7%
7	124	5.5%
8	112	4.9%
9	83	3.7%
10	131	5.8%

Value	Count	Frequency (%)
3433	1	< 0.1%
1085	1	< 0.1%
1001	1	< 0.1%
885	1	< 0.1%
833	1	< 0.1%
740	1	< 0.1%
714	1	< 0.1%
633	1	< 0.1%
632	1	< 0.1%
568	1	< 0.1%

SUB_INDEX
Real number (ℝ)

ZEROS

Distinct	112
Distinct (%)	4.9%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	22.268046

Minimum	0
Maximum	111
Zeros	226
Zeros (%)	9.9%
Negative	0
Negative (%)	0.0%
Memory size	20.1 KiB

Quantile statistics

Minimum	0
5-th percentile	0
Q1	4
median	14
Q3	33
95-th percentile	74.45
Maximum	111
Range	111
Interquartile range (IQR)	29

Descriptive statistics

Standard deviation	23.518599
Coefficient of variation (CV)	1.0561591
Kurtosis	1.7493786
Mean	22.268046
Median Absolute Deviation (MAD)	12
Skewness	1.4562855
Sum	50593
Variance	553.12451
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	226	9.9%
2	97	4.3%
1	96	4.2%
3	81	3.6%
4	75	3.3%
5	72	3.2%
6	68	3.0%
7	66	2.9%
8	64	2.8%
9	60	2.6%
Other values (102)	1367	60.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
0	226	9.9%
1	96	4.2%
2	97	4.3%
3	81	3.6%
4	75	3.3%
5	72	3.2%
6	68	3.0%
7	66	2.9%
8	64	2.8%
9	60	2.6%

Value	Count	Frequency (%)
111	1	< 0.1%
110	1	< 0.1%
109	1	< 0.1%
108	1	< 0.1%
107	1	< 0.1%
106	2	0.1%
105	2	0.1%
104	3	0.1%
103	3	0.1%
102	3	0.1%

PROJECTYEAR_BEGIN
Real number (ℝ)

Distinct	10
Distinct (%)	0.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2007.8464

Minimum	2005
Maximum	2014
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	20.1 KiB

Quantile statistics

Minimum	2005
5-th percentile	2006
Q1	2007
median	2008
Q3	2009
95-th percentile	2010
Maximum	2014
Range	9
Interquartile range (IQR)	2

Descriptive statistics

Standard deviation	1.5402125
Coefficient of variation (CV)	0.0007670968
Kurtosis	-0.31577274
Mean	2007.8464
Median Absolute Deviation (MAD)	1
Skewness	0.47981784
Sum	4561827
Variance	2.3722547
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=10)

Value	Count	Frequency (%)
2006	555	24.4%
2007	517	22.8%
2009	491	21.6%
2008	348	15.3%
2010	268	11.8%
2011	58	2.6%
2012	15	0.7%
2005	11	0.5%
2014	5	0.2%
2013	4	0.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
2005	11	0.5%
2006	555	24.4%
2007	517	22.8%
2008	348	15.3%
2009	491	21.6%
2010	268	11.8%
2011	58	2.6%
2012	15	0.7%
2013	4	0.2%
2014	5	0.2%

Value	Count	Frequency (%)
2014	5	0.2%
2013	4	0.2%
2012	15	0.7%
2011	58	2.6%
2010	268	11.8%
2009	491	21.6%
2008	348	15.3%
2007	517	22.8%
2006	555	24.4%
2005	11	0.5%

PROJECTYEAR_END
Categorical

IMBALANCE

Distinct	4
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2267
2007	2
2008	2
2009	1

Length

Max length	4
Median length	4
Mean length	4
Min length	4

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2267	99.8%
2007	2	0.1%
2008	2	0.1%
2009	1	< 0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2267	99.8%
2007	2	0.1%
2008	2	0.1%
2009	1	< 0.1%

PUBLISH_DATE
Date

MISSING

Distinct	14
Distinct (%)	37.8%
Missing	2235
Missing (%)	98.4%
Memory size	17.9 KiB

Minimum	2004-01-01 00:00:00
Maximum	2014-01-01 00:00:00

Histogram

Histogram with fixed size bins (bins=14)

PUBLISHER
Text

MISSING

Distinct	24
Distinct (%)	66.7%
Missing	2236
Missing (%)	98.4%
Memory size	17.9 KiB

Length

Max length	46
Median length	27
Mean length	10.555556
Min length	2

Characters and Unicode

Total characters	380
Distinct characters	106
Distinct categories	6 ?
Distinct scripts	5 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	18 ?
Unique (%)	50.0%

Sample

1st row	山大出版社
2nd row	민족출판사
3rd row	민족출판사
4th row	延大出版社
5th row	BRILL

Value	Count	Frequency (%)
민족출판사	6	12.0%
karec	3	6.0%
brill	3	6.0%
世界出版公司北京公司	2	4.0%
научное	2	4.0%
издание	2	4.0%
routledge	2	4.0%
development	2	4.0%
길림성잡지사	1	2.0%
dtudes	1	2.0%
Other values (26)	26	52.0%

Most occurring characters

Value	Count	Frequency (%)
e	20	5.3%
	14	3.7%
n	12	3.2%
t	10	2.6%
о	9	2.4%
l	9	2.4%
E	8	2.1%
o	8	2.1%
사	8	2.1%
a	8	2.1%
Other values (96)	274	72.1%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	192	50.5%
Other Letter	98	25.8%
Uppercase Letter	74	19.5%
Space Separator	14	3.7%
Other Punctuation	1	0.3%
Dash Punctuation	1	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	8	8.2%
판	7	7.1%
출	7	7.1%
족	6	6.1%
민	6	6.1%
학	4	4.1%
出	4	4.1%
版	4	4.1%
司	4	4.1%
公	4	4.1%
Other values (33)	44	44.9%

Lowercase Letter

Value	Count	Frequency (%)
e	20	10.4%
n	12	6.2%
t	10	5.2%
о	9	4.7%
l	9	4.7%
o	8	4.2%
a	8	4.2%
s	8	4.2%
а	8	4.2%
е	7	3.6%
Other values (27)	93	48.4%

Uppercase Letter

Value	Count	Frequency (%)
E	8	10.8%
R	8	10.8%
L	8	10.8%
I	6	8.1%
C	5	6.8%
A	4	5.4%
N	3	4.1%
S	3	4.1%
B	3	4.1%
P	3	4.1%
Other values (13)	23	31.1%

Space Separator

Value	Count	Frequency (%)
	14	100.0%

Other Punctuation

Value	Count	Frequency (%)
'	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	188	49.5%
Cyrillic	78	20.5%
Hangul	55	14.5%
Han	43	11.3%
Common	16	4.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
e	20	10.6%
n	12	6.4%
t	10	5.3%
l	9	4.8%
E	8	4.3%
o	8	4.3%
a	8	4.3%
R	8	4.3%
L	8	4.3%
s	8	4.3%
Other values (29)	89	47.3%

Han

Value	Count	Frequency (%)
出	4	9.3%
版	4	9.3%
司	4	9.3%
公	4	9.3%
大	3	7.0%
京	2	4.7%
界	2	4.7%
世	2	4.7%
社	2	4.7%
北	2	4.7%
Other values (13)	14	32.6%

Cyrillic

Value	Count	Frequency (%)
о	9	11.5%
а	8	10.3%
е	7	9.0%
и	7	9.0%
н	7	9.0%
с	5	6.4%
т	5	6.4%
у	4	5.1%
д	4	5.1%
в	3	3.8%
Other values (11)	19	24.4%

Hangul

Value	Count	Frequency (%)
사	8	14.5%
판	7	12.7%
출	7	12.7%
족	6	10.9%
민	6	10.9%
학	4	7.3%
연	2	3.6%
변	2	3.6%
대	2	3.6%
지	1	1.8%
Other values (10)	10	18.2%

Common

Value	Count	Frequency (%)
	14	87.5%
'	1	6.2%
-	1	6.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	204	53.7%
Cyrillic	78	20.5%
Hangul	55	14.5%
CJK	43	11.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
e	20	9.8%
	14	6.9%
n	12	5.9%
t	10	4.9%
l	9	4.4%
E	8	3.9%
o	8	3.9%
a	8	3.9%
R	8	3.9%
L	8	3.9%
Other values (32)	99	48.5%

Cyrillic

Value	Count	Frequency (%)
о	9	11.5%
а	8	10.3%
е	7	9.0%
и	7	9.0%
н	7	9.0%
с	5	6.4%
т	5	6.4%
у	4	5.1%
д	4	5.1%
в	3	3.8%
Other values (11)	19	24.4%

Hangul

Value	Count	Frequency (%)
사	8	14.5%
판	7	12.7%
출	7	12.7%
족	6	10.9%
민	6	10.9%
학	4	7.3%
연	2	3.6%
변	2	3.6%
대	2	3.6%
지	1	1.8%
Other values (10)	10	18.2%

CJK

Value	Count	Frequency (%)
出	4	9.3%
版	4	9.3%
司	4	9.3%
公	4	9.3%
大	3	7.0%
京	2	4.7%
界	2	4.7%
世	2	4.7%
社	2	4.7%
北	2	4.7%
Other values (13)	14	32.6%

SERIAL_NUMBER
Categorical

IMBALANCE

Distinct	4
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2269
420	1
3	1
10	1

Length

Max length	4
Median length	4
Mean length	3.9973592
Min length	1

Unique

Unique	3 ?
Unique (%)	0.1%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2269	99.9%
420	1	< 0.1%
3	1	< 0.1%
10	1	< 0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2269	99.9%
420	1	< 0.1%
3	1	< 0.1%
10	1	< 0.1%

VOLUME
Categorical

IMBALANCE

Distinct	4
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2269
28	1
43	1
13	1

Length

Max length	4
Median length	4
Mean length	3.9973592
Min length	2

Unique

Unique	3 ?
Unique (%)	0.1%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2269	99.9%
28	1	< 0.1%
43	1	< 0.1%
13	1	< 0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2269	99.9%
28	1	< 0.1%
43	1	< 0.1%
13	1	< 0.1%

NUMBER
Categorical

IMBALANCE

Distinct	3
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2270
1	1
2	1

Length

Max length	4
Median length	4
Mean length	3.9973592
Min length	1

Unique

Unique	2 ?
Unique (%)	0.1%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2270	99.9%
1	1	< 0.1%
2	1	< 0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2270	99.9%
1	1	< 0.1%
2	1	< 0.1%

ISBN
Text

MISSING

Distinct	21
Distinct (%)	91.3%
Missing	2249
Missing (%)	99.0%
Memory size	17.9 KiB

Length

Max length	20
Median length	17
Mean length	16.391304
Min length	13

Characters and Unicode

Total characters	377
Distinct characters	12
Distinct categories	3 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	20 ?
Unique (%)	87.0%

Sample

1st row	978-7-5607-3674-7
2nd row	7-105-08137-6
3rd row	978-7-105-08237-7
4th row	978 -7 -5634 -3013-0
5th row	978-90-04-16440-6

Value	Count	Frequency (%)
5-628-01-982-8	3	11.5%
7-105-08137-6	1	3.8%
978-7-105-09795-1	1	3.8%
978-90-04-18535-7	1	3.8%
978-1-872588-19-3	1	3.8%
978-4-7722-3131-2	1	3.8%
978-7-5634-2430-6	1	3.8%
978-7-5062-9567-3	1	3.8%
0-7734-6311-9	1	3.8%
978-7-105-09982-5	1	3.8%
Other values (14)	14	53.8%

Most occurring characters

Value	Count	Frequency (%)
-	90	23.9%
7	43	11.4%
8	40	10.6%
9	40	10.6%
0	33	8.8%
5	25	6.6%
2	25	6.6%
1	24	6.4%
6	22	5.8%
3	16	4.2%
Other values (2)	19	5.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	284	75.3%
Dash Punctuation	90	23.9%
Space Separator	3	0.8%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
7	43	15.1%
8	40	14.1%
9	40	14.1%
0	33	11.6%
5	25	8.8%
2	25	8.8%
1	24	8.5%
6	22	7.7%
3	16	5.6%
4	16	5.6%

Dash Punctuation

Value	Count	Frequency (%)
-	90	100.0%

Space Separator

Value	Count	Frequency (%)
	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	377	100.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
-	90	23.9%
7	43	11.4%
8	40	10.6%
9	40	10.6%
0	33	8.8%
5	25	6.6%
2	25	6.6%
1	24	6.4%
6	22	5.8%
3	16	4.2%
Other values (2)	19	5.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	377	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	90	23.9%
7	43	11.4%
8	40	10.6%
9	40	10.6%
0	33	8.8%
5	25	6.6%
2	25	6.6%
1	24	6.4%
6	22	5.8%
3	16	4.2%
Other values (2)	19	5.0%

ISSN
Text

MISSING

Distinct	9
Distinct (%)	69.2%
Missing	2259
Missing (%)	99.4%
Memory size	17.9 KiB

Length

Max length	14
Median length	9
Mean length	10.153846
Min length	9

Characters and Unicode

Total characters	132
Distinct characters	15
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7 ?
Unique (%)	53.8%

Sample

1st row	1875-0273
2nd row	1449-7395
3rd row	1950-4462
4th row	1449-7395
5th row	1875-0273

Value	Count	Frequency (%)
1875-0273	3	18.8%
1449-7395	3	18.8%
issn	3	18.8%
1950-4462	1	6.2%
1347-7307	1	6.2%
0965-1942	1	6.2%
1741-1912	1	6.2%
1696-2206	1	6.2%
1009-3311	1	6.2%
1674-0866	1	6.2%

Most occurring characters

Value	Count	Frequency (%)
1	18	13.6%
7	14	10.6%
-	13	9.8%
4	12	9.1%
9	12	9.1%
0	10	7.6%
3	10	7.6%
5	8	6.1%
2	8	6.1%
6	8	6.1%
Other values (5)	19	14.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	104	78.8%
Dash Punctuation	13	9.8%
Uppercase Letter	12	9.1%
Space Separator	3	2.3%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
1	18	17.3%
7	14	13.5%
4	12	11.5%
9	12	11.5%
0	10	9.6%
3	10	9.6%
5	8	7.7%
2	8	7.7%
6	8	7.7%
8	4	3.8%

Uppercase Letter

Value	Count	Frequency (%)
S	6	50.0%
I	3	25.0%
N	3	25.0%

Dash Punctuation

Value	Count	Frequency (%)
-	13	100.0%

Space Separator

Value	Count	Frequency (%)
	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	120	90.9%
Latin	12	9.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
1	18	15.0%
7	14	11.7%
-	13	10.8%
4	12	10.0%
9	12	10.0%
0	10	8.3%
3	10	8.3%
5	8	6.7%
2	8	6.7%
6	8	6.7%
Other values (2)	7	5.8%

Latin

Value	Count	Frequency (%)
S	6	50.0%
I	3	25.0%
N	3	25.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	132	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	18	13.6%
7	14	10.6%
-	13	9.8%
4	12	9.1%
9	12	9.1%
0	10	7.6%
3	10	7.6%
5	8	6.1%
2	8	6.1%
6	8	6.1%
Other values (5)	19	14.4%

SORT_TITLE_ENG
Text

MISSING

Distinct	1371
Distinct (%)	99.1%
Missing	889
Missing (%)	39.1%
Memory size	17.9 KiB

Length

Max length	292
Median length	137
Mean length	73.38684
Min length	8

Characters and Unicode

Total characters	101494
Distinct characters	203
Distinct categories	12 ?
Distinct scripts	6 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1359 ?
Unique (%)	98.3%

Sample

1st row	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION
2nd row	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄱ
3rd row	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄴ
4th row	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄷ
5th row	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄹㅁ

Value	Count	Frequency (%)
of	1113	7.4%
the	825	5.5%
in	814	5.4%
and	808	5.4%
korean	599	4.0%
on	252	1.7%
korea	225	1.5%
a	151	1.0%
south	92	0.6%
for	92	0.6%
Other values (3901)	10014	66.8%

Most occurring characters

Value	Count	Frequency (%)
	13722	13.5%
E	9225	9.1%
N	8579	8.5%
A	8004	7.9%
O	7788	7.7%
I	7473	7.4%
T	6512	6.4%
R	5624	5.5%
S	5454	5.4%
C	3479	3.4%
Other values (193)	25634	25.3%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	86887	85.6%
Space Separator	13722	13.5%
Decimal Number	711	0.7%
Other Letter	142	0.1%
Other Punctuation	12	< 0.1%
Final Punctuation	11	< 0.1%
Initial Punctuation	3	< 0.1%
Other Symbol	2	< 0.1%
Open Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%
Other values (2)	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
한	3	2.1%
의	2	1.4%
시	2	1.4%
대	2	1.4%
훈	2	1.4%
古	2	1.4%
리	2	1.4%
義	2	1.4%
看	2	1.4%
理	2	1.4%
Other values (116)	121	85.2%

Uppercase Letter

Value	Count	Frequency (%)
E	9225	10.6%
N	8579	9.9%
A	8004	9.2%
O	7788	9.0%
I	7473	8.6%
T	6512	7.5%
R	5624	6.5%
S	5454	6.3%
C	3479	4.0%
L	3107	3.6%
Other values (43)	21642	24.9%

Decimal Number

Value	Count	Frequency (%)
1	160	22.5%
0	147	20.7%
9	99	13.9%
2	91	12.8%
8	48	6.8%
5	41	5.8%
6	40	5.6%
7	34	4.8%
4	27	3.8%
3	24	3.4%

Other Punctuation

Value	Count	Frequency (%)
!	5	41.7%
·	4	33.3%
，	2	16.7%
…	1	8.3%

Final Punctuation

Value	Count	Frequency (%)
’	10	90.9%
”	1	9.1%

Initial Punctuation

Value	Count	Frequency (%)
‘	2	66.7%
“	1	33.3%

Space Separator

Value	Count	Frequency (%)
	13722	100.0%

Other Symbol

Value	Count	Frequency (%)
™	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
（	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
）	1	100.0%

Lowercase Letter

Value	Count	Frequency (%)
ß	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
－	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	86582	85.3%
Common	14464	14.3%
Cyrillic	305	0.3%
Hangul	72	0.1%
Han	70	0.1%
Greek	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
한	3	4.2%
의	2	2.8%
시	2	2.8%
대	2	2.8%
훈	2	2.8%
리	2	2.8%
다	2	2.8%
보	2	2.8%
자	1	1.4%
와	1	1.4%
Other values (53)	53	73.6%

Han

Value	Count	Frequency (%)
古	2	2.9%
義	2	2.9%
看	2	2.9%
理	2	2.9%
核	2	2.9%
的	2	2.9%
府	2	2.9%
乙	1	1.4%
美	1	1.4%
延	1	1.4%
Other values (53)	53	75.7%

Latin

Value	Count	Frequency (%)
E	9225	10.7%
N	8579	9.9%
A	8004	9.2%
O	7788	9.0%
I	7473	8.6%
T	6512	7.5%
R	5624	6.5%
S	5454	6.3%
C	3479	4.0%
L	3107	3.6%
Other values (18)	21337	24.6%

Cyrillic

Value	Count	Frequency (%)
А	48	15.7%
П	46	15.1%
Е	39	12.8%
О	38	12.5%
Г	32	10.5%
К	25	8.2%
И	9	3.0%
Ь	8	2.6%
С	7	2.3%
У	7	2.3%
Other values (15)	46	15.1%

Common

Value	Count	Frequency (%)
	13722	94.9%
1	160	1.1%
0	147	1.0%
9	99	0.7%
2	91	0.6%
8	48	0.3%
5	41	0.3%
6	40	0.3%
7	34	0.2%
4	27	0.2%
Other values (13)	55	0.4%

Greek

Value	Count	Frequency (%)
Γ	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	101017	99.5%
Cyrillic	305	0.3%
CJK	67	0.1%
Hangul	57	0.1%
Punctuation	15	< 0.1%
Compat Jamo	15	< 0.1%
None	13	< 0.1%
CJK Compat Ideographs	3	< 0.1%
Letterlike Symbols	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	13722	13.6%
E	9225	9.1%
N	8579	8.5%
A	8004	7.9%
O	7788	7.7%
I	7473	7.4%
T	6512	6.4%
R	5624	5.6%
S	5454	5.4%
C	3479	3.4%
Other values (28)	25157	24.9%

Cyrillic

Value	Count	Frequency (%)
А	48	15.7%
П	46	15.1%
Е	39	12.8%
О	38	12.5%
Г	32	10.5%
К	25	8.2%
И	9	3.0%
Ь	8	2.6%
С	7	2.3%
У	7	2.3%
Other values (15)	46	15.1%

Punctuation

Value	Count	Frequency (%)
’	10	66.7%
‘	2	13.3%
“	1	6.7%
…	1	6.7%
”	1	6.7%

None

Value	Count	Frequency (%)
·	4	30.8%
，	2	15.4%
Ｒ	2	15.4%
（	1	7.7%
）	1	7.7%
ß	1	7.7%
－	1	7.7%
Γ	1	7.7%

Hangul

Value	Count	Frequency (%)
한	3	5.3%
의	2	3.5%
시	2	3.5%
대	2	3.5%
훈	2	3.5%
리	2	3.5%
다	2	3.5%
보	2	3.5%
자	1	1.8%
와	1	1.8%
Other values (38)	38	66.7%

CJK

Value	Count	Frequency (%)
古	2	3.0%
義	2	3.0%
看	2	3.0%
理	2	3.0%
核	2	3.0%
的	2	3.0%
府	2	3.0%
乙	1	1.5%
美	1	1.5%
延	1	1.5%
Other values (50)	50	74.6%

Letterlike Symbols

Value	Count	Frequency (%)
™	2	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㄱ	1	6.7%
ㅇ	1	6.7%
ㄴ	1	6.7%
ㄷ	1	6.7%
ㄹ	1	6.7%
ㅁ	1	6.7%
ㅂ	1	6.7%
ㅅ	1	6.7%
ㅈ	1	6.7%
ㅊ	1	6.7%
Other values (5)	5	33.3%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	1	33.3%
讀	1	33.3%
吏	1	33.3%

SORT_TITLE_KOR
Text

MISSING

Distinct	2063
Distinct (%)	98.0%
Missing	166
Missing (%)	7.3%
Memory size	17.9 KiB

Length

Max length	84
Median length	57
Mean length	26.273504
Min length	3

Characters and Unicode

Total characters	55332
Distinct characters	1364
Distinct categories	6 ?
Distinct scripts	5 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2020 ?
Unique (%)	95.9%

Sample

1st row	힌디어로 발음하는 인도의 한영 대사전
2nd row	힌디어로 발음하는 인도의 한영 대사전 ㄱ기역
3rd row	힌디어로 발음하는 인도의 한영 대사전 ㄴ니은
4th row	힌디어로 발음하는 인도의 한영 대사전 ㄷ디귿
5th row	힌디어로 발음하는 인도의 한영 대사전 ㄹ ㅁ리을 미음

Value	Count	Frequency (%)
대한	297	2.2%
한국	223	1.6%
한국어	217	1.6%
연구	170	1.3%
중심으로	156	1.2%
한국의	89	0.7%
대하여	72	0.5%
중국	65	0.5%
및	63	0.5%
분석	51	0.4%
Other values (6974)	12120	89.6%

Most occurring characters

Value	Count	Frequency (%)
	11682	21.1%
의	2468	4.5%
한	1780	3.2%
국	1378	2.5%
에	925	1.7%
어	901	1.6%
대	844	1.5%
과	780	1.4%
사	666	1.2%
중	537	1.0%
Other values (1354)	33371	60.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	41813	75.6%
Space Separator	11682	21.1%
Decimal Number	880	1.6%
Uppercase Letter	850	1.5%
Other Punctuation	105	0.2%
Dash Punctuation	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	2468	5.9%
한	1780	4.3%
국	1378	3.3%
에	925	2.2%
어	901	2.2%
대	844	2.0%
과	780	1.9%
사	666	1.6%
중	537	1.3%
문	526	1.3%
Other values (1297)	31008	74.2%

Uppercase Letter

Value	Count	Frequency (%)
A	87	10.2%
I	76	8.9%
E	65	7.6%
O	64	7.5%
N	63	7.4%
T	56	6.6%
L	41	4.8%
S	37	4.4%
C	36	4.2%
R	36	4.2%
Other values (31)	289	34.0%

Decimal Number

Value	Count	Frequency (%)
1	195	22.2%
0	183	20.8%
9	121	13.8%
2	118	13.4%
8	63	7.2%
5	48	5.5%
3	43	4.9%
6	41	4.7%
7	38	4.3%
4	30	3.4%

Other Punctuation

Value	Count	Frequency (%)
·	97	92.4%
!	4	3.8%
…	2	1.9%
，	2	1.9%

Space Separator

Value	Count	Frequency (%)
	11682	100.0%

Dash Punctuation

Value	Count	Frequency (%)
―	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	40027	72.3%
Common	12669	22.9%
Han	1786	3.2%
Latin	813	1.5%
Cyrillic	37	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	2468	6.2%
한	1780	4.4%
국	1378	3.4%
에	925	2.3%
어	901	2.3%
대	844	2.1%
과	780	1.9%
사	666	1.7%
중	537	1.3%
문	526	1.3%
Other values (702)	29222	73.0%

Han

Value	Count	Frequency (%)
韓	50	2.8%
日	37	2.1%
國	35	2.0%
語	33	1.8%
中	29	1.6%
朝	29	1.6%
鮮	26	1.5%
文	25	1.4%
本	25	1.4%
學	20	1.1%
Other values (585)	1477	82.7%

Latin

Value	Count	Frequency (%)
A	87	10.7%
I	76	9.3%
E	65	8.0%
O	64	7.9%
N	63	7.7%
T	56	6.9%
L	41	5.0%
S	37	4.6%
C	36	4.4%
R	36	4.4%
Other values (15)	252	31.0%

Common

Value	Count	Frequency (%)
	11682	92.2%
1	195	1.5%
0	183	1.4%
9	121	1.0%
2	118	0.9%
·	97	0.8%
8	63	0.5%
5	48	0.4%
3	43	0.3%
6	41	0.3%
Other values (6)	78	0.6%

Cyrillic

Value	Count	Frequency (%)
Е	5	13.5%
И	4	10.8%
А	4	10.8%
О	3	8.1%
Н	3	8.1%
С	3	8.1%
Т	2	5.4%
Р	2	5.4%
Л	2	5.4%
В	2	5.4%
Other values (6)	7	18.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	40005	72.3%
ASCII	13379	24.2%
CJK	1768	3.2%
None	99	0.2%
Cyrillic	37	0.1%
Compat Jamo	22	< 0.1%
CJK Compat Ideographs	18	< 0.1%
Punctuation	4	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	11682	87.3%
1	195	1.5%
0	183	1.4%
9	121	0.9%
2	118	0.9%
A	87	0.7%
I	76	0.6%
E	65	0.5%
O	64	0.5%
N	63	0.5%
Other values (27)	725	5.4%

Hangul

Value	Count	Frequency (%)
의	2468	6.2%
한	1780	4.4%
국	1378	3.4%
에	925	2.3%
어	901	2.3%
대	844	2.1%
과	780	1.9%
사	666	1.7%
중	537	1.3%
문	526	1.3%
Other values (687)	29200	73.0%

None

Value	Count	Frequency (%)
·	97	98.0%
，	2	2.0%

CJK

Value	Count	Frequency (%)
韓	50	2.8%
日	37	2.1%
國	35	2.0%
語	33	1.9%
中	29	1.6%
朝	29	1.6%
鮮	26	1.5%
文	25	1.4%
本	25	1.4%
學	20	1.1%
Other values (570)	1459	82.5%

Cyrillic

Value	Count	Frequency (%)
Е	5	13.5%
И	4	10.8%
А	4	10.8%
О	3	8.1%
Н	3	8.1%
С	3	8.1%
Т	2	5.4%
Р	2	5.4%
Л	2	5.4%
В	2	5.4%
Other values (6)	7	18.9%

CJK Compat Ideographs

Value	Count	Frequency (%)
栗	2	11.1%
金	2	11.1%
李	2	11.1%
良	1	5.6%
歷	1	5.6%
聯	1	5.6%
論	1	5.6%
理	1	5.6%
烈	1	5.6%
兩	1	5.6%
Other values (5)	5	27.8%

Punctuation

Value	Count	Frequency (%)
―	2	50.0%
…	2	50.0%

Compat Jamo

Value	Count	Frequency (%)
ㄴ	2	9.1%
ㅂ	2	9.1%
ㅊ	2	9.1%
ㅋ	2	9.1%
ㅍ	2	9.1%
ㅌ	2	9.1%
ㅡ	2	9.1%
ㄷ	1	4.5%
ㅁ	1	4.5%
ㄹ	1	4.5%
Other values (5)	5	22.7%

SORT_TITLE_ORI
Text

Distinct	2242
Distinct (%)	98.8%
Missing	2
Missing (%)	0.1%
Memory size	17.9 KiB

Length

Max length	203
Median length	130
Mean length	48.989868
Min length	3

Characters and Unicode

Total characters	111207
Distinct characters	1546
Distinct categories	13 ?
Distinct scripts	8 ?
Distinct blocks	11 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2214 ?
Unique (%)	97.5%

Sample

1st row	힌디어로 발음하는 인도의 한영 대사전
2nd row	힌디어로 발음하는 인도의 한영 대사전 ㄱ기역
3rd row	힌디어로 발음하는 인도의 한영 대사전 ㄴ니은
4th row	힌디어로 발음하는 인도의 한영 대사전 ㄷ디귿
5th row	힌디어로 발음하는 인도의 한영 대사전 ㄹ ㅁ리을 미음

Value	Count	Frequency (%)
of	652	3.7%
in	594	3.4%
the	561	3.2%
and	549	3.1%
korean	455	2.6%
korea	184	1.0%
on	140	0.8%
중심으로	122	0.7%
a	121	0.7%
в	112	0.6%
Other values (7339)	14178	80.2%

Most occurring characters

Value	Count	Frequency (%)
	15690	14.1%
E	6839	6.1%
N	6354	5.7%
A	5850	5.3%
O	5564	5.0%
I	5485	4.9%
T	4796	4.3%
R	4222	3.8%
S	4056	3.6%
C	2546	2.3%
Other values (1536)	49805	44.8%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	75743	68.1%
Other Letter	18684	16.8%
Space Separator	15690	14.1%
Decimal Number	972	0.9%
Other Punctuation	90	0.1%
Final Punctuation	12	< 0.1%
Initial Punctuation	7	< 0.1%
Dash Punctuation	3	< 0.1%
Math Symbol	2	< 0.1%
Modifier Symbol	1	< 0.1%
Other values (3)	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	821	4.4%
한	509	2.7%
국	426	2.3%
어	312	1.7%
중	307	1.6%
에	297	1.6%
과	288	1.5%
대	288	1.5%
학	261	1.4%
문	241	1.3%
Other values (1445)	14934	79.9%

Uppercase Letter

Value	Count	Frequency (%)
E	6839	9.0%
N	6354	8.4%
A	5850	7.7%
O	5564	7.3%
I	5485	7.2%
T	4796	6.3%
R	4222	5.6%
S	4056	5.4%
C	2546	3.4%
L	2326	3.1%
Other values (52)	27705	36.6%

Decimal Number

Value	Count	Frequency (%)
1	224	23.0%
0	194	20.0%
9	140	14.4%
2	116	11.9%
8	68	7.0%
5	54	5.6%
6	51	5.2%
7	45	4.6%
3	44	4.5%
4	36	3.7%

Other Punctuation

Value	Count	Frequency (%)
·	54	60.0%
、	22	24.4%
，	5	5.6%
!	5	5.6%
…	2	2.2%
：	2	2.2%

Final Punctuation

Value	Count	Frequency (%)
’	9	75.0%
”	3	25.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	4	57.1%
“	3	42.9%

Dash Punctuation

Value	Count	Frequency (%)
―	2	66.7%
－	1	33.3%

Math Symbol

Value	Count	Frequency (%)
÷	1	50.0%
×	1	50.0%

Space Separator

Value	Count	Frequency (%)
	15690	100.0%

Modifier Symbol

Value	Count	Frequency (%)
¨	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
（	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
）	1	100.0%

Other Symbol

Value	Count	Frequency (%)
™	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	63612	57.2%
Common	16780	15.1%
Hangul	13754	12.4%
Cyrillic	12130	10.9%
Han	4557	4.1%
Hiragana	293	0.3%
Katakana	80	0.1%
Greek	1	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
的	195	4.3%
朝	148	3.2%
中	147	3.2%
日	116	2.5%
韓	88	1.9%
文	68	1.5%
究	56	1.2%
本	55	1.2%
化	48	1.1%
語	43	0.9%
Other values (846)	3593	78.8%

Hangul

Value	Count	Frequency (%)
의	821	6.0%
한	509	3.7%
국	426	3.1%
어	312	2.3%
중	307	2.2%
에	297	2.2%
과	288	2.1%
대	288	2.1%
학	261	1.9%
문	241	1.8%
Other values (528)	10004	72.7%

Hiragana

Value	Count	Frequency (%)
の	82	28.0%
と	42	14.3%
に	33	11.3%
て	14	4.8%
る	14	4.8%
を	13	4.4%
つ	11	3.8%
い	11	3.8%
か	10	3.4%
け	8	2.7%
Other values (24)	55	18.8%

Cyrillic

Value	Count	Frequency (%)
О	1388	11.4%
И	1098	9.1%
Е	1074	8.9%
А	832	6.9%
Н	828	6.8%
Р	776	6.4%
С	775	6.4%
К	726	6.0%
Т	602	5.0%
В	504	4.2%
Other values (23)	3527	29.1%

Common

Value	Count	Frequency (%)
	15690	93.5%
1	224	1.3%
0	194	1.2%
9	140	0.8%
2	116	0.7%
8	68	0.4%
·	54	0.3%
5	54	0.3%
6	51	0.3%
7	45	0.3%
Other values (19)	144	0.9%

Latin

Value	Count	Frequency (%)
E	6839	10.8%
N	6354	10.0%
A	5850	9.2%
O	5564	8.7%
I	5485	8.6%
T	4796	7.5%
R	4222	6.6%
S	4056	6.4%
C	2546	4.0%
L	2326	3.7%
Other values (18)	15574	24.5%

Katakana

Value	Count	Frequency (%)
ア	22	27.5%
ジ	14	17.5%
ダ	6	7.5%
リ	4	5.0%
ン	3	3.8%
ツ	3	3.8%
プ	2	2.5%
ム	2	2.5%
シ	2	2.5%
ラ	2	2.5%
Other values (17)	20	25.0%

Greek

Value	Count	Frequency (%)
Γ	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	80272	72.2%
Hangul	13737	12.4%
Cyrillic	12130	10.9%
CJK	4531	4.1%
Hiragana	293	0.3%
None	97	0.1%
Katakana	80	0.1%
CJK Compat Ideographs	26	< 0.1%
Punctuation	23	< 0.1%
Compat Jamo	17	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	15690	19.5%
E	6839	8.5%
N	6354	7.9%
A	5850	7.3%
O	5564	6.9%
I	5485	6.8%
T	4796	6.0%
R	4222	5.3%
S	4056	5.1%
C	2546	3.2%
Other values (28)	18870	23.5%

Cyrillic

Value	Count	Frequency (%)
О	1388	11.4%
И	1098	9.1%
Е	1074	8.9%
А	832	6.9%
Н	828	6.8%
Р	776	6.4%
С	775	6.4%
К	726	6.0%
Т	602	5.0%
В	504	4.2%
Other values (23)	3527	29.1%

Hangul

Value	Count	Frequency (%)
의	821	6.0%
한	509	3.7%
국	426	3.1%
어	312	2.3%
중	307	2.2%
에	297	2.2%
과	288	2.1%
대	288	2.1%
학	261	1.9%
문	241	1.8%
Other values (512)	9987	72.7%

CJK

Value	Count	Frequency (%)
的	195	4.3%
朝	148	3.3%
中	147	3.2%
日	116	2.6%
韓	88	1.9%
文	68	1.5%
究	56	1.2%
本	55	1.2%
化	48	1.1%
語	43	0.9%
Other values (829)	3567	78.7%

Hiragana

Value	Count	Frequency (%)
の	82	28.0%
と	42	14.3%
に	33	11.3%
て	14	4.8%
る	14	4.8%
を	13	4.4%
つ	11	3.8%
い	11	3.8%
か	10	3.4%
け	8	2.7%
Other values (24)	55	18.8%

None

Value	Count	Frequency (%)
·	54	55.7%
、	22	22.7%
Ð	6	6.2%
，	5	5.2%
：	2	2.1%
¨	1	1.0%
÷	1	1.0%
Æ	1	1.0%
×	1	1.0%
（	1	1.0%
Other values (3)	3	3.1%

Katakana

Value	Count	Frequency (%)
ア	22	27.5%
ジ	14	17.5%
ダ	6	7.5%
リ	4	5.0%
ン	3	3.8%
ツ	3	3.8%
プ	2	2.5%
ム	2	2.5%
シ	2	2.5%
ラ	2	2.5%
Other values (17)	20	25.0%

Punctuation

Value	Count	Frequency (%)
’	9	39.1%
‘	4	17.4%
”	3	13.0%
“	3	13.0%
―	2	8.7%
…	2	8.7%

CJK Compat Ideographs

Value	Count	Frequency (%)
論	4	15.4%
李	4	15.4%
金	2	7.7%
樂	2	7.7%
栗	2	7.7%
理	1	3.8%
良	1	3.8%
聯	1	3.8%
流	1	3.8%
類	1	3.8%
Other values (7)	7	26.9%

Compat Jamo

Value	Count	Frequency (%)
ㅡ	2	11.8%
ㄷ	1	5.9%
ㄴ	1	5.9%
ㅁ	1	5.9%
ㄹ	1	5.9%
ㅂ	1	5.9%
ㅊ	1	5.9%
ㅅ	1	5.9%
ㅇ	1	5.9%
ㅈ	1	5.9%
Other values (6)	6	35.3%

Letterlike Symbols

Value	Count	Frequency (%)
™	1	100.0%

GANADA_TITLE_ENG
Categorical

Distinct	32
Distinct (%)	1.4%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	889
C	162
S	152
P	129
K	103
Other values (27)	837

Length

Max length	4
Median length	1
Mean length	2.190581
Min length	1

Unique

Unique	4 ?
Unique (%)	0.2%

Sample

1st row	K
2nd row	K
3rd row	K
4th row	K
5th row	K

Common Values

Value	Count	Frequency (%)
<NA>	889	39.1%
C	162	7.1%
S	152	6.7%
P	129	5.7%
K	103	4.5%
R	79	3.5%
I	65	2.9%
T	65	2.9%
E	65	2.9%
A	58	2.6%
Other values (22)	505	22.2%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
na	889	39.1%
c	162	7.1%
s	152	6.7%
p	129	5.7%
k	103	4.5%
r	79	3.5%
i	65	2.9%
t	65	2.9%
e	65	2.9%
a	58	2.6%
Other values (22)	505	22.2%

GANADA_TITLE_KOR
Categorical

Distinct	34
Distinct (%)	1.5%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

하	538
자	300
아	275
가	199
<NA>	166
Other values (29)	794

Length

Max length	4
Median length	1
Mean length	1.318662
Min length	1

Unique

Unique	10 ?
Unique (%)	0.4%

Sample

1st row	하
2nd row	하
3rd row	하
4th row	하
5th row	하

Common Values

Value	Count	Frequency (%)
하	538	23.7%
자	300	13.2%
아	275	12.1%
가	199	8.8%
<NA>	166	7.3%
사	133	5.9%
바	114	5.0%
ETC	113	5.0%
다	97	4.3%
마	67	2.9%
Other values (24)	270	11.9%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
하	538	23.7%
자	300	13.2%
아	275	12.1%
가	199	8.8%
na	166	7.3%
사	133	5.9%
바	114	5.0%
etc	113	5.0%
다	97	4.3%
마	67	2.9%
Other values (24)	270	11.9%

GANADA_TITLE_ORI
Categorical

Distinct	44
Distinct (%)	1.9%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

ETC	589
하	164
자	138
S	103
C	95
Other values (39)	1183

Length

Max length	3
Median length	1
Mean length	1.5184859
Min length	1

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	하
2nd row	하
3rd row	하
4th row	하
5th row	하

Common Values

Value	Count	Frequency (%)
ETC	589	25.9%
하	164	7.2%
자	138	6.1%
S	103	4.5%
C	95	4.2%
P	88	3.9%
아	81	3.6%
K	77	3.4%
가	75	3.3%
R	61	2.7%
Other values (34)	801	35.3%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
etc	589	25.9%
하	164	7.2%
자	138	6.1%
s	103	4.5%
c	95	4.2%
p	88	3.9%
아	81	3.6%
k	77	3.4%
가	75	3.3%
r	61	2.7%
Other values (34)	801	35.3%

SEARCH_YN
Boolean

IMBALANCE

Distinct	2
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

True	2232
False	40

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
True	2232	98.2%
False	40	1.8%

IS_OPEN
Boolean

IMBALANCE

Distinct	2
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

True	2270
False	2

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
True	2270	99.9%
False	2	0.1%

ERASE_YN
Boolean

IMBALANCE

Distinct	2
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

False	2252
True	20

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
False	2252	99.1%
True	20	0.9%

FILE_NAME
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	2272
Missing (%)	100.0%
Memory size	20.1 KiB

ROOT_DIR
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	2272
Missing (%)	100.0%
Memory size	20.1 KiB

SUB_DIR
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	2272
Missing (%)	100.0%
Memory size	20.1 KiB

REGISTED_DATE
Text

Distinct	2263
Distinct (%)	99.6%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

Length

Max length	7
Median length	7
Mean length	7
Min length	7

Characters and Unicode

Total characters	15904
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2254 ?
Unique (%)	99.2%

Sample

1st row	49:10.4
2nd row	49:10.6
3rd row	49:10.8
4th row	49:10.9
5th row	49:11.1

Value	Count	Frequency (%)
55:43.2	2	0.1%
57:02.1	2	0.1%
52:54.9	2	0.1%
55:51.5	2	0.1%
56:54.5	2	0.1%
50:58.7	2	0.1%
55:19.9	2	0.1%
52:56.7	2	0.1%
54:27.0	2	0.1%
50:45.7	1	< 0.1%
Other values (2253)	2253	99.2%

Most occurring characters

Value	Count	Frequency (%)
5	2760	17.4%
:	2272	14.3%
.	2272	14.3%
4	1552	9.8%
0	1151	7.2%
3	1084	6.8%
1	1083	6.8%
2	1068	6.7%
6	714	4.5%
9	711	4.5%
Other values (2)	1237	7.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	11360	71.4%
Other Punctuation	4544	28.6%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
5	2760	24.3%
4	1552	13.7%
0	1151	10.1%
3	1084	9.5%
1	1083	9.5%
2	1068	9.4%
6	714	6.3%
9	711	6.3%
8	671	5.9%
7	566	5.0%

Other Punctuation

Value	Count	Frequency (%)
:	2272	50.0%
.	2272	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	15904	100.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
5	2760	17.4%
:	2272	14.3%
.	2272	14.3%
4	1552	9.8%
0	1151	7.2%
3	1084	6.8%
1	1083	6.8%
2	1068	6.7%
6	714	4.5%
9	711	4.5%
Other values (2)	1237	7.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	15904	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
5	2760	17.4%
:	2272	14.3%
.	2272	14.3%
4	1552	9.8%
0	1151	7.2%
3	1084	6.8%
1	1083	6.8%
2	1068	6.7%
6	714	4.5%
9	711	4.5%
Other values (2)	1237	7.8%

IMBALANCE

Distinct	2
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2150
super	122

Length

Max length	5
Median length	4
Mean length	4.0536972
Min length	4

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2150	94.6%
super	122	5.4%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2150	94.6%
super	122	5.4%

MODIFIED_DATE
Text

MISSING

Distinct	79
Distinct (%)	100.0%
Missing	2193
Missing (%)	96.5%
Memory size	17.9 KiB

Length

Max length	7
Median length	7
Mean length	7
Min length	7

Characters and Unicode

Total characters	553
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	79 ?
Unique (%)	100.0%

Sample

1st row	15:43.3
2nd row	24:25.9
3rd row	14:25.3
4th row	21:15.5
5th row	13:39.7

Value	Count	Frequency (%)
15:43.3	1	1.3%
16:38.3	1	1.3%
47:25.0	1	1.3%
33:21.4	1	1.3%
22:41.4	1	1.3%
25:25.4	1	1.3%
05:31.2	1	1.3%
07:26.0	1	1.3%
42:04.1	1	1.3%
14:43.4	1	1.3%
Other values (69)	69	87.3%

Most occurring characters

Value	Count	Frequency (%)
:	79	14.3%
.	79	14.3%
2	61	11.0%
1	50	9.0%
3	50	9.0%
4	49	8.9%
5	46	8.3%
0	45	8.1%
6	30	5.4%
8	24	4.3%
Other values (2)	40	7.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	395	71.4%
Other Punctuation	158	28.6%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
2	61	15.4%
1	50	12.7%
3	50	12.7%
4	49	12.4%
5	46	11.6%
0	45	11.4%
6	30	7.6%
8	24	6.1%
7	23	5.8%
9	17	4.3%

Other Punctuation

Value	Count	Frequency (%)
:	79	50.0%
.	79	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	553	100.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
:	79	14.3%
.	79	14.3%
2	61	11.0%
1	50	9.0%
3	50	9.0%
4	49	8.9%
5	46	8.3%
0	45	8.1%
6	30	5.4%
8	24	4.3%
Other values (2)	40	7.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	553	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
:	79	14.3%
.	79	14.3%
2	61	11.0%
1	50	9.0%
3	50	9.0%
4	49	8.9%
5	46	8.3%
0	45	8.1%
6	30	5.4%
8	24	4.3%
Other values (2)	40	7.2%

MODIFIER
Categorical

IMBALANCE

Distinct	2
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2193
super	79

Length

Max length	5
Median length	4
Mean length	4.0347711
Min length	4

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	super
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2193	96.5%
super	79	3.5%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2193	96.5%
super	79	3.5%

ERASE_DATE
Text

MISSING

Distinct	20
Distinct (%)	100.0%
Missing	2252
Missing (%)	99.1%
Memory size	17.9 KiB

Length

Max length	7
Median length	7
Mean length	7
Min length	7

Characters and Unicode

Total characters	140
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	20 ?
Unique (%)	100.0%

Sample

1st row	14:14.5
2nd row	45:32.8
3rd row	47:56.5
4th row	55:26.8
5th row	12:57.6

Value	Count	Frequency (%)
14:14.5	1	5.0%
45:32.8	1	5.0%
00:22.6	1	5.0%
22:49.2	1	5.0%
16:58.4	1	5.0%
49:29.5	1	5.0%
02:08.0	1	5.0%
01:43.1	1	5.0%
42:53.4	1	5.0%
50:37.7	1	5.0%
Other values (10)	10	50.0%

Most occurring characters

Value	Count	Frequency (%)
:	20	14.3%
.	20	14.3%
4	16	11.4%
2	16	11.4%
5	15	10.7%
0	10	7.1%
1	9	6.4%
3	9	6.4%
8	7	5.0%
7	7	5.0%
Other values (2)	11	7.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	100	71.4%
Other Punctuation	40	28.6%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
4	16	16.0%
2	16	16.0%
5	15	15.0%
0	10	10.0%
1	9	9.0%
3	9	9.0%
8	7	7.0%
7	7	7.0%
9	6	6.0%
6	5	5.0%

Other Punctuation

Value	Count	Frequency (%)
:	20	50.0%
.	20	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	140	100.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
:	20	14.3%
.	20	14.3%
4	16	11.4%
2	16	11.4%
5	15	10.7%
0	10	7.1%
1	9	6.4%
3	9	6.4%
8	7	5.0%
7	7	5.0%
Other values (2)	11	7.9%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	140	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
:	20	14.3%
.	20	14.3%
4	16	11.4%
2	16	11.4%
5	15	10.7%
0	10	7.1%
1	9	6.4%
3	9	6.4%
8	7	5.0%
7	7	5.0%
Other values (2)	11	7.9%

ERASER
Categorical

IMBALANCE

Distinct	3
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	17.9 KiB

<NA>	2252
super	19
test	1

Length

Max length	5
Median length	4
Mean length	4.0083627
Min length	4

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	2252	99.1%
super	19	0.8%
test	1	< 0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	2252	99.1%
super	19	0.8%
test	1	< 0.1%

First rows
Last rows

	CATALOG_ID	PARENT_CATALOG_ID	TITLE_ENG	TITLE_KOR	TITLE_ORI	SUBTITLE_ENG	SUBTITLE_KOR	SUBTITLE_ORI	AUTHOR_ORI	AUTHOR_KOR	AUTHOR_ENG	AUTHOR_ETC	ORGANIZATION_ORI	ORGANIZATION_KOR	ORGANIZATION_ENG	ORGANIZATION_ETC	NATION	SUPPORT	CATEGORY	LANGUAGE	PAGES	SUB_INDEX	PROJECTYEAR_BEGIN	PROJECTYEAR_END	PUBLISH_DATE	PUBLISHER	SERIAL_NUMBER	VOLUME	NUMBER	ISBN	ISSN	SORT_TITLE_ENG	SORT_TITLE_KOR	SORT_TITLE_ORI	GANADA_TITLE_ENG	GANADA_TITLE_KOR	GANADA_TITLE_ORI	SEARCH_YN	IS_OPEN	ERASE_YN	FILE_NAME	ROOT_DIR	SUB_DIR	REGISTED_DATE	REGISTER	MODIFIED_DATE	MODIFIER	ERASE_DATE	ERASER
0	05R42	0	Korean-English Dictionary in Hindi Pronunciation	힌디어로 발음하는 인도의 한영 대사전	힌디어로 발음하는 인도의 한영 대사전	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	<NA>	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	3433	0	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION	힌디어로 발음하는 인도의 한영 대사전	힌디어로 발음하는 인도의 한영 대사전	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:10.4	<NA>	15:43.3	super	<NA>	<NA>
1	05R42_0001	05R42	Korean-English Dictionary in Hindi Pronunciation (ㄱ)	힌디어로 발음하는 인도의 한영 대사전 - ㄱ(기역)	힌디어로 발음하는 인도의 한영 대사전 - ㄱ(기역)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	447	1	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄱ	힌디어로 발음하는 인도의 한영 대사전 ㄱ기역	힌디어로 발음하는 인도의 한영 대사전 ㄱ기역	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:10.6	<NA>	<NA>	<NA>	<NA>	<NA>
2	05R42_0002	05R42	Korean-English Dictionary in Hindi Pronunciation (ㄴ)	힌디어로 발음하는 인도의 한영 대사전 - ㄴ(니은)	힌디어로 발음하는 인도의 한영 대사전 - ㄴ(니은)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	197	2	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄴ	힌디어로 발음하는 인도의 한영 대사전 ㄴ니은	힌디어로 발음하는 인도의 한영 대사전 ㄴ니은	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:10.8	<NA>	<NA>	<NA>	<NA>	<NA>
3	05R42_0003	05R42	Korean-English Dictionary in Hindi Pronunciation (ㄷ)	힌디어로 발음하는 인도의 한영 대사전 - ㄷ(디귿)	힌디어로 발음하는 인도의 한영 대사전 - ㄷ(디귿)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	325	3	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄷ	힌디어로 발음하는 인도의 한영 대사전 ㄷ디귿	힌디어로 발음하는 인도의 한영 대사전 ㄷ디귿	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:10.9	<NA>	<NA>	<NA>	<NA>	<NA>
4	05R42_0004	05R42	Korean-English Dictionary in Hindi Pronunciation (ㄹ,ㅁ)	힌디어로 발음하는 인도의 한영 대사전 - ㄹ, ㅁ(리을, 미음)	힌디어로 발음하는 인도의 한영 대사전 - ㄹ, ㅁ(리을, 미음)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	279	4	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㄹㅁ	힌디어로 발음하는 인도의 한영 대사전 ㄹ ㅁ리을 미음	힌디어로 발음하는 인도의 한영 대사전 ㄹ ㅁ리을 미음	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:11.1	<NA>	<NA>	<NA>	<NA>	<NA>
5	05R42_0005	05R42	Korean-English Dictionary in Hindi Pronunciation (ㅂ)	힌디어로 발음하는 인도의 한영 대사전 - ㅂ(비읍)	힌디어로 발음하는 인도의 한영 대사전 - ㅂ(비읍)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	243	5	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㅂ	힌디어로 발음하는 인도의 한영 대사전 ㅂ비읍	힌디어로 발음하는 인도의 한영 대사전 ㅂ비읍	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:11.2	<NA>	<NA>	<NA>	<NA>	<NA>
6	05R42_0006	05R42	Korean-English Dictionary in Hindi Pronunciation (ㅅ)	힌디어로 발음하는 인도의 한영 대사전 - ㅅ(시옷)	힌디어로 발음하는 인도의 한영 대사전 - ㅅ(시옷)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	513	6	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㅅ	힌디어로 발음하는 인도의 한영 대사전 ㅅ시옷	힌디어로 발음하는 인도의 한영 대사전 ㅅ시옷	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:11.4	<NA>	<NA>	<NA>	<NA>	<NA>
7	05R42_0007	05R42	Korean-English Dictionary in Hindi Pronunciation (ㅇ)	힌디어로 발음하는 인도의 한영 대사전 - ㅇ(이응)	힌디어로 발음하는 인도의 한영 대사전 - ㅇ(이응)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	477	7	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㅇ	힌디어로 발음하는 인도의 한영 대사전 ㅇ이응	힌디어로 발음하는 인도의 한영 대사전 ㅇ이응	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:11.5	<NA>	<NA>	<NA>	<NA>	<NA>
8	05R42_0008	05R42	Korean-English Dictionary in Hindi Pronunciation (ㅈ)	힌디어로 발음하는 인도의 한영 대사전 - ㅈ(지읏)	힌디어로 발음하는 인도의 한영 대사전 - ㅈ(지읏)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	431	8	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㅈ	힌디어로 발음하는 인도의 한영 대사전 ㅈ지읏	힌디어로 발음하는 인도의 한영 대사전 ㅈ지읏	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:11.7	<NA>	<NA>	<NA>	<NA>	<NA>
9	05R42_0009	05R42	Korean-English Dictionary in Hindi Pronunciation (ㅊㅋㅌㅍㅎ)	힌디어로 발음하는 인도의 한영 대사전 - ㅊㅋㅌㅍㅎ(치읓, 키읔, 티읕, 피읖, 히읗)	힌디어로 발음하는 인도의 한영 대사전 - ㅊㅋㅌㅍㅎ(치읓, 키읔, 티읕, 피읖, 히읗)	<NA>	<NA>	<NA>	김도영	김도영	<NA>	<NA>	University of Delhi	델리대학교	University of Delhi	<NA>	NATION_IN	SUPPORT_R	CATEGORY_H	LANGUAGE_HI	521	9	2005	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREANENGLISH DICTIONARY IN HINDI PRONUNCIATION ㅊㅋㅌㅍㅎ	힌디어로 발음하는 인도의 한영 대사전 ㅊㅋㅌㅍㅎ치읓 키읔 티읕 피읖 히읗	힌디어로 발음하는 인도의 한영 대사전 ㅊㅋㅌㅍㅎ치읓 키읔 티읕 피읖 히읗	K	하	하	Y	Y	N	<NA>	<NA>	<NA>	49:11.9	<NA>	<NA>	<NA>	<NA>	<NA>

	CATALOG_ID	TITLE_ENG	TITLE_KOR	TITLE_ORI	SUBTITLE_ENG	SUBTITLE_KOR	SUBTITLE_ORI	AUTHOR_ORI	AUTHOR_KOR	AUTHOR_ENG	AUTHOR_ETC	ORGANIZATION_ORI	ORGANIZATION_KOR	ORGANIZATION_ENG	ORGANIZATION_ETC	NATION	SUPPORT	CATEGORY	LANGUAGE	PAGES	PROJECTYEAR_BEGIN	PROJECTYEAR_END	PUBLISH_DATE	PUBLISHER	SERIAL_NUMBER	VOLUME	NUMBER	ISBN	ISSN	SORT_TITLE_ENG	SORT_TITLE_KOR	SORT_TITLE_ORI	GANADA_TITLE_ENG	GANADA_TITLE_KOR	GANADA_TITLE_ORI	SEARCH_YN	IS_OPEN	ERASE_YN	FILE_NAME	ROOT_DIR	SUB_DIR	REGISTED_DATE	REGISTER	MODIFIED_DATE	MODIFIER	ERASE_DATE	ERASER
2262	12R84	<NA>	<NA>	ИЗУЧЕНИЕ КОРЕЙСКОГО ЯЗЫКА В УЗБЕКИСТАНЕ В СОВЕТСКИЙ И ПОСТСОВЕТСКИЙ ПЕРИОДЫ(опыт социологического исследования)	<NA>	<NA>	<NA>	Хан В. С.	<NA>	Valeriy Khan	<NA>	Research Center “Sharh va Tavsiya”	<NA>	Research Center “Sharh va Tavsiya”	<NA>	<NA>	SUPPORT_R	CATEGORY_L	LANGUAGE_RU	17	2012	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	ИЗУЧЕНИЕ КОРЕЙСКОГО ЯЗЫКА В УЗБЕКИСТАНЕ В СОВЕТСКИЙ И ПОСТСОВЕТСКИЙ ПЕРИОДЫОПЫТ СОЦИОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ	<NA>	<NA>	ETC	Y	Y	N	<NA>	<NA>	<NA>	06:01.5	super	20:12.3	super	<NA>	<NA>
2263	13C04	Korean Trade and Investment in the Greater Mekong Sub-Region	<NA>	Korean Trade and Investment in the Greater Mekong Sub-Region	<NA>	<NA>	<NA>	John Walsh	<NA>	John Walsh	<NA>	Shinawatra University	<NA>	Shinawatra University	<NA>	<NA>	SUPPORT_C	CATEGORY_D	LANGUAGE_EN	15	2013	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREAN TRADE AND INVESTMENT IN THE GREATER MEKONG SUBREGION	<NA>	KOREAN TRADE AND INVESTMENT IN THE GREATER MEKONG SUBREGION	K	<NA>	K	Y	Y	N	<NA>	<NA>	<NA>	41:30.3	super	42:24.3	super	<NA>	<NA>
2264	13C13	Biography in East Asia, 1400~1900	<NA>	Biography in East Asia, 1400~1900	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	King's University College at Western University	<NA>	King's University College at Western University	<NA>	<NA>	SUPPORT_C	CATEGORY_B	LANGUAGE_EN	357	2013	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	BIOGRAPHY IN EAST ASIA 14001900	<NA>	BIOGRAPHY IN EAST ASIA 14001900	B	<NA>	B	Y	Y	N	<NA>	<NA>	<NA>	38:23.5	super	18:55.1	super	<NA>	<NA>
2265	13C23	Becoming an Adult in East Asia: Comparative and Interdisciplinary Approaches	<NA>	Becoming an Adult in East Asia: Comparative and Interdisciplinary Approaches	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	Department of Sociology, University of Pennsylvania	<NA>	Department of Sociology, University of Pennsylvania	<NA>	<NA>	SUPPORT_C	CATEGORY_E	LANGUAGE_EN	7	2013	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	BECOMING AN ADULT IN EAST ASIA COMPARATIVE AND INTERDISCIPLINARY APPROACHES	<NA>	BECOMING AN ADULT IN EAST ASIA COMPARATIVE AND INTERDISCIPLINARY APPROACHES	B	<NA>	B	Y	Y	Y	<NA>	<NA>	<NA>	31:55.6	super	32:52.5	super	35:57.9	super
2266	13C25	Religious markets in Korea in comparative perspective	<NA>	Religious markets in Korea in comparative perspective	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	SUPPORT_C	CATEGORY_E	LANGUAGE_EN	53	2013	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	RELIGIOUS MARKETS IN KOREA IN COMPARATIVE PERSPECTIVE	<NA>	RELIGIOUS MARKETS IN KOREA IN COMPARATIVE PERSPECTIVE	R	<NA>	R	Y	Y	N	<NA>	<NA>	<NA>	54:27.0	super	<NA>	<NA>	<NA>	<NA>
2267	14C01	Korean Studies Association of Australasia Postgraduate Students' Workshop	<NA>	Korean Studies Association of Australasia Postgraduate Students' Workshop	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	SUPPORT_C	<NA>	LANGUAGE_EN	29	2014	<NA>	2014	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREAN STUDIES ASSOCIATION OF AUSTRALASIA POSTGRADUATE STUDENTS WORKSHOP	<NA>	KOREAN STUDIES ASSOCIATION OF AUSTRALASIA POSTGRADUATE STUDENTS WORKSHOP	K	<NA>	K	Y	Y	N	<NA>	<NA>	<NA>	10:05.6	super	18:14.8	super	<NA>	<NA>
2268	14C08	Korea at the Crossroads: Geopolitics, Economics and Political System	<NA>	Korea at the Crossroads: Geopolitics, Economics and Political System	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	Asia Center, Center etudes Asie	<NA>	Asia Center, Center etudes Asie	<NA>	<NA>	SUPPORT_C	CATEGORY_C	LANGUAGE_EN	55	2014	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	KOREA AT THE CROSSROADS GEOPOLITICS ECONOMICS AND POLITICAL SYSTEM	<NA>	KOREA AT THE CROSSROADS GEOPOLITICS ECONOMICS AND POLITICAL SYSTEM	K	<NA>	K	Y	Y	N	<NA>	<NA>	<NA>	42:30.3	super	20:17.0	super	<NA>	<NA>
2269	14C11	The Spirit of Korean Philosophy: 6 Great Debates and their Significance for Asian and Western Philosophies	<NA>	The Spirit of Korean Philosophy: 6 Great Debates and their Significance for Asian and Western Philosophies	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	SUPPORT_C	CATEGORY_E	LANGUAGE_EN	206	2014	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	SPIRIT OF KOREAN PHILOSOPHY 6 GREAT DEBATES AND THEIR SIGNIFICANCE FOR ASIAN AND WESTERN PHILOSOPHIES	<NA>	SPIRIT OF KOREAN PHILOSOPHY 6 GREAT DEBATES AND THEIR SIGNIFICANCE FOR ASIAN AND WESTERN PHILOSOPHIES	S	<NA>	S	Y	Y	N	<NA>	<NA>	<NA>	23:39.8	super	<NA>	<NA>	<NA>	<NA>
2270	14C15	<NA>	<NA>	The Great Kanto Earthquake & the Massacre of Koreans: Reconstructing Disaster and Colonial Atrocity in History and Literature 90 Years Later	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	SUPPORT_C	CATEGORY_G	LANGUAGE_EN	80	2014	<NA>	2014	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	GREAT KANTO EARTHQUAKE THE MASSACRE OF KOREANS RECONSTRUCTING DISASTER AND COLONIAL ATROCITY IN HISTORY AND LITERATURE 90 YEARS LATER	<NA>	<NA>	G	Y	Y	N	<NA>	<NA>	<NA>	31:50.5	super	<NA>	<NA>	<NA>	<NA>
2271	14C18	<NA>	<NA>	Winning Central Europe: Spread and Reception of the Korean Wave in the Czech Republic	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	SUPPORT_C	CATEGORY_N	LANGUAGE_EN	84	2014	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	WINNING CENTRAL EUROPE SPREAD AND RECEPTION OF THE KOREAN WAVE IN THE CZECH REPUBLIC	<NA>	<NA>	W	Y	Y	N	<NA>	<NA>	<NA>	43:20.2	super	<NA>	<NA>	<NA>	<NA>

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Lowercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Open Punctuation

Close Punctuation

Math Symbol

Dash Punctuation

Final Punctuation

Initial Punctuation

Space Separator

Modifier Symbol

Other Symbol

Most occurring scripts

Most frequent character per script

Hangul

Han

Latin

Common

Cyrillic

Greek

Most occurring blocks

Most frequent character per block

ASCII

Punctuation

Cyrillic

None

Hangul

CJK

Letterlike Symbols

Compat Jamo

CJK Compat Ideographs

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Open Punctuation

Close Punctuation

Math Symbol

Dash Punctuation

Final Punctuation

Initial Punctuation

Space Separator

Most occurring scripts