gimi9 Pandas Profiling

Dataset statistics

Number of variables	14
Number of observations	2465
Missing cells	9686
Missing cells (%)	28.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	272.1 KiB
Average record size in memory	113.1 B

Variable types

Numeric	1
Text	9
Categorical	4

Dataset

Description	한국학중앙연구원 해외한국학지원사업 연구성과 저자정보
Author	한국학중앙연구원
URL	https://www.data.go.kr/data/15049069/fileData.do

Alerts

`GANADA_AUTHOR_ENG` is highly overall correlated with `GANADA_AUTHOR_ORI` and 1 other fields	High correlation
`GANADA_AUTHOR_ETC` is highly overall correlated with `GANADA_AUTHOR_ORI` and 1 other fields	High correlation
`GANADA_AUTHOR_KOR` is highly overall correlated with `GANADA_AUTHOR_ORI`	High correlation
`GANADA_AUTHOR_ORI` is highly overall correlated with `GANADA_AUTHOR_KOR` and 2 other fields	High correlation
`GANADA_AUTHOR_KOR` is highly imbalanced (56.2%)	Imbalance
`GANADA_AUTHOR_ETC` is highly imbalanced (76.8%)	Imbalance
`AUTHOR_KOR` has 1771 (71.8%) missing values	Missing
`AUTHOR_ENG` has 1213 (49.2%) missing values	Missing
`AUTHOR_ETC` has 1859 (75.4%) missing values	Missing
`SORT_AUTHOR_KOR` has 1771 (71.8%) missing values	Missing
`SORT_AUTHOR_ENG` has 1213 (49.2%) missing values	Missing
`SORT_AUTHOR_ETC` has 1859 (75.4%) missing values	Missing
`AUTHOR_ID` has unique values	Unique

Reproduction

Analysis started	2023-12-12 06:02:53.471672
Analysis finished	2023-12-12 06:02:56.544119
Duration	3.07 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

AUTHOR_ID
Real number (ℝ)

UNIQUE

Distinct	2465
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	8719.3671

Minimum	7438
Maximum	10443
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	21.8 KiB

Quantile statistics

Minimum	7438
5-th percentile	7561.2
Q1	8068
median	8712
Q3	9341
95-th percentile	9838.8
Maximum	10443
Range	3005
Interquartile range (IQR)	1273

Descriptive statistics

Standard deviation	759.23051
Coefficient of variation (CV)	0.087074038
Kurtosis	-0.96733188
Mean	8719.3671
Median Absolute Deviation (MAD)	635
Skewness	0.12412938
Sum	21493240
Variance	576430.96
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
7438	1	< 0.1%
9132	1	< 0.1%
9125	1	< 0.1%
9126	1	< 0.1%
9127	1	< 0.1%
9128	1	< 0.1%
9129	1	< 0.1%
9130	1	< 0.1%
9131	1	< 0.1%
9133	1	< 0.1%
Other values (2455)	2455	99.6%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
7438	1	< 0.1%
7439	1	< 0.1%
7440	1	< 0.1%
7441	1	< 0.1%
7442	1	< 0.1%
7443	1	< 0.1%
7444	1	< 0.1%
7445	1	< 0.1%
7446	1	< 0.1%
7447	1	< 0.1%

Value	Count	Frequency (%)
10443	1	< 0.1%
10442	1	< 0.1%
10437	1	< 0.1%
10436	1	< 0.1%
10435	1	< 0.1%
10433	1	< 0.1%
10432	1	< 0.1%
10431	1	< 0.1%
10430	1	< 0.1%
10428	1	< 0.1%

CATALOG_ID
Text

Distinct	2177
Distinct (%)	88.3%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

Length

Max length	10
Median length	10
Mean length	9.6640974
Min length	1

Characters and Unicode

Total characters	23822
Distinct characters	18
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1950 ?
Unique (%)	79.1%

Sample

1st row	08C19_0019
2nd row	08C09_0004
3rd row	06C10_0028
4th row	06C10_0028
5th row	08C09_0024

Value	Count	Frequency (%)
06c10_0047	5	0.2%
06c10_0054	5	0.2%
09c12_0004	5	0.2%
10r41	4	0.2%
09r33_0001	4	0.2%
07c14_0010	4	0.2%
06p03_0006	4	0.2%
09c12_0018	4	0.2%
12r15_0001	4	0.2%
09c05_0070	4	0.2%
Other values (2167)	2422	98.3%

Most occurring characters

Value	Count	Frequency (%)
0	9205	38.6%
1	2540	10.7%
_	2299	9.7%
C	1826	7.7%
6	1209	5.1%
2	1136	4.8%
9	1028	4.3%
7	1023	4.3%
5	788	3.3%
8	778	3.3%
Other values (8)	1990	8.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	19050	80.0%
Uppercase Letter	2463	10.3%
Connector Punctuation	2299	9.7%
Lowercase Letter	10	< 0.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	9205	48.3%
1	2540	13.3%
6	1209	6.3%
2	1136	6.0%
9	1028	5.4%
7	1023	5.4%
5	788	4.1%
8	778	4.1%
3	690	3.6%
4	653	3.4%

Uppercase Letter

Value	Count	Frequency (%)
C	1826	74.1%
P	341	13.8%
R	295	12.0%
S	1	< 0.1%

Lowercase Letter

Value	Count	Frequency (%)
a	5	50.0%
b	4	40.0%
d	1	10.0%

Connector Punctuation

Value	Count	Frequency (%)
_	2299	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	21349	89.6%
Latin	2473	10.4%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	9205	43.1%
1	2540	11.9%
_	2299	10.8%
6	1209	5.7%
2	1136	5.3%
9	1028	4.8%
7	1023	4.8%
5	788	3.7%
8	778	3.6%
3	690	3.2%

Latin

Value	Count	Frequency (%)
C	1826	73.8%
P	341	13.8%
R	295	11.9%
a	5	0.2%
b	4	0.2%
d	1	< 0.1%
S	1	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	23822	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	9205	38.6%
1	2540	10.7%
_	2299	9.7%
C	1826	7.7%
6	1209	5.1%
2	1136	4.8%
9	1028	4.3%
7	1023	4.3%
5	788	3.3%
8	778	3.3%
Other values (8)	1990	8.4%

AUTHOR_ORI
Text

Distinct	1929
Distinct (%)	78.3%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

Length

Max length	30
Median length	27
Mean length	9.2490872
Min length	1

Characters and Unicode

Total characters	22799
Distinct characters	870
Distinct categories	12 ?
Distinct scripts	7 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1596 ?
Unique (%)	64.7%

Sample

1st row	Surachai Sensri
2nd row	Sumi Yoon
3rd row	Tetsuharu Moriya
4th row	Kaoru Horie
5th row	Tetsuharu Moriya

Value	Count	Frequency (%)
kim	135	3.1%
lee	66	1.5%
park	52	1.2%
김관웅	30	0.7%
shin	27	0.6%
ким	24	0.6%
а	22	0.5%
suh	18	0.4%
han	18	0.4%
j	17	0.4%
Other values (2478)	3902	90.5%

Most occurring characters

Value	Count	Frequency (%)
	1847	8.1%
n	1513	6.6%
a	1261	5.5%
o	1199	5.3%
e	1100	4.8%
i	975	4.3%
u	701	3.1%
h	615	2.7%
g	614	2.7%
r	588	2.6%
Other values (860)	12386	54.3%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	12791	56.1%
Uppercase Letter	4176	18.3%
Other Letter	3211	14.1%
Space Separator	1847	8.1%
Other Punctuation	413	1.8%
Dash Punctuation	309	1.4%
Open Punctuation	21	0.1%
Close Punctuation	21	0.1%
Private Use	5	< 0.1%
Math Symbol	2	< 0.1%
Other values (2)	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	173	5.4%
이	67	2.1%
영	66	2.1%
웅	47	1.5%
金	43	1.3%
정	40	1.2%
호	36	1.1%
박	33	1.0%
최	33	1.0%
관	33	1.0%
Other values (681)	2640	82.2%

Lowercase Letter

Value	Count	Frequency (%)
n	1513	11.8%
a	1261	9.9%
o	1199	9.4%
e	1100	8.6%
i	975	7.6%
u	701	5.5%
h	615	4.8%
g	614	4.8%
r	588	4.6%
m	386	3.0%
Other values (88)	3839	30.0%

Uppercase Letter

Value	Count	Frequency (%)
S	422	10.1%
K	340	8.1%
H	265	6.3%
J	247	5.9%
M	206	4.9%
Y	183	4.4%
A	162	3.9%
C	156	3.7%
L	145	3.5%
P	144	3.4%
Other values (55)	1906	45.6%

Other Punctuation

Value	Count	Frequency (%)
.	360	87.2%
,	41	9.9%
'	10	2.4%
・	2	0.5%

Dash Punctuation

Value	Count	Frequency (%)
-	308	99.7%
–	1	0.3%

Open Punctuation

Value	Count	Frequency (%)
(	17	81.0%
[	4	19.0%

Close Punctuation

Value	Count	Frequency (%)
)	17	81.0%
]	4	19.0%

Decimal Number

Value	Count	Frequency (%)
3	1	50.0%
1	1	50.0%

Space Separator

Value	Count	Frequency (%)
	1847	100.0%

Private Use

Value	Count	Frequency (%)
􀀁	5	100.0%

Math Symbol

Value	Count	Frequency (%)
÷	2	100.0%

Modifier Letter

Value	Count	Frequency (%)
ー	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14853	65.1%
Common	2616	11.5%
Cyrillic	2114	9.3%
Hangul	2026	8.9%
Han	1160	5.1%
Katakana	25	0.1%
Unknown	5	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
金	43	3.7%
李	29	2.5%
张	16	1.4%
美	15	1.3%
玉	14	1.2%
文	14	1.2%
朴	12	1.0%
鄭	11	0.9%
刘	11	0.9%
崔	11	0.9%
Other values (439)	984	84.8%

Hangul

Value	Count	Frequency (%)
김	173	8.5%
이	67	3.3%
영	66	3.3%
웅	47	2.3%
정	40	2.0%
호	36	1.8%
박	33	1.6%
최	33	1.6%
관	33	1.6%
장	28	1.4%
Other values (217)	1470	72.6%

Latin

Value	Count	Frequency (%)
n	1513	10.2%
a	1261	8.5%
o	1199	8.1%
e	1100	7.4%
i	975	6.6%
u	701	4.7%
h	615	4.1%
g	614	4.1%
r	588	4.0%
S	422	2.8%
Other values (91)	5865	39.5%

Cyrillic

Value	Count	Frequency (%)
а	241	11.4%
н	131	6.2%
А	127	6.0%
и	119	5.6%
о	83	3.9%
е	80	3.8%
в	80	3.8%
м	68	3.2%
М	66	3.1%
л	64	3.0%
Other values (52)	1055	49.9%

Common

Value	Count	Frequency (%)
	1847	70.6%
.	360	13.8%
-	308	11.8%
,	41	1.6%
(	17	0.6%
)	17	0.6%
'	10	0.4%
[	4	0.2%
]	4	0.2%
・	2	0.1%
Other values (5)	6	0.2%

Katakana

Value	Count	Frequency (%)
ン	6	24.0%
ョ	3	12.0%
チ	3	12.0%
ム	2	8.0%
ェ	1	4.0%
ウ	1	4.0%
ド	1	4.0%
ギ	1	4.0%
キ	1	4.0%
ク	1	4.0%
Other values (5)	5	20.0%

Unknown

Value	Count	Frequency (%)
􀀁	5	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	17321	76.0%
Cyrillic	2114	9.3%
Hangul	2026	8.9%
CJK	1144	5.0%
None	126	0.6%
Katakana	28	0.1%
Latin Ext Additional	23	0.1%
CJK Compat Ideographs	16	0.1%
Punctuation	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1847	10.7%
n	1513	8.7%
a	1261	7.3%
o	1199	6.9%
e	1100	6.4%
i	975	5.6%
u	701	4.0%
h	615	3.6%
g	614	3.5%
r	588	3.4%
Other values (53)	6908	39.9%

Cyrillic

Value	Count	Frequency (%)
а	241	11.4%
н	131	6.2%
А	127	6.0%
и	119	5.6%
о	83	3.9%
е	80	3.8%
в	80	3.8%
м	68	3.2%
М	66	3.1%
л	64	3.0%
Other values (52)	1055	49.9%

Hangul

Value	Count	Frequency (%)
김	173	8.5%
이	67	3.3%
영	66	3.3%
웅	47	2.3%
정	40	2.0%
호	36	1.8%
박	33	1.6%
최	33	1.6%
관	33	1.6%
장	28	1.4%
Other values (217)	1470	72.6%

CJK

Value	Count	Frequency (%)
金	43	3.8%
李	29	2.5%
张	16	1.4%
美	15	1.3%
玉	14	1.2%
文	14	1.2%
朴	12	1.0%
鄭	11	1.0%
刘	11	1.0%
崔	11	1.0%
Other values (435)	968	84.6%

None

Value	Count	Frequency (%)
é	16	12.7%
ö	10	7.9%
ü	10	7.9%
á	8	6.3%
É	7	5.6%
å	6	4.8%
ê	5	4.0%
ư	5	4.0%
􀀁	5	4.0%
ô	5	4.0%
Other values (26)	49	38.9%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	11	68.8%
柳	2	12.5%
寧	2	12.5%
梁	1	6.2%

Katakana

Value	Count	Frequency (%)
ン	6	21.4%
ョ	3	10.7%
チ	3	10.7%
・	2	7.1%
ム	2	7.1%
ェ	1	3.6%
ウ	1	3.6%
ド	1	3.6%
ギ	1	3.6%
キ	1	3.6%
Other values (7)	7	25.0%

Latin Ext Additional

Value	Count	Frequency (%)
ị	4	17.4%
ầ	3	13.0%
ọ	3	13.0%
ạ	2	8.7%
ứ	1	4.3%
ỗ	1	4.3%
ừ	1	4.3%
ệ	1	4.3%
ồ	1	4.3%
ờ	1	4.3%
Other values (5)	5	21.7%

Punctuation

Value	Count	Frequency (%)
–	1	100.0%

AUTHOR_KOR
Text

MISSING

Distinct	479
Distinct (%)	69.0%
Missing	1771
Missing (%)	71.8%
Memory size	19.4 KiB

Length

Max length	14
Median length	3
Mean length	3.1282421
Min length	2

Characters and Unicode

Total characters	2171
Distinct characters	230
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	377 ?
Unique (%)	54.3%

Sample

1st row	정광
2nd row	정광
3rd row	정광
4th row	정광
5th row	정광

Value	Count	Frequency (%)
김관웅	31	4.3%
김도영	11	1.5%
김호웅	11	1.5%
오상순	8	1.1%
안평추	8	1.1%
정광	7	1.0%
김춘선	6	0.8%
장광군	5	0.7%
태평무	5	0.7%
장흥권	5	0.7%
Other values (489)	626	86.6%

Most occurring characters

Value	Count	Frequency (%)
김	179	8.2%
이	69	3.2%
영	66	3.0%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.3%
Other values (220)	1593	73.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2141	98.6%
Space Separator	29	1.3%
Other Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	179	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1563	73.0%

Space Separator

Value	Count	Frequency (%)
	29	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2141	98.6%
Common	30	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	179	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1563	73.0%

Common

Value	Count	Frequency (%)
	29	96.7%
,	1	3.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2141	98.6%
ASCII	30	1.4%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
김	179	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1563	73.0%

ASCII

Value	Count	Frequency (%)
	29	96.7%
,	1	3.3%

AUTHOR_ENG
Text

MISSING

Distinct	999
Distinct (%)	79.8%
Missing	1213
Missing (%)	49.2%
Memory size	19.4 KiB

Length

Max length	30
Median length	24
Mean length	13.511981
Min length	3

Characters and Unicode

Total characters	16917
Distinct characters	77
Distinct categories	6 ?
Distinct scripts	4 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	814 ?
Unique (%)	65.0%

Sample

1st row	Surachai Sensri
2nd row	Sumi Yoon
3rd row	Tetsuharu Moriya
4th row	Kaoru Horie
5th row	Tetsuharu Moriya

Value	Count	Frequency (%)
kim	139	5.0%
lee	68	2.5%
park	54	2.0%
shin	26	0.9%
han	19	0.7%
suh	18	0.7%
j	18	0.7%
yoon	16	0.6%
john	15	0.5%
young	14	0.5%
Other values (1409)	2380	86.0%

Most occurring characters

Value	Count	Frequency (%)
n	1541	9.1%
	1518	9.0%
a	1280	7.6%
o	1201	7.1%
e	1116	6.6%
i	992	5.9%
u	713	4.2%
g	635	3.8%
h	606	3.6%
r	581	3.4%
Other values (67)	6734	39.8%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	11510	68.0%
Uppercase Letter	3370	19.9%
Space Separator	1518	9.0%
Dash Punctuation	326	1.9%
Other Punctuation	190	1.1%
Other Letter	3	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
n	1541	13.4%
a	1280	11.1%
o	1201	10.4%
e	1116	9.7%
i	992	8.6%
u	713	6.2%
g	635	5.5%
h	606	5.3%
r	581	5.0%
k	388	3.4%
Other values (29)	2457	21.3%

Uppercase Letter

Value	Count	Frequency (%)
S	413	12.3%
K	344	10.2%
H	278	8.2%
J	255	7.6%
M	206	6.1%
Y	189	5.6%
A	174	5.2%
C	164	4.9%
P	150	4.5%
L	146	4.3%
Other values (20)	1051	31.2%

Other Punctuation

Value	Count	Frequency (%)
.	131	68.9%
,	50	26.3%
'	9	4.7%

Other Letter

Value	Count	Frequency (%)
해	1	33.3%
향	1	33.3%
김	1	33.3%

Space Separator

Value	Count	Frequency (%)
	1518	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	326	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14876	87.9%
Common	2034	12.0%
Cyrillic	4	< 0.1%
Hangul	3	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
n	1541	10.4%
a	1280	8.6%
o	1201	8.1%
e	1116	7.5%
i	992	6.7%
u	713	4.8%
g	635	4.3%
h	606	4.1%
r	581	3.9%
S	413	2.8%
Other values (55)	5798	39.0%

Common

Value	Count	Frequency (%)
	1518	74.6%
-	326	16.0%
.	131	6.4%
,	50	2.5%
'	9	0.4%

Cyrillic

Value	Count	Frequency (%)
о	1	25.0%
Н	1	25.0%
А	1	25.0%
В	1	25.0%

Hangul

Value	Count	Frequency (%)
해	1	33.3%
향	1	33.3%
김	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	16862	99.7%
None	48	0.3%
Cyrillic	4	< 0.1%
Hangul	3	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
n	1541	9.1%
	1518	9.0%
a	1280	7.6%
o	1201	7.1%
e	1116	6.6%
i	992	5.9%
u	713	4.2%
g	635	3.8%
h	606	3.6%
r	581	3.4%
Other values (47)	6679	39.6%

None

Value	Count	Frequency (%)
é	8	16.7%
ö	8	16.7%
á	7	14.6%
ü	7	14.6%
š	4	8.3%
ô	4	8.3%
É	4	8.3%
ű	1	2.1%
õ	1	2.1%
ř	1	2.1%
Other values (3)	3	6.2%

Hangul

Value	Count	Frequency (%)
해	1	33.3%
향	1	33.3%
김	1	33.3%

Cyrillic

Value	Count	Frequency (%)
о	1	25.0%
Н	1	25.0%
А	1	25.0%
В	1	25.0%

AUTHOR_ETC
Text

MISSING

Distinct	508
Distinct (%)	83.8%
Missing	1859
Missing (%)	75.4%
Memory size	19.4 KiB

Length

Max length	29
Median length	26
Mean length	6.9125413
Min length	2

Characters and Unicode

Total characters	4189
Distinct characters	596
Distinct categories	10 ?
Distinct scripts	5 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	438 ?
Unique (%)	72.3%

Sample

1st row	磯崎典世
2nd row	磯崎典世
3rd row	鄭光
4th row	鄭光
5th row	鄭光

Value	Count	Frequency (%)
ким	24	2.5%
а	21	2.2%
пак	12	1.3%
с	12	1.3%
м	12	1.3%
в	8	0.8%
鄭光	7	0.7%
и	7	0.7%
тен	6	0.6%
ю	6	0.6%
Other values (631)	828	87.8%

Most occurring characters

Value	Count	Frequency (%)
	337	8.0%
а	238	5.7%
.	233	5.6%
н	128	3.1%
А	124	3.0%
и	118	2.8%
о	81	1.9%
в	78	1.9%
е	76	1.8%
м	68	1.6%
Other values (586)	2708	64.6%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	1545	36.9%
Other Letter	1138	27.2%
Uppercase Letter	926	22.1%
Space Separator	337	8.0%
Other Punctuation	236	5.6%
Dash Punctuation	3	0.1%
Decimal Number	1	< 0.1%
Open Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%
Modifier Letter	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
金	40	3.5%
李	31	2.7%
张	20	1.8%
光	15	1.3%
文	14	1.2%
美	13	1.1%
鄭	13	1.1%
朴	12	1.1%
刘	11	1.0%
华	11	1.0%
Other values (444)	958	84.2%

Lowercase Letter

Value	Count	Frequency (%)
а	238	15.4%
н	128	8.3%
и	118	7.6%
о	81	5.2%
в	78	5.0%
е	76	4.9%
м	68	4.4%
л	62	4.0%
р	59	3.8%
к	47	3.0%
Other values (70)	590	38.2%

Uppercase Letter

Value	Count	Frequency (%)
А	124	13.4%
М	66	7.1%
К	63	6.8%
Н	60	6.5%
С	54	5.8%
В	53	5.7%
И	43	4.6%
Е	35	3.8%
Б	34	3.7%
Р	30	3.2%
Other values (41)	364	39.3%

Other Punctuation

Value	Count	Frequency (%)
.	233	98.7%
'	1	0.4%
,	1	0.4%
・	1	0.4%

Dash Punctuation

Value	Count	Frequency (%)
-	2	66.7%
–	1	33.3%

Space Separator

Value	Count	Frequency (%)
	337	100.0%

Decimal Number

Value	Count	Frequency (%)
3	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Modifier Letter

Value	Count	Frequency (%)
ー	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Cyrillic	2078	49.6%
Han	1120	26.7%
Common	580	13.8%
Latin	393	9.4%
Katakana	18	0.4%

Most frequent character per script

Han

Value	Count	Frequency (%)
金	40	3.6%
李	31	2.8%
张	20	1.8%
光	15	1.3%
文	14	1.2%
美	13	1.2%
鄭	13	1.2%
朴	12	1.1%
刘	11	1.0%
华	11	1.0%
Other values (430)	940	83.9%

Latin

Value	Count	Frequency (%)
n	31	7.9%
h	27	6.9%
T	26	6.6%
a	20	5.1%
e	18	4.6%
i	17	4.3%
g	16	4.1%
r	15	3.8%
u	12	3.1%
N	12	3.1%
Other values (59)	199	50.6%

Cyrillic

Value	Count	Frequency (%)
а	238	11.5%
н	128	6.2%
А	124	6.0%
и	118	5.7%
о	81	3.9%
в	78	3.8%
е	76	3.7%
м	68	3.3%
М	66	3.2%
К	63	3.0%
Other values (52)	1038	50.0%

Katakana

Value	Count	Frequency (%)
ン	3	16.7%
ョ	2	11.1%
チ	2	11.1%
ク	1	5.6%
ソ	1	5.6%
ギ	1	5.6%
キ	1	5.6%
ム	1	5.6%
ェ	1	5.6%
ウ	1	5.6%
Other values (4)	4	22.2%

Common

Value	Count	Frequency (%)
	337	58.1%
.	233	40.2%
-	2	0.3%
3	1	0.2%
'	1	0.2%
(	1	0.2%
,	1	0.2%
)	1	0.2%
・	1	0.2%
ー	1	0.2%

Most occurring blocks

Value	Count	Frequency (%)
Cyrillic	2078	49.6%
CJK	1107	26.4%
ASCII	900	21.5%
None	43	1.0%
Latin Ext Additional	27	0.6%
Katakana	20	0.5%
CJK Compat Ideographs	13	0.3%
Punctuation	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	337	37.4%
.	233	25.9%
n	31	3.4%
h	27	3.0%
T	26	2.9%
a	20	2.2%
e	18	2.0%
i	17	1.9%
g	16	1.8%
r	15	1.7%
Other values (37)	160	17.8%

Cyrillic

Value	Count	Frequency (%)
а	238	11.5%
н	128	6.2%
А	124	6.0%
и	118	5.7%
о	81	3.9%
в	78	3.8%
е	76	3.7%
м	68	3.3%
М	66	3.2%
К	63	3.0%
Other values (52)	1038	50.0%

CJK

Value	Count	Frequency (%)
金	40	3.6%
李	31	2.8%
张	20	1.8%
光	15	1.4%
文	14	1.3%
美	13	1.2%
鄭	13	1.2%
朴	12	1.1%
刘	11	1.0%
华	11	1.0%
Other values (426)	927	83.7%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	8	61.5%
寧	2	15.4%
柳	2	15.4%
梁	1	7.7%

None

Value	Count	Frequency (%)
é	8	18.6%
ê	7	16.3%
ư	5	11.6%
ü	4	9.3%
ö	4	9.3%
Đ	3	7.0%
ă	2	4.7%
â	2	4.7%
ơ	2	4.7%
à	1	2.3%
Other values (5)	5	11.6%

Latin Ext Additional

Value	Count	Frequency (%)
ọ	5	18.5%
ầ	5	18.5%
ị	4	14.8%
ạ	2	7.4%
ề	1	3.7%
ỡ	1	3.7%
ệ	1	3.7%
ừ	1	3.7%
ứ	1	3.7%
ỗ	1	3.7%
Other values (5)	5	18.5%

Katakana

Value	Count	Frequency (%)
ン	3	15.0%
ョ	2	10.0%
チ	2	10.0%
ク	1	5.0%
ソ	1	5.0%
ギ	1	5.0%
キ	1	5.0%
ム	1	5.0%
ェ	1	5.0%
ウ	1	5.0%
Other values (6)	6	30.0%

Punctuation

Value	Count	Frequency (%)
–	1	100.0%

SORT_AUTHOR_ORI
Text

Distinct	1894
Distinct (%)	76.8%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

Length

Max length	30
Median length	28
Mean length	8.9395538
Min length	1

Characters and Unicode

Total characters	22036
Distinct characters	800
Distinct categories	9 ?
Distinct scripts	7 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1536 ?
Unique (%)	62.3%

Sample

1st row	SURACHAI SENSRI
2nd row	SUMI YOON
3rd row	TETSUHARU MORIYA
4th row	KAORU HORIE
5th row	TETSUHARU MORIYA

Value	Count	Frequency (%)
kim	135	3.1%
lee	66	1.5%
park	52	1.2%
김관웅	30	0.7%
shin	27	0.6%
ким	24	0.6%
а	22	0.5%
han	18	0.4%
suh	18	0.4%
j	17	0.4%
Other values (2460)	3901	90.5%

Most occurring characters

Value	Count	Frequency (%)
	1845	8.4%
N	1624	7.4%
A	1423	6.5%
O	1281	5.8%
E	1186	5.4%
I	1058	4.8%
H	880	4.0%
S	804	3.6%
K	721	3.3%
U	721	3.3%
Other values (790)	10493	47.6%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	16967	77.0%
Other Letter	3211	14.6%
Space Separator	1845	8.4%
Private Use	5	< 0.1%
Other Punctuation	2	< 0.1%
Math Symbol	2	< 0.1%
Decimal Number	2	< 0.1%
Dash Punctuation	1	< 0.1%
Modifier Letter	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	173	5.4%
이	67	2.1%
영	66	2.1%
웅	47	1.5%
金	43	1.3%
정	40	1.2%
호	36	1.1%
최	33	1.0%
박	33	1.0%
관	33	1.0%
Other values (681)	2640	82.2%

Uppercase Letter

Value	Count	Frequency (%)
N	1624	9.6%
A	1423	8.4%
O	1281	7.5%
E	1186	7.0%
I	1058	6.2%
H	880	5.2%
S	804	4.7%
K	721	4.2%
U	721	4.2%
G	698	4.1%
Other values (91)	6571	38.7%

Decimal Number

Value	Count	Frequency (%)
1	1	50.0%
3	1	50.0%

Space Separator

Value	Count	Frequency (%)
	1845	100.0%

Private Use

Value	Count	Frequency (%)
􀀁	5	100.0%

Other Punctuation

Value	Count	Frequency (%)
・	2	100.0%

Math Symbol

Value	Count	Frequency (%)
÷	2	100.0%

Dash Punctuation

Value	Count	Frequency (%)
–	1	100.0%

Modifier Letter

Value	Count	Frequency (%)
ー	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14853	67.4%
Cyrillic	2114	9.6%
Hangul	2026	9.2%
Common	1853	8.4%
Han	1160	5.3%
Katakana	25	0.1%
Unknown	5	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
金	43	3.7%
李	29	2.5%
张	16	1.4%
美	15	1.3%
玉	14	1.2%
文	14	1.2%
朴	12	1.0%
华	11	0.9%
刘	11	0.9%
鄭	11	0.9%
Other values (439)	984	84.8%

Hangul

Value	Count	Frequency (%)
김	173	8.5%
이	67	3.3%
영	66	3.3%
웅	47	2.3%
정	40	2.0%
호	36	1.8%
최	33	1.6%
박	33	1.6%
관	33	1.6%
장	28	1.4%
Other values (217)	1470	72.6%

Latin

Value	Count	Frequency (%)
N	1624	10.9%
A	1423	9.6%
O	1281	8.6%
E	1186	8.0%
I	1058	7.1%
H	880	5.9%
S	804	5.4%
K	721	4.9%
U	721	4.9%
G	698	4.7%
Other values (58)	4457	30.0%

Cyrillic

Value	Count	Frequency (%)
А	368	17.4%
Н	191	9.0%
И	162	7.7%
В	135	6.4%
М	134	6.3%
Е	115	5.4%
О	112	5.3%
К	111	5.3%
Р	92	4.4%
Л	91	4.3%
Other values (23)	603	28.5%

Katakana

Value	Count	Frequency (%)
ン	6	24.0%
ョ	3	12.0%
チ	3	12.0%
ム	2	8.0%
ド	1	4.0%
ウ	1	4.0%
ェ	1	4.0%
ヤ	1	4.0%
ソ	1	4.0%
ク	1	4.0%
Other values (5)	5	20.0%

Common

Value	Count	Frequency (%)
	1845	99.6%
・	2	0.1%
÷	2	0.1%
1	1	0.1%
3	1	0.1%
–	1	0.1%
ー	1	0.1%

Unknown

Value	Count	Frequency (%)
􀀁	5	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	16559	75.1%
Cyrillic	2114	9.6%
Hangul	2026	9.2%
CJK	1144	5.2%
None	125	0.6%
Katakana	28	0.1%
Latin Ext Additional	23	0.1%
CJK Compat Ideographs	16	0.1%
Punctuation	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1845	11.1%
N	1624	9.8%
A	1423	8.6%
O	1281	7.7%
E	1186	7.2%
I	1058	6.4%
H	880	5.3%
S	804	4.9%
K	721	4.4%
U	721	4.4%
Other values (19)	5016	30.3%

Cyrillic

Value	Count	Frequency (%)
А	368	17.4%
Н	191	9.0%
И	162	7.7%
В	135	6.4%
М	134	6.3%
Е	115	5.4%
О	112	5.3%
К	111	5.3%
Р	92	4.4%
Л	91	4.3%
Other values (23)	603	28.5%

Hangul

Value	Count	Frequency (%)
김	173	8.5%
이	67	3.3%
영	66	3.3%
웅	47	2.3%
정	40	2.0%
호	36	1.8%
최	33	1.6%
박	33	1.6%
관	33	1.6%
장	28	1.4%
Other values (217)	1470	72.6%

CJK

Value	Count	Frequency (%)
金	43	3.8%
李	29	2.5%
张	16	1.4%
美	15	1.3%
玉	14	1.2%
文	14	1.2%
朴	12	1.0%
华	11	1.0%
刘	11	1.0%
鄭	11	1.0%
Other values (435)	968	84.6%

None

Value	Count	Frequency (%)
É	23	18.4%
Ü	10	8.0%
Ö	10	8.0%
Á	8	6.4%
Ð	6	4.8%
Â	6	4.8%
Å	6	4.8%
􀀁	5	4.0%
Ê	5	4.0%
Ô	5	4.0%
Other values (19)	41	32.8%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	11	68.8%
柳	2	12.5%
寧	2	12.5%
梁	1	6.2%

Katakana

Value	Count	Frequency (%)
ン	6	21.4%
ョ	3	10.7%
チ	3	10.7%
・	2	7.1%
ム	2	7.1%
ド	1	3.6%
ウ	1	3.6%
ェ	1	3.6%
ヤ	1	3.6%
ソ	1	3.6%
Other values (7)	7	25.0%

Latin Ext Additional

Value	Count	Frequency (%)
Ị	4	17.4%
Ầ	3	13.0%
Ọ	3	13.0%
Ạ	2	8.7%
Ừ	1	4.3%
Ỗ	1	4.3%
Ỡ	1	4.3%
Ệ	1	4.3%
Ỉ	1	4.3%
Ễ	1	4.3%
Other values (5)	5	21.7%

Punctuation

Value	Count	Frequency (%)
–	1	100.0%

SORT_AUTHOR_KOR
Text

MISSING

Distinct	479
Distinct (%)	69.0%
Missing	1771
Missing (%)	71.8%
Memory size	19.4 KiB

Length

Max length	14
Median length	3
Mean length	3.1268012
Min length	2

Characters and Unicode

Total characters	2170
Distinct characters	229
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	377 ?
Unique (%)	54.3%

Sample

1st row	정광
2nd row	정광
3rd row	정광
4th row	정광
5th row	정광

Value	Count	Frequency (%)
김관웅	31	4.3%
김도영	11	1.5%
김호웅	11	1.5%
오상순	8	1.1%
안평추	8	1.1%
정광	7	1.0%
김춘선	6	0.8%
장광군	5	0.7%
태평무	5	0.7%
장흥권	5	0.7%
Other values (489)	626	86.6%

Most occurring characters

Value	Count	Frequency (%)
김	179	8.2%
이	69	3.2%
영	66	3.0%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
	29	1.3%
Other values (219)	1592	73.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2141	98.7%
Space Separator	29	1.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	179	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1563	73.0%

Space Separator

Value	Count	Frequency (%)
	29	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2141	98.7%
Common	29	1.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	179	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1563	73.0%

Common

Value	Count	Frequency (%)
	29	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2141	98.7%
ASCII	29	1.3%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
김	179	8.4%
이	69	3.2%
영	66	3.1%
정	50	2.3%
웅	48	2.2%
호	37	1.7%
최	35	1.6%
관	34	1.6%
박	31	1.4%
광	29	1.4%
Other values (218)	1563	73.0%

ASCII

Value	Count	Frequency (%)
	29	100.0%

SORT_AUTHOR_ENG
Text

MISSING

Distinct	969
Distinct (%)	77.4%
Missing	1213
Missing (%)	49.2%
Memory size	19.4 KiB

Length

Max length	29
Median length	23
Mean length	13.097444
Min length	3

Characters and Unicode

Total characters	16398
Distinct characters	45
Distinct categories	3 ?
Distinct scripts	4 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	766 ?
Unique (%)	61.2%

Sample

1st row	SURACHAI SENSRI
2nd row	SUMI YOON
3rd row	TETSUHARU MORIYA
4th row	KAORU HORIE
5th row	TETSUHARU MORIYA

Value	Count	Frequency (%)
kim	139	5.0%
lee	68	2.5%
park	54	2.0%
shin	26	0.9%
han	19	0.7%
j	18	0.7%
suh	18	0.7%
yoon	16	0.6%
john	15	0.5%
young	14	0.5%
Other values (1394)	2380	86.0%

Most occurring characters

Value	Count	Frequency (%)
N	1645	10.0%
	1515	9.2%
A	1454	8.9%
O	1281	7.8%
E	1199	7.3%
I	1081	6.6%
H	884	5.4%
S	792	4.8%
U	733	4.5%
K	732	4.5%
Other values (35)	5082	31.0%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	14880	90.7%
Space Separator	1515	9.2%
Other Letter	3	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
N	1645	11.1%
A	1454	9.8%
O	1281	8.6%
E	1199	8.1%
I	1081	7.3%
H	884	5.9%
S	792	5.3%
U	733	4.9%
K	732	4.9%
G	716	4.8%
Other values (31)	4363	29.3%

Other Letter

Value	Count	Frequency (%)
해	1	33.3%
향	1	33.3%
김	1	33.3%

Space Separator

Value	Count	Frequency (%)
	1515	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	14876	90.7%
Common	1515	9.2%
Cyrillic	4	< 0.1%
Hangul	3	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
N	1645	11.1%
A	1454	9.8%
O	1281	8.6%
E	1199	8.1%
I	1081	7.3%
H	884	5.9%
S	792	5.3%
U	733	4.9%
K	732	4.9%
G	716	4.8%
Other values (27)	4359	29.3%

Cyrillic

Value	Count	Frequency (%)
О	1	25.0%
А	1	25.0%
В	1	25.0%
Н	1	25.0%

Hangul

Value	Count	Frequency (%)
해	1	33.3%
향	1	33.3%
김	1	33.3%

Common

Value	Count	Frequency (%)
	1515	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	16344	99.7%
None	47	0.3%
Cyrillic	4	< 0.1%
Hangul	3	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
N	1645	10.1%
	1515	9.3%
A	1454	8.9%
O	1281	7.8%
E	1199	7.3%
I	1081	6.6%
H	884	5.4%
S	792	4.8%
U	733	4.5%
K	732	4.5%
Other values (17)	5028	30.8%

None

Value	Count	Frequency (%)
É	12	25.5%
Ö	8	17.0%
Á	7	14.9%
Ü	7	14.9%
Ô	4	8.5%
Š	4	8.5%
Ű	1	2.1%
Ř	1	2.1%
Õ	1	2.1%
Ğ	1	2.1%

Cyrillic

Value	Count	Frequency (%)
О	1	25.0%
А	1	25.0%
В	1	25.0%
Н	1	25.0%

Hangul

Value	Count	Frequency (%)
해	1	33.3%
향	1	33.3%
김	1	33.3%

SORT_AUTHOR_ETC
Text

MISSING

Distinct	504
Distinct (%)	83.2%
Missing	1859
Missing (%)	75.4%
Memory size	19.4 KiB

Length

Max length	28
Median length	24
Mean length	6.5165017
Min length	2

Characters and Unicode

Total characters	3949
Distinct characters	545
Distinct categories	7 ?
Distinct scripts	5 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	432 ?
Unique (%)	71.3%

Sample

1st row	磯崎典世
2nd row	磯崎典世
3rd row	鄭光
4th row	鄭光
5th row	鄭光

Value	Count	Frequency (%)
ким	24	2.5%
а	21	2.2%
пак	12	1.3%
м	12	1.3%
с	12	1.3%
в	8	0.8%
鄭光	7	0.7%
и	7	0.7%
л	6	0.6%
хан	6	0.6%
Other values (629)	827	87.8%

Most occurring characters

Value	Count	Frequency (%)
А	362	9.2%
	336	8.5%
Н	188	4.8%
И	161	4.1%
М	134	3.4%
В	131	3.3%
Е	111	2.8%
К	110	2.8%
О	110	2.8%
Л	89	2.3%
Other values (535)	2217	56.1%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	2471	62.6%
Other Letter	1138	28.8%
Space Separator	336	8.5%
Decimal Number	1	< 0.1%
Modifier Letter	1	< 0.1%
Other Punctuation	1	< 0.1%
Dash Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
金	40	3.5%
李	31	2.7%
张	20	1.8%
光	15	1.3%
文	14	1.2%
美	13	1.1%
鄭	13	1.1%
朴	12	1.1%
刘	11	1.0%
华	11	1.0%
Other values (444)	958	84.2%

Uppercase Letter

Value	Count	Frequency (%)
А	362	14.6%
Н	188	7.6%
И	161	6.5%
М	134	5.4%
В	131	5.3%
Е	111	4.5%
К	110	4.5%
О	110	4.5%
Л	89	3.6%
Р	89	3.6%
Other values (76)	986	39.9%

Space Separator

Value	Count	Frequency (%)
	336	100.0%

Decimal Number

Value	Count	Frequency (%)
3	1	100.0%

Modifier Letter

Value	Count	Frequency (%)
ー	1	100.0%

Other Punctuation

Value	Count	Frequency (%)
・	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
–	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Cyrillic	2078	52.6%
Han	1120	28.4%
Latin	393	10.0%
Common	340	8.6%
Katakana	18	0.5%

Most frequent character per script

Han

Value	Count	Frequency (%)
金	40	3.6%
李	31	2.8%
张	20	1.8%
光	15	1.3%
文	14	1.2%
美	13	1.2%
鄭	13	1.2%
朴	12	1.1%
刘	11	1.0%
华	11	1.0%
Other values (430)	940	83.9%

Latin

Value	Count	Frequency (%)
N	43	10.9%
H	31	7.9%
T	28	7.1%
G	27	6.9%
A	21	5.3%
I	19	4.8%
E	19	4.8%
L	18	4.6%
R	17	4.3%
S	15	3.8%
Other values (43)	155	39.4%

Cyrillic

Value	Count	Frequency (%)
А	362	17.4%
Н	188	9.0%
И	161	7.7%
М	134	6.4%
В	131	6.3%
Е	111	5.3%
К	110	5.3%
О	110	5.3%
Л	89	4.3%
Р	89	4.3%
Other values (23)	593	28.5%

Katakana

Value	Count	Frequency (%)
ン	3	16.7%
ョ	2	11.1%
チ	2	11.1%
ヶ	1	5.6%
ド	1	5.6%
ウ	1	5.6%
ェ	1	5.6%
ソ	1	5.6%
ク	1	5.6%
ヒ	1	5.6%
Other values (4)	4	22.2%

Common

Value	Count	Frequency (%)
	336	98.8%
3	1	0.3%
ー	1	0.3%
・	1	0.3%
–	1	0.3%

Most occurring blocks

Value	Count	Frequency (%)
Cyrillic	2078	52.6%
CJK	1107	28.0%
ASCII	660	16.7%
None	43	1.1%
Latin Ext Additional	27	0.7%
Katakana	20	0.5%
CJK Compat Ideographs	13	0.3%
Punctuation	1	< 0.1%

Most frequent character per block

Cyrillic

Value	Count	Frequency (%)
А	362	17.4%
Н	188	9.0%
И	161	7.7%
М	134	6.4%
В	131	6.3%
Е	111	5.3%
К	110	5.3%
О	110	5.3%
Л	89	4.3%
Р	89	4.3%
Other values (23)	593	28.5%

ASCII

Value	Count	Frequency (%)
	336	50.9%
N	43	6.5%
H	31	4.7%
T	28	4.2%
G	27	4.1%
A	21	3.2%
I	19	2.9%
E	19	2.9%
L	18	2.7%
R	17	2.6%
Other values (15)	101	15.3%

CJK

Value	Count	Frequency (%)
金	40	3.6%
李	31	2.8%
张	20	1.8%
光	15	1.4%
文	14	1.3%
美	13	1.2%
鄭	13	1.2%
朴	12	1.1%
刘	11	1.0%
华	11	1.0%
Other values (426)	927	83.7%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	8	61.5%
寧	2	15.4%
柳	2	15.4%
梁	1	7.7%

None

Value	Count	Frequency (%)
É	8	18.6%
Ê	7	16.3%
Ư	5	11.6%
Ü	4	9.3%
Ö	4	9.3%
Đ	3	7.0%
Ơ	2	4.7%
Ă	2	4.7%
Â	2	4.7%
Ì	1	2.3%
Other values (5)	5	11.6%

Latin Ext Additional

Value	Count	Frequency (%)
Ầ	5	18.5%
Ọ	5	18.5%
Ị	4	14.8%
Ạ	2	7.4%
Ễ	1	3.7%
Ớ	1	3.7%
Ờ	1	3.7%
Ỉ	1	3.7%
Ồ	1	3.7%
Ề	1	3.7%
Other values (5)	5	18.5%

Katakana

Value	Count	Frequency (%)
ン	3	15.0%
ョ	2	10.0%
チ	2	10.0%
ヶ	1	5.0%
ー	1	5.0%
ド	1	5.0%
ウ	1	5.0%
ェ	1	5.0%
ソ	1	5.0%
ク	1	5.0%
Other values (6)	6	30.0%

Punctuation

Value	Count	Frequency (%)
–	1	100.0%

GANADA_AUTHOR_ORI
Categorical

HIGH CORRELATION

Distinct	40
Distinct (%)	1.6%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

ETC	588
가	223
S	164
J	132
아	128
Other values (35)	1230

Length

Max length	3
Median length	1
Mean length	1.4770791
Min length	1

Unique

Unique	5 ?
Unique (%)	0.2%

Sample

1st row	S
2nd row	S
3rd row	T
4th row	K
5th row	T

Common Values

Value	Count	Frequency (%)
ETC	588	23.9%
가	223	9.0%
S	164	6.7%
J	132	5.4%
아	128	5.2%
H	100	4.1%
K	93	3.8%
자	92	3.7%
M	87	3.5%
Y	74	3.0%
Other values (30)	784	31.8%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
etc	588	23.9%
가	223	9.0%
s	164	6.7%
j	132	5.4%
아	128	5.2%
h	100	4.1%
k	93	3.8%
자	92	3.7%
m	87	3.5%
y	74	3.0%
Other values (30)	784	31.8%

GANADA_AUTHOR_KOR
Categorical

HIGH CORRELATION IMBALANCE

Distinct	14
Distinct (%)	0.6%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

<NA>	1771
가	231
아	133
자	100
사	43
Other values (9)	187

Length

Max length	4
Median length	4
Mean length	3.1553753
Min length	1

Unique

Unique	2 ?
Unique (%)	0.1%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	1771	71.8%
가	231	9.4%
아	133	5.4%
자	100	4.1%
사	43	1.7%
바	41	1.7%
차	39	1.6%
하	36	1.5%
라	22	0.9%
나	21	0.9%
Other values (4)	28	1.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
na	1771	71.8%
가	231	9.4%
아	133	5.4%
자	100	4.1%
사	43	1.7%
바	41	1.7%
차	39	1.6%
하	36	1.5%
라	22	0.9%
나	21	0.9%
Other values (4)	28	1.1%

GANADA_AUTHOR_ENG
Categorical

HIGH CORRELATION

Distinct	28
Distinct (%)	1.1%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

<NA>	1213
S	162
J	134
H	103
K	99
Other values (23)	754

Length

Max length	4
Median length	1
Mean length	2.4778905
Min length	1

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	S
2nd row	S
3rd row	T
4th row	K
5th row	T

Common Values

Value	Count	Frequency (%)
<NA>	1213	49.2%
S	162	6.6%
J	134	5.4%
H	103	4.2%
K	99	4.0%
M	82	3.3%
Y	79	3.2%
C	75	3.0%
P	61	2.5%
D	60	2.4%
Other values (18)	397	16.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
na	1213	49.2%
s	162	6.6%
j	134	5.4%
h	103	4.2%
k	99	4.0%
m	82	3.3%
y	79	3.2%
c	75	3.0%
p	61	2.5%
d	60	2.4%
Other values (18)	397	16.1%

GANADA_AUTHOR_ETC
Categorical

HIGH CORRELATION IMBALANCE

Distinct	15
Distinct (%)	0.6%
Missing	0
Missing (%)	0.0%
Memory size	19.4 KiB

<NA>	1859
ETC	578
T	8
V	4
S	3
Other values (10)	13

Length

Max length	4
Median length	4
Mean length	3.7314402
Min length	1

Unique

Unique	7 ?
Unique (%)	0.3%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	1859	75.4%
ETC	578	23.4%
T	8	0.3%
V	4	0.2%
S	3	0.1%
P	2	0.1%
G	2	0.1%
L	2	0.1%
M	1	< 0.1%
3	1	< 0.1%
Other values (5)	5	0.2%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
na	1859	75.4%
etc	578	23.4%
t	8	0.3%
v	4	0.2%
s	3	0.1%
p	2	0.1%
g	2	0.1%
l	2	0.1%
m	1	< 0.1%
3	1	< 0.1%
Other values (5)	5	0.2%

AUTHOR_ID

AUTHOR_ID

Heatmap
Table

	AUTHOR_ID	GANADA_AUTHOR_ORI	GANADA_AUTHOR_KOR	GANADA_AUTHOR_ENG	GANADA_AUTHOR_ETC
AUTHOR_ID	1.000	0.598	0.431	0.370	0.662
GANADA_AUTHOR_ORI	0.598	1.000	0.989	0.996	0.992
GANADA_AUTHOR_KOR	0.431	0.989	1.000	0.765	0.000
GANADA_AUTHOR_ENG	0.370	0.996	0.765	1.000	1.000
GANADA_AUTHOR_ETC	0.662	0.992	0.000	1.000	1.000

Heatmap
Table

	GANADA_AUTHOR_ENG	GANADA_AUTHOR_ETC	GANADA_AUTHOR_KOR	GANADA_AUTHOR_ORI
GANADA_AUTHOR_ENG	1.000	0.707	0.405	0.909
GANADA_AUTHOR_ETC	0.707	1.000	0.000	0.936
GANADA_AUTHOR_KOR	0.405	0.000	1.000	0.922
GANADA_AUTHOR_ORI	0.909	0.936	0.922	1.000

Heatmap
Table

	AUTHOR_ID	GANADA_AUTHOR_ORI	GANADA_AUTHOR_KOR	GANADA_AUTHOR_ENG	GANADA_AUTHOR_ETC
AUTHOR_ID	1.000	0.231	0.194	0.142	0.339
GANADA_AUTHOR_ORI	0.231	1.000	0.922	0.909	0.936
GANADA_AUTHOR_KOR	0.194	0.922	1.000	0.405	0.000
GANADA_AUTHOR_ENG	0.142	0.909	0.405	1.000	0.707
GANADA_AUTHOR_ETC	0.339	0.936	0.000	0.707	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	AUTHOR_ID	CATALOG_ID	AUTHOR_ORI	AUTHOR_KOR	AUTHOR_ENG	AUTHOR_ETC	SORT_AUTHOR_ORI	SORT_AUTHOR_KOR	SORT_AUTHOR_ENG	SORT_AUTHOR_ETC	GANADA_AUTHOR_ORI	GANADA_AUTHOR_KOR	GANADA_AUTHOR_ENG	GANADA_AUTHOR_ETC
0	7438	08C19_0019	Surachai Sensri	<NA>	Surachai Sensri	<NA>	SURACHAI SENSRI	<NA>	SURACHAI SENSRI	<NA>	S	<NA>	S	<NA>
1	7439	08C09_0004	Sumi Yoon	<NA>	Sumi Yoon	<NA>	SUMI YOON	<NA>	SUMI YOON	<NA>	S	<NA>	S	<NA>
2	7440	06C10_0028	Tetsuharu Moriya	<NA>	Tetsuharu Moriya	<NA>	TETSUHARU MORIYA	<NA>	TETSUHARU MORIYA	<NA>	T	<NA>	T	<NA>
3	7441	06C10_0028	Kaoru Horie	<NA>	Kaoru Horie	<NA>	KAORU HORIE	<NA>	KAORU HORIE	<NA>	K	<NA>	K	<NA>
4	7442	08C09_0024	Tetsuharu Moriya	<NA>	Tetsuharu Moriya	<NA>	TETSUHARU MORIYA	<NA>	TETSUHARU MORIYA	<NA>	T	<NA>	T	<NA>
5	7443	08C09_0024	Yong-Taek Kim	<NA>	Yong-Taek Kim	<NA>	YONGTAEK KIM	<NA>	YONGTAEK KIM	<NA>	Y	<NA>	Y	<NA>
6	7444	10C11_0005	磯崎典世	<NA>	<NA>	磯崎典世	磯崎典世	<NA>	<NA>	磯崎典世	ETC	<NA>	<NA>	ETC
7	7445	10C11_0006	磯崎典世	<NA>	<NA>	磯崎典世	磯崎典世	<NA>	<NA>	磯崎典世	ETC	<NA>	<NA>	ETC
8	7446	06C06_0028	정광	정광	<NA>	鄭光	정광	정광	<NA>	鄭光	자	자	<NA>	ETC
9	7447	07C06_0002	정광	정광	<NA>	鄭光	정광	정광	<NA>	鄭光	자	자	<NA>	ETC

	AUTHOR_ID	CATALOG_ID	AUTHOR_ORI	AUTHOR_KOR	AUTHOR_ENG	AUTHOR_ETC	SORT_AUTHOR_ORI	SORT_AUTHOR_KOR	SORT_AUTHOR_ENG	SORT_AUTHOR_ETC	GANADA_AUTHOR_ORI	GANADA_AUTHOR_KOR	GANADA_AUTHOR_ENG	GANADA_AUTHOR_ETC
2455	10428	11R61_0003	심현숙	심현숙	<NA>	<NA>	심현숙	심현숙	<NA>	<NA>	사	사	<NA>	<NA>
2456	10430	12R15_0002	Nusta Carranza Ko	<NA>	<NA>	Nusta Carranza Ko	NUSTA CARRANZA KO	<NA>	<NA>	NUSTA CARRANZA KO	N	<NA>	<NA>	N
2457	10431	12R15_0002	Jeong-Nam Kim	<NA>	<NA>	Jeong-Nam Kim	JEONGNAM KIM	<NA>	<NA>	JEONGNAM KIM	J	<NA>	<NA>	J
2458	10432	12R15_0002	Song I. No	<NA>	<NA>	Song I. No	SONG I NO	<NA>	<NA>	SONG I NO	S	<NA>	<NA>	S
2459	10433	12R15_0002	Ronald Gobbi Simoes	<NA>	<NA>	Ronald Gobbi Simoes	RONALD GOBBI SIMOES	<NA>	<NA>	RONALD GOBBI SIMOES	R	<NA>	<NA>	R
2460	10435	11R61	沈贤淑	심현숙	<NA>	<NA>	沈贤淑	심현숙	<NA>	<NA>	ETC	사	<NA>	<NA>
2461	10436	09R84	Byung-jin Lim	임병진	Byung-jin Lim	<NA>	BYUNGJIN LIM	임병진	BYUNGJIN LIM	<NA>	B	아	B	<NA>
2462	10437	07R73	Simbirtseva Tatiana M.	<NA>	Simbirtseva Tatiana M.	<NA>	SIMBIRTSEVA TATIANA M	<NA>	SIMBIRTSEVA TATIANA M	<NA>	S	<NA>	S	<NA>
2463	10442	07R12	한영	한영	<NA>	<NA>	한영	한영	<NA>	<NA>	하	하	<NA>	<NA>
2464	10443	07R62	Xuehua Hong	<NA>	Xuehua Hong	<NA>	XUEHUA HONG	<NA>	XUEHUA HONG	<NA>	X	<NA>	X	<NA>

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Lowercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Dash Punctuation

Open Punctuation

Close Punctuation

Decimal Number

Space Separator

Private Use

Math Symbol

Modifier Letter

Most occurring scripts

Most frequent character per script

Han

Hangul

Latin

Cyrillic

Common

Katakana

Unknown

Most occurring blocks

Most frequent character per block

ASCII

Cyrillic

Hangul

CJK

None

CJK Compat Ideographs

Katakana

Latin Ext Additional

Punctuation

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Other Punctuation

Other Letter

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Cyrillic

Hangul