gimi9 Pandas Profiling

Dataset statistics

Number of variables	8
Number of observations	10000
Missing cells	14103
Missing cells (%)	17.6%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	703.1 KiB
Average record size in memory	72.0 B

Variable types

Text	7
Categorical	1

Dataset

Description	우리나라의 역사, 문화를 집대성한 백과사전으로 7만 3천여 항목을 수록하고 있습니다.
Author	한국학중앙연구원
URL	https://www.data.go.kr/data/3059498/fileData.do

Alerts

`원어` has 455 (4.5%) missing values	Missing
`이칭` has 7083 (70.8%) missing values	Missing
`키워드` has 4710 (47.1%) missing values	Missing
`시대` has 1855 (18.6%) missing values	Missing
`웹사이트 주소` has unique values	Unique

Reproduction

Analysis started	2023-12-12 12:22:27.068234
Analysis finished	2023-12-12 12:22:32.173162
Duration	5.1 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

항목명
Text

Distinct	9841
Distinct (%)	98.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	29
Median length	25
Mean length	4.169
Min length	1

Characters and Unicode

Total characters	41690
Distinct characters	735
Distinct categories	12 ?
Distinct scripts	3 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9695 ?
Unique (%)	97.0%

Sample

1st row	제고
2nd row	유원중
3rd row	표충사아미타삼존도
4th row	계모
5th row	은곡서당

Value	Count	Frequency (%)
및	32	0.3%
경주	18	0.2%
고택	17	0.2%
삼층석탑	15	0.1%
청자	11	0.1%
순천	11	0.1%
고인돌	9	0.1%
일괄	9	0.1%
안동	8	0.1%
서울	8	0.1%
Other values (10201)	10704	98.7%

Most occurring characters

Value	Count	Frequency (%)
사	1026	2.5%
	842	2.0%
이	650	1.6%
고	605	1.5%
대	563	1.4%
정	559	1.3%
문	558	1.3%
산	549	1.3%
동	536	1.3%
집	529	1.3%
Other values (725)	35273	84.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	40677	97.6%
Space Separator	842	2.0%
Decimal Number	66	0.2%
Other Symbol	26	0.1%
Other Punctuation	24	0.1%
Close Punctuation	19	< 0.1%
Open Punctuation	18	< 0.1%
Uppercase Letter	11	< 0.1%
Dash Punctuation	4	< 0.1%
Initial Punctuation	1	< 0.1%
Other values (2)	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	1026	2.5%
이	650	1.6%
고	605	1.5%
대	563	1.4%
정	559	1.4%
문	558	1.4%
산	549	1.3%
동	536	1.3%
집	529	1.3%
유	517	1.3%
Other values (696)	34585	85.0%

Decimal Number

Value	Count	Frequency (%)
1	15	22.7%
2	15	22.7%
3	12	18.2%
7	6	9.1%
4	5	7.6%
6	4	6.1%
5	3	4.5%
0	2	3.0%
9	2	3.0%
8	2	3.0%

Uppercase Letter

Value	Count	Frequency (%)
D	3	27.3%
K	2	18.2%
B	2	18.2%
E	1	9.1%
C	1	9.1%
G	1	9.1%
T	1	9.1%

Other Punctuation

Value	Count	Frequency (%)
·	21	87.5%
,	3	12.5%

Close Punctuation

Value	Count	Frequency (%)
)	18	94.7%
〉	1	5.3%

Open Punctuation

Value	Count	Frequency (%)
(	17	94.4%
〈	1	5.6%

Space Separator

Value	Count	Frequency (%)
	842	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	26	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	4	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	1	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	100.0%

Math Symbol

Value	Count	Frequency (%)
~	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	40703	97.6%
Common	976	2.3%
Latin	11	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	1026	2.5%
이	650	1.6%
고	605	1.5%
대	563	1.4%
정	559	1.4%
문	558	1.4%
산	549	1.3%
동	536	1.3%
집	529	1.3%
유	517	1.3%
Other values (697)	34611	85.0%

Common

Value	Count	Frequency (%)
	842	86.3%
·	21	2.2%
)	18	1.8%
(	17	1.7%
1	15	1.5%
2	15	1.5%
3	12	1.2%
7	6	0.6%
4	5	0.5%
6	4	0.4%
Other values (11)	21	2.2%

Latin

Value	Count	Frequency (%)
D	3	27.3%
K	2	18.2%
B	2	18.2%
E	1	9.1%
C	1	9.1%
G	1	9.1%
T	1	9.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	40674	97.6%
ASCII	962	2.3%
None	49	0.1%
Compat Jamo	3	< 0.1%
Punctuation	2	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
사	1026	2.5%
이	650	1.6%
고	605	1.5%
대	563	1.4%
정	559	1.4%
문	558	1.4%
산	549	1.3%
동	536	1.3%
집	529	1.3%
유	517	1.3%
Other values (693)	34582	85.0%

ASCII

Value	Count	Frequency (%)
	842	87.5%
)	18	1.9%
(	17	1.8%
1	15	1.6%
2	15	1.6%
3	12	1.2%
7	6	0.6%
4	5	0.5%
6	4	0.4%
-	4	0.4%
Other values (13)	24	2.5%

None

Value	Count	Frequency (%)
㈜	26	53.1%
·	21	42.9%
〉	1	2.0%
〈	1	2.0%

Compat Jamo

Value	Count	Frequency (%)
ㅁ	1	33.3%
ㅇ	1	33.3%
ㄱ	1	33.3%

Punctuation

Value	Count	Frequency (%)
‘	1	50.0%
’	1	50.0%

원어
Text

MISSING

Distinct	9454
Distinct (%)	99.0%
Missing	455
Missing (%)	4.5%
Memory size	156.2 KiB

Length

Max length	25
Median length	24
Mean length	4.051231
Min length	1

Characters and Unicode

Total characters	38669
Distinct characters	2993
Distinct categories	13 ?
Distinct scripts	4 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9381 ?
Unique (%)	98.3%

Sample

1st row	齊鼓
2nd row	柳遠重
3rd row	表忠寺阿彌陀三尊圖
4th row	繼母
5th row	隱谷書堂

Value	Count	Frequency (%)
─打令	7	0.1%
銀杏─	6	0.1%
古宅	4	< 0.1%
珍島─	4	< 0.1%
郎中	4	< 0.1%
大韓─協會	4	< 0.1%
─大學校	3	< 0.1%
慶州	3	< 0.1%
良洞마을	3	< 0.1%
盤松	3	< 0.1%
Other values (9529)	9621	99.6%

Most occurring characters

Value	Count	Frequency (%)
集	503	1.3%
金	473	1.2%
山	467	1.2%
學	460	1.2%
─	459	1.2%
大	447	1.2%
文	425	1.1%
李	413	1.1%
寺	362	0.9%
校	295	0.8%
Other values (2983)	34365	88.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	37957	98.2%
Other Symbol	459	1.2%
Space Separator	117	0.3%
Close Punctuation	38	0.1%
Open Punctuation	37	0.1%
Uppercase Letter	16	< 0.1%
Other Punctuation	12	< 0.1%
Decimal Number	11	< 0.1%
Lowercase Letter	9	< 0.1%
Dash Punctuation	8	< 0.1%
Other values (3)	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
集	503	1.3%
金	473	1.2%
山	467	1.2%
學	460	1.2%
大	447	1.2%
文	425	1.1%
李	413	1.1%
寺	362	1.0%
校	295	0.8%
國	275	0.7%
Other values (2949)	33837	89.1%

Uppercase Letter

Value	Count	Frequency (%)
E	3	18.8%
T	2	12.5%
H	2	12.5%
K	2	12.5%
R	2	12.5%
A	2	12.5%
O	1	6.2%
L	1	6.2%
D	1	6.2%

Decimal Number

Value	Count	Frequency (%)
4	2	18.2%
1	2	18.2%
6	2	18.2%
7	2	18.2%
9	1	9.1%
3	1	9.1%
2	1	9.1%

Lowercase Letter

Value	Count	Frequency (%)
a	3	33.3%
t	2	22.2%
f	1	11.1%
u	1	11.1%
s	1	11.1%
r	1	11.1%

Other Punctuation

Value	Count	Frequency (%)
·	9	75.0%
,	3	25.0%

Dash Punctuation

Value	Count	Frequency (%)
―	5	62.5%
-	3	37.5%

Math Symbol

Value	Count	Frequency (%)
+	2	66.7%
~	1	33.3%

Other Symbol

Value	Count	Frequency (%)
─	459	100.0%

Space Separator

Value	Count	Frequency (%)
	117	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	38	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	37	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	1	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Han	37861	97.9%
Common	687	1.8%
Hangul	96	0.2%
Latin	25	0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
集	503	1.3%
金	473	1.2%
山	467	1.2%
學	460	1.2%
大	447	1.2%
文	425	1.1%
李	413	1.1%
寺	362	1.0%
校	295	0.8%
國	275	0.7%
Other values (2876)	33741	89.1%

Hangul

Value	Count	Frequency (%)
및	4	4.2%
을	3	3.1%
마	3	3.1%
나	3	3.1%
무	3	3.1%
리	3	3.1%
베	2	2.1%
터	2	2.1%
양	2	2.1%
수	2	2.1%
Other values (63)	69	71.9%

Common

Value	Count	Frequency (%)
─	459	66.8%
	117	17.0%
)	38	5.5%
(	37	5.4%
·	9	1.3%
―	5	0.7%
,	3	0.4%
-	3	0.4%
4	2	0.3%
1	2	0.3%
Other values (9)	12	1.7%

Latin

Value	Count	Frequency (%)
a	3	12.0%
E	3	12.0%
t	2	8.0%
T	2	8.0%
H	2	8.0%
K	2	8.0%
R	2	8.0%
A	2	8.0%
f	1	4.0%
u	1	4.0%
Other values (5)	5	20.0%

Most occurring blocks

Value	Count	Frequency (%)
CJK	37503	97.0%
Box Drawing	459	1.2%
CJK Compat Ideographs	348	0.9%
ASCII	237	0.6%
Hangul	96	0.2%
CJK Ext A	10	< 0.1%
None	9	< 0.1%
Punctuation	7	< 0.1%

Most frequent character per block

CJK

Value	Count	Frequency (%)
集	503	1.3%
金	473	1.3%
山	467	1.2%
學	460	1.2%
大	447	1.2%
文	425	1.1%
李	413	1.1%
寺	362	1.0%
校	295	0.8%
國	275	0.7%
Other values (2795)	33383	89.0%

Box Drawing

Value	Count	Frequency (%)
─	459	100.0%

ASCII

Value	Count	Frequency (%)
	117	49.4%
)	38	16.0%
(	37	15.6%
a	3	1.3%
,	3	1.3%
E	3	1.3%
-	3	1.3%
t	2	0.8%
4	2	0.8%
1	2	0.8%
Other values (19)	27	11.4%

CJK Compat Ideographs

Value	Count	Frequency (%)
金	42	12.1%
李	33	9.5%
宅	29	8.3%
龍	21	6.0%
陵	20	5.7%
靈	17	4.9%
立	14	4.0%
羅	11	3.2%
亂	9	2.6%
寧	8	2.3%
Other values (61)	144	41.4%

None

Value	Count	Frequency (%)
·	9	100.0%

Punctuation

Value	Count	Frequency (%)
―	5	71.4%
‘	1	14.3%
’	1	14.3%

Hangul

Value	Count	Frequency (%)
및	4	4.2%
을	3	3.1%
마	3	3.1%
나	3	3.1%
무	3	3.1%
리	3	3.1%
베	2	2.1%
터	2	2.1%
양	2	2.1%
수	2	2.1%
Other values (63)	69	71.9%

CJK Ext A

Value	Count	Frequency (%)
㷜	1	10.0%
㺚	1	10.0%
㬦	1	10.0%
㦿	1	10.0%
䭾	1	10.0%
㝏	1	10.0%
䂓	1	10.0%
䪷	1	10.0%
㳣	1	10.0%
㥠	1	10.0%

이칭
Text

MISSING

Distinct	2901
Distinct (%)	99.5%
Missing	7083
Missing (%)	70.8%
Memory size	156.2 KiB

Length

Max length	126
Median length	87
Mean length	12.760027
Min length	1

Characters and Unicode

Total characters	37221
Distinct characters	2316
Distinct categories	12 ?
Distinct scripts	5 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2887 ?
Unique (%)	99.0%

Sample

1st row	희여(希輿)\|우헌(愚軒)\|서강(西岡)
2nd row	의모(義母)\|의붓어머니
3rd row	토광묘
4th row	냉천사(冷泉寺)
5th row	자회(子晦)\|주계(朱溪)\|해양(海陽)

Value	Count	Frequency (%)
of	17	0.5%
국도	5	0.1%
republic	4	0.1%
화중(和仲	3	0.1%
충간(忠簡	3	0.1%
월여(月如	3	0.1%
공화국\|republic	2	0.1%
democratic	2	0.1%
문안(文安	2	0.1%
청동방울	2	0.1%
Other values (3281)	3307	98.7%

Most occurring characters

Value	Count	Frequency (%)
(	4024	10.8%
)	4024	10.8%
\|	2211	5.9%
	911	2.4%
사	339	0.9%
정	286	0.8%
경	273	0.7%
문	259	0.7%
성	258	0.7%
군	212	0.6%
Other values (2306)	24424	65.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	25129	67.5%
Open Punctuation	4032	10.8%
Close Punctuation	4032	10.8%
Math Symbol	2216	6.0%
Space Separator	911	2.4%
Lowercase Letter	498	1.3%
Other Punctuation	209	0.6%
Uppercase Letter	119	0.3%
Decimal Number	63	0.2%
Dash Punctuation	5	< 0.1%
Other values (2)	7	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	339	1.3%
정	286	1.1%
경	273	1.1%
문	259	1.0%
성	258	1.0%
군	212	0.8%
자	210	0.8%
원	202	0.8%
산	191	0.8%
도	189	0.8%
Other values (2226)	22710	90.4%

Lowercase Letter

Value	Count	Frequency (%)
e	58	11.6%
i	53	10.6%
o	52	10.4%
a	41	8.2%
n	38	7.6%
l	33	6.6%
t	28	5.6%
c	25	5.0%
u	23	4.6%
p	18	3.6%
Other values (16)	129	25.9%

Uppercase Letter

Value	Count	Frequency (%)
R	15	12.6%
S	12	10.1%
K	9	7.6%
C	9	7.6%
T	7	5.9%
A	7	5.9%
N	7	5.9%
I	6	5.0%
P	6	5.0%
G	5	4.2%
Other values (12)	36	30.3%

Decimal Number

Value	Count	Frequency (%)
0	13	20.6%
1	10	15.9%
8	7	11.1%
9	6	9.5%
4	6	9.5%
3	5	7.9%
6	5	7.9%
2	5	7.9%
7	3	4.8%
5	3	4.8%

Open Punctuation

Value	Count	Frequency (%)
(	4024	99.8%
〔	4	0.1%
［	2	< 0.1%
『	1	< 0.1%
[	1	< 0.1%

Close Punctuation

Value	Count	Frequency (%)
)	4024	99.8%
〕	4	0.1%
］	2	< 0.1%
』	1	< 0.1%
]	1	< 0.1%

Other Punctuation

Value	Count	Frequency (%)
,	206	98.6%
·	1	0.5%
/	1	0.5%
.	1	0.5%

Private Use

Value	Count	Frequency (%)
	1	33.3%
	1	33.3%
	1	33.3%

Math Symbol

Value	Count	Frequency (%)
\|	2211	99.8%
~	5	0.2%

Space Separator

Value	Count	Frequency (%)
	911	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	5	100.0%

Other Symbol

Value	Count	Frequency (%)
○	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	15323	41.2%
Common	11472	30.8%
Han	9806	26.3%
Latin	617	1.7%
Unknown	3	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
文	186	1.9%
齋	121	1.2%
子	120	1.2%
山	111	1.1%
君	107	1.1%
忠	89	0.9%
仲	76	0.8%
堂	74	0.8%
景	68	0.7%
縣	67	0.7%
Other values (1649)	8787	89.6%

Hangul

Value	Count	Frequency (%)
사	339	2.2%
정	286	1.9%
경	273	1.8%
문	259	1.7%
성	258	1.7%
군	212	1.4%
자	210	1.4%
원	202	1.3%
산	191	1.2%
도	189	1.2%
Other values (567)	12904	84.2%

Latin

Value	Count	Frequency (%)
e	58	9.4%
i	53	8.6%
o	52	8.4%
a	41	6.6%
n	38	6.2%
l	33	5.3%
t	28	4.5%
c	25	4.1%
u	23	3.7%
p	18	2.9%
Other values (38)	248	40.2%

Common

Value	Count	Frequency (%)
(	4024	35.1%
)	4024	35.1%
\|	2211	19.3%
	911	7.9%
,	206	1.8%
0	13	0.1%
1	10	0.1%
8	7	0.1%
9	6	0.1%
4	6	0.1%
Other values (19)	54	0.5%

Unknown

Value	Count	Frequency (%)
	1	33.3%
	1	33.3%
	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	15323	41.2%
ASCII	12069	32.4%
CJK	9736	26.2%
CJK Compat Ideographs	64	0.2%
None	16	< 0.1%
CJK Ext A	6	< 0.1%
Geometric Shapes	4	< 0.1%
PUA	3	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
(	4024	33.3%
)	4024	33.3%
\|	2211	18.3%
	911	7.5%
,	206	1.7%
e	58	0.5%
i	53	0.4%
o	52	0.4%
a	41	0.3%
n	38	0.3%
Other values (58)	451	3.7%

Hangul

Value	Count	Frequency (%)
사	339	2.2%
정	286	1.9%
경	273	1.8%
문	259	1.7%
성	258	1.7%
군	212	1.4%
자	210	1.4%
원	202	1.3%
산	191	1.2%
도	189	1.2%
Other values (567)	12904	84.2%

CJK

Value	Count	Frequency (%)
文	186	1.9%
齋	121	1.2%
子	120	1.2%
山	111	1.1%
君	107	1.1%
忠	89	0.9%
仲	76	0.8%
堂	74	0.8%
景	68	0.7%
縣	67	0.7%
Other values (1619)	8717	89.5%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	15	23.4%
金	12	18.8%
梁	4	6.2%
呂	4	6.2%
陵	4	6.2%
羅	3	4.7%
良	2	3.1%
老	2	3.1%
樂	2	3.1%
連	2	3.1%
Other values (14)	14	21.9%

None

Value	Count	Frequency (%)
〔	4	25.0%
〕	4	25.0%
［	2	12.5%
］	2	12.5%
『	1	6.2%
』	1	6.2%
·	1	6.2%
ñ	1	6.2%

Geometric Shapes

Value	Count	Frequency (%)
○	4	100.0%

CJK Ext A

Value	Count	Frequency (%)
㝕	1	16.7%
㶨	1	16.7%
㖨	1	16.7%
㷩	1	16.7%
㠉	1	16.7%
䌙	1	16.7%

PUA

Value	Count	Frequency (%)
	1	33.3%
	1	33.3%
	1	33.3%

키워드
Text

MISSING

Distinct	5220
Distinct (%)	98.7%
Missing	4710
Missing (%)	47.1%
Memory size	156.2 KiB

Length

Max length	405
Median length	184
Mean length	21.313233
Min length	1

Characters and Unicode

Total characters	112747
Distinct characters	2670
Distinct categories	11 ?
Distinct scripts	5 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	5171 ?
Unique (%)	97.8%

Sample

1st row	고려기(高麗伎), 서량기(西凉伎), 악서(樂書)
2nd row	최익현, 서강문집
3rd row	평양시 태성리, 황해도 은율군 운성리, 경상북도 경주시 조양동, 경상남도 김해시 예안리
4th row	고종, 대한제국
5th row	당속악(唐俗樂) 14조

Value	Count	Frequency (%)
대한불교조계종	67	0.3%
난	61	0.3%
읍지	31	0.2%
임진왜란	26	0.1%
송시열	23	0.1%
이황	19	0.1%
침입	18	0.1%
홍건적	16	0.1%
인조반정	14	0.1%
대흥사	13	0.1%
Other values (16448)	19501	98.5%

Most occurring characters

Value	Count	Frequency (%)
	14511	12.9%
,	13708	12.2%
(	2507	2.2%
)	2505	2.2%
사	1896	1.7%
이	1304	1.2%
대	1134	1.0%
교	1034	0.9%
정	987	0.9%
학	984	0.9%
Other values (2660)	72177	64.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	78783	69.9%
Space Separator	14511	12.9%
Other Punctuation	13753	12.2%
Open Punctuation	2514	2.2%
Close Punctuation	2512	2.2%
Decimal Number	295	0.3%
Lowercase Letter	168	0.1%
Private Use	121	0.1%
Uppercase Letter	85	0.1%
Dash Punctuation	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	1896	2.4%
이	1304	1.7%
대	1134	1.4%
교	1034	1.3%
정	987	1.3%
학	984	1.2%
원	919	1.2%
동	901	1.1%
도	844	1.1%
신	835	1.1%
Other values (2590)	67945	86.2%

Lowercase Letter

Value	Count	Frequency (%)
a	16	9.5%
e	16	9.5%
n	15	8.9%
o	14	8.3%
i	14	8.3%
r	12	7.1%
s	11	6.5%
l	11	6.5%
t	11	6.5%
u	10	6.0%
Other values (15)	38	22.6%

Uppercase Letter

Value	Count	Frequency (%)
S	9	10.6%
C	8	9.4%
A	6	7.1%
G	6	7.1%
T	6	7.1%
O	6	7.1%
M	5	5.9%
L	5	5.9%
E	4	4.7%
D	4	4.7%
Other values (12)	26	30.6%

Decimal Number

Value	Count	Frequency (%)
1	78	26.4%
2	40	13.6%
3	31	10.5%
0	29	9.8%
4	28	9.5%
6	27	9.2%
5	25	8.5%
9	16	5.4%
8	14	4.7%
7	7	2.4%

Other Punctuation

Value	Count	Frequency (%)
,	13708	99.7%
·	43	0.3%
.	2	< 0.1%

Open Punctuation

Value	Count	Frequency (%)
(	2507	99.7%
[	6	0.2%
〔	1	< 0.1%

Close Punctuation

Value	Count	Frequency (%)
)	2505	99.7%
]	6	0.2%
〕	1	< 0.1%

Space Separator

Value	Count	Frequency (%)
	14511	100.0%

Private Use

Value	Count	Frequency (%)
󰠐	121	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	3	100.0%

Other Symbol

Value	Count	Frequency (%)
□	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	69700	61.8%
Common	33590	29.8%
Han	9083	8.1%
Latin	253	0.2%
Unknown	121	0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
大	97	1.1%
王	94	1.0%
金	77	0.8%
李	70	0.8%
書	67	0.7%
文	67	0.7%
城	65	0.7%
山	57	0.6%
臣	55	0.6%
石	54	0.6%
Other values (1805)	8380	92.3%

Hangul

Value	Count	Frequency (%)
사	1896	2.7%
이	1304	1.9%
대	1134	1.6%
교	1034	1.5%
정	987	1.4%
학	984	1.4%
원	919	1.3%
동	901	1.3%
도	844	1.2%
신	835	1.2%
Other values (775)	58862	84.5%

Latin

Value	Count	Frequency (%)
a	16	6.3%
e	16	6.3%
n	15	5.9%
o	14	5.5%
i	14	5.5%
r	12	4.7%
s	11	4.3%
l	11	4.3%
t	11	4.3%
u	10	4.0%
Other values (37)	123	48.6%

Common

Value	Count	Frequency (%)
	14511	43.2%
,	13708	40.8%
(	2507	7.5%
)	2505	7.5%
1	78	0.2%
·	43	0.1%
2	40	0.1%
3	31	0.1%
0	29	0.1%
4	28	0.1%
Other values (12)	110	0.3%

Unknown

Value	Count	Frequency (%)
󰠐	121	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	69697	61.8%
ASCII	33795	30.0%
CJK	8943	7.9%
None	167	0.1%
CJK Compat Ideographs	138	0.1%
Compat Jamo	3	< 0.1%
Geometric Shapes	2	< 0.1%
CJK Ext A	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	14511	42.9%
,	13708	40.6%
(	2507	7.4%
)	2505	7.4%
1	78	0.2%
2	40	0.1%
3	31	0.1%
0	29	0.1%
4	28	0.1%
6	27	0.1%
Other values (54)	331	1.0%

Hangul

Value	Count	Frequency (%)
사	1896	2.7%
이	1304	1.9%
대	1134	1.6%
교	1034	1.5%
정	987	1.4%
학	984	1.4%
원	919	1.3%
동	901	1.3%
도	844	1.2%
신	835	1.2%
Other values (773)	58859	84.4%

None

Value	Count	Frequency (%)
󰠐	121	72.5%
·	43	25.7%
〔	1	0.6%
〕	1	0.6%
ñ	1	0.6%

CJK

Value	Count	Frequency (%)
大	97	1.1%
王	94	1.1%
金	77	0.9%
李	70	0.8%
書	67	0.7%
文	67	0.7%
城	65	0.7%
山	57	0.6%
臣	55	0.6%
石	54	0.6%
Other values (1750)	8240	92.1%

CJK Compat Ideographs

Value	Count	Frequency (%)
金	27	19.6%
李	20	14.5%
陵	6	4.3%
柳	6	4.3%
龍	5	3.6%
樂	5	3.6%
老	3	2.2%
爐	3	2.2%
梁	3	2.2%
沈	3	2.2%
Other values (43)	57	41.3%

Compat Jamo

Value	Count	Frequency (%)
ㅁ	2	66.7%
ㄱ	1	33.3%

Geometric Shapes

Value	Count	Frequency (%)
□	2	100.0%

CJK Ext A

Value	Count	Frequency (%)
䎘	1	50.0%
㜢	1	50.0%

분야
Text

Distinct	61
Distinct (%)	0.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	15
Median length	8
Mean length	7.3492
Min length	5

Characters and Unicode

Total characters	73492
Distinct characters	90
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	예술·체육/국악
2nd row	종교·철학/유교
3rd row	예술·체육/회화
4th row	사회/가족
5th row	교육/교육

Value	Count	Frequency (%)
역사/조선시대사	1572	15.7%
종교·철학/유교	941	9.4%
역사/근대사	649	6.5%
역사/고려시대사	572	5.7%
역사/고대사	499	5.0%
교육/교육	489	4.9%
종교·철학/불교	476	4.8%
예술·체육/건축	329	3.3%
지리/인문지리	305	3.0%
지리/자연지리	224	2.2%
Other values (51)	3944	39.4%

Most occurring characters

Value	Count	Frequency (%)
/	10002	13.6%
사	7179	9.8%
교	4280	5.8%
·	4032	5.5%
학	3565	4.9%
대	3535	4.8%
역	3486	4.7%
시	2278	3.1%
육	2247	3.1%
조	1756	2.4%
Other values (80)	31132	42.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59456	80.9%
Other Punctuation	14034	19.1%
Math Symbol	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	7179	12.1%
교	4280	7.2%
학	3565	6.0%
대	3535	5.9%
역	3486	5.9%
시	2278	3.8%
육	2247	3.8%
조	1756	3.0%
선	1749	2.9%
문	1747	2.9%
Other values (77)	27634	46.5%

Other Punctuation

Value	Count	Frequency (%)
/	10002	71.3%
·	4032	28.7%

Math Symbol

Value	Count	Frequency (%)
\|	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59456	80.9%
Common	14036	19.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	7179	12.1%
교	4280	7.2%
학	3565	6.0%
대	3535	5.9%
역	3486	5.9%
시	2278	3.8%
육	2247	3.8%
조	1756	3.0%
선	1749	2.9%
문	1747	2.9%
Other values (77)	27634	46.5%

Common

Value	Count	Frequency (%)
/	10002	71.3%
·	4032	28.7%
\|	2	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59456	80.9%
ASCII	10004	13.6%
None	4032	5.5%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
/	10002	> 99.9%
\|	2	< 0.1%

Hangul

Value	Count	Frequency (%)
사	7179	12.1%
교	4280	7.2%
학	3565	6.0%
대	3535	5.9%
역	3486	5.9%
시	2278	3.8%
육	2247	3.8%
조	1756	3.0%
선	1749	2.9%
문	1747	2.9%
Other values (77)	27634	46.5%

None

Value	Count	Frequency (%)
·	4032	100.0%

유형
Categorical

Distinct	17
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

인물	2639
문헌	1635
유적	1074
제도	973
개념용어	880
Other values (12)	2799

Length

Max length	5
Median length	2
Mean length	2.3967
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	유물
2nd row	인물
3rd row	작품
4th row	개념용어
5th row	유적

Common Values

Value	Count	Frequency (%)
인물	2639	26.4%
문헌	1635	16.4%
유적	1074	10.7%
제도	973	9.7%
개념용어	880	8.8%
단체	652	6.5%
작품	581	5.8%
지명/지명	553	5.5%
유물	290	2.9%
물품	232	2.3%
Other values (7)	491	4.9%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
인물	2639	26.4%
문헌	1635	16.4%
유적	1074	10.7%
제도	973	9.7%
개념용어	880	8.8%
단체	652	6.5%
작품	581	5.8%
지명/지명	553	5.5%
유물	290	2.9%
물품	232	2.3%
Other values (7)	491	4.9%

시대
Text

MISSING

Distinct	77
Distinct (%)	0.9%
Missing	1855
Missing (%)	18.6%
Memory size	156.2 KiB

Length

Max length	65
Median length	2
Mean length	3.695887
Min length	2

Characters and Unicode

Total characters	30103
Distinct characters	43
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	30 ?
Unique (%)	0.4%

Sample

1st row	고대/삼국
2nd row	근대
3rd row	근대/개항기
4th row	조선/조선 전기
5th row	현대/현대

Value	Count	Frequency (%)
조선	3227	38.2%
현대/현대	1272	15.0%
근대	1061	12.5%
고려	837	9.9%
고대/삼국	295	3.5%
조선/조선	273	3.2%
후기	212	2.5%
고대/남북국	169	2.0%
고대/남북국/통일신라	136	1.6%
근대/일제강점기	113	1.3%
Other values (66)	863	10.2%

Most occurring characters

Value	Count	Frequency (%)
대	4861	16.1%
선	4157	13.8%
조	4037	13.4%
/	3561	11.8%
현	2591	8.6%
고	2057	6.8%
근	1327	4.4%
려	1112	3.7%
국	941	3.1%
기	931	3.1%
Other values (33)	4528	15.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	26096	86.7%
Other Punctuation	3561	11.8%
Space Separator	313	1.0%
Math Symbol	133	0.4%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
대	4861	18.6%
선	4157	15.9%
조	4037	15.5%
현	2591	9.9%
고	2057	7.9%
근	1327	5.1%
려	1112	4.3%
국	941	3.6%
기	931	3.6%
삼	560	2.1%
Other values (30)	3522	13.5%

Other Punctuation

Value	Count	Frequency (%)
/	3561	100.0%

Space Separator

Value	Count	Frequency (%)
	313	100.0%

Math Symbol

Value	Count	Frequency (%)
\|	133	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	26096	86.7%
Common	4007	13.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
대	4861	18.6%
선	4157	15.9%
조	4037	15.5%
현	2591	9.9%
고	2057	7.9%
근	1327	5.1%
려	1112	4.3%
국	941	3.6%
기	931	3.6%
삼	560	2.1%
Other values (30)	3522	13.5%

Common

Value	Count	Frequency (%)
/	3561	88.9%
	313	7.8%
\|	133	3.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	26096	86.7%
ASCII	4007	13.3%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
대	4861	18.6%
선	4157	15.9%
조	4037	15.5%
현	2591	9.9%
고	2057	7.9%
근	1327	5.1%
려	1112	4.3%
국	941	3.6%
기	931	3.6%
삼	560	2.1%
Other values (30)	3522	13.5%

ASCII

Value	Count	Frequency (%)
/	3561	88.9%
	313	7.8%
\|	133	3.3%

웹사이트 주소
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	49
Median length	49
Mean length	49
Min length	49

Characters and Unicode

Total characters	490000
Distinct characters	29
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	http://encykorea.aks.ac.kr/Contents/Item/E0051235
2nd row	http://encykorea.aks.ac.kr/Contents/Item/E0041714
3rd row	http://encykorea.aks.ac.kr/Contents/Item/E0060282
4th row	http://encykorea.aks.ac.kr/Contents/Item/E0003119
5th row	http://encykorea.aks.ac.kr/Contents/Item/E0042806

Value	Count	Frequency (%)
http://encykorea.aks.ac.kr/contents/item/e0051235	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0012897	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0049002	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0004996	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0033266	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0016514	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0036486	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0040650	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0010014	1	< 0.1%
http://encykorea.aks.ac.kr/contents/item/e0010979	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
/	50000	10.2%
t	50000	10.2%
e	40000	8.2%
n	30000	6.1%
k	30000	6.1%
a	30000	6.1%
.	30000	6.1%
0	25394	5.2%
s	20000	4.1%
c	20000	4.1%
Other values (19)	164606	33.6%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	300000	61.2%
Other Punctuation	90000	18.4%
Decimal Number	70000	14.3%
Uppercase Letter	30000	6.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
t	50000	16.7%
e	40000	13.3%
n	30000	10.0%
k	30000	10.0%
a	30000	10.0%
s	20000	6.7%
c	20000	6.7%
o	20000	6.7%
r	20000	6.7%
m	10000	3.3%
Other values (3)	30000	10.0%

Decimal Number

Value	Count	Frequency (%)
0	25394	36.3%
1	5668	8.1%
6	5510	7.9%
4	5501	7.9%
5	5436	7.8%
3	5396	7.7%
2	5254	7.5%
9	3970	5.7%
7	3947	5.6%
8	3924	5.6%

Other Punctuation

Value	Count	Frequency (%)
/	50000	55.6%
.	30000	33.3%
:	10000	11.1%

Uppercase Letter

Value	Count	Frequency (%)
I	10000	33.3%
E	10000	33.3%
C	10000	33.3%

Most occurring scripts

Value	Count	Frequency (%)
Latin	330000	67.3%
Common	160000	32.7%

Most frequent character per script

Latin

Value	Count	Frequency (%)
t	50000	15.2%
e	40000	12.1%
n	30000	9.1%
k	30000	9.1%
a	30000	9.1%
s	20000	6.1%
c	20000	6.1%
o	20000	6.1%
r	20000	6.1%
I	10000	3.0%
Other values (6)	60000	18.2%

Common

Value	Count	Frequency (%)
/	50000	31.2%
.	30000	18.8%
0	25394	15.9%
:	10000	6.2%
1	5668	3.5%
6	5510	3.4%
4	5501	3.4%
5	5436	3.4%
3	5396	3.4%
2	5254	3.3%
Other values (3)	11841	7.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	490000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
/	50000	10.2%
t	50000	10.2%
e	40000	8.2%
n	30000	6.1%
k	30000	6.1%
a	30000	6.1%
.	30000	6.1%
0	25394	5.2%
s	20000	4.1%
c	20000	4.1%
Other values (19)	164606	33.6%

Phik (φk)

Heatmap
Table

	분야	유형	시대
분야	1.000	0.942	0.899
유형	0.942	1.000	0.672
시대	0.899	0.672	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	항목명	원어	이칭	키워드	분야	유형	시대	웹사이트 주소
48070	제고	齊鼓	<NA>	고려기(高麗伎), 서량기(西凉伎), 악서(樂書)	예술·체육/국악	유물	고대/삼국	http://encykorea.aks.ac.kr/Contents/Item/E0051235
38952	유원중	柳遠重	희여(希輿)\|우헌(愚軒)\|서강(西岡)	최익현, 서강문집	종교·철학/유교	인물	근대	http://encykorea.aks.ac.kr/Contents/Item/E0041714
56598	표충사아미타삼존도	表忠寺阿彌陀三尊圖	<NA>	<NA>	예술·체육/회화	작품	근대/개항기	http://encykorea.aks.ac.kr/Contents/Item/E0060282
2849	계모	繼母	의모(義母)\|의붓어머니	<NA>	사회/가족	개념용어	<NA>	http://encykorea.aks.ac.kr/Contents/Item/E0003119
40014	은곡서당	隱谷書堂	<NA>	<NA>	교육/교육	유적	조선/조선 전기	http://encykorea.aks.ac.kr/Contents/Item/E0042806
18379	문헌학	文獻學	<NA>	<NA>	언론·출판/출판	개념용어	<NA>	http://encykorea.aks.ac.kr/Contents/Item/E0019755
5024	교보증권㈜	敎保證券(株)	<NA>	<NA>	경제·산업/경제	단체	현대/현대	http://encykorea.aks.ac.kr/Contents/Item/E0005479
32281	안동사범학교	安東師範學校	<NA>	<NA>	교육/교육	단체	현대/현대	http://encykorea.aks.ac.kr/Contents/Item/E0034617
12054	녹둔도	鹿屯島	<NA>	<NA>	역사/조선시대사	지명/지명	조선	http://encykorea.aks.ac.kr/Contents/Item/E0012968
11714	널무덤	<NA>	토광묘	평양시 태성리, 황해도 은율군 운성리, 경상북도 경주시 조양동, 경상남도 김해시 예안리	역사/선사문화	개념용어	선사/석기	http://encykorea.aks.ac.kr/Contents/Item/E0012614

	항목명	원어	이칭	키워드	분야	유형	시대	웹사이트 주소
2631	경주 보문사지 연화문 당간지주	慶州普門寺址蓮華文幢竿支柱	<NA>	<NA>	예술·체육/건축	유적	고대/남북국/통일신라	http://encykorea.aks.ac.kr/Contents/Item/E0002877
47719	정조	正朝	<NA>	마진국(摩震國), 광평성(廣評省)	역사/고려시대사	제도	고려	http://encykorea.aks.ac.kr/Contents/Item/E0050868
11502	낭중	郎中	<NA>	<NA>	역사/조선시대사	제도	조선	http://encykorea.aks.ac.kr/Contents/Item/E0012382
39851	윤치호	尹致昊	좌옹(佐翁)\|이토 지코(伊東致昊)	<NA>	역사/근대사	인물	근대/일제강점기	http://encykorea.aks.ac.kr/Contents/Item/E0042640
27875	소년	少年	<NA>	<NA>	언론·출판/언론·방송	문헌	현대/현대	http://encykorea.aks.ac.kr/Contents/Item/E0029962
918	강남산맥	江南山脈	<NA>	<NA>	지리/자연지리	지명/지명	<NA>	http://encykorea.aks.ac.kr/Contents/Item/E0001018
20205	방귀온	房貴溫	옥여(玉汝)\|금서(錦西)	방사량, 방구성, 방계문, 정존, 조광조, 기묘사화	역사/조선시대사	인물	조선	http://encykorea.aks.ac.kr/Contents/Item/E0021670
43638	이호	李皓	세보(世輔)\|경평군(慶平君)	이당, 김좌근, 서대순, 흥선대원군, 신지도	역사/조선시대사	인물	근대	http://encykorea.aks.ac.kr/Contents/Item/E0046546
11358	남파유고	南坡遺稿	<NA>	박필조	종교·철학/유교	문헌	조선	http://encykorea.aks.ac.kr/Contents/Item/E0012216
1315	강찬	姜찬	<NA>	<NA>	역사/근대사	인물	근대	http://encykorea.aks.ac.kr/Contents/Item/E0001434

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Other Punctuation

Close Punctuation

Open Punctuation

Space Separator

Other Symbol

Dash Punctuation

Initial Punctuation

Final Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

None

Compat Jamo

Punctuation

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Dash Punctuation

Math Symbol

Other Symbol

Space Separator

Close Punctuation

Open Punctuation

Initial Punctuation

Final Punctuation

Most occurring scripts

Most frequent character per script

Han

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

CJK

Box Drawing

ASCII

CJK Compat Ideographs

None

Punctuation

Hangul

CJK Ext A

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Open Punctuation

Close Punctuation

Other Punctuation

Private Use

Math Symbol

Space Separator

Dash Punctuation

Other Symbol

Most occurring scripts

Most frequent character per script

Han

Hangul