gimi9 Pandas Profiling

Dataset statistics

Number of variables	9
Number of observations	10000
Missing cells	9109
Missing cells (%)	10.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	781.2 KiB
Average record size in memory	80.0 B

Variable types

Text	7
Categorical	2

Dataset

Description	국립중앙박물관을 포함한 104개 협력 박물관의 약 29만건의 유물정보에 대한 목록 및 상세 정보 (소장기관명, 명칭, 다른명칭, 재질, 분류 등)를 제공합니다.
Author	문화체육관광부 국립중앙박물관
URL	https://www.data.go.kr/data/15083246/fileData.do

Alerts

`다른명칭` has 2635 (26.4%) missing values	Missing
`재질(중)` has 1437 (14.4%) missing values	Missing
`분류(중)` has 417 (4.2%) missing values	Missing
`분류(소)` has 954 (9.5%) missing values	Missing
`분류(세)` has 3666 (36.7%) missing values	Missing
`소장품고유아이디` has unique values	Unique

Reproduction

Analysis started	2023-12-12 10:42:24.772325
Analysis finished	2023-12-12 10:42:27.714361
Duration	2.94 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

소장품고유아이디
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	24
Median length	24
Mean length	24
Min length	24

Characters and Unicode

Total characters	240000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	PS0100100500105708900000
2nd row	PS0100100100701311500000
3rd row	PS0100100101103347900000
4th row	PS0100100101101242800000
5th row	PS0100100101100215000000

Value	Count	Frequency (%)
ps0100100500105708900000	1	< 0.1%
ps0100100100400178100000	1	< 0.1%
ps0100100101100090100000	1	< 0.1%
ps0100100102002264900000	1	< 0.1%
ps0100100101700414800000	1	< 0.1%
ps0100100102101432300000	1	< 0.1%
ps0100100101900071700000	1	< 0.1%
ps0100100100400279300000	1	< 0.1%
ps0100100102001589900000	1	< 0.1%
ps0100100102101351900000	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
0	134312	56.0%
1	44110	18.4%
P	10000	4.2%
S	10000	4.2%
2	9040	3.8%
7	5594	2.3%
5	5373	2.2%
3	5045	2.1%
4	4393	1.8%
6	4368	1.8%
Other values (2)	7765	3.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	220000	91.7%
Uppercase Letter	20000	8.3%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	134312	61.1%
1	44110	20.1%
2	9040	4.1%
7	5594	2.5%
5	5373	2.4%
3	5045	2.3%
4	4393	2.0%
6	4368	2.0%
9	3959	1.8%
8	3806	1.7%

Uppercase Letter

Value	Count	Frequency (%)
P	10000	50.0%
S	10000	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	220000	91.7%
Latin	20000	8.3%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	134312	61.1%
1	44110	20.1%
2	9040	4.1%
7	5594	2.5%
5	5373	2.4%
3	5045	2.3%
4	4393	2.0%
6	4368	2.0%
9	3959	1.8%
8	3806	1.7%

Latin

Value	Count	Frequency (%)
P	10000	50.0%
S	10000	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	240000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	134312	56.0%
1	44110	18.4%
P	10000	4.2%
S	10000	4.2%
2	9040	3.8%
7	5594	2.3%
5	5373	2.2%
3	5045	2.1%
4	4393	1.8%
6	4368	1.8%
Other values (2)	7765	3.2%

소장기관명
Categorical

Distinct	27
Distinct (%)	0.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

국립1-국립중앙박물관-신수	2424
국립1-국립중앙박물관-건판	2040
국립1-국립중앙박물관-신안	1221
국립1-국립중앙박물관-고적	1147
국립1-국립광주박물관-광주	643
Other values (22)	2525

Length

Max length	15
Median length	14
Mean length	13.901
Min length	13

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	국립1-국립광주박물관-광주
2nd row	국립1-국립중앙박물관-신안
3rd row	국립1-국립중앙박물관-신수
4th row	국립1-국립중앙박물관-신수
5th row	국립1-국립중앙박물관-신수

Common Values

Value	Count	Frequency (%)
국립1-국립중앙박물관-신수	2424	24.2%
국립1-국립중앙박물관-건판	2040	20.4%
국립1-국립중앙박물관-신안	1221	12.2%
국립1-국립중앙박물관-고적	1147	11.5%
국립1-국립광주박물관-광주	643	6.4%
국립1-국립중앙박물관-구	514	5.1%
국립1-국립중앙박물관-증	482	4.8%
국립1-국립중앙박물관-본관	406	4.1%
국립1-국립중앙박물관-덕수	350	3.5%
국립1-국립중앙박물관-동원	254	2.5%
Other values (17)	519	5.2%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
국립1-국립중앙박물관-신수	2424	24.2%
국립1-국립중앙박물관-건판	2040	20.4%
국립1-국립중앙박물관-신안	1221	12.2%
국립1-국립중앙박물관-고적	1147	11.5%
국립1-국립광주박물관-광주	643	6.4%
국립1-국립중앙박물관-구	514	5.1%
국립1-국립중앙박물관-증	482	4.8%
국립1-국립중앙박물관-본관	406	4.1%
국립1-국립중앙박물관-덕수	350	3.5%
국립1-국립중앙박물관-동원	254	2.5%
Other values (17)	519	5.2%

명칭
Text

Distinct	5403
Distinct (%)	54.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	46
Median length	30
Mean length	7.9257
Min length	1

Characters and Unicode

Total characters	79257
Distinct characters	1220
Distinct categories	11 ?
Distinct scripts	4 ?
Distinct blocks	8 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	4515 ?
Unique (%)	45.1%

Sample

1st row	발형토기저부편
2nd row	흑유도호
3rd row	토기 바닥 조각
4th row	십장생 열쇠패
5th row	뚜껑 있는 굽다리 접시

Value	Count	Frequency (%)
토기	623	3.1%
조각	598	3.0%
경북경주	260	1.3%
백자	253	1.3%
출토	249	1.3%
청자접시	192	1.0%
평남대동	190	1.0%
항아리	167	0.8%
청자	158	0.8%
접시	155	0.8%
Other values (6098)	16935	85.6%

Most occurring characters

Value	Count	Frequency (%)
	9902	12.5%
자	2887	3.6%
청	2135	2.7%
기	1792	2.3%
문	1393	1.8%
접	1365	1.7%
경	1307	1.6%
토	1281	1.6%
시	1222	1.5%
사	1218	1.5%
Other values (1210)	54755	69.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67980	85.8%
Space Separator	9902	12.5%
Decimal Number	924	1.2%
Close Punctuation	164	0.2%
Open Punctuation	164	0.2%
Other Punctuation	74	0.1%
Uppercase Letter	21	< 0.1%
Lowercase Letter	14	< 0.1%
Dash Punctuation	11	< 0.1%
Math Symbol	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
자	2887	4.2%
청	2135	3.1%
기	1792	2.6%
문	1393	2.0%
접	1365	2.0%
경	1307	1.9%
토	1281	1.9%
시	1222	1.8%
사	1218	1.8%
편	1204	1.8%
Other values (1160)	52176	76.8%

Uppercase Letter

Value	Count	Frequency (%)
E	4	19.0%
B	4	19.0%
A	3	14.3%
D	2	9.5%
H	2	9.5%
G	1	4.8%
X	1	4.8%
C	1	4.8%
T	1	4.8%
V	1	4.8%

Decimal Number

Value	Count	Frequency (%)
1	262	28.4%
2	151	16.3%
3	96	10.4%
5	89	9.6%
9	86	9.3%
4	64	6.9%
0	51	5.5%
7	48	5.2%
6	47	5.1%
8	30	3.2%

Lowercase Letter

Value	Count	Frequency (%)
e	3	21.4%
a	3	21.4%
n	2	14.3%
x	1	7.1%
d	1	7.1%
l	1	7.1%
u	1	7.1%
h	1	7.1%
c	1	7.1%

Close Punctuation

Value	Count	Frequency (%)
)	114	69.5%
』	23	14.0%
」	20	12.2%
]	4	2.4%
》	3	1.8%

Open Punctuation

Value	Count	Frequency (%)
(	114	69.5%
『	24	14.6%
「	19	11.6%
[	4	2.4%
《	3	1.8%

Other Punctuation

Value	Count	Frequency (%)
'	39	52.7%
,	18	24.3%
·	12	16.2%
"	4	5.4%
.	1	1.4%

Math Symbol

Value	Count	Frequency (%)
∼	1	50.0%
~	1	50.0%

Space Separator

Value	Count	Frequency (%)
	9902	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	11	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅱ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65001	82.0%
Common	11241	14.2%
Han	2979	3.8%
Latin	36	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
자	2887	4.4%
청	2135	3.3%
기	1792	2.8%
문	1393	2.1%
접	1365	2.1%
경	1307	2.0%
토	1281	2.0%
시	1222	1.9%
사	1218	1.9%
편	1204	1.9%
Other values (602)	49197	75.7%

Han

Value	Count	Frequency (%)
磁	119	4.0%
器	105	3.5%
片	101	3.4%
靑	93	3.1%
文	85	2.9%
白	85	2.9%
筆	77	2.6%
土	69	2.3%
部	64	2.1%
圖	58	1.9%
Other values (548)	2123	71.3%

Common

Value	Count	Frequency (%)
	9902	88.1%
1	262	2.3%
2	151	1.3%
)	114	1.0%
(	114	1.0%
3	96	0.9%
5	89	0.8%
9	86	0.8%
4	64	0.6%
0	51	0.5%
Other values (19)	312	2.8%

Latin

Value	Count	Frequency (%)
E	4	11.1%
B	4	11.1%
e	3	8.3%
A	3	8.3%
a	3	8.3%
D	2	5.6%
H	2	5.6%
n	2	5.6%
G	1	2.8%
X	1	2.8%
Other values (11)	11	30.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	64991	82.0%
ASCII	11171	14.1%
CJK	2901	3.7%
None	104	0.1%
CJK Compat Ideographs	78	0.1%
Compat Jamo	10	< 0.1%
Number Forms	1	< 0.1%
Math Operators	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	9902	88.6%
1	262	2.3%
2	151	1.4%
)	114	1.0%
(	114	1.0%
3	96	0.9%
5	89	0.8%
9	86	0.8%
4	64	0.6%
0	51	0.5%
Other values (31)	242	2.2%

Hangul

Value	Count	Frequency (%)
자	2887	4.4%
청	2135	3.3%
기	1792	2.8%
문	1393	2.1%
접	1365	2.1%
경	1307	2.0%
토	1281	2.0%
시	1222	1.9%
사	1218	1.9%
편	1204	1.9%
Other values (600)	49187	75.7%

CJK

Value	Count	Frequency (%)
磁	119	4.1%
器	105	3.6%
片	101	3.5%
靑	93	3.2%
文	85	2.9%
白	85	2.9%
筆	77	2.7%
土	69	2.4%
部	64	2.2%
圖	58	2.0%
Other values (525)	2045	70.5%

CJK Compat Ideographs

Value	Count	Frequency (%)
蓮	35	44.9%
金	6	7.7%
綠	5	6.4%
蘭	4	5.1%
隸	4	5.1%
列	3	3.8%
李	3	3.8%
拓	2	2.6%
樂	2	2.6%
兩	1	1.3%
Other values (13)	13	16.7%

None

Value	Count	Frequency (%)
『	24	23.1%
』	23	22.1%
」	20	19.2%
「	19	18.3%
·	12	11.5%
《	3	2.9%
》	3	2.9%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	9	90.0%
ㄱ	1	10.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	1	100.0%

Math Operators

Value	Count	Frequency (%)
∼	1	100.0%

다른명칭
Text

MISSING

Distinct	3801
Distinct (%)	51.6%
Missing	2635
Missing (%)	26.4%
Memory size	156.2 KiB

Length

Max length	78
Median length	67
Mean length	9.2025798
Min length	1

Characters and Unicode

Total characters	67777
Distinct characters	1953
Distinct categories	14 ?
Distinct scripts	5 ?
Distinct blocks	10 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3020 ?
Unique (%)	41.0%

Sample

1st row	鉢形土器底部片
2nd row	黑釉陶壺
3rd row	土器底部片, 토기저부편, 토기 저부편
4th row	十長生 열쇠패, 열쇠패
5th row	高杯, 有蓋高杯, 고배, 유개고배

Value	Count	Frequency (%)
土器片	235	1.8%
토기	188	1.4%
백자	179	1.3%
靑磁접시	168	1.3%
토기편	122	0.9%
청자	112	0.8%
雜釉陶壺	110	0.8%
土器底部片	91	0.7%
無文土器	87	0.6%
토기저부편	87	0.6%
Other values (4720)	12006	89.7%

Most occurring characters

Value	Count	Frequency (%)
	6129	9.0%
,	4630	6.8%
磁	2043	3.0%
片	1869	2.8%
靑	1794	2.6%
器	1583	2.3%
기	1492	2.2%
文	1470	2.2%
편	1375	2.0%
토	1301	1.9%
Other values (1943)	44091	65.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	56198	82.9%
Space Separator	6129	9.0%
Other Punctuation	4775	7.0%
Close Punctuation	228	0.3%
Open Punctuation	228	0.3%
Lowercase Letter	181	0.3%
Decimal Number	14	< 0.1%
Uppercase Letter	10	< 0.1%
Dash Punctuation	5	< 0.1%
Math Symbol	4	< 0.1%
Other values (4)	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
磁	2043	3.6%
片	1869	3.3%
靑	1794	3.2%
器	1583	2.8%
기	1492	2.7%
文	1470	2.6%
편	1375	2.4%
토	1301	2.3%
土	1230	2.2%
접	1000	1.8%
Other values (1888)	41041	73.0%

Lowercase Letter

Value	Count	Frequency (%)
e	26	14.4%
r	21	11.6%
a	18	9.9%
n	14	7.7%
o	14	7.7%
c	11	6.1%
l	11	6.1%
i	11	6.1%
s	9	5.0%
d	9	5.0%
Other values (9)	37	20.4%

Uppercase Letter

Value	Count	Frequency (%)
F	2	20.0%
T	2	20.0%
I	1	10.0%
G	1	10.0%
S	1	10.0%
H	1	10.0%
A	1	10.0%
O	1	10.0%

Other Punctuation

Value	Count	Frequency (%)
,	4630	97.0%
'	90	1.9%
·	49	1.0%
.	3	0.1%
"	2	< 0.1%
/	1	< 0.1%

Decimal Number

Value	Count	Frequency (%)
2	8	57.1%
1	3	21.4%
7	1	7.1%
8	1	7.1%
6	1	7.1%

Close Punctuation

Value	Count	Frequency (%)
)	181	79.4%
』	24	10.5%
」	19	8.3%
》	4	1.8%

Open Punctuation

Value	Count	Frequency (%)
(	181	79.4%
『	25	11.0%
「	18	7.9%
《	4	1.8%

Math Symbol

Value	Count	Frequency (%)
+	2	50.0%
∼	1	25.0%
~	1	25.0%

Space Separator

Value	Count	Frequency (%)
	6129	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	5	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	2	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	1	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅱ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Han	33323	49.2%
Hangul	22874	33.7%
Common	11387	16.8%
Latin	192	0.3%
Hiragana	1	< 0.1%

Most frequent character per script

Han

Value	Count	Frequency (%)
磁	2043	6.1%
片	1869	5.6%
靑	1794	5.4%
器	1583	4.8%
文	1470	4.4%
土	1230	3.7%
白	854	2.6%
花	704	2.1%
壺	574	1.7%
部	556	1.7%
Other values (1428)	20646	62.0%

Hangul

Value	Count	Frequency (%)
기	1492	6.5%
편	1375	6.0%
토	1301	5.7%
접	1000	4.4%
시	950	4.2%
문	626	2.7%
부	615	2.7%
와	482	2.1%
연	461	2.0%
동	447	2.0%
Other values (449)	14125	61.8%

Latin

Value	Count	Frequency (%)
e	26	13.5%
r	21	10.9%
a	18	9.4%
n	14	7.3%
o	14	7.3%
c	11	5.7%
l	11	5.7%
i	11	5.7%
s	9	4.7%
d	9	4.7%
Other values (18)	48	25.0%

Common

Value	Count	Frequency (%)
	6129	53.8%
,	4630	40.7%
)	181	1.6%
(	181	1.6%
'	90	0.8%
·	49	0.4%
『	25	0.2%
』	24	0.2%
」	19	0.2%
「	18	0.2%
Other values (17)	41	0.4%

Hiragana

Value	Count	Frequency (%)
の	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
CJK	32494	47.9%
Hangul	22865	33.7%
ASCII	11432	16.9%
CJK Compat Ideographs	829	1.2%
None	143	0.2%
Compat Jamo	9	< 0.1%
Punctuation	2	< 0.1%
Hiragana	1	< 0.1%
Math Operators	1	< 0.1%
Number Forms	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	6129	53.6%
,	4630	40.5%
)	181	1.6%
(	181	1.6%
'	90	0.8%
e	26	0.2%
r	21	0.2%
a	18	0.2%
n	14	0.1%
o	14	0.1%
Other values (34)	128	1.1%

CJK

Value	Count	Frequency (%)
磁	2043	6.3%
片	1869	5.8%
靑	1794	5.5%
器	1583	4.9%
文	1470	4.5%
土	1230	3.8%
白	854	2.6%
花	704	2.2%
壺	574	1.8%
部	556	1.7%
Other values (1350)	19817	61.0%

Hangul

Value	Count	Frequency (%)
기	1492	6.5%
편	1375	6.0%
토	1301	5.7%
접	1000	4.4%
시	950	4.2%
문	626	2.7%
부	615	2.7%
와	482	2.1%
연	461	2.0%
동	447	2.0%
Other values (447)	14116	61.7%

CJK Compat Ideographs

Value	Count	Frequency (%)
蓮	349	42.1%
金	110	13.3%
列	44	5.3%
立	43	5.2%
龍	38	4.6%
李	25	3.0%
兩	24	2.9%
六	15	1.8%
丹	14	1.7%
拓	12	1.4%
Other values (68)	155	18.7%

None

Value	Count	Frequency (%)
·	49	34.3%
『	25	17.5%
』	24	16.8%
」	19	13.3%
「	18	12.6%
》	4	2.8%
《	4	2.8%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	8	88.9%
ㄱ	1	11.1%

Punctuation

Value	Count	Frequency (%)
‘	1	50.0%
’	1	50.0%

Hiragana

Value	Count	Frequency (%)
の	1	100.0%

Math Operators

Value	Count	Frequency (%)
∼	1	100.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	1	100.0%

재질(중)
Text

MISSING

Distinct	72
Distinct (%)	0.8%
Missing	1437
Missing (%)	14.4%
Memory size	156.2 KiB

Length

Max length	5
Median length	2
Mean length	2.046479
Min length	1

Characters and Unicode

Total characters	17524
Distinct characters	84
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	16 ?
Unique (%)	0.2%

Sample

1st row	연질
2nd row	흑유
3rd row	연질
4th row	동합금
5th row	경질

Value	Count	Frequency (%)
유리	2051	24.0%
청자	1323	15.5%
경질	944	11.0%
연질	940	11.0%
백자	824	9.6%
동합금	416	4.9%
기타	362	4.2%
분청	221	2.6%
철	220	2.6%
청백자	177	2.1%
Other values (62)	1085	12.7%

Most occurring characters

Value	Count	Frequency (%)
자	2329	13.3%
유	2294	13.1%
질	2056	11.7%
리	2053	11.7%
청	1835	10.5%
백	1015	5.8%
연	947	5.4%
경	944	5.4%
동	577	3.3%
금	474	2.7%
Other values (74)	3000	17.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	17524	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
자	2329	13.3%
유	2294	13.1%
질	2056	11.7%
리	2053	11.7%
청	1835	10.5%
백	1015	5.8%
연	947	5.4%
경	944	5.4%
동	577	3.3%
금	474	2.7%
Other values (74)	3000	17.1%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	17524	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
자	2329	13.3%
유	2294	13.1%
질	2056	11.7%
리	2053	11.7%
청	1835	10.5%
백	1015	5.8%
연	947	5.4%
경	944	5.4%
동	577	3.3%
금	474	2.7%
Other values (74)	3000	17.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	17524	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
자	2329	13.3%
유	2294	13.1%
질	2056	11.7%
리	2053	11.7%
청	1835	10.5%
백	1015	5.8%
연	947	5.4%
경	944	5.4%
동	577	3.3%
금	474	2.7%
Other values (74)	3000	17.1%

분류(대)
Categorical

Distinct	14
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

식생활	4307
미디어	2081
주생활	898
산업/생업	654
사회생활	503
Other values (9)	1557

Length

Max length	5
Median length	3
Mean length	3.2938
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	식생활
2nd row	식생활
3rd row	식생활
4th row	주생활
5th row	사회생활

Common Values

Value	Count	Frequency (%)
식생활	4307	43.1%
미디어	2081	20.8%
주생활	898	9.0%
산업/생업	654	6.5%
사회생활	503	5.0%
문화예술	481	4.8%
<NA>	410	4.1%
의생활	189	1.9%
기타자료	143	1.4%
군사	133	1.3%
Other values (4)	201	2.0%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
식생활	4307	43.1%
미디어	2081	20.8%
주생활	898	9.0%
산업/생업	654	6.5%
사회생활	503	5.0%
문화예술	481	4.8%
na	410	4.1%
의생활	189	1.9%
기타자료	143	1.4%
군사	133	1.3%
Other values (4)	201	2.0%

분류(중)
Text

MISSING

Distinct	53
Distinct (%)	0.6%
Missing	417
Missing (%)	4.2%
Memory size	156.2 KiB

Length

Max length	7
Median length	3
Mean length	3.2163206
Min length	2

Characters and Unicode

Total characters	30822
Distinct characters	86
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	6 ?
Unique (%)	0.1%

Sample

1st row	음식기
2nd row	음식기
3rd row	음식기
4th row	생활용품/가전
5th row	의례생활

Value	Count	Frequency (%)
음식기	4230	44.1%
기록물	2059	21.5%
건축부재	549	5.7%
생활용품/가전	349	3.6%
서화	285	3.0%
의례생활	266	2.8%
선사생활	251	2.6%
사회제도	218	2.3%
문헌	164	1.7%
장신구	141	1.5%
Other values (43)	1071	11.2%

Most occurring characters

Value	Count	Frequency (%)
기	6452	20.9%
음	4237	13.7%
식	4231	13.7%
록	2059	6.7%
물	2059	6.7%
생	866	2.8%
활	866	2.8%
재	682	2.2%
건	549	1.8%
축	549	1.8%
Other values (76)	8272	26.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	30428	98.7%
Other Punctuation	394	1.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	6452	21.2%
음	4237	13.9%
식	4231	13.9%
록	2059	6.8%
물	2059	6.8%
생	866	2.8%
활	866	2.8%
재	682	2.2%
건	549	1.8%
축	549	1.8%
Other values (75)	7878	25.9%

Other Punctuation

Value	Count	Frequency (%)
/	394	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	30428	98.7%
Common	394	1.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	6452	21.2%
음	4237	13.9%
식	4231	13.9%
록	2059	6.8%
물	2059	6.8%
생	866	2.8%
활	866	2.8%
재	682	2.2%
건	549	1.8%
축	549	1.8%
Other values (75)	7878	25.9%

Common

Value	Count	Frequency (%)
/	394	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	30428	98.7%
ASCII	394	1.3%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
기	6452	21.2%
음	4237	13.9%
식	4231	13.9%
록	2059	6.8%
물	2059	6.8%
생	866	2.8%
활	866	2.8%
재	682	2.2%
건	549	1.8%
축	549	1.8%
Other values (75)	7878	25.9%

ASCII

Value	Count	Frequency (%)
/	394	100.0%

분류(소)
Text

MISSING

Distinct	116
Distinct (%)	1.3%
Missing	954
Missing (%)	9.5%
Memory size	156.2 KiB

Length

Max length	9
Median length	2
Mean length	2.4660623
Min length	1

Characters and Unicode

Total characters	22308
Distinct characters	154
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	20 ?
Unique (%)	0.2%

Sample

1st row	음식
2nd row	저장운반
3rd row	기타
4th row	제례
5th row	회화

Value	Count	Frequency (%)
음식	2842	31.4%
필름	2054	22.7%
저장운반	748	8.3%
지붕재	487	5.4%
기타	372	4.1%
회화	195	2.2%
문서	190	2.1%
생활구일체	156	1.7%
상장	148	1.6%
화장구	127	1.4%
Other values (106)	1727	19.1%

Most occurring characters

Value	Count	Frequency (%)
식	3001	13.5%
음	2842	12.7%
필	2054	9.2%
름	2054	9.2%
장	1215	5.4%
반	779	3.5%
운	755	3.4%
저	748	3.4%
재	602	2.7%
구	581	2.6%
Other values (144)	7677	34.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	22222	99.6%
Other Punctuation	84	0.4%
Close Punctuation	1	< 0.1%
Open Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
식	3001	13.5%
음	2842	12.8%
필	2054	9.2%
름	2054	9.2%
장	1215	5.5%
반	779	3.5%
운	755	3.4%
저	748	3.4%
재	602	2.7%
구	581	2.6%
Other values (141)	7591	34.2%

Other Punctuation

Value	Count	Frequency (%)
/	84	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	22222	99.6%
Common	86	0.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
식	3001	13.5%
음	2842	12.8%
필	2054	9.2%
름	2054	9.2%
장	1215	5.5%
반	779	3.5%
운	755	3.4%
저	748	3.4%
재	602	2.7%
구	581	2.6%
Other values (141)	7591	34.2%

Common

Value	Count	Frequency (%)
/	84	97.7%
)	1	1.2%
(	1	1.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	22222	99.6%
ASCII	86	0.4%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
식	3001	13.5%
음	2842	12.8%
필	2054	9.2%
름	2054	9.2%
장	1215	5.5%
반	779	3.5%
운	755	3.4%
저	748	3.4%
재	602	2.7%
구	581	2.6%
Other values (141)	7591	34.2%

ASCII

Value	Count	Frequency (%)
/	84	97.7%
)	1	1.2%
(	1	1.2%

분류(세)
Text

MISSING

Distinct	280
Distinct (%)	4.4%
Missing	3666
Missing (%)	36.7%
Memory size	156.2 KiB

Length

Max length	7
Median length	6
Mean length	2.2192927
Min length	1

Characters and Unicode

Total characters	14057
Distinct characters	241
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	89 ?
Unique (%)	1.4%

Sample

1st row	발
2nd row	항아리
3rd row	열쇠패
4th row	제기
5th row	일반회화

Value	Count	Frequency (%)
접시	1023	16.2%
항아리	488	7.7%
기타	468	7.4%
완	304	4.8%
병	272	4.3%
발	235	3.7%
대접	233	3.7%
일반회화	173	2.7%
수막새	172	2.7%
개	134	2.1%
Other values (270)	2832	44.7%

Most occurring characters

Value	Count	Frequency (%)
접	1257	8.9%
시	1129	8.0%
기	567	4.0%
항	516	3.7%
리	501	3.6%
아	489	3.5%
타	473	3.4%
일	328	2.3%
완	312	2.2%
대	306	2.2%
Other values (231)	8179	58.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	13750	97.8%
Open Punctuation	151	1.1%
Close Punctuation	151	1.1%
Other Punctuation	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
접	1257	9.1%
시	1129	8.2%
기	567	4.1%
항	516	3.8%
리	501	3.6%
아	489	3.6%
타	473	3.4%
일	328	2.4%
완	312	2.3%
대	306	2.2%
Other values (228)	7872	57.3%

Open Punctuation

Value	Count	Frequency (%)
(	151	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	151	100.0%

Other Punctuation

Value	Count	Frequency (%)
/	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	13750	97.8%
Common	307	2.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
접	1257	9.1%
시	1129	8.2%
기	567	4.1%
항	516	3.8%
리	501	3.6%
아	489	3.6%
타	473	3.4%
일	328	2.4%
완	312	2.3%
대	306	2.2%
Other values (228)	7872	57.3%

Common

Value	Count	Frequency (%)
(	151	49.2%
)	151	49.2%
/	5	1.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	13750	97.8%
ASCII	307	2.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
접	1257	9.1%
시	1129	8.2%
기	567	4.1%
항	516	3.8%
리	501	3.6%
아	489	3.6%
타	473	3.4%
일	328	2.4%
완	312	2.3%
대	306	2.2%
Other values (228)	7872	57.3%

ASCII

Value	Count	Frequency (%)
(	151	49.2%
)	151	49.2%
/	5	1.6%

Heatmap
Table

	소장기관명	재질(중)	분류(대)	분류(중)
소장기관명	1.000	0.838	0.783	0.844
재질(중)	0.838	1.000	0.887	0.918
분류(대)	0.783	0.887	1.000	1.000
분류(중)	0.844	0.918	1.000	1.000

Heatmap
Table

	소장기관명	분류(대)
소장기관명	1.000	0.379
분류(대)	0.379	1.000

Heatmap
Table

	소장기관명	분류(대)
소장기관명	1.000	0.379
분류(대)	0.379	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	소장품고유아이디	소장기관명	명칭	다른명칭	재질(중)	분류(대)	분류(중)	분류(소)	분류(세)
23745	PS0100100500105708900000	국립1-국립광주박물관-광주	발형토기저부편	鉢形土器底部片	연질	식생활	음식기	음식	발
40889	PS0100100100701311500000	국립1-국립중앙박물관-신안	흑유도호	黑釉陶壺	흑유	식생활	음식기	저장운반	항아리
58057	PS0100100101103347900000	국립1-국립중앙박물관-신수	토기 바닥 조각	土器底部片, 토기저부편, 토기 저부편	연질	식생활	음식기	<NA>	<NA>
77500	PS0100100101101242800000	국립1-국립중앙박물관-신수	십장생 열쇠패	十長生 열쇠패, 열쇠패	동합금	주생활	생활용품/가전	기타	열쇠패
80868	PS0100100101100215000000	국립1-국립중앙박물관-신수	뚜껑 있는 굽다리 접시	高杯, 有蓋高杯, 고배, 유개고배	경질	사회생활	의례생활	제례	제기
51898	PS0100100100900259000000	국립1-국립중앙박물관-동원	고종 어진	高宗御眞	견	문화예술	서화	회화	일반회화
31586	PS0100100101100523300000	국립1-국립중앙박물관-신수	각진 병	扁甁, 편병, 광구편병, 廣口扁甁	<NA>	식생활	음식기	저장운반	병
544	PS0100100101600980600000	국립1-국립중앙박물관-구	대한제국 관련 기사가 실린 영국신문	<NA>	기타	미디어	신문/방송	신문	<NA>
76645	PS0100100101700369300000	국립1-국립중앙박물관-증	박자	拍子, 두들개	<NA>	<NA>	<NA>	<NA>	<NA>
88934	PS0100100100700874200000	국립1-국립중앙박물관-신안	청자쌍어문전접시	靑磁雙魚文전접시	청자	식생활	음식기	음식	접시

	소장품고유아이디	소장기관명	명칭	다른명칭	재질(중)	분류(대)	분류(중)	분류(소)	분류(세)
23013	PS0100100102102372700000	국립1-국립중앙박물관-고적	말띠꾸미개편	雲珠片	청동	교통/통신	마구	장식	운주
87281	PS0100100102002730600000	국립1-국립중앙박물관-건판	경기개성 천마산 관음사 석조관세음보살반가상	<NA>	유리	미디어	기록물	필름	<NA>
45448	PS0100100102100429000000	국립1-국립중앙박물관-고적	백자편	白磁片	백자	식생활	음식기	음식	<NA>
30876	PS0100100101102391400000	국립1-국립중앙박물관-신수	그물추	土製漁網錘, 토제어망추, 고기잡이그물추	연질	산업/생업	어업	어로	어망추
4817	PS0100100101102085000000	국립1-국립중앙박물관-신수	귀걸이	金銅耳飾, 금동이식, 금동귀걸이	금동	의생활	장신구	신체장식	이식(귀걸이)
67395	PS0100100102003456000000	국립1-국립중앙박물관-건판	서울 서대문 홍제동 오층석탑	<NA>	유리	미디어	기록물	필름	<NA>
50711	PS0100100101700593200000	국립1-국립중앙박물관-증	백자대접	백자 대접	백자	식생활	음식기	음식	대접
39775	PS0100100102002763200000	국립1-국립중앙박물관-건판	경북경주 호우총 출토 각종 행엽	<NA>	유리	미디어	기록물	필름	<NA>
54632	PS0100100101101972500000	국립1-국립중앙박물관-신수	항아리	圓底短頸壺, 원저단경호, 둥근밑항아리, 둥근바닥항아리	연질	식생활	음식기	저장운반	항아리
9929	PS0100100101104016300000	국립1-국립중앙박물관-신수	수키와	圓瓦, 원와	경질	주생활	건축부재	지붕재	수키와

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Close Punctuation

Open Punctuation

Other Punctuation

Math Symbol

Space Separator

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Han

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

CJK

CJK Compat Ideographs

None

Compat Jamo

Number Forms

Math Operators

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Close Punctuation

Open Punctuation

Math Symbol

Space Separator

Dash Punctuation

Modifier Symbol

Initial Punctuation

Final Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Han

Hangul

Latin

Common

Hiragana

Most occurring blocks

Most frequent character per block

ASCII

CJK

Hangul

CJK Compat Ideographs

None

Compat Jamo

Punctuation

Hiragana