gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	10000
Missing cells	1
Missing cells (%)	< 0.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	634.8 KiB
Average record size in memory	65.0 B

Variable types

Numeric	1
Text	6

Dataset

Description	충청남도 청양군 정산면에 소재하는 정산도서관의 도서 목록에 관한 데이터로 등록번호, 청구기호, 서명, 저작자, 발행자, 발행년에 관한 데이터를 제공합니다.
Author	충청남도
URL	https://alldam.chungnam.go.kr/index.chungnam?menuCd=DOM_000000201001001001&st=&cds=&orgCd=&apiType=&isOpen=Y&pageIndex=409&beforeMenuCd=DOM_000000201001001000&publicdatapk=3062732

Alerts

`순번` has unique values	Unique
`등록번호` has unique values	Unique

Reproduction

Analysis started	2024-01-09 19:43:09.052561
Analysis finished	2024-01-09 19:43:12.295652
Duration	3.24 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

순번
Real number (ℝ)

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	19129.005

Minimum	1
Maximum	38522
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	1
5-th percentile	1795.6
Q1	9356.25
median	19187.5
Q3	28781.75
95-th percentile	36569.1
Maximum	38522
Range	38521
Interquartile range (IQR)	19425.5

Descriptive statistics

Standard deviation	11154.501
Coefficient of variation (CV)	0.58311976
Kurtosis	-1.2067748
Mean	19129.005
Median Absolute Deviation (MAD)	9723
Skewness	0.0082152513
Sum	1.9129005 × 10⁸
Variance	1.2442289 × 10⁸
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
35049	1	< 0.1%
34135	1	< 0.1%
24624	1	< 0.1%
21754	1	< 0.1%
5434	1	< 0.1%
30552	1	< 0.1%
4284	1	< 0.1%
16078	1	< 0.1%
20477	1	< 0.1%
3532	1	< 0.1%
Other values (9990)	9990	99.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	< 0.1%
3	1	< 0.1%
10	1	< 0.1%
15	1	< 0.1%
16	1	< 0.1%
20	1	< 0.1%
22	1	< 0.1%
26	1	< 0.1%
45	1	< 0.1%
46	1	< 0.1%

Value	Count	Frequency (%)
38522	1	< 0.1%
38519	1	< 0.1%
38518	1	< 0.1%
38507	1	< 0.1%
38502	1	< 0.1%
38500	1	< 0.1%
38494	1	< 0.1%
38493	1	< 0.1%
38491	1	< 0.1%
38479	1	< 0.1%

등록번호
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	12
Median length	12
Mean length	12
Min length	12

Characters and Unicode

Total characters	120000
Distinct characters	17
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	EM0000009180
2nd row	GM0000011087
3rd row	GM0000020943
4th row	EM0000009251
5th row	EM0000008867

Value	Count	Frequency (%)
em0000009180	1	< 0.1%
gm0000009013	1	< 0.1%
gm0000010139	1	< 0.1%
em0000007135	1	< 0.1%
gm0000013321	1	< 0.1%
nb0000000648	1	< 0.1%
em0000001413	1	< 0.1%
gm0000016038	1	< 0.1%
em0000000696	1	< 0.1%
gm0000018536	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
0	61531	51.3%
M	9638	8.0%
1	6978	5.8%
G	5677	4.7%
2	4436	3.7%
3	4180	3.5%
4	4065	3.4%
5	3940	3.3%
6	3765	3.1%
9	3744	3.1%
Other values (7)	12046	10.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	100000	83.3%
Uppercase Letter	20000	16.7%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	61531	61.5%
1	6978	7.0%
2	4436	4.4%
3	4180	4.2%
4	4065	4.1%
5	3940	3.9%
6	3765	3.8%
9	3744	3.7%
8	3722	3.7%
7	3639	3.6%

Uppercase Letter

Value	Count	Frequency (%)
M	9638	48.2%
G	5677	28.4%
E	2663	13.3%
C	1461	7.3%
N	199	1.0%
B	199	1.0%
S	163	0.8%

Most occurring scripts

Value	Count	Frequency (%)
Common	100000	83.3%
Latin	20000	16.7%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	61531	61.5%
1	6978	7.0%
2	4436	4.4%
3	4180	4.2%
4	4065	4.1%
5	3940	3.9%
6	3765	3.8%
9	3744	3.7%
8	3722	3.7%
7	3639	3.6%

Latin

Value	Count	Frequency (%)
M	9638	48.2%
G	5677	28.4%
E	2663	13.3%
C	1461	7.3%
N	199	1.0%
B	199	1.0%
S	163	0.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	120000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	61531	51.3%
M	9638	8.0%
1	6978	5.8%
G	5677	4.7%
2	4436	3.7%
3	4180	3.5%
4	4065	3.4%
5	3940	3.3%
6	3765	3.1%
9	3744	3.1%
Other values (7)	12046	10.0%

청구기호
Text

Distinct	9832
Distinct (%)	98.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	21
Median length	18
Mean length	12.4172
Min length	7

Characters and Unicode

Total characters	124172
Distinct characters	627
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9689 ?
Unique (%)	96.9%

Sample

1st row	아동 498-정22ㅇ
2nd row	327.04-정67ㅇ
3rd row	517.52-이25ㅆ
4th row	아동 443.1-버878ㄹ
5th row	아동 813.8-박293ㅇ

Value	Count	Frequency (%)
아동	2565	18.0%
유아	1397	9.8%
dvd	199	1.4%
오디오	39	0.3%
참고	34	0.2%
388-호295	5	< 0.1%
843-m685a	5	< 0.1%
813.8-동95ㄱ	5	< 0.1%
747-b881a	4	< 0.1%
747-와68ㅌ	4	< 0.1%
Other values (9819)	9980	70.1%

Most occurring characters

Value	Count	Frequency (%)
-	13791	11.1%
8	11553	9.3%
.	8773	7.1%
1	8773	7.1%
2	7425	6.0%
3	7234	5.8%
4	6573	5.3%
9	6056	4.9%
5	6012	4.8%
7	5536	4.5%
Other values (617)	42446	34.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	68320	55.0%
Other Letter	25229	20.3%
Dash Punctuation	13791	11.1%
Other Punctuation	8775	7.1%
Space Separator	4237	3.4%
Lowercase Letter	2766	2.2%
Uppercase Letter	829	0.7%
Math Symbol	225	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	4066	16.1%
동	2620	10.4%
ㅇ	1534	6.1%
유	1496	5.9%
ㅅ	1061	4.2%
김	772	3.1%
ㄱ	768	3.0%
이	764	3.0%
ㅈ	540	2.1%
ㄴ	517	2.0%
Other values (555)	11091	44.0%

Uppercase Letter

Value	Count	Frequency (%)
D	410	49.5%
V	199	24.0%
S	33	4.0%
M	30	3.6%
B	27	3.3%
C	17	2.1%
L	11	1.3%
R	11	1.3%
H	9	1.1%
J	9	1.1%
Other values (14)	73	8.8%

Lowercase Letter

Value	Count	Frequency (%)
v	2530	91.5%
s	25	0.9%
a	25	0.9%
w	19	0.7%
m	17	0.6%
b	16	0.6%
p	14	0.5%
h	13	0.5%
d	13	0.5%
t	13	0.5%
Other values (13)	81	2.9%

Decimal Number

Value	Count	Frequency (%)
8	11553	16.9%
1	8773	12.8%
2	7425	10.9%
3	7234	10.6%
4	6573	9.6%
9	6056	8.9%
5	6012	8.8%
7	5536	8.1%
6	5040	7.4%
0	4118	6.0%

Other Punctuation

Value	Count	Frequency (%)
.	8773	> 99.9%
·	2	< 0.1%

Dash Punctuation

Value	Count	Frequency (%)
-	13791	100.0%

Space Separator

Value	Count	Frequency (%)
	4237	100.0%

Math Symbol

Value	Count	Frequency (%)
=	225	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	95348	76.8%
Hangul	25229	20.3%
Latin	3595	2.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	4066	16.1%
동	2620	10.4%
ㅇ	1534	6.1%
유	1496	5.9%
ㅅ	1061	4.2%
김	772	3.1%
ㄱ	768	3.0%
이	764	3.0%
ㅈ	540	2.1%
ㄴ	517	2.0%
Other values (555)	11091	44.0%

Latin

Value	Count	Frequency (%)
v	2530	70.4%
D	410	11.4%
V	199	5.5%
S	33	0.9%
M	30	0.8%
B	27	0.8%
s	25	0.7%
a	25	0.7%
w	19	0.5%
C	17	0.5%
Other values (37)	280	7.8%

Common

Value	Count	Frequency (%)
-	13791	14.5%
8	11553	12.1%
.	8773	9.2%
1	8773	9.2%
2	7425	7.8%
3	7234	7.6%
4	6573	6.9%
9	6056	6.4%
5	6012	6.3%
7	5536	5.8%
Other values (5)	13622	14.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	98941	79.7%
Hangul	17953	14.5%
Compat Jamo	7276	5.9%
None	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	13791	13.9%
8	11553	11.7%
.	8773	8.9%
1	8773	8.9%
2	7425	7.5%
3	7234	7.3%
4	6573	6.6%
9	6056	6.1%
5	6012	6.1%
7	5536	5.6%
Other values (51)	17215	17.4%

Hangul

Value	Count	Frequency (%)
아	4066	22.6%
동	2620	14.6%
유	1496	8.3%
김	772	4.3%
이	764	4.3%
박	322	1.8%
오	203	1.1%
정	199	1.1%
최	159	0.9%
조	150	0.8%
Other values (536)	7202	40.1%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	1534	21.1%
ㅅ	1061	14.6%
ㄱ	768	10.6%
ㅈ	540	7.4%
ㄴ	517	7.1%
ㅁ	466	6.4%
ㅎ	455	6.3%
ㄷ	424	5.8%
ㅂ	421	5.8%
ㅊ	285	3.9%
Other values (9)	805	11.1%

None

Value	Count	Frequency (%)
·	2	100.0%

서명
Text

Distinct	9895
Distinct (%)	99.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	120
Median length	80
Mean length	21.9167
Min length	1

Characters and Unicode

Total characters	219167
Distinct characters	1798
Distinct categories	18 ?
Distinct scripts	6 ?
Distinct blocks	15 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9797 ?
Unique (%)	98.0%

Sample

1st row	어서 와, 여기는 꾸룩새 연구소야 : 새박사 다미의 부엉이 펠릿 탐구생활
2nd row	(적게 벌어도 잘사는)여자의 습관
3rd row	쏘팟의 하나만 빼고 다 먹는 다이어트 : 맘껏 먹으면서 평생 날씬하게
4th row	루시와 우주로 날아간 라이카
5th row	(119 소방관 아저씨의)연탄꽃이 활짝 피었습니다

Value	Count	Frequency (%)
	4626	8.3%
이야기	394	0.7%
장편소설	382	0.7%
1	287	0.5%
2	271	0.5%
내	220	0.4%
위한	209	0.4%
우리	167	0.3%
the	147	0.3%
비밀	126	0.2%
Other values (23216)	49034	87.8%

Most occurring characters

Value	Count	Frequency (%)
	45882	20.9%
:	4594	2.1%
의	3879	1.8%
이	3869	1.8%
는	2862	1.3%
e	2300	1.0%
기	2105	1.0%
(	2046	0.9%
)	2046	0.9%
리	1960	0.9%
Other values (1788)	147624	67.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	133141	60.7%
Space Separator	45882	20.9%
Lowercase Letter	18812	8.6%
Other Punctuation	8912	4.1%
Decimal Number	4201	1.9%
Uppercase Letter	2994	1.4%
Open Punctuation	2097	1.0%
Close Punctuation	2097	1.0%
Math Symbol	817	0.4%
Dash Punctuation	166	0.1%
Other values (8)	48	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	3879	2.9%
이	3869	2.9%
는	2862	2.1%
기	2105	1.6%
리	1960	1.5%
사	1885	1.4%
한	1862	1.4%
가	1811	1.4%
다	1733	1.3%
아	1665	1.3%
Other values (1673)	109510	82.3%

Lowercase Letter

Value	Count	Frequency (%)
e	2300	12.2%
o	1630	8.7%
a	1620	8.6%
i	1411	7.5%
n	1368	7.3%
t	1339	7.1%
r	1247	6.6%
s	1181	6.3%
l	865	4.6%
h	856	4.6%
Other values (17)	4995	26.6%

Uppercase Letter

Value	Count	Frequency (%)
S	337	11.3%
T	315	10.5%
C	231	7.7%
D	162	5.4%
A	157	5.2%
P	157	5.2%
B	151	5.0%
M	149	5.0%
E	147	4.9%
N	140	4.7%
Other values (16)	1048	35.0%

Other Punctuation

Value	Count	Frequency (%)
:	4594	51.5%
,	1830	20.5%
.	1351	15.2%
!	651	7.3%
·	199	2.2%
'	153	1.7%
＆	73	0.8%
％	19	0.2%
&	14	0.2%
/	9	0.1%
Other values (6)	19	0.2%

Decimal Number

Value	Count	Frequency (%)
1	1101	26.2%
0	836	19.9%
2	714	17.0%
3	399	9.5%
5	291	6.9%
4	244	5.8%
7	185	4.4%
9	148	3.5%
6	145	3.5%
8	138	3.3%

Math Symbol

Value	Count	Frequency (%)
=	714	87.4%
~	38	4.7%
+	24	2.9%
∼	18	2.2%
<	10	1.2%
>	10	1.2%
＋	2	0.2%
×	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
(	2046	97.6%
[	40	1.9%
『	7	0.3%
「	3	0.1%
〈	1	< 0.1%

Close Punctuation

Value	Count	Frequency (%)
)	2046	97.6%
]	40	1.9%
』	7	0.3%
」	3	0.1%
〉	1	< 0.1%

Other Symbol

Value	Count	Frequency (%)
ⓔ	12	80.0%
★	1	6.7%
℃	1	6.7%
㎡	1	6.7%

Letter Number

Value	Count	Frequency (%)
Ⅱ	12	50.0%
Ⅰ	8	33.3%
Ⅲ	4	16.7%

Dash Punctuation

Value	Count	Frequency (%)
-	165	99.4%
―	1	0.6%

Currency Symbol

Value	Count	Frequency (%)
＄	1	50.0%
$	1	50.0%

Other Number

Value	Count	Frequency (%)
②	1	50.0%
①	1	50.0%

Space Separator

Value	Count	Frequency (%)
	45882	100.0%

Control

Value	Count	Frequency (%)
	2	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	1	100.0%

Final Punctuation

Value	Count	Frequency (%)
”	1	100.0%

Initial Punctuation

Value	Count	Frequency (%)
“	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	132454	60.4%
Common	64196	29.3%
Latin	21830	10.0%
Han	564	0.3%
Hiragana	83	< 0.1%
Katakana	40	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	3879	2.9%
이	3869	2.9%
는	2862	2.2%
기	2105	1.6%
리	1960	1.5%
사	1885	1.4%
한	1862	1.4%
가	1811	1.4%
다	1733	1.3%
아	1665	1.3%
Other values (1307)	108823	82.2%

Han

Value	Count	Frequency (%)
國	14	2.5%
大	14	2.5%
的	13	2.3%
三	11	2.0%
志	9	1.6%
說	8	1.4%
小	8	1.4%
下	8	1.4%
河	7	1.2%
事	7	1.2%
Other values (295)	465	82.4%

Common

Value	Count	Frequency (%)
	45882	71.5%
:	4594	7.2%
(	2046	3.2%
)	2046	3.2%
,	1830	2.9%
.	1351	2.1%
1	1101	1.7%
0	836	1.3%
=	714	1.1%
2	714	1.1%
Other values (49)	3082	4.8%

Latin

Value	Count	Frequency (%)
e	2300	10.5%
o	1630	7.5%
a	1620	7.4%
i	1411	6.5%
n	1368	6.3%
t	1339	6.1%
r	1247	5.7%
s	1181	5.4%
l	865	4.0%
h	856	3.9%
Other values (46)	8013	36.7%

Hiragana

Value	Count	Frequency (%)
ん	6	7.2%
の	6	7.2%
ち	5	6.0%
こ	4	4.8%
と	4	4.8%
る	4	4.8%
ど	4	4.8%
う	4	4.8%
が	3	3.6%
に	3	3.6%
Other values (25)	40	48.2%

Katakana

Value	Count	Frequency (%)
ト	3	7.5%
リ	3	7.5%
イ	3	7.5%
ッ	2	5.0%
エ	2	5.0%
ダ	2	5.0%
ウ	2	5.0%
ア	2	5.0%
ワ	2	5.0%
ク	2	5.0%
Other values (16)	17	42.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	132446	60.4%
ASCII	85631	39.1%
CJK	551	0.3%
None	329	0.2%
Hiragana	83	< 0.1%
Katakana	40	< 0.1%
Number Forms	24	< 0.1%
Math Operators	18	< 0.1%
Enclosed Alphanum	14	< 0.1%
CJK Compat Ideographs	13	< 0.1%
Other values (5)	18	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	45882	53.6%
:	4594	5.4%
e	2300	2.7%
(	2046	2.4%
)	2046	2.4%
,	1830	2.1%
o	1630	1.9%
a	1620	1.9%
i	1411	1.6%
n	1368	1.6%
Other values (76)	20904	24.4%

Hangul

Value	Count	Frequency (%)
의	3879	2.9%
이	3869	2.9%
는	2862	2.2%
기	2105	1.6%
리	1960	1.5%
사	1885	1.4%
한	1862	1.4%
가	1811	1.4%
다	1733	1.3%
아	1665	1.3%
Other values (1303)	108815	82.2%

None

Value	Count	Frequency (%)
·	199	60.5%
＆	73	22.2%
％	19	5.8%
đ	9	2.7%
』	7	2.1%
『	7	2.1%
「	3	0.9%
」	3	0.9%
＋	2	0.6%
！	2	0.6%
Other values (5)	5	1.5%

Math Operators

Value	Count	Frequency (%)
∼	18	100.0%

CJK

Value	Count	Frequency (%)
國	14	2.5%
大	14	2.5%
的	13	2.4%
三	11	2.0%
志	9	1.6%
說	8	1.5%
小	8	1.5%
下	8	1.5%
河	7	1.3%
事	7	1.3%
Other values (287)	452	82.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	12	50.0%
Ⅰ	8	33.3%
Ⅲ	4	16.7%

Enclosed Alphanum

Value	Count	Frequency (%)
ⓔ	12	85.7%
②	1	7.1%
①	1	7.1%

Hiragana

Value	Count	Frequency (%)
ん	6	7.2%
の	6	7.2%
ち	5	6.0%
こ	4	4.8%
と	4	4.8%
る	4	4.8%
ど	4	4.8%
う	4	4.8%
が	3	3.6%
に	3	3.6%
Other values (25)	40	48.2%

Punctuation

Value	Count	Frequency (%)
…	4	57.1%
―	1	14.3%
”	1	14.3%
“	1	14.3%

Katakana

Value	Count	Frequency (%)
ト	3	7.5%
リ	3	7.5%
イ	3	7.5%
ッ	2	5.0%
エ	2	5.0%
ダ	2	5.0%
ウ	2	5.0%
ア	2	5.0%
ワ	2	5.0%
ク	2	5.0%
Other values (16)	17	42.5%

CJK Compat Ideographs

Value	Count	Frequency (%)
論	3	23.1%
樂	2	15.4%
李	2	15.4%
女	2	15.4%
怒	1	7.7%
不	1	7.7%
龍	1	7.7%
列	1	7.7%

Compat Jamo

Value	Count	Frequency (%)
ㄷ	2	25.0%
ㄴ	2	25.0%
ㄱ	2	25.0%
ㆍ	2	25.0%

Misc Symbols

Value	Count	Frequency (%)
★	1	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
℃	1	100.0%

CJK Compat

Value	Count	Frequency (%)
㎡	1	100.0%

저작자
Text

Distinct	8885
Distinct (%)	88.9%
Missing	1
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	112
Median length	92
Mean length	16.260526
Min length	2

Characters and Unicode

Total characters	162589
Distinct characters	1160
Distinct categories	13 ?
Distinct scripts	6 ?
Distinct blocks	10 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8217 ?
Unique (%)	82.2%

Sample

1st row	정다미 글 ; 이장미 그림
2nd row	정은길 지음
3rd row	이동훈 지음
4th row	윌 버킹엄 글 ; 모미카 아르날도 그림 ; 정화진 옮김
5th row	박래균 글·그림

Value	Count	Frequency (%)
	8285	16.6%
지음	4658	9.3%
옮김	2959	5.9%
그림	2780	5.6%
글	2409	4.8%
글·그림	556	1.1%
저	369	0.7%
공]지음	337	0.7%
by	319	0.6%
감수	238	0.5%
Other values (13370)	26964	54.1%

Most occurring characters

Value	Count	Frequency (%)
	39966	24.6%
;	8285	5.1%
지	5928	3.6%
음	5417	3.3%
김	5352	3.3%
그	3682	2.3%
림	3576	2.2%
글	3297	2.0%
이	3203	2.0%
옮	3049	1.9%
Other values (1150)	80834	49.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	100982	62.1%
Space Separator	39966	24.6%
Other Punctuation	9593	5.9%
Lowercase Letter	7495	4.6%
Uppercase Letter	1841	1.1%
Open Punctuation	1293	0.8%
Close Punctuation	1293	0.8%
Dash Punctuation	48	< 0.1%
Math Symbol	34	< 0.1%
Decimal Number	26	< 0.1%
Other values (3)	18	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	5928	5.9%
음	5417	5.4%
김	5352	5.3%
그	3682	3.6%
림	3576	3.5%
글	3297	3.3%
이	3203	3.2%
옮	3049	3.0%
정	1561	1.5%
스	1556	1.5%
Other values (1059)	64361	63.7%

Lowercase Letter

Value	Count	Frequency (%)
e	775	10.3%
a	696	9.3%
i	617	8.2%
n	577	7.7%
r	563	7.5%
l	503	6.7%
t	503	6.7%
o	472	6.3%
y	466	6.2%
s	368	4.9%
Other values (17)	1955	26.1%

Uppercase Letter

Value	Count	Frequency (%)
S	188	10.2%
B	174	9.5%
M	154	8.4%
J	137	7.4%
A	110	6.0%
C	105	5.7%
K	96	5.2%
T	88	4.8%
E	87	4.7%
L	84	4.6%
Other values (16)	618	33.6%

Other Punctuation

Value	Count	Frequency (%)
;	8285	86.4%
·	830	8.7%
.	400	4.2%
:	24	0.3%
,	24	0.3%
＆	16	0.2%
/	6	0.1%
'	3	< 0.1%
"	2	< 0.1%
&	2	< 0.1%

Decimal Number

Value	Count	Frequency (%)
1	6	23.1%
0	4	15.4%
3	4	15.4%
5	3	11.5%
8	2	7.7%
2	2	7.7%
6	2	7.7%
4	2	7.7%
9	1	3.8%

Open Punctuation

Value	Count	Frequency (%)
[	1280	99.0%
(	5	0.4%
〈	4	0.3%
『	3	0.2%
「	1	0.1%

Close Punctuation

Value	Count	Frequency (%)
]	1280	99.0%
)	5	0.4%
〉	4	0.3%
』	3	0.2%
」	1	0.1%

Math Symbol

Value	Count	Frequency (%)
>	17	50.0%
<	17	50.0%

Other Symbol

Value	Count	Frequency (%)
ⓔ	7	87.5%
℃	1	12.5%

Space Separator

Value	Count	Frequency (%)
	39966	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	48	100.0%

Control

Value	Count	Frequency (%)
	8	100.0%

Modifier Symbol

Value	Count	Frequency (%)
˙	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	100520	61.8%
Common	52271	32.1%
Latin	9336	5.7%
Han	424	0.3%
Katakana	25	< 0.1%
Hiragana	13	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	5928	5.9%
음	5417	5.4%
김	5352	5.3%
그	3682	3.7%
림	3576	3.6%
글	3297	3.3%
이	3203	3.2%
옮	3049	3.0%
정	1561	1.6%
스	1556	1.5%
Other values (884)	63899	63.6%

Han

Value	Count	Frequency (%)
著	33	7.8%
斯	14	3.3%
文	11	2.6%
典	10	2.4%
德	9	2.1%
克	9	2.1%
科	8	1.9%
東	8	1.9%
山	8	1.9%
編	8	1.9%
Other values (137)	306	72.2%

Latin

Value	Count	Frequency (%)
e	775	8.3%
a	696	7.5%
i	617	6.6%
n	577	6.2%
r	563	6.0%
l	503	5.4%
t	503	5.4%
o	472	5.1%
y	466	5.0%
s	368	3.9%
Other values (43)	3796	40.7%

Common

Value	Count	Frequency (%)
	39966	76.5%
;	8285	15.9%
[	1280	2.4%
]	1280	2.4%
·	830	1.6%
.	400	0.8%
-	48	0.1%
:	24	< 0.1%
,	24	< 0.1%
>	17	< 0.1%
Other values (28)	117	0.2%

Katakana

Value	Count	Frequency (%)
サ	4	16.0%
ラ	2	8.0%
シ	2	8.0%
ン	2	8.0%
イ	2	8.0%
ガ	2	8.0%
ィ	1	4.0%
デ	1	4.0%
ザ	1	4.0%
カ	1	4.0%
Other values (7)	7	28.0%

Hiragana

Value	Count	Frequency (%)
ぎ	2	15.4%
お	2	15.4%
そ	1	7.7%
け	1	7.7%
ん	1	7.7%
い	1	7.7%
な	1	7.7%
か	1	7.7%
ち	1	7.7%
や	1	7.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	100509	61.8%
ASCII	60734	37.4%
None	863	0.5%
CJK	424	0.3%
Katakana	25	< 0.1%
Hiragana	13	< 0.1%
Compat Jamo	11	< 0.1%
Enclosed Alphanum	7	< 0.1%
Modifier Letters	2	< 0.1%
Letterlike Symbols	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	39966	65.8%
;	8285	13.6%
[	1280	2.1%
]	1280	2.1%
e	775	1.3%
a	696	1.1%
i	617	1.0%
n	577	1.0%
r	563	0.9%
l	503	0.8%
Other values (69)	6192	10.2%

Hangul

Value	Count	Frequency (%)
지	5928	5.9%
음	5417	5.4%
김	5352	5.3%
그	3682	3.7%
림	3576	3.6%
글	3297	3.3%
이	3203	3.2%
옮	3049	3.0%
정	1561	1.6%
스	1556	1.5%
Other values (883)	63888	63.6%

None

Value	Count	Frequency (%)
·	830	96.2%
＆	16	1.9%
〉	4	0.5%
〈	4	0.5%
』	3	0.3%
『	3	0.3%
đ	1	0.1%
」	1	0.1%
「	1	0.1%

CJK

Value	Count	Frequency (%)
著	33	7.8%
斯	14	3.3%
文	11	2.6%
典	10	2.4%
德	9	2.1%
克	9	2.1%
科	8	1.9%
東	8	1.9%
山	8	1.9%
編	8	1.9%
Other values (137)	306	72.2%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	11	100.0%

Enclosed Alphanum

Value	Count	Frequency (%)
ⓔ	7	100.0%

Katakana

Value	Count	Frequency (%)
サ	4	16.0%
ラ	2	8.0%
シ	2	8.0%
ン	2	8.0%
イ	2	8.0%
ガ	2	8.0%
ィ	1	4.0%
デ	1	4.0%
ザ	1	4.0%
カ	1	4.0%
Other values (7)	7	28.0%

Hiragana

Value	Count	Frequency (%)
ぎ	2	15.4%
お	2	15.4%
そ	1	7.7%
け	1	7.7%
ん	1	7.7%
い	1	7.7%
な	1	7.7%
か	1	7.7%
ち	1	7.7%
や	1	7.7%

Modifier Letters

Value	Count	Frequency (%)
˙	2	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
℃	1	100.0%

발행자
Text

Distinct	2695
Distinct (%)	27.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	45
Median length	40
Mean length	5.3474
Min length	1

Characters and Unicode

Total characters	53474
Distinct characters	783
Distinct categories	10 ?
Distinct scripts	5 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1470 ?
Unique (%)	14.7%

Sample

1st row	한겨레아이들
2nd row	다산북스
3rd row	21세기북스
4th row	청어람아이
5th row	주니어김영사

Value	Count	Frequency (%)
웅진씽크빅:웅진다책	494	4.8%
창비	148	1.4%
문학동네	143	1.4%
비룡소	113	1.1%
신원문화사	111	1.1%
21세기북스	86	0.8%
위즈덤하우스	75	0.7%
서울문화사	73	0.7%
사계절	60	0.6%
웅진씽크빅	54	0.5%
Other values (2729)	8982	86.9%

Most occurring characters

Value	Count	Frequency (%)
스	1773	3.3%
:	1738	3.3%
진	1437	2.7%
사	1389	2.6%
웅	1339	2.5%
북	1213	2.3%
이	1178	2.2%
책	886	1.7%
어	853	1.6%
문	822	1.5%
Other values (773)	40846	76.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	45629	85.3%
Lowercase Letter	4036	7.5%
Other Punctuation	1846	3.5%
Uppercase Letter	1366	2.6%
Space Separator	340	0.6%
Decimal Number	236	0.4%
Dash Punctuation	10	< 0.1%
Open Punctuation	5	< 0.1%
Close Punctuation	5	< 0.1%
Math Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	1773	3.9%
진	1437	3.1%
사	1389	3.0%
웅	1339	2.9%
북	1213	2.7%
이	1178	2.6%
책	886	1.9%
어	853	1.9%
문	822	1.8%
크	780	1.7%
Other values (698)	33959	74.4%

Lowercase Letter

Value	Count	Frequency (%)
o	606	15.0%
s	362	9.0%
r	330	8.2%
a	325	8.1%
i	314	7.8%
e	304	7.5%
n	279	6.9%
l	200	5.0%
k	194	4.8%
t	139	3.4%
Other values (16)	983	24.4%

Uppercase Letter

Value	Count	Frequency (%)
B	220	16.1%
M	149	10.9%
H	136	10.0%
S	110	8.1%
K	83	6.1%
P	81	5.9%
C	76	5.6%
R	70	5.1%
T	52	3.8%
D	46	3.4%
Other values (14)	343	25.1%

Other Punctuation

Value	Count	Frequency (%)
:	1738	94.1%
＆	61	3.3%
.	17	0.9%
&	13	0.7%
,	5	0.3%
'	5	0.3%
/	2	0.1%
!	2	0.1%
#	1	0.1%
·	1	0.1%

Decimal Number

Value	Count	Frequency (%)
2	111	47.0%
1	109	46.2%
0	8	3.4%
3	3	1.3%
4	2	0.8%
8	2	0.8%
9	1	0.4%

Open Punctuation

Value	Count	Frequency (%)
(	3	60.0%
[	2	40.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	60.0%
]	2	40.0%

Space Separator

Value	Count	Frequency (%)
	340	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	10	100.0%

Math Symbol

Value	Count	Frequency (%)
+	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	45394	84.9%
Latin	5402	10.1%
Common	2443	4.6%
Han	215	0.4%
Katakana	20	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	1773	3.9%
진	1437	3.2%
사	1389	3.1%
웅	1339	2.9%
북	1213	2.7%
이	1178	2.6%
책	886	2.0%
어	853	1.9%
문	822	1.8%
크	780	1.7%
Other values (619)	33724	74.3%

Han

Value	Count	Frequency (%)
出	33	15.3%
版	32	14.9%
社	31	14.4%
文	8	3.7%
北	6	2.8%
少	5	2.3%
童	5	2.3%
年	5	2.3%
中	5	2.3%
民	4	1.9%
Other values (53)	81	37.7%

Latin

Value	Count	Frequency (%)
o	606	11.2%
s	362	6.7%
r	330	6.1%
a	325	6.0%
i	314	5.8%
e	304	5.6%
n	279	5.2%
B	220	4.1%
l	200	3.7%
k	194	3.6%
Other values (40)	2268	42.0%

Common

Value	Count	Frequency (%)
:	1738	71.1%
	340	13.9%
2	111	4.5%
1	109	4.5%
＆	61	2.5%
.	17	0.7%
&	13	0.5%
-	10	0.4%
0	8	0.3%
,	5	0.2%
Other values (15)	31	1.3%

Katakana

Value	Count	Frequency (%)
ン	3	15.0%
ス	2	10.0%
ア	2	10.0%
ラ	1	5.0%
セ	1	5.0%
ブ	1	5.0%
イ	1	5.0%
フ	1	5.0%
レ	1	5.0%
ベ	1	5.0%
Other values (6)	6	30.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	45394	84.9%
ASCII	7783	14.6%
CJK	215	0.4%
None	62	0.1%
Katakana	20	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
스	1773	3.9%
진	1437	3.2%
사	1389	3.1%
웅	1339	2.9%
북	1213	2.7%
이	1178	2.6%
책	886	2.0%
어	853	1.9%
문	822	1.8%
크	780	1.7%
Other values (619)	33724	74.3%

ASCII

Value	Count	Frequency (%)
:	1738	22.3%
o	606	7.8%
s	362	4.7%
	340	4.4%
r	330	4.2%
a	325	4.2%
i	314	4.0%
e	304	3.9%
n	279	3.6%
B	220	2.8%
Other values (63)	2965	38.1%

None

Value	Count	Frequency (%)
＆	61	98.4%
·	1	1.6%

CJK

Value	Count	Frequency (%)
出	33	15.3%
版	32	14.9%
社	31	14.4%
文	8	3.7%
北	6	2.8%
少	5	2.3%
童	5	2.3%
年	5	2.3%
中	5	2.3%
民	4	1.9%
Other values (53)	81	37.7%

Katakana

Value	Count	Frequency (%)
ン	3	15.0%
ス	2	10.0%
ア	2	10.0%
ラ	1	5.0%
セ	1	5.0%
ブ	1	5.0%
イ	1	5.0%
フ	1	5.0%
レ	1	5.0%
ベ	1	5.0%
Other values (6)	6	30.0%

발행년
Text

Distinct	57
Distinct (%)	0.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	6
Median length	4
Mean length	4.0029
Min length	4

Characters and Unicode

Total characters	40029
Distinct characters	14
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	17 ?
Unique (%)	0.2%

Sample

1st row	2018
2nd row	2013
3rd row	2020
4th row	2018
5th row	2018

Value	Count	Frequency (%)
2011	2136	21.4%
2010	1415	14.1%
2014	812	8.1%
2013	795	8.0%
2012	753	7.5%
2016	716	7.2%
2015	654	6.5%
2017	491	4.9%
2020	405	4.0%
2018	343	3.4%
Other values (43)	1480	14.8%

Most occurring characters

Value	Count	Frequency (%)
0	12691	31.7%
2	11146	27.8%
1	10835	27.1%
4	871	2.2%
3	869	2.2%
9	839	2.1%
6	804	2.0%
5	733	1.8%
7	696	1.7%
8	516	1.3%
Other values (4)	29	0.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	40000	99.9%
Open Punctuation	11	< 0.1%
Close Punctuation	11	< 0.1%
Lowercase Letter	5	< 0.1%
Other Punctuation	2	< 0.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	12691	31.7%
2	11146	27.9%
1	10835	27.1%
4	871	2.2%
3	869	2.2%
9	839	2.1%
6	804	2.0%
5	733	1.8%
7	696	1.7%
8	516	1.3%

Open Punctuation

Value	Count	Frequency (%)
[	11	100.0%

Close Punctuation

Value	Count	Frequency (%)
]	11	100.0%

Lowercase Letter

Value	Count	Frequency (%)
c	5	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	40024	> 99.9%
Latin	5	< 0.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	12691	31.7%
2	11146	27.8%
1	10835	27.1%
4	871	2.2%
3	869	2.2%
9	839	2.1%
6	804	2.0%
5	733	1.8%
7	696	1.7%
8	516	1.3%
Other values (3)	24	0.1%

Latin

Value	Count	Frequency (%)
c	5	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	40029	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	12691	31.7%
2	11146	27.8%
1	10835	27.1%
4	871	2.2%
3	869	2.2%
9	839	2.1%
6	804	2.0%
5	733	1.8%
7	696	1.7%
8	516	1.3%
Other values (4)	29	0.1%

순번

순번

Phik (φk)

Heatmap
Table

	순번	발행년
순번	1.000	0.924
발행년	0.924	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	순번	등록번호	청구기호	서명	저작자	발행자	발행년
35043	35049	EM0000009180	아동 498-정22ㅇ	어서 와, 여기는 꾸룩새 연구소야 : 새박사 다미의 부엉이 펠릿 탐구생활	정다미 글 ; 이장미 그림	한겨레아이들	2018
21356	21360	GM0000011087	327.04-정67ㅇ	(적게 벌어도 잘사는)여자의 습관	정은길 지음	다산북스	2013
37611	37617	GM0000020943	517.52-이25ㅆ	쏘팟의 하나만 빼고 다 먹는 다이어트 : 맘껏 먹으면서 평생 날씬하게	이동훈 지음	21세기북스	2020
35485	35491	EM0000009251	아동 443.1-버878ㄹ	루시와 우주로 날아간 라이카	윌 버킹엄 글 ; 모미카 아르날도 그림 ; 정화진 옮김	청어람아이	2018
33192	33198	EM0000008867	아동 813.8-박293ㅇ	(119 소방관 아저씨의)연탄꽃이 활짝 피었습니다	박래균 글·그림	주니어김영사	2018
9523	9524	GM0000005181	843.6-브294ㅅ	스펜스 기숙학교의 마녀들	리바 브레이 지음 ; 이원경 옮김	문학동네	2011
27711	27716	GM0000014968	813.7-이894ㅇ	엉겅퀴 칸타타 : 이평재 장편소설	이평재 지음 ; 윤후명 옮김	폭스코너	2015
24006	24010	CM0000003399	유아 808-사14-v.42=2	커졌다!	서현 글·그림	사계절	2014
18882	18885	EM0000005044	아동 811.8-정23ㅂ	바다가 그린 그림 : 정대성 동시	정대성 지음 ; 이규경 그림	아동문예	2013
9451	9452	GM0000005162	848-컬297ㅅ	솔리튜드 : 고독	로버트 컬 지음 ; 정연희 옮김	Human ＆ Books	2011

	순번	등록번호	청구기호	서명	저작자	발행자	발행년
5041	5042	EM0000000944	아동 833.8-대66-v.17	마루 밑 아리에티	메리 노튼 원작 ; 미야자키 하야오 기획·각본 ; 니와 케이코 각본 ; 요네바야시 히로마사 감독 ; 서은정 번역	대원씨아이	2010
7218	7219	EM0000002584	아동 199.4-엠48ㅅ	세상을 구하라	MBC희망특강파랑새 글 ; 박영숙 그림	리젬	2011
15611	15614	GM0000008641	373.4-사68ㄷ	다시 공부하고 싶은 나이, 서른 : 직장인을 위한 14일 스터디플래너	사이토 다카시 지음 ; 한성례 옮김	비전코리아	2012
7759	7760	GM0000003474	181.37-황195ㅁ	몰입 = Think harder!	황농문 지음	랜덤하우스	2011
17004	17007	EM0000004089	아동 410.4-송25ㅅ-v.20	(코믹 메이플스토리)수학도둑. 20	송도수 글 ; 서정은 그림 ; 여운방 감수	서울문화사	2012
22222	22226	GM0000011689	656.2-쿠65ㅇ	어썸 스케치북 : 동물	줄리아 쿠오 지음 ; 이종 편집부 [옮김]	이종	2014
25599	25603	GM0000013579	188.5-남14ㄴ	내 안에 인생코드 : 음양오행으로 보는 운명과 체질	남경우 지음	굿플러스북	2015
35563	35569	GM0000019628	큰813.7-조93ㅂ-1	빛의 호위 : 조해진 소설집. 1	조해진 지음	창비	2018
27134	27139	GM0000014387	372.68-최66ㅁ	명문대로 가는 인성·진로 코칭 : 학생부 종합전형 대비	최원호 지음	푸른영토	2014
18498	18501	NB0000000546	DVD 688.6-이74ㅎ	홍길동 2084	이정인 감독	디에스미디어	2012

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Dash Punctuation

Space Separator

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Compat Jamo

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Open Punctuation

Close Punctuation

Other Symbol

Letter Number

Dash Punctuation

Currency Symbol

Other Number

Space Separator

Control

Modifier Symbol

Final Punctuation

Initial Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Han

Common

Latin

Hiragana

Katakana

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Math Operators

CJK

Number Forms

Enclosed Alphanum

Hiragana

Punctuation

Katakana

CJK Compat Ideographs

Compat Jamo

Misc Symbols