gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	10000
Missing cells	2
Missing cells (%)	< 0.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	634.8 KiB
Average record size in memory	65.0 B

Variable types

Numeric	1
Text	6

Dataset

Description	충청남도 청양군 정산면에 소재하는 정산도서관의 도서 목록에 관한 데이터로 등록번호, 청구기호, 서명, 저작자, 발행자, 발행년에 관한 데이터를 제공합니다.
Author	충청남도 청양군
URL	https://www.data.go.kr/data/3062732/fileData.do

Alerts

`순번` has unique values	Unique
`등록번호` has unique values	Unique

Reproduction

Analysis started	2023-12-23 06:36:52.960371
Analysis finished	2023-12-23 06:37:05.503083
Duration	12.54 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

순번
Real number (ℝ)

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	19181.762

Minimum	8
Maximum	38512
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	8
5-th percentile	1983.85
Q1	9473
median	19010.5
Q3	28889.25
95-th percentile	36630.3
Maximum	38512
Range	38504
Interquartile range (IQR)	19416.25

Descriptive statistics

Standard deviation	11154.58
Coefficient of variation (CV)	0.58152007
Kurtosis	-1.2101822
Mean	19181.762
Median Absolute Deviation (MAD)	9702.5
Skewness	0.018146811
Sum	1.9181762 × 10⁸
Variance	1.2442464 × 10⁸
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
2788	1	< 0.1%
20515	1	< 0.1%
38171	1	< 0.1%
1703	1	< 0.1%
19793	1	< 0.1%
28392	1	< 0.1%
11808	1	< 0.1%
23955	1	< 0.1%
24148	1	< 0.1%
21268	1	< 0.1%
Other values (9990)	9990	99.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
8	1	< 0.1%
9	1	< 0.1%
12	1	< 0.1%
13	1	< 0.1%
18	1	< 0.1%
22	1	< 0.1%
25	1	< 0.1%
40	1	< 0.1%
44	1	< 0.1%
45	1	< 0.1%

Value	Count	Frequency (%)
38512	1	< 0.1%
38509	1	< 0.1%
38507	1	< 0.1%
38501	1	< 0.1%
38500	1	< 0.1%
38494	1	< 0.1%
38493	1	< 0.1%
38491	1	< 0.1%
38488	1	< 0.1%
38487	1	< 0.1%

등록번호
Text

UNIQUE

Distinct	10000
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	12
Median length	12
Mean length	12
Min length	12

Characters and Unicode

Total characters	120000
Distinct characters	17
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	10000 ?
Unique (%)	100.0%

Sample

1st row	CM0000000356
2nd row	GM0000003252
3rd row	GM0000021288
4th row	GM0000007313
5th row	EM0000006807

Value	Count	Frequency (%)
cm0000000356	1	< 0.1%
gm0000012967	1	< 0.1%
gm0000020023	1	< 0.1%
gm0000017858	1	< 0.1%
em0000009995	1	< 0.1%
gm0000001633	1	< 0.1%
gm0000010617	1	< 0.1%
cm0000004070	1	< 0.1%
em0000003126	1	< 0.1%
em0000005395	1	< 0.1%
Other values (9990)	9990	99.9%

Most occurring characters

Value	Count	Frequency (%)
0	61570	51.3%
M	9619	8.0%
1	6927	5.8%
G	5648	4.7%
2	4560	3.8%
3	4147	3.5%
4	4000	3.3%
5	3880	3.2%
6	3803	3.2%
8	3759	3.1%
Other values (7)	12087	10.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	100000	83.3%
Uppercase Letter	20000	16.7%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	61570	61.6%
1	6927	6.9%
2	4560	4.6%
3	4147	4.1%
4	4000	4.0%
5	3880	3.9%
6	3803	3.8%
8	3759	3.8%
9	3697	3.7%
7	3657	3.7%

Uppercase Letter

Value	Count	Frequency (%)
M	9619	48.1%
G	5648	28.2%
E	2658	13.3%
C	1476	7.4%
N	218	1.1%
B	218	1.1%
S	163	0.8%

Most occurring scripts

Value	Count	Frequency (%)
Common	100000	83.3%
Latin	20000	16.7%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	61570	61.6%
1	6927	6.9%
2	4560	4.6%
3	4147	4.1%
4	4000	4.0%
5	3880	3.9%
6	3803	3.8%
8	3759	3.8%
9	3697	3.7%
7	3657	3.7%

Latin

Value	Count	Frequency (%)
M	9619	48.1%
G	5648	28.2%
E	2658	13.3%
C	1476	7.4%
N	218	1.1%
B	218	1.1%
S	163	0.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	120000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	61570	51.3%
M	9619	8.0%
1	6927	5.8%
G	5648	4.7%
2	4560	3.8%
3	4147	3.5%
4	4000	3.3%
5	3880	3.2%
6	3803	3.2%
8	3759	3.1%
Other values (7)	12087	10.1%

청구기호
Text

Distinct	9819
Distinct (%)	98.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	19
Mean length	12.3945
Min length	7

Characters and Unicode

Total characters	123945
Distinct characters	628
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9666 ?
Unique (%)	96.7%

Sample

1st row	유아 539-신56ㅈ
2nd row	234.8-슈884ㅎ
3rd row	843.6-메68ㅁ-2
4th row	843.6-사44ㅂ
5th row	아동 843-P947w

Value	Count	Frequency (%)
아동	2525	17.7%
유아	1426	10.0%
dvd	218	1.5%
오디오	38	0.3%
참고	29	0.2%
990-첫68	6	< 0.1%
747-풋293ㅁ	5	< 0.1%
911.05-이56ㅈ	4	< 0.1%
813.8-동95ㄱ	4	< 0.1%
747-영64	4	< 0.1%
Other values (9792)	9980	70.1%

Most occurring characters

Value	Count	Frequency (%)
-	13746	11.1%
8	11580	9.3%
.	8765	7.1%
1	8617	7.0%
2	7381	6.0%
3	7283	5.9%
4	6553	5.3%
9	6081	4.9%
5	5960	4.8%
7	5461	4.4%
Other values (618)	42518	34.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	68091	54.9%
Other Letter	25238	20.4%
Dash Punctuation	13746	11.1%
Other Punctuation	8766	7.1%
Space Separator	4239	3.4%
Lowercase Letter	2770	2.2%
Uppercase Letter	882	0.7%
Math Symbol	213	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	4057	16.1%
동	2573	10.2%
ㅇ	1553	6.2%
유	1527	6.1%
ㅅ	1002	4.0%
김	766	3.0%
이	760	3.0%
ㄱ	737	2.9%
ㅈ	546	2.2%
ㄴ	519	2.1%
Other values (558)	11198	44.4%

Uppercase Letter

Value	Count	Frequency (%)
D	456	51.7%
V	218	24.7%
M	29	3.3%
B	26	2.9%
S	21	2.4%
P	17	1.9%
H	12	1.4%
L	12	1.4%
R	11	1.2%
C	10	1.1%
Other values (13)	70	7.9%

Lowercase Letter

Value	Count	Frequency (%)
v	2536	91.6%
a	22	0.8%
s	20	0.7%
b	20	0.7%
m	19	0.7%
t	16	0.6%
g	16	0.6%
p	15	0.5%
w	14	0.5%
o	11	0.4%
Other values (12)	81	2.9%

Decimal Number

Value	Count	Frequency (%)
8	11580	17.0%
1	8617	12.7%
2	7381	10.8%
3	7283	10.7%
4	6553	9.6%
9	6081	8.9%
5	5960	8.8%
7	5461	8.0%
6	5041	7.4%
0	4134	6.1%

Other Punctuation

Value	Count	Frequency (%)
.	8765	> 99.9%
,	1	< 0.1%

Dash Punctuation

Value	Count	Frequency (%)
-	13746	100.0%

Space Separator

Value	Count	Frequency (%)
	4239	100.0%

Math Symbol

Value	Count	Frequency (%)
=	213	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	95055	76.7%
Hangul	25238	20.4%
Latin	3652	2.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	4057	16.1%
동	2573	10.2%
ㅇ	1553	6.2%
유	1527	6.1%
ㅅ	1002	4.0%
김	766	3.0%
이	760	3.0%
ㄱ	737	2.9%
ㅈ	546	2.2%
ㄴ	519	2.1%
Other values (558)	11198	44.4%

Latin

Value	Count	Frequency (%)
v	2536	69.4%
D	456	12.5%
V	218	6.0%
M	29	0.8%
B	26	0.7%
a	22	0.6%
S	21	0.6%
s	20	0.5%
b	20	0.5%
m	19	0.5%
Other values (35)	285	7.8%

Common

Value	Count	Frequency (%)
-	13746	14.5%
8	11580	12.2%
.	8765	9.2%
1	8617	9.1%
2	7381	7.8%
3	7283	7.7%
4	6553	6.9%
9	6081	6.4%
5	5960	6.3%
7	5461	5.7%
Other values (5)	13628	14.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	98707	79.6%
Hangul	17921	14.5%
Compat Jamo	7317	5.9%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	13746	13.9%
8	11580	11.7%
.	8765	8.9%
1	8617	8.7%
2	7381	7.5%
3	7283	7.4%
4	6553	6.6%
9	6081	6.2%
5	5960	6.0%
7	5461	5.5%
Other values (50)	17280	17.5%

Hangul

Value	Count	Frequency (%)
아	4057	22.6%
동	2573	14.4%
유	1527	8.5%
김	766	4.3%
이	760	4.2%
박	320	1.8%
오	208	1.2%
정	202	1.1%
최	162	0.9%
한	158	0.9%
Other values (539)	7188	40.1%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	1553	21.2%
ㅅ	1002	13.7%
ㄱ	737	10.1%
ㅈ	546	7.5%
ㄴ	519	7.1%
ㅁ	501	6.8%
ㅎ	496	6.8%
ㅂ	418	5.7%
ㄷ	392	5.4%
ㅊ	302	4.1%
Other values (9)	851	11.6%

서명
Text

Distinct	9888
Distinct (%)	98.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	124
Median length	91
Mean length	22.1964
Min length	1

Characters and Unicode

Total characters	221964
Distinct characters	1802
Distinct categories	16 ?
Distinct scripts	6 ?
Distinct blocks	14 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	9782 ?
Unique (%)	97.8%

Sample

1st row	지렁이 울음소리를 들어 봐!
2nd row	하늘은 땅에서 열린다 : 참 그리스도인을 위한 삶의 길잡이
3rd row	미드나잇 선. 2
4th row	바람둥이 완전정복 : 마크 사버스 장편소설
5th row	Who lives in your house. Who lives in the sea

Value	Count	Frequency (%)
	4699	8.3%
이야기	416	0.7%
장편소설	405	0.7%
2	267	0.5%
1	263	0.5%
내	203	0.4%
위한	185	0.3%
the	163	0.3%
우리	163	0.3%
나는	135	0.2%
Other values (23462)	49505	87.8%

Most occurring characters

Value	Count	Frequency (%)
	46430	20.9%
:	4597	2.1%
의	3914	1.8%
이	3856	1.7%
는	2938	1.3%
e	2311	1.0%
기	2135	1.0%
)	2114	1.0%
(	2114	1.0%
사	1931	0.9%
Other values (1792)	149624	67.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	134370	60.5%
Space Separator	46430	20.9%
Lowercase Letter	19939	9.0%
Other Punctuation	8828	4.0%
Decimal Number	4163	1.9%
Uppercase Letter	2859	1.3%
Close Punctuation	2175	1.0%
Open Punctuation	2175	1.0%
Math Symbol	819	0.4%
Dash Punctuation	172	0.1%
Other values (6)	34	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	3914	2.9%
이	3856	2.9%
는	2938	2.2%
기	2135	1.6%
사	1931	1.4%
리	1913	1.4%
가	1904	1.4%
한	1854	1.4%
다	1720	1.3%
지	1679	1.2%
Other values (1675)	110526	82.3%

Lowercase Letter

Value	Count	Frequency (%)
e	2311	11.6%
o	1714	8.6%
a	1668	8.4%
i	1580	7.9%
n	1521	7.6%
t	1455	7.3%
r	1323	6.6%
s	1306	6.5%
h	927	4.6%
l	888	4.5%
Other values (17)	5246	26.3%

Uppercase Letter

Value	Count	Frequency (%)
T	303	10.6%
S	282	9.9%
C	211	7.4%
D	165	5.8%
M	163	5.7%
B	158	5.5%
P	155	5.4%
A	147	5.1%
E	141	4.9%
I	118	4.1%
Other values (16)	1016	35.5%

Other Punctuation

Value	Count	Frequency (%)
:	4597	52.1%
,	1793	20.3%
.	1282	14.5%
!	665	7.5%
'	210	2.4%
·	161	1.8%
＆	62	0.7%
％	14	0.2%
"	12	0.1%
&	10	0.1%
Other values (10)	22	0.2%

Decimal Number

Value	Count	Frequency (%)
1	1125	27.0%
0	800	19.2%
2	703	16.9%
3	407	9.8%
5	271	6.5%
4	258	6.2%
6	169	4.1%
7	156	3.7%
9	138	3.3%
8	136	3.3%

Math Symbol

Value	Count	Frequency (%)
=	722	88.2%
+	34	4.2%
~	31	3.8%
∼	11	1.3%
>	7	0.9%
<	7	0.9%
\|	4	0.5%
＋	2	0.2%
×	1	0.1%

Close Punctuation

Value	Count	Frequency (%)
)	2114	97.2%
]	50	2.3%
』	7	0.3%
》	2	0.1%
」	1	< 0.1%
〉	1	< 0.1%

Open Punctuation

Value	Count	Frequency (%)
(	2114	97.2%
[	50	2.3%
『	7	0.3%
《	2	0.1%
「	1	< 0.1%
〈	1	< 0.1%

Letter Number

Value	Count	Frequency (%)
Ⅱ	10	58.8%
Ⅰ	5	29.4%
Ⅲ	2	11.8%

Other Symbol

Value	Count	Frequency (%)
ⓔ	7	63.6%
★	2	18.2%
℃	2	18.2%

Dash Punctuation

Value	Count	Frequency (%)
-	171	99.4%
―	1	0.6%

Space Separator

Value	Count	Frequency (%)
	46430	100.0%

Initial Punctuation

Value	Count	Frequency (%)
“	2	100.0%

Final Punctuation

Value	Count	Frequency (%)
”	2	100.0%

Control

Value	Count	Frequency (%)
	1	100.0%

Currency Symbol

Value	Count	Frequency (%)
＄	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	133694	60.2%
Common	64779	29.2%
Latin	22815	10.3%
Han	588	0.3%
Hiragana	59	< 0.1%
Katakana	29	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	3914	2.9%
이	3856	2.9%
는	2938	2.2%
기	2135	1.6%
사	1931	1.4%
리	1913	1.4%
가	1904	1.4%
한	1854	1.4%
다	1720	1.3%
지	1679	1.3%
Other values (1301)	109850	82.2%

Han

Value	Count	Frequency (%)
的	20	3.4%
大	16	2.7%
三	10	1.7%
國	9	1.5%
學	8	1.4%
小	8	1.4%
說	8	1.4%
生	7	1.2%
志	7	1.2%
人	7	1.2%
Other values (314)	488	83.0%

Common

Value	Count	Frequency (%)
	46430	71.7%
:	4597	7.1%
)	2114	3.3%
(	2114	3.3%
,	1793	2.8%
.	1282	2.0%
1	1125	1.7%
0	800	1.2%
=	722	1.1%
2	703	1.1%
Other values (51)	3099	4.8%

Latin

Value	Count	Frequency (%)
e	2311	10.1%
o	1714	7.5%
a	1668	7.3%
i	1580	6.9%
n	1521	6.7%
t	1455	6.4%
r	1323	5.8%
s	1306	5.7%
h	927	4.1%
l	888	3.9%
Other values (46)	8122	35.6%

Hiragana

Value	Count	Frequency (%)
の	7	11.9%
と	6	10.2%
り	4	6.8%
ひ	3	5.1%
こ	3	5.1%
ど	3	5.1%
め	2	3.4%
て	2	3.4%
る	2	3.4%
ろ	2	3.4%
Other values (19)	25	42.4%

Katakana

Value	Count	Frequency (%)
パ	4	13.8%
ン	3	10.3%
グ	2	6.9%
ッ	2	6.9%
デ	2	6.9%
ィ	1	3.4%
エ	1	3.4%
バ	1	3.4%
ネ	1	3.4%
ウ	1	3.4%
Other values (11)	11	37.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	133685	60.2%
ASCII	87269	39.3%
CJK	578	0.3%
None	276	0.1%
Hiragana	59	< 0.1%
Katakana	29	< 0.1%
Number Forms	17	< 0.1%
Math Operators	11	< 0.1%
Punctuation	10	< 0.1%
CJK Compat Ideographs	10	< 0.1%
Other values (4)	20	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	46430	53.2%
:	4597	5.3%
e	2311	2.6%
)	2114	2.4%
(	2114	2.4%
,	1793	2.1%
o	1714	2.0%
a	1668	1.9%
i	1580	1.8%
n	1521	1.7%
Other values (77)	21427	24.6%

Hangul

Value	Count	Frequency (%)
의	3914	2.9%
이	3856	2.9%
는	2938	2.2%
기	2135	1.6%
사	1931	1.4%
리	1913	1.4%
가	1904	1.4%
한	1854	1.4%
다	1720	1.3%
지	1679	1.3%
Other values (1296)	109841	82.2%

None

Value	Count	Frequency (%)
·	161	58.3%
＆	62	22.5%
％	14	5.1%
đ	8	2.9%
『	7	2.5%
』	7	2.5%
！	2	0.7%
《	2	0.7%
》	2	0.7%
＋	2	0.7%
Other values (9)	9	3.3%

CJK

Value	Count	Frequency (%)
的	20	3.5%
大	16	2.8%
三	10	1.7%
國	9	1.6%
學	8	1.4%
小	8	1.4%
說	8	1.4%
生	7	1.2%
志	7	1.2%
人	7	1.2%
Other values (307)	478	82.7%

Math Operators

Value	Count	Frequency (%)
∼	11	100.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	10	58.8%
Ⅰ	5	29.4%
Ⅲ	2	11.8%

Enclosed Alphanum

Value	Count	Frequency (%)
ⓔ	7	100.0%

Hiragana

Value	Count	Frequency (%)
の	7	11.9%
と	6	10.2%
り	4	6.8%
ひ	3	5.1%
こ	3	5.1%
ど	3	5.1%
め	2	3.4%
て	2	3.4%
る	2	3.4%
ろ	2	3.4%
Other values (19)	25	42.4%

Punctuation

Value	Count	Frequency (%)
…	5	50.0%
“	2	20.0%
”	2	20.0%
―	1	10.0%

Katakana

Value	Count	Frequency (%)
パ	4	13.8%
ン	3	10.3%
グ	2	6.9%
ッ	2	6.9%
デ	2	6.9%
ィ	1	3.4%
エ	1	3.4%
バ	1	3.4%
ネ	1	3.4%
ウ	1	3.4%
Other values (11)	11	37.9%

CJK Compat Ideographs

Value	Count	Frequency (%)
茶	3	30.0%
樂	2	20.0%
李	1	10.0%
律	1	10.0%
理	1	10.0%
金	1	10.0%
念	1	10.0%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	2	22.2%
ㄱ	2	22.2%
ㄴ	2	22.2%
ㄷ	2	22.2%
ㅗ	1	11.1%

Misc Symbols

Value	Count	Frequency (%)
★	2	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
℃	2	100.0%

저작자
Text

Distinct	8847
Distinct (%)	88.5%
Missing	1
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	112
Median length	91
Mean length	16.305031
Min length	3

Characters and Unicode

Total characters	163034
Distinct characters	1189
Distinct categories	13 ?
Distinct scripts	6 ?
Distinct blocks	10 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	8174 ?
Unique (%)	81.7%

Sample

1st row	신순재 글 ; 장경혜 그림
2nd row	루돌프 슈테르텐브링크 지음 ; 김선태 옮김
3rd row	스테프니 메이어 지음 ; 심연희 옮김
4th row	마크 사버스 지음 ; 권경희 옮김
5th row	by Priddy books

Value	Count	Frequency (%)
	8401	16.8%
지음	4729	9.4%
옮김	2927	5.8%
그림	2810	5.6%
글	2417	4.8%
글·그림	502	1.0%
저	385	0.8%
공]지음	357	0.7%
by	294	0.6%
엮음	253	0.5%
Other values (13396)	27021	53.9%

Most occurring characters

Value	Count	Frequency (%)
	40194	24.7%
;	8400	5.2%
지	5987	3.7%
음	5506	3.4%
김	5331	3.3%
그	3644	2.2%
림	3550	2.2%
글	3233	2.0%
이	3213	2.0%
옮	3025	1.9%
Other values (1179)	80951	49.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	101126	62.0%
Space Separator	40194	24.7%
Other Punctuation	9631	5.9%
Lowercase Letter	7620	4.7%
Uppercase Letter	1776	1.1%
Close Punctuation	1286	0.8%
Open Punctuation	1285	0.8%
Dash Punctuation	67	< 0.1%
Math Symbol	20	< 0.1%
Decimal Number	17	< 0.1%
Other values (3)	12	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	5987	5.9%
음	5506	5.4%
김	5331	5.3%
그	3644	3.6%
림	3550	3.5%
글	3233	3.2%
이	3213	3.2%
옮	3025	3.0%
정	1577	1.6%
스	1557	1.5%
Other values (1092)	64503	63.8%

Lowercase Letter

Value	Count	Frequency (%)
e	757	9.9%
a	705	9.3%
n	648	8.5%
i	604	7.9%
r	576	7.6%
l	523	6.9%
t	518	6.8%
o	480	6.3%
y	449	5.9%
s	364	4.8%
Other values (17)	1996	26.2%

Uppercase Letter

Value	Count	Frequency (%)
B	168	9.5%
S	159	9.0%
M	148	8.3%
J	138	7.8%
A	121	6.8%
C	104	5.9%
T	92	5.2%
K	87	4.9%
D	87	4.9%
L	86	4.8%
Other values (16)	586	33.0%

Other Punctuation

Value	Count	Frequency (%)
;	8400	87.2%
·	741	7.7%
.	396	4.1%
,	33	0.3%
:	32	0.3%
＆	14	0.1%
/	6	0.1%
'	5	0.1%
&	4	< 0.1%

Decimal Number

Value	Count	Frequency (%)
1	3	17.6%
2	3	17.6%
4	3	17.6%
3	3	17.6%
0	2	11.8%
6	1	5.9%
5	1	5.9%
8	1	5.9%

Close Punctuation

Value	Count	Frequency (%)
]	1272	98.9%
〉	9	0.7%
)	2	0.2%
』	2	0.2%
」	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
[	1271	98.9%
〈	9	0.7%
(	2	0.2%
『	2	0.2%
「	1	0.1%

Math Symbol

Value	Count	Frequency (%)
>	10	50.0%
<	10	50.0%

Space Separator

Value	Count	Frequency (%)
	40194	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	67	100.0%

Control

Value	Count	Frequency (%)
	7	100.0%

Other Symbol

Value	Count	Frequency (%)
ⓔ	4	100.0%

Modifier Symbol

Value	Count	Frequency (%)
˙	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	100626	61.7%
Common	52512	32.2%
Latin	9396	5.8%
Han	479	0.3%
Hiragana	11	< 0.1%
Katakana	10	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	5987	5.9%
음	5506	5.5%
김	5331	5.3%
그	3644	3.6%
림	3550	3.5%
글	3233	3.2%
이	3213	3.2%
옮	3025	3.0%
정	1577	1.6%
스	1557	1.5%
Other values (896)	64003	63.6%

Han

Value	Count	Frequency (%)
著	36	7.5%
斯	21	4.4%
文	11	2.3%
典	11	2.3%
克	11	2.3%
科	10	2.1%
山	10	2.1%
編	9	1.9%
作	9	1.9%
德	8	1.7%
Other values (167)	343	71.6%

Latin

Value	Count	Frequency (%)
e	757	8.1%
a	705	7.5%
n	648	6.9%
i	604	6.4%
r	576	6.1%
l	523	5.6%
t	518	5.5%
o	480	5.1%
y	449	4.8%
s	364	3.9%
Other values (43)	3772	40.1%

Common

Value	Count	Frequency (%)
	40194	76.5%
;	8400	16.0%
]	1272	2.4%
[	1271	2.4%
·	741	1.4%
.	396	0.8%
-	67	0.1%
,	33	0.1%
:	32	0.1%
＆	14	< 0.1%
Other values (24)	92	0.2%

Katakana

Value	Count	Frequency (%)
グ	1	10.0%
ン	1	10.0%
ニ	1	10.0%
ラ	1	10.0%
プ	1	10.0%
ク	1	10.0%
ッ	1	10.0%
ィ	1	10.0%
テ	1	10.0%
ブ	1	10.0%

Hiragana

Value	Count	Frequency (%)
ぎ	2	18.2%
お	2	18.2%
や	1	9.1%
な	1	9.1%
ち	1	9.1%
か	1	9.1%
み	1	9.1%
の	1	9.1%
こ	1	9.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	100622	61.7%
ASCII	61123	37.5%
None	780	0.5%
CJK	476	0.3%
Hiragana	11	< 0.1%
Katakana	10	< 0.1%
Compat Jamo	4	< 0.1%
Enclosed Alphanum	4	< 0.1%
CJK Compat Ideographs	3	< 0.1%
Modifier Letters	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	40194	65.8%
;	8400	13.7%
]	1272	2.1%
[	1271	2.1%
e	757	1.2%
a	705	1.2%
n	648	1.1%
i	604	1.0%
r	576	0.9%
l	523	0.9%
Other values (66)	6173	10.1%

Hangul

Value	Count	Frequency (%)
지	5987	5.9%
음	5506	5.5%
김	5331	5.3%
그	3644	3.6%
림	3550	3.5%
글	3233	3.2%
이	3213	3.2%
옮	3025	3.0%
정	1577	1.6%
스	1557	1.5%
Other values (895)	63999	63.6%

None

Value	Count	Frequency (%)
·	741	95.0%
＆	14	1.8%
〉	9	1.2%
〈	9	1.2%
『	2	0.3%
』	2	0.3%
」	1	0.1%
「	1	0.1%
đ	1	0.1%

CJK

Value	Count	Frequency (%)
著	36	7.6%
斯	21	4.4%
文	11	2.3%
典	11	2.3%
克	11	2.3%
科	10	2.1%
山	10	2.1%
編	9	1.9%
作	9	1.9%
德	8	1.7%
Other values (166)	340	71.4%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	4	100.0%

Enclosed Alphanum

Value	Count	Frequency (%)
ⓔ	4	100.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
李	3	100.0%

Hiragana

Value	Count	Frequency (%)
ぎ	2	18.2%
お	2	18.2%
や	1	9.1%
な	1	9.1%
ち	1	9.1%
か	1	9.1%
み	1	9.1%
の	1	9.1%
こ	1	9.1%

Katakana

Value	Count	Frequency (%)
グ	1	10.0%
ン	1	10.0%
ニ	1	10.0%
ラ	1	10.0%
プ	1	10.0%
ク	1	10.0%
ッ	1	10.0%
ィ	1	10.0%
テ	1	10.0%
ブ	1	10.0%

Modifier Letters

Value	Count	Frequency (%)
˙	1	100.0%

발행자
Text

Distinct	2619
Distinct (%)	26.2%
Missing	1
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	49
Median length	41
Mean length	5.3065307
Min length	1

Characters and Unicode

Total characters	53060
Distinct characters	793
Distinct categories	10 ?
Distinct scripts	6 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1382 ?
Unique (%)	13.8%

Sample

1st row	창비
2nd row	바오로딸
3rd row	북폴리오
4th row	레드박스
5th row	Priddy books

Value	Count	Frequency (%)
웅진씽크빅:웅진다책	533	5.1%
창비	146	1.4%
문학동네	138	1.3%
신원문화사	129	1.2%
비룡소	91	0.9%
21세기북스	83	0.8%
서울문화사	80	0.8%
위즈덤하우스	79	0.8%
김영사	66	0.6%
books	58	0.6%
Other values (2661)	8963	86.5%

Most occurring characters

Value	Count	Frequency (%)
스	1734	3.3%
:	1665	3.1%
진	1486	2.8%
웅	1388	2.6%
사	1365	2.6%
이	1195	2.3%
북	1167	2.2%
책	908	1.7%
어	874	1.6%
다	820	1.5%
Other values (783)	40458	76.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	45370	85.5%
Lowercase Letter	3962	7.5%
Other Punctuation	1780	3.4%
Uppercase Letter	1316	2.5%
Space Separator	367	0.7%
Decimal Number	242	0.5%
Dash Punctuation	12	< 0.1%
Open Punctuation	5	< 0.1%
Close Punctuation	5	< 0.1%
Modifier Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	1734	3.8%
진	1486	3.3%
웅	1388	3.1%
사	1365	3.0%
이	1195	2.6%
북	1167	2.6%
책	908	2.0%
어	874	1.9%
다	820	1.8%
문	815	1.8%
Other values (706)	33618	74.1%

Lowercase Letter

Value	Count	Frequency (%)
o	585	14.8%
s	373	9.4%
r	313	7.9%
a	313	7.9%
i	304	7.7%
n	303	7.6%
e	297	7.5%
k	205	5.2%
l	185	4.7%
h	131	3.3%
Other values (16)	953	24.1%

Uppercase Letter

Value	Count	Frequency (%)
B	206	15.7%
M	143	10.9%
H	140	10.6%
S	94	7.1%
P	87	6.6%
C	84	6.4%
K	83	6.3%
R	74	5.6%
L	43	3.3%
T	41	3.1%
Other values (14)	321	24.4%

Other Punctuation

Value	Count	Frequency (%)
:	1665	93.5%
＆	59	3.3%
.	24	1.3%
&	12	0.7%
,	5	0.3%
'	4	0.2%
/	4	0.2%
#	3	0.2%
;	2	0.1%
·	2	0.1%

Decimal Number

Value	Count	Frequency (%)
1	110	45.5%
2	107	44.2%
0	9	3.7%
3	5	2.1%
8	3	1.2%
4	2	0.8%
5	2	0.8%
9	2	0.8%
7	1	0.4%
6	1	0.4%

Open Punctuation

Value	Count	Frequency (%)
(	3	60.0%
[	2	40.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	60.0%
]	2	40.0%

Space Separator

Value	Count	Frequency (%)
	367	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	12	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	45085	85.0%
Latin	5278	9.9%
Common	2412	4.5%
Han	268	0.5%
Katakana	16	< 0.1%
Hiragana	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	1734	3.8%
진	1486	3.3%
웅	1388	3.1%
사	1365	3.0%
이	1195	2.7%
북	1167	2.6%
책	908	2.0%
어	874	1.9%
다	820	1.8%
문	815	1.8%
Other values (611)	33333	73.9%

Han

Value	Count	Frequency (%)
社	35	13.1%
版	34	12.7%
出	34	12.7%
文	8	3.0%
民	7	2.6%
北	7	2.6%
中	6	2.2%
人	5	1.9%
年	5	1.9%
童	5	1.9%
Other values (70)	122	45.5%

Latin

Value	Count	Frequency (%)
o	585	11.1%
s	373	7.1%
r	313	5.9%
a	313	5.9%
i	304	5.8%
n	303	5.7%
e	297	5.6%
B	206	3.9%
k	205	3.9%
l	185	3.5%
Other values (40)	2194	41.6%

Common

Value	Count	Frequency (%)
:	1665	69.0%
	367	15.2%
1	110	4.6%
2	107	4.4%
＆	59	2.4%
.	24	1.0%
-	12	0.5%
&	12	0.5%
0	9	0.4%
,	5	0.2%
Other values (17)	42	1.7%

Katakana

Value	Count	Frequency (%)
ィ	2	12.5%
フ	2	12.5%
メ	1	6.2%
デ	1	6.2%
ア	1	6.2%
ソ	1	6.2%
ト	1	6.2%
ル	1	6.2%
ベ	1	6.2%
レ	1	6.2%
Other values (4)	4	25.0%

Hiragana

Value	Count	Frequency (%)
の	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	45085	85.0%
ASCII	7629	14.4%
CJK	268	0.5%
None	61	0.1%
Katakana	16	< 0.1%
Hiragana	1	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
스	1734	3.8%
진	1486	3.3%
웅	1388	3.1%
사	1365	3.0%
이	1195	2.7%
북	1167	2.6%
책	908	2.0%
어	874	1.9%
다	820	1.8%
문	815	1.8%
Other values (611)	33333	73.9%

ASCII

Value	Count	Frequency (%)
:	1665	21.8%
o	585	7.7%
s	373	4.9%
	367	4.8%
r	313	4.1%
a	313	4.1%
i	304	4.0%
n	303	4.0%
e	297	3.9%
B	206	2.7%
Other values (65)	2903	38.1%

None

Value	Count	Frequency (%)
＆	59	96.7%
·	2	3.3%

CJK

Value	Count	Frequency (%)
社	35	13.1%
版	34	12.7%
出	34	12.7%
文	8	3.0%
民	7	2.6%
北	7	2.6%
中	6	2.2%
人	5	1.9%
年	5	1.9%
童	5	1.9%
Other values (70)	122	45.5%

Katakana

Value	Count	Frequency (%)
ィ	2	12.5%
フ	2	12.5%
メ	1	6.2%
デ	1	6.2%
ア	1	6.2%
ソ	1	6.2%
ト	1	6.2%
ル	1	6.2%
ベ	1	6.2%
レ	1	6.2%
Other values (4)	4	25.0%

Hiragana

Value	Count	Frequency (%)
の	1	100.0%

발행년
Text

Distinct	55
Distinct (%)	0.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	7
Median length	4
Mean length	4.0026
Min length	4

Characters and Unicode

Total characters	40026
Distinct characters	14
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	17 ?
Unique (%)	0.2%

Sample

1st row	2010
2nd row	2011
3rd row	2021
4th row	2011
5th row	2003

Value	Count	Frequency (%)
2011	2203	22.0%
2010	1349	13.5%
2014	845	8.5%
2012	749	7.5%
2016	734	7.3%
2013	677	6.8%
2015	656	6.6%
2017	475	4.8%
2020	433	4.3%
2018	344	3.4%
Other values (41)	1535	15.3%

Most occurring characters

Value	Count	Frequency (%)
0	12711	31.8%
2	11172	27.9%
1	10793	27.0%
4	900	2.2%
9	858	2.1%
6	849	2.1%
3	746	1.9%
5	741	1.9%
7	698	1.7%
8	535	1.3%
Other values (4)	23	0.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	40003	99.9%
Open Punctuation	9	< 0.1%
Close Punctuation	9	< 0.1%
Lowercase Letter	3	< 0.1%
Other Punctuation	2	< 0.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	12711	31.8%
2	11172	27.9%
1	10793	27.0%
4	900	2.2%
9	858	2.1%
6	849	2.1%
3	746	1.9%
5	741	1.9%
7	698	1.7%
8	535	1.3%

Open Punctuation

Value	Count	Frequency (%)
[	9	100.0%

Close Punctuation

Value	Count	Frequency (%)
]	9	100.0%

Lowercase Letter

Value	Count	Frequency (%)
c	3	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	40023	> 99.9%
Latin	3	< 0.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	12711	31.8%
2	11172	27.9%
1	10793	27.0%
4	900	2.2%
9	858	2.1%
6	849	2.1%
3	746	1.9%
5	741	1.9%
7	698	1.7%
8	535	1.3%
Other values (3)	20	< 0.1%

Latin

Value	Count	Frequency (%)
c	3	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	40026	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	12711	31.8%
2	11172	27.9%
1	10793	27.0%
4	900	2.2%
9	858	2.1%
6	849	2.1%
3	746	1.9%
5	741	1.9%
7	698	1.7%
8	535	1.3%
Other values (4)	23	0.1%

순번

순번

Phik (φk)

Heatmap
Table

	순번	발행년
순번	1.000	0.925
발행년	0.925	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	순번	등록번호	청구기호	서명	저작자	발행자	발행년
2787	2788	CM0000000356	유아 539-신56ㅈ	지렁이 울음소리를 들어 봐!	신순재 글 ; 장경혜 그림	창비	2010
7745	7746	GM0000003252	234.8-슈884ㅎ	하늘은 땅에서 열린다 : 참 그리스도인을 위한 삶의 길잡이	루돌프 슈테르텐브링크 지음 ; 김선태 옮김	바오로딸	2011
38503	38509	GM0000021288	843.6-메68ㅁ-2	미드나잇 선. 2	스테프니 메이어 지음 ; 심연희 옮김	북폴리오	2021
14286	14287	GM0000007313	843.6-사44ㅂ	바람둥이 완전정복 : 마크 사버스 장편소설	마크 사버스 지음 ; 권경희 옮김	레드박스	2011
25335	25339	EM0000006807	아동 843-P947w	Who lives in your house. Who lives in the sea	by Priddy books	Priddy books	2003
23730	23734	CM0000003332	유아 813-프293-v.4	쌀이 된 프랭키	리퀴드 브레인 [편]	거북이북스	2014
18580	18583	EM0000005007	아동 808.91-세14-v.3	(공부가 되는)세계명단편. 3	알퐁스 도데 외 원작 ; 글공작소 엮음	아름다운사람들	2013
14252	14253	EM0000003368	아동 843-B219s	(The)story of little Babaji	Helen Bannerman 저 ; Fred Marcellino 그림	HarperThropy	1996
13498	13499	GM0000007010	843.5-테68ㅍ	프랜차이즈 저택 사건	조세핀 테이 지음 ; 권영주 옮김	시공사:검은숲	2011
4383	4384	EM0000000317	아동 320-날12ㅃ-v.2	뿡야의 지구별 경제 탐험. 2:, 똑똑사탕 공장으로 간 뿡야	날개달린연필 글 ; 이영림 그림 ; 유진영 감수	파란자전거	2010

	순번	등록번호	청구기호	서명	저작자	발행자	발행년
11878	11879	CM0000002213	유아 808-마56-v.3	꼬꼬의 아기	정영숙 글 ; 차정인 그림	웅진씽크빅:웅진다책	2011
7839	7840	GM0000003935	476.1-피55ㅇ	유전자 개념의 역사	앙드레 피쇼 지음 ; 이정희 옮김	나남	2010
26632	26637	CM0000003811	유아 833-고38ㅈ	저리 비켜	고미 타로 글·그림 ; 한수연 옮김	시공사:시공주니어	2005
11325	11326	EM0000002853	아동 802-어298-v.5	나는 누구일까	김종옥 글 ; 김영수 그림	웅진씽크빅:웅진다책	2007
17281	17284	GM0000009262	813.8-정82ㄴ	눈동자 속으로 흐르는 강물 : 정채봉 동화집	정채봉 지음	문학아카데미	1997
4179	4180	EM0000000601	아동 511.18-스875ㄴ	뇌과학이 알려주는 잠의 비밀	일레인 스콧 글 ; 존 오브라이언 그림 ; 이충호 옮김	내인생의책	2009
7457	7458	GM0000003286	321.9-앨887ㅇ	10년 후 미래 : 세계 경제의 운명을 바꿀 12가지 트렌드	대니얼 앨트먼 지음 ; 고영태 옮김	청림출판	2011
35335	35341	GM0000019701	큰802-임74ㄱ	(임정섭의)글쓰기 훈련소 : 내 문장이 그렇게 유치한가요	임정섭 지음	다산초당	2019
12693	12694	GM0000006192	234.8-터874ㅎ	하나님, 그만 먹고 싶어요 : 음식중독에서 벗어나는 영적훈련 다이어트	리사 터커스트 지음 ; 김진선 옮김	KOREA.COM:대성	2011
38219	38225	GM0000021272	814.7-백56ㄷ	다정한 매일매일 : 빵과 책을 굽는 마음 : 백수린 산문	백수린 지음	작가정신	2020

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Dash Punctuation

Space Separator

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Compat Jamo

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Close Punctuation

Open Punctuation

Letter Number

Other Symbol

Dash Punctuation

Space Separator

Initial Punctuation

Final Punctuation

Control

Currency Symbol

Most occurring scripts

Most frequent character per script

Hangul

Han

Common

Latin

Hiragana

Katakana

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

CJK

Math Operators

Number Forms

Enclosed Alphanum

Hiragana

Punctuation

Katakana

CJK Compat Ideographs

Compat Jamo

Misc Symbols

Letterlike Symbols

Most occurring characters

Most occurring categories