gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	3315
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	184.7 KiB
Average record size in memory	57.0 B

Variable types

Numeric	1
Text	5
Categorical	1

Dataset

Description	대구광역시립수성도서관에서 최근 소장하게 된 도서의 정보로 서명, 저자, 발행자, 발행년, 청구기호의 정보를 제공합니다.
Author	대구광역시교육청 대구광역시립수성도서관
URL	https://www.data.go.kr/data/15005090/fileData.do

Alerts

`발행년` is highly imbalanced (58.5%)	Imbalance
`번호` has unique values	Unique
`등록번호` has unique values	Unique

Reproduction

Analysis started	2024-04-06 08:51:12.982314
Analysis finished	2024-04-06 08:51:17.339320
Duration	4.36 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

번호
Real number (ℝ)

UNIQUE

Distinct	3315
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	1658

Minimum	1
Maximum	3315
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	29.3 KiB

Quantile statistics

Minimum	1
5-th percentile	166.7
Q1	829.5
median	1658
Q3	2486.5
95-th percentile	3149.3
Maximum	3315
Range	3314
Interquartile range (IQR)	1657

Descriptive statistics

Standard deviation	957.1024
Coefficient of variation (CV)	0.57726321
Kurtosis	-1.2
Mean	1658
Median Absolute Deviation (MAD)	829
Skewness	0
Sum	5496270
Variance	916045
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
1	1	< 0.1%
2216	1	< 0.1%
2206	1	< 0.1%
2207	1	< 0.1%
2208	1	< 0.1%
2209	1	< 0.1%
2210	1	< 0.1%
2211	1	< 0.1%
2212	1	< 0.1%
2213	1	< 0.1%
Other values (3305)	3305	99.7%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	< 0.1%
2	1	< 0.1%
3	1	< 0.1%
4	1	< 0.1%
5	1	< 0.1%
6	1	< 0.1%
7	1	< 0.1%
8	1	< 0.1%
9	1	< 0.1%
10	1	< 0.1%

Value	Count	Frequency (%)
3315	1	< 0.1%
3314	1	< 0.1%
3313	1	< 0.1%
3312	1	< 0.1%
3311	1	< 0.1%
3310	1	< 0.1%
3309	1	< 0.1%
3308	1	< 0.1%
3307	1	< 0.1%
3306	1	< 0.1%

등록번호
Text

UNIQUE

Distinct	3315
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	26.0 KiB

Length

Max length	12
Median length	12
Mean length	12
Min length	12

Characters and Unicode

Total characters	39780
Distinct characters	17
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3315 ?
Unique (%)	100.0%

Sample

1st row	BDD000001351
2nd row	BDD000001352
3rd row	BDD000001353
4th row	BDD000001354
5th row	BDD000001355

Value	Count	Frequency (%)
bdd000001351	1	< 0.1%
bds000519567	1	< 0.1%
bds000519569	1	< 0.1%
bds000519558	1	< 0.1%
bds000519559	1	< 0.1%
bds000519560	1	< 0.1%
bds000519561	1	< 0.1%
bds000519562	1	< 0.1%
bds000519563	1	< 0.1%
bds000519564	1	< 0.1%
Other values (3305)	3305	99.7%

Most occurring characters

Value	Count	Frequency (%)
0	11926	30.0%
5	4349	10.9%
1	3589	9.0%
B	3315	8.3%
D	3135	7.9%
S	3045	7.7%
9	1981	5.0%
8	1964	4.9%
7	1572	4.0%
2	1369	3.4%
Other values (7)	3535	8.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	29835	75.0%
Uppercase Letter	9945	25.0%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	11926	40.0%
5	4349	14.6%
1	3589	12.0%
9	1981	6.6%
8	1964	6.6%
7	1572	5.3%
2	1369	4.6%
4	1091	3.7%
6	1002	3.4%
3	992	3.3%

Uppercase Letter

Value	Count	Frequency (%)
B	3315	33.3%
D	3135	31.5%
S	3045	30.6%
E	200	2.0%
M	200	2.0%
Q	30	0.3%
W	20	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	29835	75.0%
Latin	9945	25.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	11926	40.0%
5	4349	14.6%
1	3589	12.0%
9	1981	6.6%
8	1964	6.6%
7	1572	5.3%
2	1369	4.6%
4	1091	3.7%
6	1002	3.4%
3	992	3.3%

Latin

Value	Count	Frequency (%)
B	3315	33.3%
D	3135	31.5%
S	3045	30.6%
E	200	2.0%
M	200	2.0%
Q	30	0.3%
W	20	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	39780	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	11926	30.0%
5	4349	10.9%
1	3589	9.0%
B	3315	8.3%
D	3135	7.9%
S	3045	7.7%
9	1981	5.0%
8	1964	4.9%
7	1572	4.0%
2	1369	3.4%
Other values (7)	3535	8.9%

청구기호
Text

Distinct	3266
Distinct (%)	98.5%
Missing	0
Missing (%)	0.0%
Memory size	26.0 KiB

Length

Max length	19
Median length	17
Mean length	11.933333
Min length	7

Characters and Unicode

Total characters	39559
Distinct characters	423
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3231 ?
Unique (%)	97.5%

Sample

1st row	필(J) 650-팔17ㅇ
2nd row	필(J) 796.8-닥833ㅇ
3rd row	필(J) 896.8-바58ㅇ
4th row	필(J) 896.8-아53ㅂ
5th row	필(J) 796.8-타31ㅍ

Value	Count	Frequency (%)
j	692	14.2%
mc	460	9.4%
양(j	157	3.2%
청	119	2.4%
양	43	0.9%
dv	30	0.6%
큰	17	0.3%
일(j	10	0.2%
필	10	0.2%
필(j	10	0.2%
Other values (3263)	3327	68.2%

Most occurring characters

Value	Count	Frequency (%)
-	4038	10.2%
8	3483	8.8%
1	3393	8.6%
3	3373	8.5%
2	2365	6.0%
.	2281	5.8%
4	2007	5.1%
5	1954	4.9%
9	1896	4.8%
7	1600	4.0%
Other values (413)	13169	33.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	22518	56.9%
Other Letter	6126	15.5%
Dash Punctuation	4038	10.2%
Other Punctuation	2281	5.8%
Uppercase Letter	2048	5.2%
Space Separator	1560	3.9%
Math Symbol	436	1.1%
Lowercase Letter	196	0.5%
Close Punctuation	178	0.4%
Open Punctuation	178	0.4%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
ㅇ	578	9.4%
ㅅ	328	5.4%
김	289	4.7%
ㄱ	282	4.6%
이	271	4.4%
양	212	3.5%
ㄴ	201	3.3%
ㅈ	188	3.1%
ㅂ	176	2.9%
ㅁ	170	2.8%
Other values (350)	3431	56.0%

Lowercase Letter

Value	Count	Frequency (%)
c	20	10.2%
s	17	8.7%
a	16	8.2%
i	14	7.1%
h	14	7.1%
b	13	6.6%
w	13	6.6%
l	12	6.1%
t	10	5.1%
n	9	4.6%
Other values (13)	58	29.6%

Uppercase Letter

Value	Count	Frequency (%)
J	872	42.6%
M	471	23.0%
C	465	22.7%
L	66	3.2%
D	38	1.9%
V	31	1.5%
S	19	0.9%
H	16	0.8%
B	15	0.7%
K	9	0.4%
Other values (12)	46	2.2%

Decimal Number

Value	Count	Frequency (%)
8	3483	15.5%
1	3393	15.1%
3	3373	15.0%
2	2365	10.5%
4	2007	8.9%
5	1954	8.7%
9	1896	8.4%
7	1600	7.1%
6	1363	6.1%
0	1084	4.8%

Close Punctuation

Value	Count	Frequency (%)
)	177	99.4%
]	1	0.6%

Open Punctuation

Value	Count	Frequency (%)
(	177	99.4%
[	1	0.6%

Dash Punctuation

Value	Count	Frequency (%)
-	4038	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	2281	100.0%

Space Separator

Value	Count	Frequency (%)
	1560	100.0%

Math Symbol

Value	Count	Frequency (%)
=	436	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	31189	78.8%
Hangul	6126	15.5%
Latin	2244	5.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
ㅇ	578	9.4%
ㅅ	328	5.4%
김	289	4.7%
ㄱ	282	4.6%
이	271	4.4%
양	212	3.5%
ㄴ	201	3.3%
ㅈ	188	3.1%
ㅂ	176	2.9%
ㅁ	170	2.8%
Other values (350)	3431	56.0%

Latin

Value	Count	Frequency (%)
J	872	38.9%
M	471	21.0%
C	465	20.7%
L	66	2.9%
D	38	1.7%
V	31	1.4%
c	20	0.9%
S	19	0.8%
s	17	0.8%
H	16	0.7%
Other values (35)	229	10.2%

Common

Value	Count	Frequency (%)
-	4038	12.9%
8	3483	11.2%
1	3393	10.9%
3	3373	10.8%
2	2365	7.6%
.	2281	7.3%
4	2007	6.4%
5	1954	6.3%
9	1896	6.1%
7	1600	5.1%
Other values (8)	4799	15.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	33433	84.5%
Hangul	3511	8.9%
Compat Jamo	2615	6.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	4038	12.1%
8	3483	10.4%
1	3393	10.1%
3	3373	10.1%
2	2365	7.1%
.	2281	6.8%
4	2007	6.0%
5	1954	5.8%
9	1896	5.7%
7	1600	4.8%
Other values (53)	7043	21.1%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	578	22.1%
ㅅ	328	12.5%
ㄱ	282	10.8%
ㄴ	201	7.7%
ㅈ	188	7.2%
ㅂ	176	6.7%
ㅁ	170	6.5%
ㅎ	161	6.2%
ㄷ	154	5.9%
ㅊ	95	3.6%
Other values (9)	282	10.8%

Hangul

Value	Count	Frequency (%)
김	289	8.2%
이	271	7.7%
양	212	6.0%
박	129	3.7%
청	121	3.4%
안	73	2.1%
정	70	2.0%
퍼	57	1.6%
다	54	1.5%
조	51	1.5%
Other values (331)	2184	62.2%

서명
Text

Distinct	3126
Distinct (%)	94.3%
Missing	0
Missing (%)	0.0%
Memory size	26.0 KiB

Length

Max length	125
Median length	71
Mean length	24.169834
Min length	1

Characters and Unicode

Total characters	80123
Distinct characters	1330
Distinct categories	16 ?
Distinct scripts	6 ?
Distinct blocks	13 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3047 ?
Unique (%)	91.9%

Sample

1st row	What kids should know about filipino visual art
2nd row	(Ang)aking mukha
3rd row	(Ang)awit ni balagtas
4th row	(Ang)buhok nga naglimpyo kang suba
5th row	(Ang)pamilya namin

Value	Count	Frequency (%)
	1443	7.0%
이야기	148	0.7%
1	110	0.5%
내	106	0.5%
위한	105	0.5%
2	97	0.5%
장편소설	71	0.3%
the	70	0.3%
그림책	64	0.3%
교과서	62	0.3%
Other values (9661)	18462	89.0%

Most occurring characters

Value	Count	Frequency (%)
	17424	21.7%
:	1431	1.8%
의	1420	1.8%
이	1328	1.7%
는	1040	1.3%
,	960	1.2%
e	757	0.9%
기	734	0.9%
리	727	0.9%
가	707	0.9%
Other values (1320)	53595	66.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48619	60.7%
Space Separator	17424	21.7%
Lowercase Letter	6501	8.1%
Other Punctuation	3635	4.5%
Decimal Number	1860	2.3%
Uppercase Letter	919	1.1%
Close Punctuation	474	0.6%
Open Punctuation	474	0.6%
Math Symbol	136	0.2%
Dash Punctuation	63	0.1%
Other values (6)	18	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	1420	2.9%
이	1328	2.7%
는	1040	2.1%
기	734	1.5%
리	727	1.5%
가	707	1.5%
한	702	1.4%
지	684	1.4%
다	668	1.4%
사	642	1.3%
Other values (1215)	39967	82.2%

Lowercase Letter

Value	Count	Frequency (%)
e	757	11.6%
o	567	8.7%
a	534	8.2%
i	496	7.6%
n	489	7.5%
t	471	7.2%
r	417	6.4%
s	385	5.9%
h	334	5.1%
l	329	5.1%
Other values (16)	1722	26.5%

Uppercase Letter

Value	Count	Frequency (%)
T	90	9.8%
D	89	9.7%
A	88	9.6%
W	79	8.6%
M	68	7.4%
I	62	6.7%
S	46	5.0%
B	44	4.8%
C	39	4.2%
V	39	4.2%
Other values (16)	275	29.9%

Other Punctuation

Value	Count	Frequency (%)
:	1431	39.4%
,	960	26.4%
.	692	19.0%
!	218	6.0%
?	194	5.3%
'	58	1.6%
·	49	1.3%
&	16	0.4%
%	4	0.1%
"	4	0.1%
Other values (4)	9	0.2%

Decimal Number

Value	Count	Frequency (%)
1	423	22.7%
2	349	18.8%
0	269	14.5%
3	200	10.8%
4	192	10.3%
5	134	7.2%
6	91	4.9%
9	79	4.2%
7	65	3.5%
8	58	3.1%

Math Symbol

Value	Count	Frequency (%)
=	88	64.7%
~	42	30.9%
×	2	1.5%
>	1	0.7%
<	1	0.7%
＞	1	0.7%
＜	1	0.7%

Close Punctuation

Value	Count	Frequency (%)
)	427	90.1%
]	39	8.2%
』	5	1.1%
」	1	0.2%
》	1	0.2%
〉	1	0.2%

Open Punctuation

Value	Count	Frequency (%)
(	427	90.1%
[	39	8.2%
『	5	1.1%
「	1	0.2%
《	1	0.2%
〈	1	0.2%

Other Symbol

Value	Count	Frequency (%)
★	1	50.0%
℃	1	50.0%

Letter Number

Value	Count	Frequency (%)
Ⅱ	1	50.0%
Ⅰ	1	50.0%

Space Separator

Value	Count	Frequency (%)
	17424	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	63	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	5	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	4	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	4	100.0%

Modifier Letter

Value	Count	Frequency (%)
ː	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48395	60.4%
Common	24082	30.1%
Latin	7422	9.3%
Hiragana	105	0.1%
Han	83	0.1%
Katakana	36	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	1420	2.9%
이	1328	2.7%
는	1040	2.1%
기	734	1.5%
리	727	1.5%
가	707	1.5%
한	702	1.5%
지	684	1.4%
다	668	1.4%
사	642	1.3%
Other values (1074)	39743	82.1%

Han

Value	Count	Frequency (%)
日	3	3.6%
書	3	3.6%
百	3	3.6%
家	3	3.6%
讀	3	3.6%
年	3	3.6%
語	2	2.4%
一	2	2.4%
詩	2	2.4%
半	2	2.4%
Other values (57)	57	68.7%

Latin

Value	Count	Frequency (%)
e	757	10.2%
o	567	7.6%
a	534	7.2%
i	496	6.7%
n	489	6.6%
t	471	6.3%
r	417	5.6%
s	385	5.2%
h	334	4.5%
l	329	4.4%
Other values (44)	2643	35.6%

Common

Value	Count	Frequency (%)
	17424	72.4%
:	1431	5.9%
,	960	4.0%
.	692	2.9%
)	427	1.8%
(	427	1.8%
1	423	1.8%
2	349	1.4%
0	269	1.1%
!	218	0.9%
Other values (41)	1462	6.1%

Hiragana

Value	Count	Frequency (%)
の	7	6.7%
さ	6	5.7%
い	6	5.7%
ら	5	4.8%
と	4	3.8%
な	4	3.8%
く	4	3.8%
ち	4	3.8%
あ	4	3.8%
っ	4	3.8%
Other values (38)	57	54.3%

Katakana

Value	Count	Frequency (%)
ン	4	11.1%
ラ	2	5.6%
ワ	2	5.6%
キ	2	5.6%
ム	2	5.6%
ロ	2	5.6%
ミ	2	5.6%
コ	2	5.6%
ド	1	2.8%
ヘ	1	2.8%
Other values (16)	16	44.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48390	60.4%
ASCII	31419	39.2%
Hiragana	105	0.1%
CJK	82	0.1%
None	71	0.1%
Katakana	36	< 0.1%
Punctuation	9	< 0.1%
Compat Jamo	5	< 0.1%
Number Forms	2	< 0.1%
Misc Symbols	1	< 0.1%
Other values (3)	3	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	17424	55.5%
:	1431	4.6%
,	960	3.1%
e	757	2.4%
.	692	2.2%
o	567	1.8%
a	534	1.7%
i	496	1.6%
n	489	1.6%
t	471	1.5%
Other values (74)	7598	24.2%

Hangul

Value	Count	Frequency (%)
의	1420	2.9%
이	1328	2.7%
는	1040	2.1%
기	734	1.5%
리	727	1.5%
가	707	1.5%
한	702	1.5%
지	684	1.4%
다	668	1.4%
사	642	1.3%
Other values (1069)	39738	82.1%

None

Value	Count	Frequency (%)
·	49	69.0%
』	5	7.0%
『	5	7.0%
＆	2	2.8%
×	2	2.8%
」	1	1.4%
「	1	1.4%
《	1	1.4%
＞	1	1.4%
＜	1	1.4%
Other values (3)	3	4.2%

Hiragana

Value	Count	Frequency (%)
の	7	6.7%
さ	6	5.7%
い	6	5.7%
ら	5	4.8%
と	4	3.8%
な	4	3.8%
く	4	3.8%
ち	4	3.8%
あ	4	3.8%
っ	4	3.8%
Other values (38)	57	54.3%

Punctuation

Value	Count	Frequency (%)
’	4	44.4%
‘	4	44.4%
…	1	11.1%

Katakana

Value	Count	Frequency (%)
ン	4	11.1%
ラ	2	5.6%
ワ	2	5.6%
キ	2	5.6%
ム	2	5.6%
ロ	2	5.6%
ミ	2	5.6%
コ	2	5.6%
ド	1	2.8%
ヘ	1	2.8%
Other values (16)	16	44.4%

CJK

Value	Count	Frequency (%)
日	3	3.7%
書	3	3.7%
百	3	3.7%
家	3	3.7%
讀	3	3.7%
年	3	3.7%
語	2	2.4%
一	2	2.4%
詩	2	2.4%
半	2	2.4%
Other values (56)	56	68.3%

Misc Symbols

Value	Count	Frequency (%)
★	1	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㄷ	1	20.0%
ㄴ	1	20.0%
ㄱ	1	20.0%
ㅎ	1	20.0%
ㆍ	1	20.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	1	50.0%
Ⅰ	1	50.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
歷	1	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
℃	1	100.0%

Modifier Letters

Value	Count	Frequency (%)
ː	1	100.0%

저자
Text

Distinct	2825
Distinct (%)	85.2%
Missing	0
Missing (%)	0.0%
Memory size	26.0 KiB

Length

Max length	140
Median length	87
Mean length	15.318552
Min length	2

Characters and Unicode

Total characters	50781
Distinct characters	884
Distinct categories	10 ?
Distinct scripts	6 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2596 ?
Unique (%)	78.3%

Sample

1st row	written by Raissa Rivera Falgui,Denise Besinga-Manlapaz ; illustratrated by Pat Portugal
2nd row	guhit ni Yas Doctor
3rd row	isinulat ni Eugene Y. Evasco ; iginuhit ni Ara Villena
4th row	kuwento ni Genevieve L. Asenjo ; guhit ni Viel Vidal
5th row	gunit ni Vanessa Tamayo

Value	Count	Frequency (%)
	1967	13.9%
지음	1581	11.1%
그림	797	5.6%
글	742	5.2%
옮김	737	5.2%
지은이	230	1.6%
by	153	1.1%
글·그림	126	0.9%
원작	62	0.4%
저	60	0.4%
Other values (4867)	7741	54.5%

Most occurring characters

Value	Count	Frequency (%)
	10921	21.5%
지	2131	4.2%
;	1955	3.8%
음	1664	3.3%
김	1521	3.0%
이	1321	2.6%
그	1012	2.0%
림	979	1.9%
글	926	1.8%
옮	808	1.6%
Other values (874)	27543	54.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	30410	59.9%
Space Separator	10921	21.5%
Lowercase Letter	4509	8.9%
Other Punctuation	3689	7.3%
Uppercase Letter	866	1.7%
Open Punctuation	175	0.3%
Close Punctuation	175	0.3%
Dash Punctuation	16	< 0.1%
Decimal Number	16	< 0.1%
Math Symbol	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	2131	7.0%
음	1664	5.5%
김	1521	5.0%
이	1321	4.3%
그	1012	3.3%
림	979	3.2%
글	926	3.0%
옮	808	2.7%
정	513	1.7%
은	508	1.7%
Other values (799)	19027	62.6%

Lowercase Letter

Value	Count	Frequency (%)
a	484	10.7%
e	469	10.4%
n	467	10.4%
i	456	10.1%
o	317	7.0%
t	313	6.9%
r	307	6.8%
l	288	6.4%
y	238	5.3%
s	208	4.6%
Other values (16)	962	21.3%

Uppercase Letter

Value	Count	Frequency (%)
L	146	16.9%
S	70	8.1%
A	62	7.2%
J	59	6.8%
D	49	5.7%
H	48	5.5%
T	47	5.4%
C	47	5.4%
M	46	5.3%
B	42	4.8%
Other values (15)	250	28.9%

Other Punctuation

Value	Count	Frequency (%)
;	1955	53.0%
:	744	20.2%
,	720	19.5%
·	152	4.1%
.	86	2.3%
?	29	0.8%
/	1	< 0.1%
@	1	< 0.1%
'	1	< 0.1%

Decimal Number

Value	Count	Frequency (%)
1	5	31.2%
0	3	18.8%
5	2	12.5%
7	2	12.5%
9	2	12.5%
2	1	6.2%
3	1	6.2%

Open Punctuation

Value	Count	Frequency (%)
[	154	88.0%
(	21	12.0%

Close Punctuation

Value	Count	Frequency (%)
]	154	88.0%
)	21	12.0%

Math Symbol

Value	Count	Frequency (%)
<	2	50.0%
>	2	50.0%

Space Separator

Value	Count	Frequency (%)
	10921	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	16	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	30224	59.5%
Common	14996	29.5%
Latin	5375	10.6%
Han	79	0.2%
Katakana	64	0.1%
Hiragana	43	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	2131	7.1%
음	1664	5.5%
김	1521	5.0%
이	1321	4.4%
그	1012	3.3%
림	979	3.2%
글	926	3.1%
옮	808	2.7%
정	513	1.7%
은	508	1.7%
Other values (689)	18841	62.3%

Latin

Value	Count	Frequency (%)
a	484	9.0%
e	469	8.7%
n	467	8.7%
i	456	8.5%
o	317	5.9%
t	313	5.8%
r	307	5.7%
l	288	5.4%
y	238	4.4%
s	208	3.9%
Other values (41)	1828	34.0%

Han

Value	Count	Frequency (%)
著	12	15.2%
子	5	6.3%
文	3	3.8%
川	3	3.8%
吾	2	2.5%
原	2	2.5%
上	2	2.5%
案	2	2.5%
作	2	2.5%
東	2	2.5%
Other values (39)	44	55.7%

Katakana

Value	Count	Frequency (%)
ン	9	14.1%
ィ	4	6.2%
シ	3	4.7%
ッ	3	4.7%
ド	3	4.7%
ス	3	4.7%
ソ	3	4.7%
リ	3	4.7%
ベ	2	3.1%
ヤ	2	3.1%
Other values (23)	29	45.3%

Hiragana

Value	Count	Frequency (%)
ん	4	9.3%
か	3	7.0%
み	2	4.7%
え	2	4.7%
う	2	4.7%
た	2	4.7%
し	2	4.7%
い	2	4.7%
つ	2	4.7%
こ	2	4.7%
Other values (18)	20	46.5%

Common

Value	Count	Frequency (%)
	10921	72.8%
;	1955	13.0%
:	744	5.0%
,	720	4.8%
[	154	1.0%
]	154	1.0%
·	152	1.0%
.	86	0.6%
?	29	0.2%
(	21	0.1%
Other values (14)	60	0.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	30224	59.5%
ASCII	20219	39.8%
None	152	0.3%
CJK	79	0.2%
Katakana	64	0.1%
Hiragana	43	0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	10921	54.0%
;	1955	9.7%
:	744	3.7%
,	720	3.6%
a	484	2.4%
e	469	2.3%
n	467	2.3%
i	456	2.3%
o	317	1.6%
t	313	1.5%
Other values (64)	3373	16.7%

Hangul

Value	Count	Frequency (%)
지	2131	7.1%
음	1664	5.5%
김	1521	5.0%
이	1321	4.4%
그	1012	3.3%
림	979	3.2%
글	926	3.1%
옮	808	2.7%
정	513	1.7%
은	508	1.7%
Other values (689)	18841	62.3%

None

Value	Count	Frequency (%)
·	152	100.0%

CJK

Value	Count	Frequency (%)
著	12	15.2%
子	5	6.3%
文	3	3.8%
川	3	3.8%
吾	2	2.5%
原	2	2.5%
上	2	2.5%
案	2	2.5%
作	2	2.5%
東	2	2.5%
Other values (39)	44	55.7%

Katakana

Value	Count	Frequency (%)
ン	9	14.1%
ィ	4	6.2%
シ	3	4.7%
ッ	3	4.7%
ド	3	4.7%
ス	3	4.7%
ソ	3	4.7%
リ	3	4.7%
ベ	2	3.1%
ヤ	2	3.1%
Other values (23)	29	45.3%

Hiragana

Value	Count	Frequency (%)
ん	4	9.3%
か	3	7.0%
み	2	4.7%
え	2	4.7%
う	2	4.7%
た	2	4.7%
し	2	4.7%
い	2	4.7%
つ	2	4.7%
こ	2	4.7%
Other values (18)	20	46.5%

발행자
Text

Distinct	1375
Distinct (%)	41.5%
Missing	0
Missing (%)	0.0%
Memory size	26.0 KiB

Length

Max length	40
Median length	35
Mean length	5.547813
Min length	1

Characters and Unicode

Total characters	18391
Distinct characters	699
Distinct categories	10 ?
Distinct scripts	6 ?
Distinct blocks	7 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	861 ?
Unique (%)	26.0%

Sample

1st row	Adarna House
2nd row	Adarna House
3rd row	Johnny & Hansel Publications
4th row	Aklat Alamid
5th row	Adarna House

Value	Count	Frequency (%)
books	109	2.9%
다산어린이	62	1.7%
한국헤르만헤세	56	1.5%
그레이트북스	55	1.5%
dragonfly	55	1.5%
문학동네	54	1.4%
예림당	47	1.3%
그레이트	37	1.0%
books(그레이트북스	37	1.0%
위즈덤하우스	31	0.8%
Other values (1454)	3193	85.5%

Most occurring characters

Value	Count	Frequency (%)
o	609	3.3%
스	602	3.3%
이	549	3.0%
북	486	2.6%
	426	2.3%
사	374	2.0%
s	300	1.6%
r	263	1.4%
어	262	1.4%
a	256	1.4%
Other values (689)	14264	77.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	13062	71.0%
Lowercase Letter	3530	19.2%
Uppercase Letter	890	4.8%
Space Separator	426	2.3%
Open Punctuation	185	1.0%
Close Punctuation	184	1.0%
Other Punctuation	67	0.4%
Decimal Number	44	0.2%
Dash Punctuation	2	< 0.1%
Connector Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	602	4.6%
이	549	4.2%
북	486	3.7%
사	374	2.9%
어	262	2.0%
아	248	1.9%
그	198	1.5%
트	197	1.5%
레	191	1.5%
문	184	1.4%
Other values (613)	9771	74.8%

Lowercase Letter

Value	Count	Frequency (%)
o	609	17.3%
s	300	8.5%
r	263	7.5%
a	256	7.3%
n	250	7.1%
l	241	6.8%
e	233	6.6%
i	215	6.1%
k	197	5.6%
g	113	3.2%
Other values (16)	853	24.2%

Uppercase Letter

Value	Count	Frequency (%)
B	205	23.0%
D	73	8.2%
S	67	7.5%
P	59	6.6%
A	59	6.6%
R	46	5.2%
K	43	4.8%
H	41	4.6%
C	40	4.5%
M	40	4.5%
Other values (15)	217	24.4%

Other Punctuation

Value	Count	Frequency (%)
&	18	26.9%
.	17	25.4%
?	9	13.4%
,	6	9.0%
'	5	7.5%
/	4	6.0%
·	2	3.0%
;	2	3.0%
#	2	3.0%
!	1	1.5%

Decimal Number

Value	Count	Frequency (%)
2	17	38.6%
1	16	36.4%
6	3	6.8%
0	3	6.8%
3	2	4.5%
5	2	4.5%
4	1	2.3%

Open Punctuation

Value	Count	Frequency (%)
(	180	97.3%
[	5	2.7%

Close Punctuation

Value	Count	Frequency (%)
)	179	97.3%
]	5	2.7%

Space Separator

Value	Count	Frequency (%)
	426	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	12948	70.4%
Latin	4420	24.0%
Common	909	4.9%
Han	93	0.5%
Katakana	17	0.1%
Hiragana	4	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	602	4.6%
이	549	4.2%
북	486	3.8%
사	374	2.9%
어	262	2.0%
아	248	1.9%
그	198	1.5%
트	197	1.5%
레	191	1.5%
문	184	1.4%
Other values (542)	9657	74.6%

Han

Value	Count	Frequency (%)
社	12	12.9%
文	7	7.5%
新	4	4.3%
化	3	3.2%
金	2	2.2%
出	2	2.2%
版	2	2.2%
書	2	2.2%
究	2	2.2%
美	2	2.2%
Other values (45)	55	59.1%

Latin

Value	Count	Frequency (%)
o	609	13.8%
s	300	6.8%
r	263	6.0%
a	256	5.8%
n	250	5.7%
l	241	5.5%
e	233	5.3%
i	215	4.9%
B	205	4.6%
k	197	4.5%
Other values (41)	1651	37.4%

Common

Value	Count	Frequency (%)
	426	46.9%
(	180	19.8%
)	179	19.7%
&	18	2.0%
2	17	1.9%
.	17	1.9%
1	16	1.8%
?	9	1.0%
,	6	0.7%
[	5	0.6%
Other values (15)	36	4.0%

Katakana

Value	Count	Frequency (%)
シ	2	11.8%
パ	2	11.8%
イ	2	11.8%
ン	2	11.8%
ナ	2	11.8%
タ	1	5.9%
ブ	1	5.9%
ル	1	5.9%
ョ	1	5.9%
リ	1	5.9%
Other values (2)	2	11.8%

Hiragana

Value	Count	Frequency (%)
い	1	25.0%
ら	1	25.0%
み	1	25.0%
の	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	12945	70.4%
ASCII	5327	29.0%
CJK	93	0.5%
Katakana	17	0.1%
Hiragana	4	< 0.1%
Compat Jamo	3	< 0.1%
None	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
o	609	11.4%
	426	8.0%
s	300	5.6%
r	263	4.9%
a	256	4.8%
n	250	4.7%
l	241	4.5%
e	233	4.4%
i	215	4.0%
B	205	3.8%
Other values (65)	2329	43.7%

Hangul

Value	Count	Frequency (%)
스	602	4.7%
이	549	4.2%
북	486	3.8%
사	374	2.9%
어	262	2.0%
아	248	1.9%
그	198	1.5%
트	197	1.5%
레	191	1.5%
문	184	1.4%
Other values (539)	9654	74.6%

CJK

Value	Count	Frequency (%)
社	12	12.9%
文	7	7.5%
新	4	4.3%
化	3	3.2%
金	2	2.2%
出	2	2.2%
版	2	2.2%
書	2	2.2%
究	2	2.2%
美	2	2.2%
Other values (45)	55	59.1%

Katakana

Value	Count	Frequency (%)
シ	2	11.8%
パ	2	11.8%
イ	2	11.8%
ン	2	11.8%
ナ	2	11.8%
タ	1	5.9%
ブ	1	5.9%
ル	1	5.9%
ョ	1	5.9%
リ	1	5.9%
Other values (2)	2	11.8%

None

Value	Count	Frequency (%)
·	2	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㅎ	1	33.3%
ㅅ	1	33.3%
ㅁ	1	33.3%

Hiragana

Value	Count	Frequency (%)
い	1	25.0%
ら	1	25.0%
み	1	25.0%
の	1	25.0%

발행년
Categorical

IMBALANCE

Distinct	27
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	26.0 KiB

2023	2105
2022	388
2024	319
2021	228
2020	46
Other values (22)	229

Length

Max length	6
Median length	4
Mean length	4.053997
Min length	4

Unique

Unique	4 ?
Unique (%)	0.1%

Sample

1st row	2022
2nd row	2021
3rd row	2023
4th row	2022
5th row	2021

Common Values

Value	Count	Frequency (%)
2023	2105	63.5%
2022	388	11.7%
2024	319	9.6%
2021	228	6.9%
2020	46	1.4%
[2023]	43	1.3%
[2021]	42	1.3%
2019	27	0.8%
2017	23	0.7%
2016	16	0.5%
Other values (17)	78	2.4%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
2023	2150	64.9%
2022	388	11.7%
2024	323	9.7%
2021	270	8.1%
2020	46	1.4%
2019	27	0.8%
2017	23	0.7%
2016	16	0.5%
2012	11	0.3%
2018	11	0.3%
Other values (11)	50	1.5%

번호

번호

Phik (φk)
Auto

Heatmap
Table

	번호	발행년
번호	1.000	0.698
발행년	0.698	1.000

Heatmap
Table

	번호	발행년
번호	1.000	0.336
발행년	0.336	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	번호	등록번호	청구기호	서명	저자	발행자	발행년
0	1	BDD000001351	필(J) 650-팔17ㅇ	What kids should know about filipino visual art	written by Raissa Rivera Falgui,Denise Besinga-Manlapaz ; illustratrated by Pat Portugal	Adarna House	2022
1	2	BDD000001352	필(J) 796.8-닥833ㅇ	(Ang)aking mukha	guhit ni Yas Doctor	Adarna House	2021
2	3	BDD000001353	필(J) 896.8-바58ㅇ	(Ang)awit ni balagtas	isinulat ni Eugene Y. Evasco ; iginuhit ni Ara Villena	Johnny & Hansel Publications	2023
3	4	BDD000001354	필(J) 896.8-아53ㅂ	(Ang)buhok nga naglimpyo kang suba	kuwento ni Genevieve L. Asenjo ; guhit ni Viel Vidal	Aklat Alamid	2022
4	5	BDD000001355	필(J) 796.8-타31ㅍ	(Ang)pamilya namin	gunit ni Vanessa Tamayo	Adarna House	2021
5	6	BDD000001356	필(J) 896.8-디31ㄷ	Datu Birang : ang tagapagtanggol ng apo sandawa	isinulat ni Janine Dimaranan ; guhit ni Noah Ocfemia	Southern Voices	2023
6	7	BDD000001357	필(J) 896.8-브231ㅁ	May alaga akong bakulaw	kuwento ni Becky Bravo ; guhit ni Ara Villena	Adarna House	2019
7	8	BDD000001358	필(J) 896.8-운55ㅍ	(Mga)pasahero sa dyip	sulat ni Gina Unson-Rivera ; guhit ni Domz Agsaway	Anvil Publishing	2022
8	9	BDD000001359	필(J) 896.8-운55ㅌ	(Mga)Tinapay ni tinay	sulat ni Gina Unson-Rivera ; guhit ni Domz Agsaway	Anvil Publishing	2022
9	10	BDD000001360	필(J) 896.8-산835ㅇ	Unang engkantada	kuwento ni Al Santos ; guhit ni Jap Mikel	Komiket	2022

	번호	등록번호	청구기호	서명	저자	발행자	발행년
3305	3306	BEM000005579	양 813.7-S34i	I went to see my father : a novel	Kyung-sook Shin ; translated by Anton Hur	Weidenfeld & Nicolson	2023
3306	3307	BEM000005580	양 513.8-B45i	In love : a memoir of love and loss	Amy Bloom	Random House	2022
3307	3308	BEM000005581	양 895.82-F57m	Melancholy Ⅰ-Ⅱ	Jon Fosse	Cartwheel Books	2023
3308	3309	BEM000005582	양 843-H15n	Nuclear family : a novel	Joseph Han	Counterpoint	2023
3309	3310	BEM000005583	양 843-D18l	(The)last thing he told me : a novel	Laura Dave	Marysue Rucci Books	2023
3310	3311	BEM000005584	양 843-C31s	(The)school for good mothers : a novel	Jessamine Chan	Marysue Rucci Books/Scribner	2023
3311	3312	BEM000005585	양 859.7-B12w	(The)winners	Fredrik Backman ; translated by Neil Smith	Simon & Schuster	2021
3312	3313	BEM000005586	양 843-S25k-2	Things we hide from the light	Lucy Score	Hodder & Stoughton	2023
3313	3314	BEM000005587	양 843-H16t	This other Eden : a novel	Paul Harding	W. W. Norton & Company	2024
3314	3315	BEM000005588	양 813.7-H81w	Welcome to the Hyunam-Dong Bookshop	Hwang Bo-reum ; translated by Shanna Tan	Bloomsbury Publishing	2023

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Close Punctuation

Open Punctuation

Dash Punctuation

Other Punctuation

Space Separator

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Compat Jamo

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Math Symbol

Close Punctuation

Open Punctuation

Other Symbol

Letter Number

Space Separator

Dash Punctuation

Modifier Symbol

Final Punctuation

Initial Punctuation

Modifier Letter

Most occurring scripts

Most frequent character per script

Hangul

Han

Latin

Common

Hiragana

Katakana

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Hiragana

Punctuation

Katakana

CJK

Misc Symbols

Compat Jamo

Number Forms

CJK Compat Ideographs

Letterlike Symbols

Modifier Letters

Most occurring characters