gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	1802
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	19
Duplicate rows (%)	1.1%
Total size in memory	72.3 KiB
Average record size in memory	41.1 B

Variable types

Text	3
Numeric	1
Categorical	1

Dataset

Description	전북특별자치도 장수군에 소재한 군립도서관에서 구입한 도서 목록 현황(도서명, 저자, 출판사, 수량, 구분)에 대하여 정보를 제공하고자 합니다
Author	전북특별자치도 장수군
URL	https://www.data.go.kr/data/15055047/fileData.do

Alerts

Dataset has 19 (1.1%) duplicate rows	Duplicates
`구분` is highly imbalanced (59.4%)	Imbalance
`수량` is highly skewed (γ1 = 27.60347527)	Skewed

Reproduction

Analysis started	2024-04-06 08:46:03.759203
Analysis finished	2024-04-06 08:46:06.564966
Duration	2.81 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

도서명
Text

Distinct	1780
Distinct (%)	98.8%
Missing	0
Missing (%)	0.0%
Memory size	14.2 KiB

Length

Max length	49
Median length	37
Mean length	15.420089
Min length	1

Characters and Unicode

Total characters	27787
Distinct characters	914
Distinct categories	10 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1760 ?
Unique (%)	97.7%

Sample

1st row	게으르지만 콘텐츠로 돈은 잘 법니다
2nd row	무인 양품의 생각과 말
3rd row	어포메이션
4th row	마녀의 은신처
5th row	미스터 프레지던트

Value	Count	Frequency (%)
	74	1.1%
1	69	1.0%
2	67	1.0%
오디오북	49	0.7%
3	35	0.5%
제로니모의	30	0.4%
환상	30	0.4%
시리즈	28	0.4%
4	28	0.4%
5	27	0.4%
Other values (3914)	6457	93.7%

Most occurring characters

Value	Count	Frequency (%)
	6027	21.7%
의	667	2.4%
이	505	1.8%
1	327	1.2%
(	323	1.2%
)	323	1.2%
는	317	1.1%
사	309	1.1%
.	306	1.1%
2	277	1.0%
Other values (904)	18406	66.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	18640	67.1%
Space Separator	6027	21.7%
Decimal Number	1304	4.7%
Other Punctuation	746	2.7%
Open Punctuation	388	1.4%
Close Punctuation	388	1.4%
Uppercase Letter	169	0.6%
Lowercase Letter	88	0.3%
Math Symbol	24	0.1%
Dash Punctuation	13	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	667	3.6%
이	505	2.7%
는	317	1.7%
사	309	1.7%
리	260	1.4%
아	236	1.3%
다	228	1.2%
스	222	1.2%
한	220	1.2%
마	215	1.2%
Other values (828)	15461	82.9%

Uppercase Letter

Value	Count	Frequency (%)
G	22	13.0%
T	19	11.2%
S	15	8.9%
V	12	7.1%
A	11	6.5%
E	10	5.9%
I	10	5.9%
O	9	5.3%
P	8	4.7%
D	6	3.6%
Other values (14)	47	27.8%

Lowercase Letter

Value	Count	Frequency (%)
o	23	26.1%
e	7	8.0%
r	6	6.8%
c	6	6.8%
x	6	6.8%
t	4	4.5%
a	4	4.5%
s	3	3.4%
d	3	3.4%
l	3	3.4%
Other values (13)	23	26.1%

Decimal Number

Value	Count	Frequency (%)
1	327	25.1%
2	277	21.2%
3	149	11.4%
5	118	9.0%
0	104	8.0%
4	104	8.0%
6	73	5.6%
8	54	4.1%
9	53	4.1%
7	45	3.5%

Other Punctuation

Value	Count	Frequency (%)
.	306	41.0%
:	243	32.6%
,	90	12.1%
!	62	8.3%
?	36	4.8%
·	4	0.5%
'	2	0.3%
%	2	0.3%
&	1	0.1%

Open Punctuation

Value	Count	Frequency (%)
(	323	83.2%
[	49	12.6%
〈	16	4.1%

Close Punctuation

Value	Count	Frequency (%)
)	323	83.2%
]	49	12.6%
〉	16	4.1%

Math Symbol

Value	Count	Frequency (%)
~	23	95.8%
+	1	4.2%

Space Separator

Value	Count	Frequency (%)
	6027	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	13	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	18636	67.1%
Common	8890	32.0%
Latin	257	0.9%
Han	4	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	667	3.6%
이	505	2.7%
는	317	1.7%
사	309	1.7%
리	260	1.4%
아	236	1.3%
다	228	1.2%
스	222	1.2%
한	220	1.2%
마	215	1.2%
Other values (824)	15457	82.9%

Latin

Value	Count	Frequency (%)
o	23	8.9%
G	22	8.6%
T	19	7.4%
S	15	5.8%
V	12	4.7%
A	11	4.3%
E	10	3.9%
I	10	3.9%
O	9	3.5%
P	8	3.1%
Other values (37)	118	45.9%

Common

Value	Count	Frequency (%)
	6027	67.8%
1	327	3.7%
(	323	3.6%
)	323	3.6%
.	306	3.4%
2	277	3.1%
:	243	2.7%
3	149	1.7%
5	118	1.3%
0	104	1.2%
Other values (19)	693	7.8%

Han

Value	Count	Frequency (%)
五	1	25.0%
力	1	25.0%
上	1	25.0%
下	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	18635	67.1%
ASCII	9111	32.8%
None	36	0.1%
CJK	4	< 0.1%
Compat Jamo	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	6027	66.2%
1	327	3.6%
(	323	3.5%
)	323	3.5%
.	306	3.4%
2	277	3.0%
:	243	2.7%
3	149	1.6%
5	118	1.3%
0	104	1.1%
Other values (63)	914	10.0%

Hangul

Value	Count	Frequency (%)
의	667	3.6%
이	505	2.7%
는	317	1.7%
사	309	1.7%
리	260	1.4%
아	236	1.3%
다	228	1.2%
스	222	1.2%
한	220	1.2%
마	215	1.2%
Other values (823)	15456	82.9%

None

Value	Count	Frequency (%)
〈	16	44.4%
〉	16	44.4%
·	4	11.1%

CJK

Value	Count	Frequency (%)
五	1	25.0%
力	1	25.0%
上	1	25.0%
下	1	25.0%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	1	100.0%

저자
Text

Distinct	1250
Distinct (%)	69.4%
Missing	0
Missing (%)	0.0%
Memory size	14.2 KiB

Length

Max length	68
Median length	48
Mean length	5.309101
Min length	1

Characters and Unicode

Total characters	9567
Distinct characters	573
Distinct categories	12 ?
Distinct scripts	3 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1065 ?
Unique (%)	59.1%

Sample

1st row	신태순
2nd row	양품계획
3rd row	노아세인트존
4th row	존 딕슨 카
5th row	탁현민

Value	Count	Frequency (%)
저	38	1.5%
스틸턴	30	1.2%
제로니모	30	1.2%
㈜셉텐트리오	26	1.0%
안비루	25	1.0%
야스코	25	1.0%
김강현	23	0.9%
외	22	0.9%
호럽	20	0.8%
조앤	20	0.8%
Other values (1605)	2266	89.7%

Most occurring characters

Value	Count	Frequency (%)
	1712	17.9%
이	298	3.1%
김	242	2.5%
스	173	1.8%
리	155	1.6%
정	125	1.3%
,	120	1.3%
영	113	1.2%
박	105	1.1%
오	100	1.0%
Other values (563)	6424	67.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	7514	78.5%
Space Separator	1712	17.9%
Other Punctuation	151	1.6%
Uppercase Letter	81	0.8%
Lowercase Letter	28	0.3%
Other Symbol	26	0.3%
Open Punctuation	22	0.2%
Close Punctuation	22	0.2%
Decimal Number	7	0.1%
Dash Punctuation	2	< 0.1%
Other values (2)	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
이	298	4.0%
김	242	3.2%
스	173	2.3%
리	155	2.1%
정	125	1.7%
영	113	1.5%
박	105	1.4%
오	100	1.3%
조	96	1.3%
미	94	1.3%
Other values (512)	6013	80.0%

Uppercase Letter

Value	Count	Frequency (%)
R	18	22.2%
P	6	7.4%
J	6	7.4%
T	6	7.4%
A	5	6.2%
L	4	4.9%
K	4	4.9%
O	4	4.9%
B	4	4.9%
D	3	3.7%
Other values (10)	21	25.9%

Lowercase Letter

Value	Count	Frequency (%)
a	4	14.3%
m	3	10.7%
n	3	10.7%
i	3	10.7%
v	2	7.1%
t	2	7.1%
r	2	7.1%
c	2	7.1%
b	2	7.1%
g	1	3.6%
Other values (4)	4	14.3%

Other Punctuation

Value	Count	Frequency (%)
,	120	79.5%
.	29	19.2%
&	1	0.7%
·	1	0.7%

Decimal Number

Value	Count	Frequency (%)
3	3	42.9%
2	2	28.6%
5	1	14.3%
4	1	14.3%

Open Punctuation

Value	Count	Frequency (%)
(	20	90.9%
〈	2	9.1%

Close Punctuation

Value	Count	Frequency (%)
)	20	90.9%
〉	2	9.1%

Space Separator

Value	Count	Frequency (%)
	1712	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	26	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	1	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	7540	78.8%
Common	1918	20.0%
Latin	109	1.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
이	298	4.0%
김	242	3.2%
스	173	2.3%
리	155	2.1%
정	125	1.7%
영	113	1.5%
박	105	1.4%
오	100	1.3%
조	96	1.3%
미	94	1.2%
Other values (513)	6039	80.1%

Latin

Value	Count	Frequency (%)
R	18	16.5%
P	6	5.5%
J	6	5.5%
T	6	5.5%
A	5	4.6%
L	4	3.7%
K	4	3.7%
O	4	3.7%
a	4	3.7%
B	4	3.7%
Other values (24)	48	44.0%

Common

Value	Count	Frequency (%)
	1712	89.3%
,	120	6.3%
.	29	1.5%
(	20	1.0%
)	20	1.0%
3	3	0.2%
2	2	0.1%
-	2	0.1%
〈	2	0.1%
〉	2	0.1%
Other values (6)	6	0.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	7510	78.5%
ASCII	2020	21.1%
None	31	0.3%
Compat Jamo	4	< 0.1%
Punctuation	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1712	84.8%
,	120	5.9%
.	29	1.4%
(	20	1.0%
)	20	1.0%
R	18	0.9%
P	6	0.3%
J	6	0.3%
T	6	0.3%
A	5	0.2%
Other values (35)	78	3.9%

Hangul

Value	Count	Frequency (%)
이	298	4.0%
김	242	3.2%
스	173	2.3%
리	155	2.1%
정	125	1.7%
영	113	1.5%
박	105	1.4%
오	100	1.3%
조	96	1.3%
미	94	1.3%
Other values (511)	6009	80.0%

None

Value	Count	Frequency (%)
㈜	26	83.9%
〈	2	6.5%
〉	2	6.5%
·	1	3.2%

Compat Jamo

Value	Count	Frequency (%)
ㅏ	4	100.0%

Punctuation

Value	Count	Frequency (%)
‘	1	50.0%
’	1	50.0%

출판사
Text

Distinct	727
Distinct (%)	40.3%
Missing	0
Missing (%)	0.0%
Memory size	14.2 KiB

Length

Max length	13
Median length	11
Mean length	4.9600444
Min length	1

Characters and Unicode

Total characters	8938
Distinct characters	477
Distinct categories	8 ?
Distinct scripts	4 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	427 ?
Unique (%)	23.7%

Sample

1st row	나비의 활주로
2nd row	웅진지식하우스
3rd row	나비스쿨
4th row	엘릭시르
5th row	메디치미디어

Value	Count	Frequency (%)
위즈덤하우스	39	2.1%
서울문화사	34	1.8%
사파리	30	1.6%
예림당	27	1.4%
셉텐트리오	26	1.4%
창비	26	1.4%
주	26	1.4%
아울북	26	1.4%
자음과모음	23	1.2%
rhk	23	1.2%
Other values (656)	1590	85.0%

Most occurring characters

Value	Count	Frequency (%)
	991	11.1%
스	399	4.5%
북	297	3.3%
이	268	3.0%
사	194	2.2%
리	190	2.1%
아	172	1.9%
어	171	1.9%
미	125	1.4%
디	102	1.1%
Other values (467)	6029	67.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	7607	85.1%
Space Separator	991	11.1%
Uppercase Letter	129	1.4%
Lowercase Letter	92	1.0%
Open Punctuation	49	0.5%
Close Punctuation	49	0.5%
Decimal Number	19	0.2%
Other Punctuation	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	399	5.2%
북	297	3.9%
이	268	3.5%
사	194	2.6%
리	190	2.5%
아	172	2.3%
어	171	2.2%
미	125	1.6%
디	102	1.3%
비	101	1.3%
Other values (435)	5588	73.5%

Uppercase Letter

Value	Count	Frequency (%)
K	32	24.8%
H	26	20.2%
R	25	19.4%
O	12	9.3%
B	11	8.5%
S	6	4.7%
P	5	3.9%
M	5	3.9%
G	2	1.6%
J	1	0.8%
Other values (4)	4	3.1%

Lowercase Letter

Value	Count	Frequency (%)
o	28	30.4%
b	15	16.3%
k	14	15.2%
i	6	6.5%
n	6	6.5%
s	6	6.5%
d	5	5.4%
t	5	5.4%
e	5	5.4%
a	1	1.1%

Decimal Number

Value	Count	Frequency (%)
2	12	63.2%
4	4	21.1%
1	3	15.8%

Space Separator

Value	Count	Frequency (%)
	991	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	49	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	49	100.0%

Other Punctuation

Value	Count	Frequency (%)
#	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	7606	85.1%
Common	1110	12.4%
Latin	221	2.5%
Han	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	399	5.2%
북	297	3.9%
이	268	3.5%
사	194	2.6%
리	190	2.5%
아	172	2.3%
어	171	2.2%
미	125	1.6%
디	102	1.3%
비	101	1.3%
Other values (434)	5587	73.5%

Latin

Value	Count	Frequency (%)
K	32	14.5%
o	28	12.7%
H	26	11.8%
R	25	11.3%
b	15	6.8%
k	14	6.3%
O	12	5.4%
B	11	5.0%
i	6	2.7%
n	6	2.7%
Other values (15)	46	20.8%

Common

Value	Count	Frequency (%)
	991	89.3%
(	49	4.4%
)	49	4.4%
2	12	1.1%
4	4	0.4%
1	3	0.3%
#	2	0.2%

Han

Value	Count	Frequency (%)
休	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	7606	85.1%
ASCII	1331	14.9%
CJK	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	991	74.5%
(	49	3.7%
)	49	3.7%
K	32	2.4%
o	28	2.1%
H	26	2.0%
R	25	1.9%
b	15	1.1%
k	14	1.1%
2	12	0.9%
Other values (22)	90	6.8%

Hangul

Value	Count	Frequency (%)
스	399	5.2%
북	297	3.9%
이	268	3.5%
사	194	2.6%
리	190	2.5%
아	172	2.3%
어	171	2.2%
미	125	1.6%
디	102	1.3%
비	101	1.3%
Other values (434)	5587	73.5%

CJK

Value	Count	Frequency (%)
休	1	100.0%

수량
Real number (ℝ)

SKEWED

Distinct	7
Distinct (%)	0.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	1.0233074

Minimum	1
Maximum	14
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	16.0 KiB

Quantile statistics

Minimum	1
5-th percentile	1
Q1	1
median	1
Q3	1
95-th percentile	1
Maximum	14
Range	13
Interquartile range (IQR)	0

Descriptive statistics

Standard deviation	0.36582271
Coefficient of variation (CV)	0.35749052
Kurtosis	910.11122
Mean	1.0233074
Median Absolute Deviation (MAD)	0
Skewness	27.603475
Sum	1844
Variance	0.13382626
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=7)

Value	Count	Frequency (%)
1	1784	99.0%
2	11	0.6%
3	3	0.2%
14	1	0.1%
6	1	0.1%
4	1	0.1%
5	1	0.1%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1784	99.0%
2	11	0.6%
3	3	0.2%
4	1	0.1%
5	1	0.1%
6	1	0.1%
14	1	0.1%

Value	Count	Frequency (%)
14	1	0.1%
6	1	0.1%
5	1	0.1%
4	1	0.1%
3	3	0.2%
2	11	0.6%
1	1784	99.0%

구분
Categorical

IMBALANCE

Distinct	3
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	14.2 KiB

일반	1574
전자책	179
오디오북	49

Length

Max length	4
Median length	2
Mean length	2.1537181
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	일반
2nd row	일반
3rd row	일반
4th row	일반
5th row	일반

Common Values

Value	Count	Frequency (%)
일반	1574	87.3%
전자책	179	9.9%
오디오북	49	2.7%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
일반	1574	87.3%
전자책	179	9.9%
오디오북	49	2.7%

수량

수량

Phik (φk)
Auto

Heatmap
Table

	수량	구분
수량	1.000	0.000
구분	0.000	1.000

Heatmap
Table

	수량	구분
수량	1.000	0.000
구분	0.000	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	도서명	저자	출판사	수량	구분
0	게으르지만 콘텐츠로 돈은 잘 법니다	신태순	나비의 활주로	1	일반
1	무인 양품의 생각과 말	양품계획	웅진지식하우스	1	일반
2	어포메이션	노아세인트존	나비스쿨	1	일반
3	마녀의 은신처	존 딕슨 카	엘릭시르	1	일반
4	미스터 프레지던트	탁현민	메디치미디어	1	일반
5	교만의 요새	마사 c.누스바움	민음사	1	일반
6	연약한 선	마사 c.누스바움	서커스	1	일반
7	피렌체 서점 이양기	로스킹	책과함께	1	일반
8	오래된 신들이 섬에 내려오시니	전건우외 5인	들녁	1	일반
9	생강빵과 진저브레드	김지현	비채	1	일반

	도서명	저자	출판사	수량	구분
1792	어느날, 노비가 되었다.3.	지은지,이민아	아르볼	1	일반
1793	설전도 수련관.2	김경미	슈크림북	1	일반
1794	톰과 소야의 도시 탐험.1.	하야미네 카오루	상상출판	1	일반
1795	톰과 소야의 도시 탐험.3.	하야미네 카오루	상상출판	1	일반
1796	미지의 파랑.1 : 소울메이트를 찾아서	차율이	비룡소	1	일반
1797	미지의 파랑.3 : 새로운 세계를 찾아서	차율이	비룡소	1	일반
1798	왔구마고구마구마.2. : 쉿!비밀이구마	조주희	킨더랜드	1	일반
1799	(신기한 맛)도깨비 식당.4~5	김용세, 김병섭	꿈터	2	일반
1800	이리의 형제.4.: 친구와 적	허교범	창비	1	일반
1801	이리의 형제.5: 목숨보다 소중한 것	허교범	창비	1	일반

Most frequently occurring

	도서명	저자	출판사	수량	구분	# duplicates
17	이브의 세 딸	엘리프 샤팍	소담출판사	1	일반	3
0	김미경의 마흔수업	김미경	어웨이크북스	1	일반	2
1	LA 이방인	신재동	북랩	1	일반	2
2	겨울이 마주한 봄은 멍멍이에요	강이서	스토리해윰	1	일반	2
3	고양이에게 말 걸기	백종선	청어	1	일반	2
4	꼬마철학자 두발로	신광철	느티나무가있는풍경	1	일반	2
5	남자무리 여사친	정율리	북폴리오	1	일반	2
6	두 번째 원고	함윤이	사계절	1	일반	2
7	라이크 팔로우 리벤지(스토리 콜렉터 105)	엘러리 로이드	북로드	1	일반	2
8	마음의 비율	김승연	마시멜로	1	일반	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Open Punctuation

Close Punctuation

Math Symbol

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

CJK

Compat Jamo

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Other Punctuation

Decimal Number

Open Punctuation

Close Punctuation

Space Separator

Other Symbol

Dash Punctuation

Initial Punctuation

Final Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Compat Jamo

Punctuation

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Space Separator

Open Punctuation

Close Punctuation

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

CJK

Common Values

Length

Common Values (Plot)