gimi9 Pandas Profiling

Dataset statistics

Number of variables	6
Number of observations	199
Missing cells	24
Missing cells (%)	2.0%
Duplicate rows	1
Duplicate rows (%)	0.5%
Total size in memory	9.7 KiB
Average record size in memory	49.7 B

Variable types

Text	4
Numeric	1
DateTime	1

Dataset

Description	충청남도 도정신문에 서평이 게시된 도서에 대한 데이터로, 도서명, 저자,출판사, 수록된 도정신문 회차 등의 내용을 담고 있습니다.
Author	충청남도
URL	https://www.data.go.kr/data/15095052/fileData.do

Alerts

Dataset has 1 (0.5%) duplicate rows	Duplicates
`도서명` has 4 (2.0%) missing values	Missing
`저자명` has 4 (2.0%) missing values	Missing
`출판사` has 4 (2.0%) missing values	Missing
`발행연도` has 4 (2.0%) missing values	Missing
`도정신문 발행일` has 4 (2.0%) missing values	Missing
`도정신문 호수` has 4 (2.0%) missing values	Missing

Reproduction

Analysis started	2024-04-06 08:19:01.228334
Analysis finished	2024-04-06 08:19:02.917294
Duration	1.69 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

도서명
Text

MISSING

Distinct	194
Distinct (%)	99.5%
Missing	4
Missing (%)	2.0%
Memory size	1.7 KiB

Length

Max length	36
Median length	18
Mean length	11.317949
Min length	1

Characters and Unicode

Total characters	2207
Distinct characters	432
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	193 ?
Unique (%)	99.0%

Sample

1st row	8체질 이야기
2nd row	말의 품격
3rd row	운다고 달라지는 일은 아무것도 없겠지만
4th row	우리는 차별에 찬성합니다
5th row	당신은 개를 키우면 안 된다

Value	Count	Frequency (%)
왜	5	0.8%
세계	4	0.6%
위한	4	0.6%
없다	4	0.6%
다시	3	0.5%
사는	3	0.5%
않는다	3	0.5%
법	3	0.5%
나는	3	0.5%
개의	3	0.5%
Other values (545)	595	94.4%

Most occurring characters

Value	Count	Frequency (%)
	435	19.7%
이	56	2.5%
의	51	2.3%
다	51	2.3%
는	48	2.2%
지	39	1.8%
사	30	1.4%
가	27	1.2%
아	26	1.2%
리	24	1.1%
Other values (422)	1420	64.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1711	77.5%
Space Separator	435	19.7%
Decimal Number	30	1.4%
Other Punctuation	14	0.6%
Uppercase Letter	11	0.5%
Lowercase Letter	2	0.1%
Connector Punctuation	1	< 0.1%
Open Punctuation	1	< 0.1%
Dash Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
이	56	3.3%
의	51	3.0%
다	51	3.0%
는	48	2.8%
지	39	2.3%
사	30	1.8%
가	27	1.6%
아	26	1.5%
리	24	1.4%
을	22	1.3%
Other values (394)	1337	78.1%

Uppercase Letter

Value	Count	Frequency (%)
I	2	18.2%
A	1	9.1%
Z	1	9.1%
L	1	9.1%
E	1	9.1%
V	1	9.1%
O	1	9.1%
Q	1	9.1%
F	1	9.1%
B	1	9.1%

Decimal Number

Value	Count	Frequency (%)
0	8	26.7%
1	7	23.3%
2	6	20.0%
9	4	13.3%
8	2	6.7%
5	2	6.7%
3	1	3.3%

Other Punctuation

Value	Count	Frequency (%)
,	10	71.4%
:	2	14.3%
.	1	7.1%
?	1	7.1%

Lowercase Letter

Value	Count	Frequency (%)
v	1	50.0%
s	1	50.0%

Space Separator

Value	Count	Frequency (%)
	435	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1711	77.5%
Common	483	21.9%
Latin	13	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
이	56	3.3%
의	51	3.0%
다	51	3.0%
는	48	2.8%
지	39	2.3%
사	30	1.8%
가	27	1.6%
아	26	1.5%
리	24	1.4%
을	22	1.3%
Other values (394)	1337	78.1%

Common

Value	Count	Frequency (%)
	435	90.1%
,	10	2.1%
0	8	1.7%
1	7	1.4%
2	6	1.2%
9	4	0.8%
8	2	0.4%
:	2	0.4%
5	2	0.4%
.	1	0.2%
Other values (6)	6	1.2%

Latin

Value	Count	Frequency (%)
I	2	15.4%
A	1	7.7%
Z	1	7.7%
L	1	7.7%
E	1	7.7%
V	1	7.7%
O	1	7.7%
Q	1	7.7%
v	1	7.7%
s	1	7.7%
Other values (2)	2	15.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1711	77.5%
ASCII	496	22.5%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	435	87.7%
,	10	2.0%
0	8	1.6%
1	7	1.4%
2	6	1.2%
9	4	0.8%
8	2	0.4%
I	2	0.4%
:	2	0.4%
5	2	0.4%
Other values (18)	18	3.6%

Hangul

Value	Count	Frequency (%)
이	56	3.3%
의	51	3.0%
다	51	3.0%
는	48	2.8%
지	39	2.3%
사	30	1.8%
가	27	1.6%
아	26	1.5%
리	24	1.4%
을	22	1.3%
Other values (394)	1337	78.1%

저자명
Text

MISSING

Distinct	190
Distinct (%)	97.4%
Missing	4
Missing (%)	2.0%
Memory size	1.7 KiB

Length

Max length	14
Median length	3
Mean length	4.5897436
Min length	2

Characters and Unicode

Total characters	895
Distinct characters	271
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	185 ?
Unique (%)	94.9%

Sample

1st row	주석원
2nd row	이기주
3rd row	박준
4th row	오찬호
5th row	강형욱

Value	Count	Frequency (%)
외	8	2.8%
김초엽	3	1.1%
존	3	1.1%
브라이언	3	1.1%
오찬호	2	0.7%
피터	2	0.7%
a	2	0.7%
b	2	0.7%
최원형	2	0.7%
정세랑	2	0.7%
Other values (254)	255	89.8%

Most occurring characters

Value	Count	Frequency (%)
	89	9.9%
김	37	4.1%
이	33	3.7%
정	14	1.6%
박	12	1.3%
스	11	1.2%
기	11	1.2%
영	11	1.2%
카	10	1.1%
혜	10	1.1%
Other values (261)	657	73.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	777	86.8%
Space Separator	89	9.9%
Other Punctuation	12	1.3%
Decimal Number	6	0.7%
Uppercase Letter	6	0.7%
Close Punctuation	2	0.2%
Open Punctuation	2	0.2%
Lowercase Letter	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	37	4.8%
이	33	4.2%
정	14	1.8%
박	12	1.5%
스	11	1.4%
기	11	1.4%
영	11	1.4%
카	10	1.3%
혜	10	1.3%
지	10	1.3%
Other values (247)	618	79.5%

Decimal Number

Value	Count	Frequency (%)
1	3	50.0%
8	1	16.7%
6	1	16.7%
4	1	16.7%

Uppercase Letter

Value	Count	Frequency (%)
A	2	33.3%
B	2	33.3%
J	1	16.7%
M	1	16.7%

Other Punctuation

Value	Count	Frequency (%)
.	7	58.3%
,	5	41.7%

Space Separator

Value	Count	Frequency (%)
	89	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	2	100.0%

Lowercase Letter

Value	Count	Frequency (%)
w	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	777	86.8%
Common	111	12.4%
Latin	7	0.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	37	4.8%
이	33	4.2%
정	14	1.8%
박	12	1.5%
스	11	1.4%
기	11	1.4%
영	11	1.4%
카	10	1.3%
혜	10	1.3%
지	10	1.3%
Other values (247)	618	79.5%

Common

Value	Count	Frequency (%)
	89	80.2%
.	7	6.3%
,	5	4.5%
1	3	2.7%
)	2	1.8%
(	2	1.8%
8	1	0.9%
6	1	0.9%
4	1	0.9%

Latin

Value	Count	Frequency (%)
A	2	28.6%
B	2	28.6%
J	1	14.3%
M	1	14.3%
w	1	14.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	777	86.8%
ASCII	118	13.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	89	75.4%
.	7	5.9%
,	5	4.2%
1	3	2.5%
A	2	1.7%
B	2	1.7%
)	2	1.7%
(	2	1.7%
J	1	0.8%
8	1	0.8%
Other values (4)	4	3.4%

Hangul

Value	Count	Frequency (%)
김	37	4.8%
이	33	4.2%
정	14	1.8%
박	12	1.5%
스	11	1.4%
기	11	1.4%
영	11	1.4%
카	10	1.3%
혜	10	1.3%
지	10	1.3%
Other values (247)	618	79.5%

출판사
Text

MISSING

Distinct	144
Distinct (%)	73.8%
Missing	4
Missing (%)	2.0%
Memory size	1.7 KiB

Length

Max length	8
Median length	7
Mean length	4.0205128
Min length	1

Characters and Unicode

Total characters	784
Distinct characters	218
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	114 ?
Unique (%)	58.5%

Sample

1st row	씨앗을뿌리는사람
2nd row	황소북스
3rd row	난다
4th row	개마고원
5th row	동아일보사

Value	Count	Frequency (%)
위즈덤하우스	7	3.6%
창비	6	3.0%
문학동네	5	2.5%
부키	5	2.5%
한겨레출판사	3	1.5%
인플루엔셜	3	1.5%
어크로스	3	1.5%
사이언스북스	3	1.5%
쌤앤파커스	3	1.5%
한빛비즈	3	1.5%
Other values (136)	156	79.2%

Most occurring characters

Value	Count	Frequency (%)
스	58	7.4%
북	31	4.0%
사	30	3.8%
비	17	2.2%
이	15	1.9%
문	14	1.8%
즈	13	1.7%
우	13	1.7%
출	12	1.5%
판	11	1.4%
Other values (208)	570	72.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	779	99.4%
Space Separator	2	0.3%
Decimal Number	2	0.3%
Other Punctuation	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	58	7.4%
북	31	4.0%
사	30	3.9%
비	17	2.2%
이	15	1.9%
문	14	1.8%
즈	13	1.7%
우	13	1.7%
출	12	1.5%
판	11	1.4%
Other values (204)	565	72.5%

Decimal Number

Value	Count	Frequency (%)
2	1	50.0%
1	1	50.0%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	779	99.4%
Common	5	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	58	7.4%
북	31	4.0%
사	30	3.9%
비	17	2.2%
이	15	1.9%
문	14	1.8%
즈	13	1.7%
우	13	1.7%
출	12	1.5%
판	11	1.4%
Other values (204)	565	72.5%

Common

Value	Count	Frequency (%)
	2	40.0%
.	1	20.0%
2	1	20.0%
1	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	779	99.4%
ASCII	5	0.6%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
스	58	7.4%
북	31	4.0%
사	30	3.9%
비	17	2.2%
이	15	1.9%
문	14	1.8%
즈	13	1.7%
우	13	1.7%
출	12	1.5%
판	11	1.4%
Other values (204)	565	72.5%

ASCII

Value	Count	Frequency (%)
	2	40.0%
.	1	20.0%
2	1	20.0%
1	1	20.0%

발행연도
Real number (ℝ)

MISSING

Distinct	19
Distinct (%)	9.7%
Missing	4
Missing (%)	2.0%
Infinite	0
Infinite (%)	0.0%
Mean	2018.6923

Minimum	1996
Maximum	2024
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	1.9 KiB

Quantile statistics

Minimum	1996
5-th percentile	2011
Q1	2017
median	2019
Q3	2021
95-th percentile	2023
Maximum	2024
Range	28
Interquartile range (IQR)	4

Descriptive statistics

Standard deviation	3.7164572
Coefficient of variation (CV)	0.0018410221
Kurtosis	7.9667631
Mean	2018.6923
Median Absolute Deviation (MAD)	2
Skewness	-2.1439081
Sum	393645
Variance	13.812054
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=19)

Value	Count	Frequency (%)
2021	29	14.6%
2020	27	13.6%
2019	26	13.1%
2022	24	12.1%
2018	21	10.6%
2017	18	9.0%
2023	14	7.0%
2016	12	6.0%
2011	6	3.0%
2014	4	2.0%
Other values (9)	14	7.0%
(Missing)	4	2.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1996	1	0.5%
2005	1	0.5%
2006	1	0.5%
2007	1	0.5%
2010	2	1.0%
2011	6	3.0%
2012	1	0.5%
2013	3	1.5%
2014	4	2.0%
2015	3	1.5%

Value	Count	Frequency (%)
2024	1	0.5%
2023	14	7.0%
2022	24	12.1%
2021	29	14.6%
2020	27	13.6%
2019	26	13.1%
2018	21	10.6%
2017	18	9.0%
2016	12	6.0%
2015	3	1.5%

도정신문 발행일
Date

MISSING

Distinct	195
Distinct (%)	100.0%
Missing	4
Missing (%)	2.0%
Memory size	1.7 KiB

Minimum	2018-01-15 00:00:00
Maximum	2024-03-15 00:00:00

Histogram

Histogram with fixed size bins (bins=50)

도정신문 호수
Text

MISSING

Distinct	195
Distinct (%)	100.0%
Missing	4
Missing (%)	2.0%
Memory size	1.7 KiB

Length

Max length	4
Median length	4
Mean length	4
Min length	4

Characters and Unicode

Total characters	780
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	195 ?
Unique (%)	100.0%

Sample

1st row	800호
2nd row	801호
3rd row	802호
4th row	803호
5th row	804호

Value	Count	Frequency (%)
826호	1	0.5%
950호	1	0.5%
936호	1	0.5%
927호	1	0.5%
928호	1	0.5%
929호	1	0.5%
930호	1	0.5%
931호	1	0.5%
932호	1	0.5%
933호	1	0.5%
Other values (185)	185	94.9%

Most occurring characters

Value	Count	Frequency (%)
호	195	25.0%
8	137	17.6%
9	133	17.1%
6	40	5.1%
3	40	5.1%
5	40	5.1%
7	40	5.1%
2	39	5.0%
1	39	5.0%
4	39	5.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	585	75.0%
Other Letter	195	25.0%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
8	137	23.4%
9	133	22.7%
6	40	6.8%
3	40	6.8%
5	40	6.8%
7	40	6.8%
2	39	6.7%
1	39	6.7%
4	39	6.7%
0	38	6.5%

Other Letter

Value	Count	Frequency (%)
호	195	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	585	75.0%
Hangul	195	25.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
8	137	23.4%
9	133	22.7%
6	40	6.8%
3	40	6.8%
5	40	6.8%
7	40	6.8%
2	39	6.7%
1	39	6.7%
4	39	6.7%
0	38	6.5%

Hangul

Value	Count	Frequency (%)
호	195	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	585	75.0%
Hangul	195	25.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
호	195	100.0%

ASCII

Value	Count	Frequency (%)
8	137	23.4%
9	133	22.7%
6	40	6.8%
3	40	6.8%
5	40	6.8%
7	40	6.8%
2	39	6.7%
1	39	6.7%
4	39	6.7%
0	38	6.5%

발행연도

발행연도

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	도서명	저자명	출판사	발행연도	도정신문 발행일	도정신문 호수
0	8체질 이야기	주석원	씨앗을뿌리는사람	2007	2018-01-15	800호
1	말의 품격	이기주	황소북스	2017	2018-01-25	801호
2	운다고 달라지는 일은 아무것도 없겠지만	박준	난다	2017	2018-02-05	802호
3	우리는 차별에 찬성합니다	오찬호	개마고원	2013	2018-02-25	803호
4	당신은 개를 키우면 안 된다	강형욱	동아일보사	2014	2018-03-05	804호
5	아무것도 아닌 지금은 없다	김동혁	쌤앤파커스	2017	2018-03-15	805호
6	이 모든 극적인 순간들	윤대녕	푸르메	2010	2018-03-25	806호
7	LOVE, 사랑에 대해 알아야 할 모든 것	A. M. 파인스	다산초당	2005	2018-04-05	807호
8	손빈병법	손빈(이병호 옮김)	홍익출한사	1996	2018-04-15	808호
9	신경 끄기의 기술	마크 맨슨	갤리온	2017	2018-05-05	810호

	도서명	저자명	출판사	발행연도	도정신문 발행일	도정신문 호수
189	오늘 뭐 먹지	권여선	한겨레출판사	2023	2024-01-05	992호
190	두 리더_영조와 정조	노혜경	뜨인돌	2020	2024-01-25	993호
191	좋아요는 어떻게 지구를 파괴하는가	기욤 피트롱	갈라파고스	2023	2024-02-05	994호
192	쇼펜하우어 아포리즘	아르투어 쇼펜하우어	포레스트북스	2023	2024-02-25	995호
193	모순	안귀자	쓰다	2024	2024-03-05	996호
194	느긋하게 웃으면서 짜증내지 않고 살아가는 법	브라이언 킹	프롬북스	2023	2024-03-15	997호
195	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
196	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
197	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
198	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>

Most frequently occurring

	도서명	저자명	출판사	발행연도	도정신문 발행일	도정신문 호수	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	4

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Other Punctuation

Lowercase Letter

Space Separator

Connector Punctuation

Open Punctuation

Dash Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Lowercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Space Separator

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Other Letter

Most occurring scripts

Most frequent character per script

Common

Hangul

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Interactions

Missing values

Sample

Duplicate rows

Most frequently occurring