gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	699
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	16.5 KiB
Average record size in memory	24.2 B

Variable types

Text	2
Boolean	1

Dataset

Description	인천광역시 통합전자도서관 홈페이지에서 제공하는 도서 카테고리(카테고리키, 카테고리이름, 사용여부)정보에 대한 파일.
Author	인천광역시
URL	https://data.incheon.go.kr/findData/publicDataDetail?dataId=15049231&srcSe=7661IVAWM27C61E190

Alerts

`사용여부(Y_N)` has constant value ""	Constant
`카테고리키` has unique values	Unique

Reproduction

Analysis started	2024-03-18 03:17:09.476142
Analysis finished	2024-03-18 03:17:09.762807
Duration	0.29 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

카테고리키
Text

UNIQUE

Distinct	699
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	5.6 KiB

Length

Max length	4
Median length	4
Mean length	4
Min length	4

Characters and Unicode

Total characters	2796
Distinct characters	13
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	699 ?
Unique (%)	100.0%

Sample

1st row	L001
2nd row	L002
3rd row	L003
4th row	L004
5th row	L005

Value	Count	Frequency (%)
l001	1	0.1%
s305	1	0.1%
s307	1	0.1%
s298	1	0.1%
s299	1	0.1%
s300	1	0.1%
s301	1	0.1%
s302	1	0.1%
s303	1	0.1%
s304	1	0.1%
Other values (689)	689	98.6%

Most occurring characters

Value	Count	Frequency (%)
S	535	19.1%
0	377	13.5%
1	304	10.9%
2	255	9.1%
3	247	8.8%
4	232	8.3%
5	166	5.9%
M	141	5.0%
6	129	4.6%
7	129	4.6%
Other values (3)	281	10.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	2097	75.0%
Uppercase Letter	699	25.0%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	377	18.0%
1	304	14.5%
2	255	12.2%
3	247	11.8%
4	232	11.1%
5	166	7.9%
6	129	6.2%
7	129	6.2%
8	129	6.2%
9	129	6.2%

Uppercase Letter

Value	Count	Frequency (%)
S	535	76.5%
M	141	20.2%
L	23	3.3%

Most occurring scripts

Value	Count	Frequency (%)
Common	2097	75.0%
Latin	699	25.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	377	18.0%
1	304	14.5%
2	255	12.2%
3	247	11.8%
4	232	11.1%
5	166	7.9%
6	129	6.2%
7	129	6.2%
8	129	6.2%
9	129	6.2%

Latin

Value	Count	Frequency (%)
S	535	76.5%
M	141	20.2%
L	23	3.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	2796	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
S	535	19.1%
0	377	13.5%
1	304	10.9%
2	255	9.1%
3	247	8.8%
4	232	8.3%
5	166	5.9%
M	141	5.0%
6	129	4.6%
7	129	4.6%
Other values (3)	281	10.1%

카테고리명
Text

Distinct	679
Distinct (%)	97.1%
Missing	0
Missing (%)	0.0%
Memory size	5.6 KiB

Length

Max length	20
Median length	14
Mean length	5.7625179
Min length	1

Characters and Unicode

Total characters	4028
Distinct characters	399
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	660 ?
Unique (%)	94.4%

Sample

1st row	가정과생활
2nd row	경제/경영
3rd row	인문
4th row	종교
5th row	정치/사회

Value	Count	Frequency (%)
일반	5	0.7%
에세이	4	0.5%
기타	4	0.5%
영어전자책	3	0.4%
외국	3	0.4%
한국	3	0.4%
소설	3	0.4%
자녀교육	2	0.3%
프랑스어	2	0.3%
시	2	0.3%
Other values (678)	701	95.8%

Most occurring characters

Value	Count	Frequency (%)
/	353	8.8%
사	128	3.2%
학	127	3.2%
기	79	2.0%
어	76	1.9%
이	68	1.7%
문	68	1.7%
화	67	1.7%
국	56	1.4%
리	56	1.4%
Other values (389)	2950	73.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	3481	86.4%
Other Punctuation	354	8.8%
Uppercase Letter	118	2.9%
Space Separator	33	0.8%
Decimal Number	12	0.3%
Math Symbol	9	0.2%
Lowercase Letter	9	0.2%
Open Punctuation	6	0.1%
Close Punctuation	6	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	128	3.7%
학	127	3.6%
기	79	2.3%
어	76	2.2%
이	68	2.0%
문	68	2.0%
화	67	1.9%
국	56	1.6%
리	56	1.6%
교	55	1.6%
Other values (341)	2701	77.6%

Uppercase Letter

Value	Count	Frequency (%)
T	17	14.4%
S	13	11.0%
E	11	9.3%
I	8	6.8%
O	8	6.8%
F	7	5.9%
A	7	5.9%
L	7	5.9%
D	6	5.1%
P	6	5.1%
Other values (14)	28	23.7%

Lowercase Letter

Value	Count	Frequency (%)
k	1	11.1%
e	1	11.1%
t	1	11.1%
w	1	11.1%
o	1	11.1%
r	1	11.1%
g	1	11.1%
n	1	11.1%
i	1	11.1%

Decimal Number

Value	Count	Frequency (%)
4	2	16.7%
3	2	16.7%
6	2	16.7%
1	2	16.7%
5	1	8.3%
7	1	8.3%
0	1	8.3%
2	1	8.3%

Other Punctuation

Value	Count	Frequency (%)
/	353	99.7%
.	1	0.3%

Math Symbol

Value	Count	Frequency (%)
~	7	77.8%
+	2	22.2%

Space Separator

Value	Count	Frequency (%)
	33	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	6	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	3481	86.4%
Common	420	10.4%
Latin	127	3.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	128	3.7%
학	127	3.6%
기	79	2.3%
어	76	2.2%
이	68	2.0%
문	68	2.0%
화	67	1.9%
국	56	1.6%
리	56	1.6%
교	55	1.6%
Other values (341)	2701	77.6%

Latin

Value	Count	Frequency (%)
T	17	13.4%
S	13	10.2%
E	11	8.7%
I	8	6.3%
O	8	6.3%
F	7	5.5%
A	7	5.5%
L	7	5.5%
D	6	4.7%
P	6	4.7%
Other values (23)	37	29.1%

Common

Value	Count	Frequency (%)
/	353	84.0%
	33	7.9%
~	7	1.7%
(	6	1.4%
)	6	1.4%
+	2	0.5%
4	2	0.5%
3	2	0.5%
6	2	0.5%
1	2	0.5%
Other values (5)	5	1.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	3481	86.4%
ASCII	547	13.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
/	353	64.5%
	33	6.0%
T	17	3.1%
S	13	2.4%
E	11	2.0%
I	8	1.5%
O	8	1.5%
F	7	1.3%
A	7	1.3%
L	7	1.3%
Other values (38)	83	15.2%

Hangul

Value	Count	Frequency (%)
사	128	3.7%
학	127	3.6%
기	79	2.3%
어	76	2.2%
이	68	2.0%
문	68	2.0%
화	67	1.9%
국	56	1.6%
리	56	1.6%
교	55	1.6%
Other values (341)	2701	77.6%

사용여부(Y_N)
Boolean

CONSTANT

Distinct	1
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	831.0 B

True	699

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
True	699	100.0%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	카테고리키	카테고리명	사용여부(Y_N)
0	L001	가정과생활	Y
1	L002	경제/경영	Y
2	L003	인문	Y
3	L004	종교	Y
4	L005	정치/사회	Y
5	L006	역사/문화/지리	Y
6	L007	자연/과학	Y
7	L008	기술/공학	Y
8	L009	취미/실용/스포츠	Y
9	L010	여행	Y

	카테고리키	카테고리명	사용여부(Y_N)
689	S526	뜨개질/퀼트/십자수/바느질	Y
690	S527	비즈/리본/선물포장	Y
691	S528	목공예	Y
692	S529	공예/기타	Y
693	S530	국어/한자	Y
694	S531	정치가	Y
695	S532	영어전자책	Y
696	S533	문학/교양	Y
697	S534	패션/여성	Y
698	S535	경제/시사	Y

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Math Symbol

Space Separator

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Missing values

Sample