gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	1833
Missing cells	320
Missing cells (%)	4.4%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	57.4 KiB
Average record size in memory	32.1 B

Variable types

Text	3
Categorical	1

Dataset

Description	대아수목원식물표본보유현황
Author	전라북도
URL	https://www.bigdatahub.go.kr/opendata/dataSet/detail.nm?contentId=37&rlik=49451aebf056b486&serviceId=202191

Alerts

`Unnamed: 1` has 159 (8.7%) missing values	Missing
`Unnamed: 2` has 160 (8.7%) missing values	Missing

Reproduction

Analysis started	2024-03-14 01:13:28.355294
Analysis finished	2024-03-14 01:13:29.012190
Duration	0.66 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

대아수목원 식물표본 보유 현황
Text

Distinct	1832
Distinct (%)	100.0%
Missing	1
Missing (%)	0.1%
Memory size	14.4 KiB

Length

Max length	23
Median length	21
Mean length	4.4656114
Min length	1

Characters and Unicode

Total characters	8181
Distinct characters	263
Distinct categories	5 ?
Distinct scripts	4 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1832 ?
Unique (%)	100.0%

Sample

1st row	번호
2nd row	Selaginellaceae 부처손科
3rd row	1
4th row	2
5th row	Equisetaceae 속새科

Value	Count	Frequency (%)
meliaceae	2	0.1%
번호	1	0.1%
1106	1	0.1%
loganiaceae	1	0.1%
1117	1	0.1%
1116	1	0.1%
1115	1	0.1%
1114	1	0.1%
1113	1	0.1%
1112	1	0.1%
Other values (1976)	1976	99.4%

Most occurring characters

Value	Count	Frequency (%)
1	1211	14.8%
2	538	6.6%
3	537	6.6%
4	537	6.6%
5	537	6.6%
6	510	6.2%
7	430	5.3%
9	427	5.2%
0	427	5.2%
8	427	5.2%
Other values (253)	2600	31.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	5581	68.2%
Lowercase Letter	1633	20.0%
Other Letter	653	8.0%
Space Separator	157	1.9%
Uppercase Letter	157	1.9%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
科	158	24.2%
나	42	6.4%
무	38	5.8%
리	15	2.3%
고	11	1.7%
풀	10	1.5%
꽃	10	1.5%
초	9	1.4%
사	9	1.4%
아	8	1.2%
Other values (197)	343	52.5%

Lowercase Letter

Value	Count	Frequency (%)
a	406	24.9%
e	368	22.5%
c	186	11.4%
i	105	6.4%
r	80	4.9%
l	69	4.2%
n	64	3.9%
o	61	3.7%
t	40	2.4%
u	33	2.0%
Other values (14)	221	13.5%

Uppercase Letter

Value	Count	Frequency (%)
P	22	14.0%
A	19	12.1%
C	18	11.5%
S	16	10.2%
M	11	7.0%
L	9	5.7%
B	8	5.1%
T	7	4.5%
O	6	3.8%
H	5	3.2%
Other values (11)	36	22.9%

Decimal Number

Value	Count	Frequency (%)
1	1211	21.7%
2	538	9.6%
3	537	9.6%
4	537	9.6%
5	537	9.6%
6	510	9.1%
7	430	7.7%
9	427	7.7%
0	427	7.7%
8	427	7.7%

Space Separator

Value	Count	Frequency (%)
	157	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	5738	70.1%
Latin	1790	21.9%
Hangul	495	6.1%
Han	158	1.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
나	42	8.5%
무	38	7.7%
리	15	3.0%
고	11	2.2%
풀	10	2.0%
꽃	10	2.0%
초	9	1.8%
사	9	1.8%
아	8	1.6%
자	8	1.6%
Other values (196)	335	67.7%

Latin

Value	Count	Frequency (%)
a	406	22.7%
e	368	20.6%
c	186	10.4%
i	105	5.9%
r	80	4.5%
l	69	3.9%
n	64	3.6%
o	61	3.4%
t	40	2.2%
u	33	1.8%
Other values (35)	378	21.1%

Common

Value	Count	Frequency (%)
1	1211	21.1%
2	538	9.4%
3	537	9.4%
4	537	9.4%
5	537	9.4%
6	510	8.9%
7	430	7.5%
9	427	7.4%
0	427	7.4%
8	427	7.4%

Han

Value	Count	Frequency (%)
科	158	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	7528	92.0%
Hangul	495	6.1%
CJK	158	1.9%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	1211	16.1%
2	538	7.1%
3	537	7.1%
4	537	7.1%
5	537	7.1%
6	510	6.8%
7	430	5.7%
9	427	5.7%
0	427	5.7%
8	427	5.7%
Other values (46)	1947	25.9%

CJK

Value	Count	Frequency (%)
科	158	100.0%

Hangul

Value	Count	Frequency (%)
나	42	8.5%
무	38	7.7%
리	15	3.0%
고	11	2.2%
풀	10	2.0%
꽃	10	2.0%
초	9	1.8%
사	9	1.8%
아	8	1.6%
자	8	1.6%
Other values (196)	335	67.7%

Unnamed: 1
Text

MISSING

Distinct	1474
Distinct (%)	88.1%
Missing	159
Missing (%)	8.7%
Memory size	14.4 KiB

Length

Max length	62
Median length	49
Mean length	26.01374
Min length	2

Characters and Unicode

Total characters	43547
Distinct characters	84
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1432 ?
Unique (%)	85.5%

Sample

1st row	식 물 유 전 자 원 명
2nd row	학 명
3rd row	Selaginella involvens (Sw.) Spring
4th row	Selaginella tamariscina (Beauv.) Spring
5th row	Equisetum arvense L.

Value	Count	Frequency (%)
spp	252	4.3%
l	176	3.0%
var	161	2.8%
rosa	127	2.2%
japonica	114	2.0%
et	99	1.7%
nakai	82	1.4%
hibiscus	82	1.4%
thunb	82	1.4%
syriacus	69	1.2%
Other values (2220)	4561	78.6%

Most occurring characters

Value	Count	Frequency (%)
	4568	10.5%
a	4550	10.4%
i	3426	7.9%
s	2583	5.9%
e	2437	5.6%
r	2240	5.1%
o	2036	4.7%
n	1992	4.6%
u	1930	4.4%
l	1760	4.0%
Other values (74)	16025	36.8%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	32819	75.4%
Space Separator	4568	10.5%
Uppercase Letter	3673	8.4%
Other Punctuation	2035	4.7%
Close Punctuation	202	0.5%
Open Punctuation	202	0.5%
Other Letter	18	< 0.1%
Dash Punctuation	16	< 0.1%
Decimal Number	10	< 0.1%
Modifier Symbol	4	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
a	4550	13.9%
i	3426	10.4%
s	2583	7.9%
e	2437	7.4%
r	2240	6.8%
o	2036	6.2%
n	1992	6.1%
u	1930	5.9%
l	1760	5.4%
t	1369	4.2%
Other values (16)	8496	25.9%

Uppercase Letter

Value	Count	Frequency (%)
C	341	9.3%
L	338	9.2%
S	318	8.7%
P	299	8.1%
M	281	7.7%
H	265	7.2%
R	256	7.0%
A	216	5.9%
T	215	5.9%
B	168	4.6%
Other values (16)	976	26.6%

Other Letter

Value	Count	Frequency (%)
명	2	11.1%
매	1	5.6%
주	1	5.6%
호	1	5.6%
펫	1	5.6%
럼	1	5.6%
트	1	5.6%
고	1	5.6%
망	1	5.6%
원	1	5.6%
Other values (7)	7	38.9%

Decimal Number

Value	Count	Frequency (%)
1	3	30.0%
2	2	20.0%
8	2	20.0%
9	1	10.0%
4	1	10.0%
0	1	10.0%

Other Punctuation

Value	Count	Frequency (%)
.	1557	76.5%
'	473	23.2%
?	4	0.2%
&	1	< 0.1%

Space Separator

Value	Count	Frequency (%)
	4568	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	202	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	202	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	16	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	36492	83.8%
Common	7037	16.2%
Hangul	18	< 0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
a	4550	12.5%
i	3426	9.4%
s	2583	7.1%
e	2437	6.7%
r	2240	6.1%
o	2036	5.6%
n	1992	5.5%
u	1930	5.3%
l	1760	4.8%
t	1369	3.8%
Other values (42)	12169	33.3%

Hangul

Value	Count	Frequency (%)
명	2	11.1%
매	1	5.6%
주	1	5.6%
호	1	5.6%
펫	1	5.6%
럼	1	5.6%
트	1	5.6%
고	1	5.6%
망	1	5.6%
원	1	5.6%
Other values (7)	7	38.9%

Common

Value	Count	Frequency (%)
	4568	64.9%
.	1557	22.1%
'	473	6.7%
)	202	2.9%
(	202	2.9%
-	16	0.2%
?	4	0.1%
`	4	0.1%
1	3	< 0.1%
2	2	< 0.1%
Other values (5)	6	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	43529	> 99.9%
Hangul	18	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	4568	10.5%
a	4550	10.5%
i	3426	7.9%
s	2583	5.9%
e	2437	5.6%
r	2240	5.1%
o	2036	4.7%
n	1992	4.6%
u	1930	4.4%
l	1760	4.0%
Other values (57)	16007	36.8%

Hangul

Value	Count	Frequency (%)
명	2	11.1%
매	1	5.6%
주	1	5.6%
호	1	5.6%
펫	1	5.6%
럼	1	5.6%
트	1	5.6%
고	1	5.6%
망	1	5.6%
원	1	5.6%
Other values (7)	7	38.9%

Unnamed: 2
Text

MISSING

Distinct	1600
Distinct (%)	95.6%
Missing	160
Missing (%)	8.7%
Memory size	14.4 KiB

Length

Max length	15
Median length	12
Mean length	5.2492528
Min length	1

Characters and Unicode

Total characters	8782
Distinct characters	621
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1596 ?
Unique (%)	95.4%

Sample

1st row	국 명
2nd row	바위손
3rd row	부처손
4th row	쇠뜨기
5th row	속새

Value	Count	Frequency (%)
동백나무(재배종	55	3.3%
무궁화(재배종	11	0.7%
목련(재배종	9	0.5%
아디안툼	2	0.1%
드로세라류	2	0.1%
82	2	0.1%
실새삼	1	0.1%
풀협죽도	1	0.1%
지면패랭이(꽃잔디	1	0.1%
참꽃마리	1	0.1%
Other values (1598)	1598	94.9%

Most occurring characters

Value	Count	Frequency (%)
무	492	5.6%
나	446	5.1%
-	224	2.6%
리	223	2.5%
(	221	2.5%
)	221	2.5%
미	170	1.9%
장	145	1.7%
이	138	1.6%
화	136	1.5%
Other values (611)	6366	72.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8058	91.8%
Dash Punctuation	224	2.6%
Open Punctuation	221	2.5%
Close Punctuation	221	2.5%
Space Separator	23	0.3%
Decimal Number	22	0.3%
Lowercase Letter	7	0.1%
Other Punctuation	5	0.1%
Uppercase Letter	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
무	492	6.1%
나	446	5.5%
리	223	2.8%
미	170	2.1%
장	145	1.8%
이	138	1.7%
화	136	1.7%
종	104	1.3%
백	104	1.3%
아	103	1.3%
Other values (587)	5997	74.4%

Decimal Number

Value	Count	Frequency (%)
2	6	27.3%
1	4	18.2%
8	3	13.6%
7	2	9.1%
4	2	9.1%
9	2	9.1%
3	1	4.5%
5	1	4.5%
6	1	4.5%

Lowercase Letter

Value	Count	Frequency (%)
r	1	14.3%
a	1	14.3%
e	1	14.3%
c	1	14.3%
i	1	14.3%
n	1	14.3%
o	1	14.3%

Other Punctuation

Value	Count	Frequency (%)
,	3	60.0%
'	1	20.0%
.	1	20.0%

Dash Punctuation

Value	Count	Frequency (%)
-	224	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	221	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	221	100.0%

Space Separator

Value	Count	Frequency (%)
	23	100.0%

Uppercase Letter

Value	Count	Frequency (%)
L	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8058	91.8%
Common	716	8.2%
Latin	8	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
무	492	6.1%
나	446	5.5%
리	223	2.8%
미	170	2.1%
장	145	1.8%
이	138	1.7%
화	136	1.7%
종	104	1.3%
백	104	1.3%
아	103	1.3%
Other values (587)	5997	74.4%

Common

Value	Count	Frequency (%)
-	224	31.3%
(	221	30.9%
)	221	30.9%
	23	3.2%
2	6	0.8%
1	4	0.6%
8	3	0.4%
,	3	0.4%
7	2	0.3%
4	2	0.3%
Other values (6)	7	1.0%

Latin

Value	Count	Frequency (%)
r	1	12.5%
a	1	12.5%
e	1	12.5%
c	1	12.5%
i	1	12.5%
n	1	12.5%
L	1	12.5%
o	1	12.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8058	91.8%
ASCII	724	8.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
무	492	6.1%
나	446	5.5%
리	223	2.8%
미	170	2.1%
장	145	1.8%
이	138	1.7%
화	136	1.7%
종	104	1.3%
백	104	1.3%
아	103	1.3%
Other values (587)	5997	74.4%

ASCII

Value	Count	Frequency (%)
-	224	30.9%
(	221	30.5%
)	221	30.5%
	23	3.2%
2	6	0.8%
1	4	0.6%
8	3	0.4%
,	3	0.4%
7	2	0.3%
4	2	0.3%
Other values (14)	15	2.1%

Unnamed: 3
Categorical

Distinct	17
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	14.4 KiB

2	462
5	319
1	236
4	235
3	207
Other values (12)	374

Length

Max length	4
Median length	1
Mean length	1.2880524
Min length	1

Unique

Unique	1 ?
Unique (%)	0.1%

Sample

1st row	표본수
2nd row	<NA>
3rd row	<NA>
4th row	5
5th row	5

Common Values

Value	Count	Frequency (%)
2	462	25.2%
5	319	17.4%
1	236	12.9%
4	235	12.8%
3	207	11.3%
<NA>	160	8.7%
6	61	3.3%
8	37	2.0%
7	35	1.9%
9	34	1.9%
Other values (7)	47	2.6%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
2	462	25.2%
5	319	17.4%
1	236	12.9%
4	235	12.8%
3	207	11.3%
na	160	8.7%
6	61	3.3%
8	37	2.0%
7	35	1.9%
9	34	1.9%
Other values (7)	47	2.6%

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	대아수목원 식물표본 보유 현황	Unnamed: 1	Unnamed: 2	Unnamed: 3
0	번호	식 물 유 전 자 원 명	<NA>	표본수
1	<NA>	학 명	국 명	<NA>
2	Selaginellaceae 부처손科	<NA>	<NA>	<NA>
3	1	Selaginella involvens (Sw.) Spring	바위손	5
4	2	Selaginella tamariscina (Beauv.) Spring	부처손	5
5	Equisetaceae 속새科	<NA>	<NA>	<NA>
6	3	Equisetum arvense L.	쇠뜨기	5
7	4	Equisetum hyemale L.	속새	9
8	Ophioglossaceae 고사리삼科	<NA>	<NA>	<NA>
9	5	Botrychium ternatum (Thunb.) Sw.	고사리삼	4

	대아수목원 식물표본 보유 현황	Unnamed: 1	Unnamed: 2	Unnamed: 3
1823	1666	Callistemon lanceolatus (Sm.) DC.	병솔꽃나무	3
1824	1667	Psidium cattleianum Sabine	스트로베리구아바	4
1825	Meliaceae 산석류科	<NA>	<NA>	<NA>
1826	1668	Tibouchina semidecandra Cogn.	티보치나	5
1827	닛사科	<NA>	<NA>	<NA>
1828	1669	Davidia involucrata	손수건나무	5
1829	학명 미확인종류	<NA>	<NA>	<NA>
1830	1670	망고	망고	3
1831	1671	트럼펫	트럼펫	2
1832	1672	호주매화	호주매화	3

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

CJK

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Other Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Modifier Symbol

Most occurring scripts

Most frequent character per script

Latin

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Lowercase Letter

Other Punctuation

Dash Punctuation

Open Punctuation

Close Punctuation

Space Separator

Uppercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Missing values

Sample