gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	449
Missing cells	423
Missing cells (%)	23.6%
Duplicate rows	1
Duplicate rows (%)	0.2%
Total size in memory	14.6 KiB
Average record size in memory	33.3 B

Variable types

Numeric	1
Categorical	2
Text	1

Dataset

Description	환경경영정보포털에서 제공하는 에코디자인 아이디어에 해당되는 키워드정보를 저장(구조 개선, 에너지 저감, 소재 개선, 공유, 수자원 저감, 신재생 에너지 이용 등)
Author	환경부
URL	https://www.data.go.kr/data/15071195/fileData.do

Alerts

Dataset has 1 (0.2%) duplicate rows	Duplicates
`키워드코드` is highly overall correlated with `키워드이름`	High correlation
`키워드이름` is highly overall correlated with `키워드코드`	High correlation
`기타키워드내용` has 423 (94.2%) missing values	Missing

Reproduction

Analysis started	2024-04-21 07:43:39.391056
Analysis finished	2024-04-21 07:43:40.388574
Duration	1 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

키워드 번호
Real number (ℝ)

Distinct	199
Distinct (%)	44.3%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	240.60356

Minimum	100
Maximum	377
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	4.1 KiB

Quantile statistics

Minimum	100
5-th percentile	112
Q1	171
median	237
Q3	306
95-th percentile	366.6
Maximum	377
Range	277
Interquartile range (IQR)	135

Descriptive statistics

Standard deviation	82.533752
Coefficient of variation (CV)	0.34302797
Kurtosis	-1.1793466
Mean	240.60356
Median Absolute Deviation (MAD)	67
Skewness	0.094434622
Sum	108031
Variance	6811.8202
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
259	11	2.4%
353	9	2.0%
289	8	1.8%
354	8	1.8%
366	7	1.6%
361	7	1.6%
313	6	1.3%
362	6	1.3%
363	5	1.1%
358	5	1.1%
Other values (189)	377	84.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
100	4	0.9%
101	2	0.4%
102	1	0.2%
104	4	0.9%
105	2	0.4%
106	2	0.4%
107	2	0.4%
109	2	0.4%
111	3	0.7%
112	2	0.4%

Value	Count	Frequency (%)
377	1	0.2%
376	1	0.2%
375	1	0.2%
374	1	0.2%
373	1	0.2%
372	1	0.2%
371	5	1.1%
370	5	1.1%
369	1	0.2%
368	3	0.7%

키워드이름
Categorical

HIGH CORRELATION

Distinct	23
Distinct (%)	5.1%
Missing	0
Missing (%)	0.0%
Memory size	3.6 KiB

폐기물 저감/자원화	56
에너지 저감	56
자원 저감	50
기타	26
생산자/소비자 경제성 향상	26
Other values (18)	235

Length

Max length	14
Median length	11
Mean length	7.3563474
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	구조 개선
2nd row	에너지 저감
3rd row	소재 개선
4th row	폐기물 저감/자원화
5th row	공유(Sharing)

Common Values

Value	Count	Frequency (%)
폐기물 저감/자원화	56	12.5%
에너지 저감	56	12.5%
자원 저감	50	11.1%
기타	26	5.8%
생산자/소비자 경제성 향상	26	5.8%
공기질 개선	24	5.3%
신재생 에너지 이용	23	5.1%
재활용 효율 향상	23	5.1%
폐기물의 친환경적 처리	20	4.5%
수질 개선	19	4.2%
Other values (13)	126	28.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
저감	117	11.8%
개선	115	11.6%
에너지	79	8.0%
향상	68	6.8%
폐기물	56	5.6%
저감/자원화	56	5.6%
자원	50	5.0%
효율	44	4.4%
생산자/소비자	26	2.6%
경제성	26	2.6%
Other values (26)	356	35.9%

기타키워드내용
Text

MISSING

Distinct	17
Distinct (%)	65.4%
Missing	423
Missing (%)	94.2%
Memory size	3.6 KiB

Length

Max length	9
Median length	8
Mean length	4.5769231
Min length	2

Characters and Unicode

Total characters	119
Distinct characters	55
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	13 ?
Unique (%)	50.0%

Sample

1st row	친환경제품
2nd row	무단투기 개선
3rd row	개인 위생
4th row	교육
5th row	재난대응

Value	Count	Frequency (%)
zz	4	10.3%
제품	4	10.3%
친환경	4	10.3%
교육	3	7.7%
재난	2	5.1%
대응	2	5.1%
위생	2	5.1%
개인	2	5.1%
생활	1	2.6%
산불진화	1	2.6%
Other values (14)	14	35.9%

Most occurring characters

Value	Count	Frequency (%)
	13	10.9%
z	8	6.7%
환	6	5.0%
경	5	4.2%
제	5	4.2%
품	5	4.2%
친	5	4.2%
응	3	2.5%
인	3	2.5%
개	3	2.5%
Other values (45)	63	52.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	95	79.8%
Space Separator	13	10.9%
Lowercase Letter	9	7.6%
Decimal Number	1	0.8%
Uppercase Letter	1	0.8%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
환	6	6.3%
경	5	5.3%
제	5	5.3%
품	5	5.3%
친	5	5.3%
응	3	3.2%
인	3	3.2%
개	3	3.2%
기	3	3.2%
생	3	3.2%
Other values (40)	54	56.8%

Lowercase Letter

Value	Count	Frequency (%)
z	8	88.9%
o	1	11.1%

Space Separator

Value	Count	Frequency (%)
	13	100.0%

Decimal Number

Value	Count	Frequency (%)
2	1	100.0%

Uppercase Letter

Value	Count	Frequency (%)
C	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	95	79.8%
Common	14	11.8%
Latin	10	8.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
환	6	6.3%
경	5	5.3%
제	5	5.3%
품	5	5.3%
친	5	5.3%
응	3	3.2%
인	3	3.2%
개	3	3.2%
기	3	3.2%
생	3	3.2%
Other values (40)	54	56.8%

Latin

Value	Count	Frequency (%)
z	8	80.0%
C	1	10.0%
o	1	10.0%

Common

Value	Count	Frequency (%)
	13	92.9%
2	1	7.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	95	79.8%
ASCII	24	20.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	13	54.2%
z	8	33.3%
2	1	4.2%
C	1	4.2%
o	1	4.2%

Hangul

Value	Count	Frequency (%)
환	6	6.3%
경	5	5.3%
제	5	5.3%
품	5	5.3%
친	5	5.3%
응	3	3.2%
인	3	3.2%
개	3	3.2%
기	3	3.2%
생	3	3.2%
Other values (40)	54	56.8%

키워드코드
Categorical

HIGH CORRELATION

Distinct	23
Distinct (%)	5.1%
Missing	0
Missing (%)	0.0%
Memory size	3.6 KiB

KWD21	56
KWD17	56
KWD19	50
KWD23	26
KWD10	26
Other values (18)	235

Length

Max length	5
Median length	5
Mean length	5
Min length	5

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	KWD03
2nd row	KWD17
3rd row	KWD12
4th row	KWD21
5th row	KWD02

Common Values

Value	Count	Frequency (%)
KWD21	56	12.5%
KWD17	56	12.5%
KWD19	50	11.1%
KWD23	26	5.8%
KWD10	26	5.8%
KWD01	24	5.3%
KWD15	23	5.1%
KWD20	23	5.1%
KWD22	20	4.5%
KWD14	19	4.2%
Other values (13)	126	28.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
kwd21	56	12.5%
kwd17	56	12.5%
kwd19	50	11.1%
kwd23	26	5.8%
kwd10	26	5.8%
kwd01	24	5.3%
kwd15	23	5.1%
kwd20	23	5.1%
kwd22	20	4.5%
kwd14	19	4.2%
Other values (13)	126	28.1%

키워드 번호

키워드 번호

Heatmap
Table

	키워드 번호	키워드이름	기타키워드내용	키워드코드
키워드 번호	1.000	0.374	0.945	0.374
키워드이름	0.374	1.000	0.000	1.000
기타키워드내용	0.945	0.000	1.000	0.000
키워드코드	0.374	1.000	0.000	1.000

Heatmap
Table

	키워드코드	키워드이름
키워드코드	1.000	1.000
키워드이름	1.000	1.000

Heatmap
Table

	키워드 번호	키워드이름	키워드코드
키워드 번호	1.000	0.145	0.145
키워드이름	0.145	1.000	1.000
키워드코드	0.145	1.000	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	키워드 번호	키워드이름	기타키워드내용	키워드코드
0	100	구조 개선	<NA>	KWD03
1	100	에너지 저감	<NA>	KWD17
2	101	소재 개선	<NA>	KWD12
3	102	폐기물 저감/자원화	<NA>	KWD21
4	104	공유(Sharing)	<NA>	KWD02
5	104	수자원 저감	<NA>	KWD13
6	104	에너지 저감	<NA>	KWD17
7	104	자원 저감	<NA>	KWD19
8	105	생산자/소비자 경제성 향상	<NA>	KWD10
9	105	신재생 에너지 이용	<NA>	KWD15

	키워드 번호	키워드이름	기타키워드내용	키워드코드
439	363	생분해성 향상	<NA>	KWD08
440	363	재활용 효율 향상	<NA>	KWD20
441	363	폐기물 저감/자원화	<NA>	KWD21
442	363	폐기물의 친환경적 처리	<NA>	KWD22
443	364	소재 개선	<NA>	KWD12
444	367	신재생 에너지 이용	<NA>	KWD15
445	367	에너지 저감	<NA>	KWD17
446	367	기타	<NA>	KWD23
447	376	기타	다기능 구이기	KWD23
448	377	기타	레인지후드보조장치	KWD23

Most frequently occurring

	키워드 번호	키워드이름	기타키워드내용	키워드코드	# duplicates
0	353	생산자/소비자 경제성 향상	<NA>	KWD10	2

Overview

Variables

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Space Separator

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Common Values

Length

Interactions

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring