gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	47
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	1.6 KiB
Average record size in memory	34.8 B

Variable types

Categorical	1
Text	3

Dataset

Description	한국서부발전(주)_신재생에너지사업현황
Author	충청남도
URL	https://alldam.chungnam.go.kr/bigdata/collect/view.chungnam?menuCd=DOM_000000201001001000&apiIdx=2842

Alerts

사업명 has unique values Unique

Reproduction

Analysis started	2024-01-09 21:02:36.062951
Analysis finished	2024-01-09 21:02:36.410342
Duration	0.35 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

구분 명
Categorical

Distinct	3
Distinct (%)	6.4%
Missing	0
Missing (%)	0.0%
Memory size	508.0 B

운영	23
개발	20
건설	4

Length

Max length	2
Median length	2
Mean length	2
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	운영
2nd row	운영
3rd row	운영
4th row	운영
5th row	운영

Common Values

Value	Count	Frequency (%)
운영	23	48.9%
개발	20	42.6%
건설	4	8.5%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
운영	23	48.9%
개발	20	42.6%
건설	4	8.5%

사업명
Text

UNIQUE

Distinct	47
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	508.0 B

Length

Max length	17
Median length	14
Mean length	9.1276596
Min length	4

Characters and Unicode

Total characters	429
Distinct characters	112
Distinct categories	6 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	47 ?
Unique (%)	100.0%

Sample

1st row	태안 IGCC
2nd row	화순풍력 ESS
3rd row	평택 #2 바이오중유
4th row	태안#1~4
5th row	태안화력 #2~4 유기성고형연료

Value	Count	Frequency (%)
태양광	11	9.8%
수상태양광	5	4.5%
세종시	5	4.5%
태안본부	4	3.6%
풍력	4	3.6%
1단계	3	2.7%
양구	3	2.7%
ess	3	2.7%
서인천	3	2.7%
2차	3	2.7%
Other values (58)	68	60.7%

Most occurring characters

Value	Count	Frequency (%)
	65	15.2%
태	24	5.6%
양	19	4.4%
광	16	3.7%
수	14	3.3%
부	12	2.8%
지	11	2.6%
력	10	2.3%
안	9	2.1%
본	9	2.1%
Other values (102)	240	55.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	323	75.3%
Space Separator	65	15.2%
Decimal Number	19	4.4%
Uppercase Letter	17	4.0%
Other Punctuation	3	0.7%
Math Symbol	2	0.5%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
태	24	7.4%
양	19	5.9%
광	16	5.0%
수	14	4.3%
부	12	3.7%
지	11	3.4%
력	10	3.1%
안	9	2.8%
본	9	2.8%
상	8	2.5%
Other values (87)	191	59.1%

Uppercase Letter

Value	Count	Frequency (%)
S	6	35.3%
E	3	17.6%
I	2	11.8%
C	2	11.8%
D	1	5.9%
K	1	5.9%
G	1	5.9%
F	1	5.9%

Decimal Number

Value	Count	Frequency (%)
2	9	47.4%
1	7	36.8%
4	2	10.5%
3	1	5.3%

Space Separator

Value	Count	Frequency (%)
	65	100.0%

Other Punctuation

Value	Count	Frequency (%)
#	3	100.0%

Math Symbol

Value	Count	Frequency (%)
~	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	323	75.3%
Common	89	20.7%
Latin	17	4.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
태	24	7.4%
양	19	5.9%
광	16	5.0%
수	14	4.3%
부	12	3.7%
지	11	3.4%
력	10	3.1%
안	9	2.8%
본	9	2.8%
상	8	2.5%
Other values (87)	191	59.1%

Latin

Value	Count	Frequency (%)
S	6	35.3%
E	3	17.6%
I	2	11.8%
C	2	11.8%
D	1	5.9%
K	1	5.9%
G	1	5.9%
F	1	5.9%

Common

Value	Count	Frequency (%)
	65	73.0%
2	9	10.1%
1	7	7.9%
#	3	3.4%
4	2	2.2%
~	2	2.2%
3	1	1.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	323	75.3%
ASCII	106	24.7%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	65	61.3%
2	9	8.5%
1	7	6.6%
S	6	5.7%
#	3	2.8%
E	3	2.8%
I	2	1.9%
C	2	1.9%
4	2	1.9%
~	2	1.9%
Other values (5)	5	4.7%

Hangul

Value	Count	Frequency (%)
태	24	7.4%
양	19	5.9%
광	16	5.0%
수	14	4.3%
부	12	3.7%
지	11	3.4%
력	10	3.1%
안	9	2.8%
본	9	2.8%
상	8	2.5%
Other values (87)	191	59.1%

소재지
Text

Distinct	30
Distinct (%)	63.8%
Missing	0
Missing (%)	0.0%
Memory size	508.0 B

Length

Max length	23
Median length	15
Mean length	11.468085
Min length	1

Characters and Unicode

Total characters	539
Distinct characters	94
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	24 ?
Unique (%)	51.1%

Sample

1st row	충남 태안군 태안읍 원북면
2nd row	전남 화순군 동면 청궁리
3rd row	경기도 평택시 포승읍
4th row	7
5th row	충남 태안군 태안읍 원북면

Value	Count	Frequency (%)
충남	12	7.9%
태안읍	11	7.2%
원북면	11	7.2%
태안군	11	7.2%
전남	8	5.3%
경기도	5	3.3%
전북	5	3.3%
세종특별자치시	5	3.3%
서구	4	2.6%
강원도	4	2.6%
Other values (60)	76	50.0%

Most occurring characters

Value	Count	Frequency (%)
	105	19.5%
안	27	5.0%
남	22	4.1%
태	22	4.1%
시	21	3.9%
면	19	3.5%
군	18	3.3%
읍	17	3.2%
원	16	3.0%
북	16	3.0%
Other values (84)	256	47.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	420	77.9%
Space Separator	105	19.5%
Decimal Number	11	2.0%
Other Punctuation	2	0.4%
Math Symbol	1	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
안	27	6.4%
남	22	5.2%
태	22	5.2%
시	21	5.0%
면	19	4.5%
군	18	4.3%
읍	17	4.0%
원	16	3.8%
북	16	3.8%
전	15	3.6%
Other values (76)	227	54.0%

Decimal Number

Value	Count	Frequency (%)
1	3	27.3%
3	3	27.3%
6	2	18.2%
2	2	18.2%
7	1	9.1%

Space Separator

Value	Count	Frequency (%)
	105	100.0%

Other Punctuation

Value	Count	Frequency (%)
.	2	100.0%

Math Symbol

Value	Count	Frequency (%)
~	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	420	77.9%
Common	119	22.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
안	27	6.4%
남	22	5.2%
태	22	5.2%
시	21	5.0%
면	19	4.5%
군	18	4.3%
읍	17	4.0%
원	16	3.8%
북	16	3.8%
전	15	3.6%
Other values (76)	227	54.0%

Common

Value	Count	Frequency (%)
	105	88.2%
1	3	2.5%
3	3	2.5%
6	2	1.7%
2	2	1.7%
.	2	1.7%
~	1	0.8%
7	1	0.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	420	77.9%
ASCII	119	22.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	105	88.2%
1	3	2.5%
3	3	2.5%
6	2	1.7%
2	2	1.7%
.	2	1.7%
~	1	0.8%
7	1	0.8%

Hangul

Value	Count	Frequency (%)
안	27	6.4%
남	22	5.2%
태	22	5.2%
시	21	5.0%
면	19	4.5%
군	18	4.3%
읍	17	4.0%
원	16	3.8%
북	16	3.8%
전	15	3.6%
Other values (76)	227	54.0%

용량(MW)
Text

Distinct	39
Distinct (%)	83.0%
Missing	0
Missing (%)	0.0%
Memory size	508.0 B

Length

Max length	6
Median length	5
Mean length	2.8297872
Min length	1

Characters and Unicode

Total characters	133
Distinct characters	16
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	31 ?
Unique (%)	66.0%

Sample

1st row	346
2nd row	4
3rd row	70
4th row	8 우드펠릿
5th row	75

Value	Count	Frequency (%)
20	2	4.2%
15	2	4.2%
1.84	2	4.2%
60	2	4.2%
100	2	4.2%
1.5	2	4.2%
16	2	4.2%
5	2	4.2%
18	1	2.1%
0.26	1	2.1%
Other values (30)	30	62.5%

Most occurring characters

Value	Count	Frequency (%)
1	20	15.0%
0	19	14.3%
.	18	13.5%
5	13	9.8%
2	11	8.3%
6	10	7.5%
4	9	6.8%
8	8	6.0%
9	8	6.0%
3	8	6.0%
Other values (6)	9	6.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	110	82.7%
Other Punctuation	18	13.5%
Other Letter	4	3.0%
Space Separator	1	0.8%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
1	20	18.2%
0	19	17.3%
5	13	11.8%
2	11	10.0%
6	10	9.1%
4	9	8.2%
8	8	7.3%
9	8	7.3%
3	8	7.3%
7	4	3.6%

Other Letter

Value	Count	Frequency (%)
우	1	25.0%
드	1	25.0%
펠	1	25.0%
릿	1	25.0%

Other Punctuation

Value	Count	Frequency (%)
.	18	100.0%

Space Separator

Value	Count	Frequency (%)
	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	129	97.0%
Hangul	4	3.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
1	20	15.5%
0	19	14.7%
.	18	14.0%
5	13	10.1%
2	11	8.5%
6	10	7.8%
4	9	7.0%
8	8	6.2%
9	8	6.2%
3	8	6.2%
Other values (2)	5	3.9%

Hangul

Value	Count	Frequency (%)
우	1	25.0%
드	1	25.0%
펠	1	25.0%
릿	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	129	97.0%
Hangul	4	3.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	20	15.5%
0	19	14.7%
.	18	14.0%
5	13	10.1%
2	11	8.5%
6	10	7.8%
4	9	7.0%
8	8	6.2%
9	8	6.2%
3	8	6.2%
Other values (2)	5	3.9%

Hangul

Value	Count	Frequency (%)
우	1	25.0%
드	1	25.0%
펠	1	25.0%
릿	1	25.0%

Phik (φk)

Heatmap
Table

	구분 명	사업명	소재지	용량(MW)
구분 명	1.000	1.000	0.111	0.753
사업명	1.000	1.000	1.000	1.000
소재지	0.111	1.000	1.000	0.000
용량(MW)	0.753	1.000	0.000	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	구분 명	사업명	소재지	용량(MW)
0	운영	태안 IGCC	충남 태안군 태안읍 원북면	346
1	운영	화순풍력 ESS	전남 화순군 동면 청궁리	4
2	운영	평택 #2 바이오중유	경기도 평택시 포승읍	70
3	운영	태안#1~4	7	8 우드펠릿
4	운영	태안화력 #2~4 유기성고형연료	충남 태안군 태안읍 원북면	75
5	운영	화순풍력	전남 화순군 동면 청궁리	16
6	운영	서인천 2차 연료전지	인천광역시 서구 장도로	5
7	운영	서인천 1차 연료전지	인천광역시 서구 장도로	11.2
8	운영	태안본부 수상	충남 태안군 태안읍 원북면	1.84
9	운영	평택본부	경기도 평택시 포승읍	0.45

	구분 명	사업명	소재지	용량(MW)
37	개발	장흥풍력 및 ESS	전남 장흥군 부산면 지천리	16
38	개발	발전부지 태양광 ESS	충남 태안군 태안읍 원북면	25
39	개발	수도권매립지 태양광	인천 서구 오류동	100
40	개발	대산 수상태양광	충남 서산시 대산읍	15
41	개발	계화조류지 수상태양광	전북 부안 계화면	15
42	개발	청호지 수상태양광	전북 부안 하서면	32
43	개발	나주호 수상태양광	전남 나주시 다도면	38
44	개발	이원호 수상태양광	충남 태안군 태안읍 원북면	40
45	개발	태안본부 회사장 태양광	충남 태안군 태안읍 원북면	87
46	개발	군산본부 태양광	전북 군산시 구암 3.1로	1.84

Overview

Variables

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Space Separator

Other Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Space Separator

Other Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Other Letter

Other Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Correlations

Missing values

Sample