gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	1398
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	45.2 KiB
Average record size in memory	33.1 B

Variable types

Numeric	1
Text	3

Dataset

Description	수도권매립지에서 사용하는 폐기물, 생활소각재등급, 시료분석 등의 코드 정보입니다.개방항목 : 그룹코드, 그룹코드명, 코드, 코드명의 항목을 제공합니다.
Author	수도권매립지관리공사
URL	https://www.data.go.kr/data/15064380/fileData.do

Reproduction

Analysis started	2024-04-13 13:21:37.835153
Analysis finished	2024-04-13 13:21:39.797055
Duration	1.96 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

그룹코드
Real number (ℝ)

Distinct	128
Distinct (%)	9.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	50.7897

Minimum	1
Maximum	130
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	12.4 KiB

Quantile statistics

Minimum	1
5-th percentile	7
Q1	26
median	32
Q3	76
95-th percentile	118
Maximum	130
Range	129
Interquartile range (IQR)	50

Descriptive statistics

Standard deviation	34.517537
Coefficient of variation (CV)	0.67961689
Kurtosis	-0.73616993
Mean	50.7897
Median Absolute Deviation (MAD)	20
Skewness	0.66472822
Sum	71004
Variance	1191.4604
Monotonicity	Increasing

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
28	170	12.2%
31	68	4.9%
26	57	4.1%
29	56	4.0%
24	38	2.7%
21	36	2.6%
85	32	2.3%
76	31	2.2%
19	31	2.2%
116	30	2.1%
Other values (118)	849	60.7%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	7	0.5%
2	6	0.4%
3	5	0.4%
4	21	1.5%
5	7	0.5%
6	10	0.7%
7	18	1.3%
8	9	0.6%
9	2	0.1%
10	8	0.6%

Value	Count	Frequency (%)
130	3	0.2%
129	5	0.4%
128	3	0.2%
127	7	0.5%
126	1	0.1%
125	11	0.8%
124	1	0.1%
123	1	0.1%
122	2	0.1%
121	2	0.1%

그룹코드명
Text

Distinct	181
Distinct (%)	12.9%
Missing	0
Missing (%)	0.0%
Memory size	11.0 KiB

Length

Max length	16
Median length	14
Mean length	7.3655222
Min length	3

Characters and Unicode

Total characters	10297
Distinct characters	202
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	7 ?
Unique (%)	0.5%

Sample

1st row	계량_검사구분코드
2nd row	계량_검사구분코드
3rd row	계량_검사구분코드
4th row	업무구분코드
5th row	업무구분코드

Value	Count	Frequency (%)
부서코드	170	8.7%
농협	82	4.2%
펌뱅킹	82	4.2%
폐기물	73	3.7%
폐기물성상	68	3.5%
분류	68	3.5%
위반코드(=벌점코드	50	2.6%
구분	48	2.5%
신청사유코드	46	2.4%
톤수/형식코드	38	1.9%
Other values (204)	1226	62.8%

Most occurring characters

Value	Count	Frequency (%)
드	814	7.9%
코	803	7.8%
	553	5.4%
분	377	3.7%
구	276	2.7%
상	273	2.7%
사	261	2.5%
기	241	2.3%
_	220	2.1%
반	194	1.9%
Other values (192)	6285	61.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	9291	90.2%
Space Separator	553	5.4%
Connector Punctuation	220	2.1%
Close Punctuation	50	0.5%
Open Punctuation	50	0.5%
Math Symbol	50	0.5%
Other Punctuation	47	0.5%
Uppercase Letter	19	0.2%
Decimal Number	13	0.1%
Dash Punctuation	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
드	814	8.8%
코	803	8.6%
분	377	4.1%
구	276	3.0%
상	273	2.9%
사	261	2.8%
기	241	2.6%
반	194	2.1%
부	191	2.1%
폐	182	2.0%
Other values (177)	5679	61.1%

Uppercase Letter

Value	Count	Frequency (%)
I	5	26.3%
P	5	26.3%
A	5	26.3%
F	2	10.5%
R	2	10.5%

Decimal Number

Value	Count	Frequency (%)
2	7	53.8%
1	4	30.8%
4	2	15.4%

Space Separator

Value	Count	Frequency (%)
	553	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	220	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	50	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	50	100.0%

Math Symbol

Value	Count	Frequency (%)
=	50	100.0%

Other Punctuation

Value	Count	Frequency (%)
/	47	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	9291	90.2%
Common	987	9.6%
Latin	19	0.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
드	814	8.8%
코	803	8.6%
분	377	4.1%
구	276	3.0%
상	273	2.9%
사	261	2.8%
기	241	2.6%
반	194	2.1%
부	191	2.1%
폐	182	2.0%
Other values (177)	5679	61.1%

Common

Value	Count	Frequency (%)
	553	56.0%
_	220	22.3%
)	50	5.1%
(	50	5.1%
=	50	5.1%
/	47	4.8%
2	7	0.7%
1	4	0.4%
-	4	0.4%
4	2	0.2%

Latin

Value	Count	Frequency (%)
I	5	26.3%
P	5	26.3%
A	5	26.3%
F	2	10.5%
R	2	10.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	9291	90.2%
ASCII	1006	9.8%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
드	814	8.8%
코	803	8.6%
분	377	4.1%
구	276	3.0%
상	273	2.9%
사	261	2.8%
기	241	2.6%
반	194	2.1%
부	191	2.1%
폐	182	2.0%
Other values (177)	5679	61.1%

ASCII

Value	Count	Frequency (%)
	553	55.0%
_	220	21.9%
)	50	5.0%
(	50	5.0%
=	50	5.0%
/	47	4.7%
2	7	0.7%
I	5	0.5%
P	5	0.5%
A	5	0.5%
Other values (5)	14	1.4%

코드
Text

Distinct	594
Distinct (%)	42.5%
Missing	0
Missing (%)	0.0%
Memory size	11.0 KiB

Length

Max length	7
Median length	2
Mean length	3.0171674
Min length	1

Characters and Unicode

Total characters	4218
Distinct characters	29
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	473 ?
Unique (%)	33.8%

Sample

1st row	01
2nd row	02
3rd row	03
4th row	CM
5th row	CP

Value	Count	Frequency (%)
01	135	9.7%
02	125	8.9%
03	88	6.3%
04	67	4.8%
05	53	3.8%
06	31	2.2%
99	20	1.4%
07	20	1.4%
10	18	1.3%
11	15	1.1%
Other values (584)	826	59.1%

Most occurring characters

Value	Count	Frequency (%)
0	1687	40.0%
1	690	16.4%
2	532	12.6%
3	393	9.3%
4	249	5.9%
5	212	5.0%
6	129	3.1%
9	107	2.5%
7	65	1.5%
8	55	1.3%
Other values (19)	99	2.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	4119	97.7%
Uppercase Letter	99	2.3%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
C	28	28.3%
M	22	22.2%
F	12	12.1%
A	6	6.1%
D	5	5.1%
B	4	4.0%
E	3	3.0%
I	2	2.0%
N	2	2.0%
Y	2	2.0%
Other values (9)	13	13.1%

Decimal Number

Value	Count	Frequency (%)
0	1687	41.0%
1	690	16.8%
2	532	12.9%
3	393	9.5%
4	249	6.0%
5	212	5.1%
6	129	3.1%
9	107	2.6%
7	65	1.6%
8	55	1.3%

Most occurring scripts

Value	Count	Frequency (%)
Common	4119	97.7%
Latin	99	2.3%

Most frequent character per script

Latin

Value	Count	Frequency (%)
C	28	28.3%
M	22	22.2%
F	12	12.1%
A	6	6.1%
D	5	5.1%
B	4	4.0%
E	3	3.0%
I	2	2.0%
N	2	2.0%
Y	2	2.0%
Other values (9)	13	13.1%

Common

Value	Count	Frequency (%)
0	1687	41.0%
1	690	16.8%
2	532	12.9%
3	393	9.5%
4	249	6.0%
5	212	5.1%
6	129	3.1%
9	107	2.6%
7	65	1.6%
8	55	1.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	4218	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	1687	40.0%
1	690	16.4%
2	532	12.6%
3	393	9.3%
4	249	5.9%
5	212	5.0%
6	129	3.1%
9	107	2.5%
7	65	1.5%
8	55	1.3%
Other values (19)	99	2.3%

코드명
Text

Distinct	1117
Distinct (%)	79.9%
Missing	0
Missing (%)	0.0%
Memory size	11.0 KiB

Length

Max length	38
Median length	29
Mean length	6.1387697
Min length	1

Characters and Unicode

Total characters	8582
Distinct characters	407
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	940 ?
Unique (%)	67.2%

Sample

1st row	정밀
2nd row	시료
3rd row	일반
4th row	반입관리
5th row	웹포탈

Value	Count	Frequency (%)
기타	34	1.8%
혼합반입	26	1.4%
폐기물	26	1.4%
조회	18	0.9%
차량대수	16	0.8%
요청	15	0.8%
응답	14	0.7%
변경	11	0.6%
초과	10	0.5%
계좌	10	0.5%
Other values (1182)	1729	90.6%

Most occurring characters

Value	Count	Frequency (%)
	511	6.0%
기	236	2.7%
사	189	2.2%
반	176	2.1%
(	139	1.6%
수	139	1.6%
)	138	1.6%
지	135	1.6%
입	125	1.5%
폐	123	1.4%
Other values (397)	6671	77.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	7115	82.9%
Space Separator	511	6.0%
Decimal Number	342	4.0%
Other Punctuation	140	1.6%
Open Punctuation	139	1.6%
Close Punctuation	138	1.6%
Uppercase Letter	134	1.6%
Lowercase Letter	44	0.5%
Connector Punctuation	12	0.1%
Dash Punctuation	5	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	236	3.3%
사	189	2.7%
반	176	2.5%
수	139	2.0%
지	135	1.9%
입	125	1.8%
폐	123	1.7%
정	121	1.7%
량	117	1.6%
물	116	1.6%
Other values (336)	5638	79.2%

Uppercase Letter

Value	Count	Frequency (%)
C	20	14.9%
F	17	12.7%
S	16	11.9%
R	11	8.2%
B	9	6.7%
E	7	5.2%
A	7	5.2%
P	7	5.2%
M	6	4.5%
T	6	4.5%
Other values (10)	28	20.9%

Lowercase Letter

Value	Count	Frequency (%)
o	5	11.4%
a	5	11.4%
i	4	9.1%
u	4	9.1%
r	3	6.8%
g	3	6.8%
c	3	6.8%
t	2	4.5%
s	2	4.5%
d	2	4.5%
Other values (8)	11	25.0%

Decimal Number

Value	Count	Frequency (%)
0	101	29.5%
1	78	22.8%
2	54	15.8%
5	25	7.3%
3	23	6.7%
4	20	5.8%
8	16	4.7%
7	9	2.6%
6	8	2.3%
9	8	2.3%

Other Punctuation

Value	Count	Frequency (%)
/	58	41.4%
,	46	32.9%
%	18	12.9%
.	8	5.7%
?	5	3.6%
·	4	2.9%
&	1	0.7%

Space Separator

Value	Count	Frequency (%)
	511	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	139	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	138	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	12	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	5	100.0%

Math Symbol

Value	Count	Frequency (%)
+	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	7115	82.9%
Common	1289	15.0%
Latin	178	2.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	236	3.3%
사	189	2.7%
반	176	2.5%
수	139	2.0%
지	135	1.9%
입	125	1.8%
폐	123	1.7%
정	121	1.7%
량	117	1.6%
물	116	1.6%
Other values (336)	5638	79.2%

Latin

Value	Count	Frequency (%)
C	20	11.2%
F	17	9.6%
S	16	9.0%
R	11	6.2%
B	9	5.1%
E	7	3.9%
A	7	3.9%
P	7	3.9%
M	6	3.4%
T	6	3.4%
Other values (28)	72	40.4%

Common

Value	Count	Frequency (%)
	511	39.6%
(	139	10.8%
)	138	10.7%
0	101	7.8%
1	78	6.1%
/	58	4.5%
2	54	4.2%
,	46	3.6%
5	25	1.9%
3	23	1.8%
Other values (13)	116	9.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	7115	82.9%
ASCII	1463	17.0%
None	4	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	511	34.9%
(	139	9.5%
)	138	9.4%
0	101	6.9%
1	78	5.3%
/	58	4.0%
2	54	3.7%
,	46	3.1%
5	25	1.7%
3	23	1.6%
Other values (50)	290	19.8%

Hangul

Value	Count	Frequency (%)
기	236	3.3%
사	189	2.7%
반	176	2.5%
수	139	2.0%
지	135	1.9%
입	125	1.8%
폐	123	1.7%
정	121	1.7%
량	117	1.6%
물	116	1.6%
Other values (336)	5638	79.2%

None

Value	Count	Frequency (%)
·	4	100.0%

그룹코드

그룹코드

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	그룹코드	그룹코드명	코드	코드명
0	1	계량_검사구분코드	01	정밀
1	1	계량_검사구분코드	02	시료
2	1	계량_검사구분코드	03	일반
3	1	업무구분코드	CM	반입관리
4	1	업무구분코드	CP	웹포탈
5	1	업무구분코드	CS	업무공통
6	1	업무구분코드	RC	매립정보
7	2	전표발행구분코드	01	신규
8	2	전표발행구분코드	02	재발행
9	2	프로그램종류코드	01	XML

	그룹코드	그룹코드명	코드	코드명
1388	128	지자체수납 가산금 비율	2	4
1389	128	지자체수납 가산금 비율	3	5
1390	129	위반 내용 구분	01	규정 봉투 미사용
1391	129	위반 내용 구분	02	대형폐기물 혼합반입
1392	129	위반 내용 구분	03	사업장폐기물 혼합반입
1393	129	위반 내용 구분	90	기타 폐기물 혼합반입
1394	129	위반 내용 구분	98	수기입력
1395	130	가산금 구분	01	가산금 1차
1396	130	가산금 구분	02	가산금 2차
1397	130	가산금 구분	03	가산금 3차

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Space Separator

Connector Punctuation

Close Punctuation

Open Punctuation

Math Symbol

Other Punctuation

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Connector Punctuation

Dash Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Interactions

Missing values

Sample