gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	105
Missing cells	129
Missing cells (%)	24.6%
Duplicate rows	1
Duplicate rows (%)	1.0%
Total size in memory	4.2 KiB
Average record size in memory	41.3 B

Variable types

Categorical	2
Text	2
DateTime	1

Dataset

Description	고압가스 가스안전분야 검사,기술,시설 상세기준인 KGS CODE의 개정현황(분류, 주요내용, 코드명, 개정일자)을 공개하여 가스업계 종사자분들에게 도움이 되고자 제공하는 데이터입니다.
Author	한국가스안전공사
URL	https://www.data.go.kr/data/15091486/fileData.do

Alerts

Dataset has 1 (1.0%) duplicate rows	Duplicates
`구분` is highly overall correlated with `제개정 분류`	High correlation
`제개정 분류` is highly overall correlated with `구분`	High correlation
`주요내용` has 43 (41.0%) missing values	Missing
`코 드 명` has 43 (41.0%) missing values	Missing
`개정일자` has 43 (41.0%) missing values	Missing

Reproduction

Analysis started	2023-12-11 22:49:56.260990
Analysis finished	2023-12-11 22:49:56.743838
Duration	0.48 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

구분
Categorical

HIGH CORRELATION

Distinct	2
Distinct (%)	1.9%
Missing	0
Missing (%)	0.0%
Memory size	972.0 B

고법	62
<NA>	43

Length

Max length	4
Median length	2
Mean length	2.8190476
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	고법
2nd row	고법
3rd row	고법
4th row	고법
5th row	고법

Common Values

Value	Count	Frequency (%)
고법	62	59.0%
<NA>	43	41.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
고법	62	59.0%
na	43	41.0%

제개정 분류
Categorical

HIGH CORRELATION

Distinct	2
Distinct (%)	1.9%
Missing	0
Missing (%)	0.0%
Memory size	972.0 B

개정	62
<NA>	43

Length

Max length	4
Median length	2
Mean length	2.8190476
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	개정
2nd row	개정
3rd row	개정
4th row	개정
5th row	개정

Common Values

Value	Count	Frequency (%)
개정	62	59.0%
<NA>	43	41.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
개정	62	59.0%
na	43	41.0%

주요내용
Text

MISSING

Distinct	32
Distinct (%)	51.6%
Missing	43
Missing (%)	41.0%
Memory size	972.0 B

Length

Max length	208
Median length	88
Mean length	53.435484
Min length	11

Characters and Unicode

Total characters	3313
Distinct characters	223
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	23 ?
Unique (%)	37.1%

Sample

1st row	KGS Code의 체계적인 운영을 위해, 5년 이상 개정 이력이 전무한 Code에 대한 유효성 검토 실시
2nd row	KGS Code의 체계적인 운영을 위해, 5년 이상 개정 이력이 전무한 Code에 대한 유효성 검토 실시
3rd row	KGS Code의 체계적인 운영을 위해, 5년 이상 개정 이력이 전무한 Code에 대한 유효성 검토 실시
4th row	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편
5th row	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편

Value	Count	Frequency (%)
개정	20	2.7%
kgs	17	2.3%
명확화	16	2.2%
방호벽	15	2.0%
위한	15	2.0%
국민이	14	1.9%
문구·용어	14	1.9%
전면개편	14	1.9%
이해하기	14	1.9%
정착을	14	1.9%
Other values (210)	581	79.2%

Most occurring characters

Value	Count	Frequency (%)
	672	20.3%
기	84	2.5%
정	67	2.0%
화	56	1.7%
,	55	1.7%
준	50	1.5%
가	46	1.4%
설	45	1.4%
의	44	1.3%
이	43	1.3%
Other values (213)	2151	64.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2243	67.7%
Space Separator	672	20.3%
Uppercase Letter	104	3.1%
Other Punctuation	95	2.9%
Decimal Number	85	2.6%
Lowercase Letter	60	1.8%
Open Punctuation	27	0.8%
Close Punctuation	27	0.8%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	84	3.7%
정	67	3.0%
화	56	2.5%
준	50	2.2%
가	46	2.1%
설	45	2.0%
의	44	2.0%
이	43	1.9%
시	43	1.9%
전	41	1.8%
Other values (182)	1724	76.9%

Uppercase Letter

Value	Count	Frequency (%)
S	26	25.0%
K	24	23.1%
C	22	21.2%
G	19	18.3%
I	2	1.9%
N	2	1.9%
F	2	1.9%
P	2	1.9%
A	1	1.0%
M	1	1.0%
Other values (3)	3	2.9%

Decimal Number

Value	Count	Frequency (%)
2	34	40.0%
6	18	21.2%
0	9	10.6%
9	8	9.4%
4	8	9.4%
5	6	7.1%
1	2	2.4%

Other Punctuation

Value	Count	Frequency (%)
,	55	57.9%
.	24	25.3%
·	14	14.7%
'	1	1.1%
‧	1	1.1%

Lowercase Letter

Value	Count	Frequency (%)
d	20	33.3%
e	20	33.3%
o	20	33.3%

Space Separator

Value	Count	Frequency (%)
	672	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	27	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	27	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2243	67.7%
Common	906	27.3%
Latin	164	5.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	84	3.7%
정	67	3.0%
화	56	2.5%
준	50	2.2%
가	46	2.1%
설	45	2.0%
의	44	2.0%
이	43	1.9%
시	43	1.9%
전	41	1.8%
Other values (182)	1724	76.9%

Latin

Value	Count	Frequency (%)
S	26	15.9%
K	24	14.6%
C	22	13.4%
d	20	12.2%
e	20	12.2%
o	20	12.2%
G	19	11.6%
I	2	1.2%
N	2	1.2%
F	2	1.2%
Other values (6)	7	4.3%

Common

Value	Count	Frequency (%)
	672	74.2%
,	55	6.1%
2	34	3.8%
(	27	3.0%
)	27	3.0%
.	24	2.6%
6	18	2.0%
·	14	1.5%
0	9	1.0%
9	8	0.9%
Other values (5)	18	2.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2243	67.7%
ASCII	1055	31.8%
None	14	0.4%
Punctuation	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	672	63.7%
,	55	5.2%
2	34	3.2%
(	27	2.6%
)	27	2.6%
S	26	2.5%
.	24	2.3%
K	24	2.3%
C	22	2.1%
d	20	1.9%
Other values (19)	124	11.8%

Hangul

Value	Count	Frequency (%)
기	84	3.7%
정	67	3.0%
화	56	2.5%
준	50	2.2%
가	46	2.1%
설	45	2.0%
의	44	2.0%
이	43	1.9%
시	43	1.9%
전	41	1.8%
Other values (182)	1724	76.9%

None

Value	Count	Frequency (%)
·	14	100.0%

Punctuation

Value	Count	Frequency (%)
‧	1	100.0%

코 드 명
Text

MISSING

Distinct	41
Distinct (%)	66.1%
Missing	43
Missing (%)	41.0%
Memory size	972.0 B

Length

Max length	5
Median length	5
Mean length	5
Min length	5

Characters and Unicode

Total characters	310
Distinct characters	15
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	26 ?
Unique (%)	41.9%

Sample

1st row	AA314
2nd row	AA315
3rd row	AC312
4th row	AA211
5th row	AA212

Value	Count	Frequency (%)
ac111	3	4.8%
fs112	3	4.8%
fu111	3	4.8%
fp112	3	4.8%
fp111	3	4.8%
fu211	3	4.8%
aa312	2	3.2%
aa318	2	3.2%
aa913	2	3.2%
fp217	2	3.2%
Other values (31)	36	58.1%

Most occurring characters

Value	Count	Frequency (%)
1	102	32.9%
A	57	18.4%
2	37	11.9%
F	25	8.1%
3	21	6.8%
C	17	5.5%
P	13	4.2%
U	8	2.6%
4	7	2.3%
9	7	2.3%
Other values (5)	16	5.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	186	60.0%
Uppercase Letter	124	40.0%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
1	102	54.8%
2	37	19.9%
3	21	11.3%
4	7	3.8%
9	7	3.8%
6	3	1.6%
7	3	1.6%
8	3	1.6%
5	3	1.6%

Uppercase Letter

Value	Count	Frequency (%)
A	57	46.0%
F	25	20.2%
C	17	13.7%
P	13	10.5%
U	8	6.5%
S	4	3.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	186	60.0%
Latin	124	40.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
1	102	54.8%
2	37	19.9%
3	21	11.3%
4	7	3.8%
9	7	3.8%
6	3	1.6%
7	3	1.6%
8	3	1.6%
5	3	1.6%

Latin

Value	Count	Frequency (%)
A	57	46.0%
F	25	20.2%
C	17	13.7%
P	13	10.5%
U	8	6.5%
S	4	3.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	310	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	102	32.9%
A	57	18.4%
2	37	11.9%
F	25	8.1%
3	21	6.8%
C	17	5.5%
P	13	4.2%
U	8	2.6%
4	7	2.3%
9	7	2.3%
Other values (5)	16	5.2%

개정일자
Date

MISSING

Distinct	13
Distinct (%)	21.0%
Missing	43
Missing (%)	41.0%
Memory size	972.0 B

Minimum	2022-03-28 00:00:00
Maximum	2023-11-07 00:00:00

Histogram

Histogram with fixed size bins (bins=13)

Heatmap
Table

	주요내용	코 드 명	개정일자
주요내용	1.000	0.000	0.985
코 드 명	0.000	1.000	0.574
개정일자	0.985	0.574	1.000

Heatmap
Table

	구분	제개정 분류
구분	1.000	1.000
제개정 분류	1.000	1.000

Heatmap
Table

	구분	제개정 분류
구분	1.000	1.000
제개정 분류	1.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	구분	제개정 분류	주요내용	코 드 명	개정일자
0	고법	개정	KGS Code의 체계적인 운영을 위해, 5년 이상 개정 이력이 전무한 Code에 대한 유효성 검토 실시	AA314	2022-03-28
1	고법	개정	KGS Code의 체계적인 운영을 위해, 5년 이상 개정 이력이 전무한 Code에 대한 유효성 검토 실시	AA315	2022-03-28
2	고법	개정	KGS Code의 체계적인 운영을 위해, 5년 이상 개정 이력이 전무한 Code에 대한 유효성 검토 실시	AC312	2022-03-28
3	고법	개정	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편	AA211	2022-06-14
4	고법	개정	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편	AA212	2022-06-14
5	고법	개정	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편	AA213	2022-06-14
6	고법	개정	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편	AA311	2022-06-14
7	고법	개정	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편	AA312	2022-06-14
8	고법	개정	국민이 이해하기 쉬운 KGS Code(상세기준) 문화 정착을 위한 문구·용어 전면개편	AA313	2022-06-14
9	고법	개정	과압안전장치 방출관 설치 위치 현실화	FS112	2022-06-14

	구분	제개정 분류	주요내용	코 드 명	개정일자
95	<NA>	<NA>	<NA>	<NA>	<NA>
96	<NA>	<NA>	<NA>	<NA>	<NA>
97	<NA>	<NA>	<NA>	<NA>	<NA>
98	<NA>	<NA>	<NA>	<NA>	<NA>
99	<NA>	<NA>	<NA>	<NA>	<NA>
100	<NA>	<NA>	<NA>	<NA>	<NA>
101	<NA>	<NA>	<NA>	<NA>	<NA>
102	<NA>	<NA>	<NA>	<NA>	<NA>
103	<NA>	<NA>	<NA>	<NA>	<NA>
104	<NA>	<NA>	<NA>	<NA>	<NA>

Most frequently occurring

	구분	제개정 분류	주요내용	코 드 명	개정일자	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	43

Overview

Variables

Common Values

Length

Common Values (Plot)

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Other Punctuation

Lowercase Letter

Space Separator

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Punctuation

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring