gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	308
Missing cells	26
Missing cells (%)	2.8%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	7.3 KiB
Average record size in memory	24.4 B

Variable types

Text	3

Dataset

Description	서울특별시 용산구 쓰레기상습무단투기지역현황(연번, 도로명주소, 상세위치)에 대한 정보를 제공합니다. 해당지역은 경험적으로 자주 단속하는 지역이며 관리데이터가 아님을 안내드립니다.
Author	공공데이터포털
URL	https://www.data.go.kr/data/15106964/fileData.do

Alerts

`상세위치` has 26 (8.4%) missing values	Missing
`연번` has unique values	Unique
`도로명주소` has unique values	Unique

Reproduction

Analysis started	2024-04-18 02:00:21.766730
Analysis finished	2024-04-18 02:00:23.075077
Duration	1.31 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

연번
Text

UNIQUE

Distinct	308
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	2.5 KiB

Length

Max length	8
Median length	7.5
Mean length	6.2402597
Min length	5

Characters and Unicode

Total characters	1922
Distinct characters	37
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	308 ?
Unique (%)	100.0%

Sample

1st row	후암동-1
2nd row	후암동-2
3rd row	후암동-3
4th row	후암동-4
5th row	후암동-5

Value	Count	Frequency (%)
후암동-1	1	0.3%
이태원제2동-5	1	0.3%
한남동-4	1	0.3%
한남동-3	1	0.3%
한남동-2	1	0.3%
한남동-1	1	0.3%
이태원제2동-9	1	0.3%
이태원제2동-8	1	0.3%
이태원제2동-7	1	0.3%
이태원1동-7	1	0.3%
Other values (298)	298	96.8%

Most occurring characters

Value	Count	Frequency (%)
동	308	16.0%
-	308	16.0%
1	169	8.8%
2	143	7.4%
한	67	3.5%
남	66	3.4%
3	59	3.1%
원	50	2.6%
광	40	2.1%
보	40	2.1%
Other values (27)	672	35.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1038	54.0%
Decimal Number	576	30.0%
Dash Punctuation	308	16.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
동	308	29.7%
한	67	6.5%
남	66	6.4%
원	50	4.8%
광	40	3.9%
보	40	3.9%
효	37	3.6%
로	36	3.5%
용	35	3.4%
청	33	3.2%
Other values (16)	326	31.4%

Decimal Number

Value	Count	Frequency (%)
1	169	29.3%
2	143	24.8%
3	59	10.2%
4	37	6.4%
5	32	5.6%
7	29	5.0%
6	29	5.0%
9	27	4.7%
8	27	4.7%
0	24	4.2%

Dash Punctuation

Value	Count	Frequency (%)
-	308	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1038	54.0%
Common	884	46.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
동	308	29.7%
한	67	6.5%
남	66	6.4%
원	50	4.8%
광	40	3.9%
보	40	3.9%
효	37	3.6%
로	36	3.5%
용	35	3.4%
청	33	3.2%
Other values (16)	326	31.4%

Common

Value	Count	Frequency (%)
-	308	34.8%
1	169	19.1%
2	143	16.2%
3	59	6.7%
4	37	4.2%
5	32	3.6%
7	29	3.3%
6	29	3.3%
9	27	3.1%
8	27	3.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1038	54.0%
ASCII	884	46.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
동	308	29.7%
한	67	6.5%
남	66	6.4%
원	50	4.8%
광	40	3.9%
보	40	3.9%
효	37	3.6%
로	36	3.5%
용	35	3.4%
청	33	3.2%
Other values (16)	326	31.4%

ASCII

Value	Count	Frequency (%)
-	308	34.8%
1	169	19.1%
2	143	16.2%
3	59	6.7%
4	37	4.2%
5	32	3.6%
7	29	3.3%
6	29	3.3%
9	27	3.1%
8	27	3.1%

도로명주소
Text

UNIQUE

Distinct	308
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	2.5 KiB

Length

Max length	34
Median length	25.5
Mean length	13.487013
Min length	5

Characters and Unicode

Total characters	4154
Distinct characters	218
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	308 ?
Unique (%)	100.0%

Sample

1st row	두텁바위로1길107
2nd row	후암로13가길22
3rd row	후암로28길 57
4th row	한강대로104길 67
5th row	후암로4길25

Value	Count	Frequency (%)
앞	44	5.1%
옆	19	2.2%
용산구	11	1.3%
맞은편	11	1.3%
우사단로10길	10	1.2%
한강대로	8	0.9%
우사단로4길	7	0.8%
보광로	7	0.8%
14	7	0.8%
전주	7	0.8%
Other values (484)	737	84.9%

Most occurring characters

Value	Count	Frequency (%)
	569	13.7%
로	310	7.5%
1	265	6.4%
길	247	5.9%
2	157	3.8%
4	153	3.7%
3	127	3.1%
5	112	2.7%
7	101	2.4%
0	94	2.3%
Other values (208)	2019	48.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2182	52.5%
Decimal Number	1249	30.1%
Space Separator	569	13.7%
Dash Punctuation	74	1.8%
Open Punctuation	30	0.7%
Close Punctuation	30	0.7%
Other Punctuation	11	0.3%
Uppercase Letter	5	0.1%
Lowercase Letter	3	0.1%
Math Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
로	310	14.2%
길	247	11.3%
대	82	3.8%
사	61	2.8%
원	53	2.4%
동	50	2.3%
앞	49	2.2%
한	46	2.1%
강	41	1.9%
우	41	1.9%
Other values (185)	1202	55.1%

Decimal Number

Value	Count	Frequency (%)
1	265	21.2%
2	157	12.6%
4	153	12.2%
3	127	10.2%
5	112	9.0%
7	101	8.1%
0	94	7.5%
9	94	7.5%
6	87	7.0%
8	59	4.7%

Uppercase Letter

Value	Count	Frequency (%)
S	2	40.0%
L	1	20.0%
A	1	20.0%
G	1	20.0%

Lowercase Letter

Value	Count	Frequency (%)
t	1	33.3%
p	1	33.3%
a	1	33.3%

Space Separator

Value	Count	Frequency (%)
	569	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	74	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	30	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	30	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	11	100.0%

Math Symbol

Value	Count	Frequency (%)
~	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2182	52.5%
Common	1964	47.3%
Latin	8	0.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
로	310	14.2%
길	247	11.3%
대	82	3.8%
사	61	2.8%
원	53	2.4%
동	50	2.3%
앞	49	2.2%
한	46	2.1%
강	41	1.9%
우	41	1.9%
Other values (185)	1202	55.1%

Common

Value	Count	Frequency (%)
	569	29.0%
1	265	13.5%
2	157	8.0%
4	153	7.8%
3	127	6.5%
5	112	5.7%
7	101	5.1%
0	94	4.8%
9	94	4.8%
6	87	4.4%
Other values (6)	205	10.4%

Latin

Value	Count	Frequency (%)
S	2	25.0%
L	1	12.5%
A	1	12.5%
t	1	12.5%
p	1	12.5%
G	1	12.5%
a	1	12.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2182	52.5%
ASCII	1972	47.5%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	569	28.9%
1	265	13.4%
2	157	8.0%
4	153	7.8%
3	127	6.4%
5	112	5.7%
7	101	5.1%
0	94	4.8%
9	94	4.8%
6	87	4.4%
Other values (13)	213	10.8%

Hangul

Value	Count	Frequency (%)
로	310	14.2%
길	247	11.3%
대	82	3.8%
사	61	2.8%
원	53	2.4%
동	50	2.3%
앞	49	2.2%
한	46	2.1%
강	41	1.9%
우	41	1.9%
Other values (185)	1202	55.1%

상세위치
Text

MISSING

Distinct	155
Distinct (%)	55.0%
Missing	26
Missing (%)	8.4%
Memory size	2.5 KiB

Length

Max length	40
Median length	24
Mean length	12.48227
Min length	2

Characters and Unicode

Total characters	3520
Distinct characters	190
Distinct categories	6 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	113 ?
Unique (%)	40.1%

Sample

1st row	행남팰리스 앞 상업지역 및 골목길 4거리
2nd row	백합빌라 앞 도로변 및 쓰레기 수거지역
3rd row	에지앙 담장 전신주 옆
4th row	후암시장(구 풍년순댓국 앞) 골목4거리
5th row	지월장 옆 전신주

Value	Count	Frequency (%)
거점지역	66	7.1%
쓰레기	64	6.9%
수거	60	6.4%
옆	55	5.9%
전신주옆	49	5.3%
등	43	4.6%
전신주	39	4.2%
앞	34	3.6%
밀집지역	28	3.0%
주거밀집지역	27	2.9%
Other values (153)	467	50.1%

Most occurring characters

Value	Count	Frequency (%)
	668	19.0%
지	192	5.5%
거	186	5.3%
주	183	5.2%
역	169	4.8%
,	145	4.1%
옆	106	3.0%
전	101	2.9%
신	89	2.5%
기	86	2.4%
Other values (180)	1595	45.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2674	76.0%
Space Separator	668	19.0%
Other Punctuation	146	4.1%
Decimal Number	26	0.7%
Close Punctuation	3	0.1%
Open Punctuation	3	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
지	192	7.2%
거	186	7.0%
주	183	6.8%
역	169	6.3%
옆	106	4.0%
전	101	3.8%
신	89	3.3%
기	86	3.2%
밀	83	3.1%
집	83	3.1%
Other values (166)	1396	52.2%

Decimal Number

Value	Count	Frequency (%)
4	7	26.9%
5	4	15.4%
2	3	11.5%
3	3	11.5%
1	3	11.5%
7	2	7.7%
9	2	7.7%
6	1	3.8%
0	1	3.8%

Other Punctuation

Value	Count	Frequency (%)
,	145	99.3%
?	1	0.7%

Space Separator

Value	Count	Frequency (%)
	668	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2674	76.0%
Common	846	24.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
지	192	7.2%
거	186	7.0%
주	183	6.8%
역	169	6.3%
옆	106	4.0%
전	101	3.8%
신	89	3.3%
기	86	3.2%
밀	83	3.1%
집	83	3.1%
Other values (166)	1396	52.2%

Common

Value	Count	Frequency (%)
	668	79.0%
,	145	17.1%
4	7	0.8%
5	4	0.5%
)	3	0.4%
2	3	0.4%
3	3	0.4%
(	3	0.4%
1	3	0.4%
7	2	0.2%
Other values (4)	5	0.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2674	76.0%
ASCII	846	24.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	668	79.0%
,	145	17.1%
4	7	0.8%
5	4	0.5%
)	3	0.4%
2	3	0.4%
3	3	0.4%
(	3	0.4%
1	3	0.4%
7	2	0.2%
Other values (4)	5	0.6%

Hangul

Value	Count	Frequency (%)
지	192	7.2%
거	186	7.0%
주	183	6.8%
역	169	6.3%
옆	106	4.0%
전	101	3.8%
신	89	3.3%
기	86	3.2%
밀	83	3.1%
집	83	3.1%
Other values (166)	1396	52.2%

Matrix

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	연번	도로명주소	상세위치
0	후암동-1	두텁바위로1길107	행남팰리스 앞 상업지역 및 골목길 4거리
1	후암동-2	후암로13가길22	백합빌라 앞 도로변 및 쓰레기 수거지역
2	후암동-3	후암로28길 57	에지앙 담장 전신주 옆
3	후암동-4	한강대로104길 67	후암시장(구 풍년순댓국 앞) 골목4거리
4	후암동-5	후암로4길25	지월장 옆 전신주
5	후암동-6	후암로40길3	거주자주차구역 전신주 옆 ?
6	후암동-7	후암로34길 11	파크빌 앞 전신주 옆
7	후암동-8	후암로16길 15	용산더힐 빌라 앞 전신주 옆
8	후암동-9	두텁바위로37길 13	골목길 삼거리 전신주
9	후암동-10	소월로2나길 19	좁은골목길 전신주 옆

	연번	도로명주소	상세위치
298	보광동-31	보광로 30가길 19	19 맞은편
299	보광동-32	장문로 45라길 5	담장 옆
300	보광동-33	보광로 24길 9	24길 9 맞은편
301	보광동-34	우사단로 6길 14	담장 옆
302	보광동-35	장문로 45가길 33	45가길 33 맞은편 전신주 옆
303	보광동-36	장문로 45가길 27	45가길 27 맞은편
304	보광동-37	보광로 7길 9	경로당 맞은편
305	보광동-38	장문로 45바길 40	옆 담장 전신주
306	보광동-39	장문로 45바길 11	45바길 11 맞은편 담장
307	보광동-40	장문로 45바길 7	45바길 7 건물입구 앞

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Lowercase Letter

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Other Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Missing values

Sample