gimi9 Pandas Profiling

Dataset statistics

Number of variables	2
Number of observations	382
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	6.1 KiB
Average record size in memory	16.3 B

Variable types

Text	2

Dataset

Description	샘플 데이터
Author	롯데멤버스
URL	https://bigdata.seoul.go.kr/data/selectSampleData.do?sample_data_seq=56

Alerts

`지역(AREA)` has unique values	Unique
`코드(CODE)` has unique values	Unique

Reproduction

Analysis started	2024-04-17 23:18:18.340202
Analysis finished	2024-04-17 23:18:19.213334
Duration	0.87 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

지역(AREA)
Text

UNIQUE

Distinct	382
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	3.1 KiB

Length

Max length	9
Median length	7
Mean length	7.0078534
Min length	5

Characters and Unicode

Total characters	2677
Distinct characters	212
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	382 ?
Unique (%)	100.0%

Sample

1st row	강남구 개포동
2nd row	강남구 논현동
3rd row	강남구 대치동
4th row	강남구 도곡동
5th row	강남구 삼성동

Value	Count	Frequency (%)
종로구	72	9.4%
중구	44	5.8%
마포구	26	3.4%
용산구	24	3.1%
관악구	22	2.9%
서대문구	19	2.5%
강남구	15	2.0%
송파구	15	2.0%
성북구	13	1.7%
은평구	12	1.6%
Other values (391)	502	65.7%

Most occurring characters

Value	Count	Frequency (%)
동	420	15.7%
구	400	14.9%
	382	14.3%
로	96	3.6%
종	75	2.8%
중	59	2.2%
서	51	1.9%
강	49	1.8%
대	41	1.5%
문	41	1.5%
Other values (202)	1063	39.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2295	85.7%
Space Separator	382	14.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
동	420	18.3%
구	400	17.4%
로	96	4.2%
종	75	3.3%
중	59	2.6%
서	51	2.2%
강	49	2.1%
대	41	1.8%
문	41	1.8%
포	40	1.7%
Other values (201)	1023	44.6%

Space Separator

Value	Count	Frequency (%)
	382	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2295	85.7%
Common	382	14.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
동	420	18.3%
구	400	17.4%
로	96	4.2%
종	75	3.3%
중	59	2.6%
서	51	2.2%
강	49	2.1%
대	41	1.8%
문	41	1.8%
포	40	1.7%
Other values (201)	1023	44.6%

Common

Value	Count	Frequency (%)
	382	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2295	85.7%
ASCII	382	14.3%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
동	420	18.3%
구	400	17.4%
로	96	4.2%
종	75	3.3%
중	59	2.6%
서	51	2.2%
강	49	2.1%
대	41	1.8%
문	41	1.8%
포	40	1.7%
Other values (201)	1023	44.6%

ASCII

Value	Count	Frequency (%)
	382	100.0%

코드(CODE)
Text

UNIQUE

Distinct	382
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	3.1 KiB

Length

Max length	3
Median length	3
Mean length	3
Min length	3

Characters and Unicode

Total characters	1146
Distinct characters	35
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	382 ?
Unique (%)	100.0%

Sample

1st row	A01
2nd row	A02
3rd row	A03
4th row	A04
5th row	A05

Value	Count	Frequency (%)
a01	1	0.3%
v03	1	0.3%
v12	1	0.3%
v11	1	0.3%
v10	1	0.3%
v09	1	0.3%
v08	1	0.3%
v07	1	0.3%
v06	1	0.3%
v05	1	0.3%
Other values (372)	372	97.4%

Most occurring characters

Value	Count	Frequency (%)
0	226	19.7%
1	142	12.4%
2	84	7.3%
W	72	6.3%
3	64	5.6%
4	56	4.9%
5	48	4.2%
6	45	3.9%
X	44	3.8%
7	36	3.1%
Other values (25)	329	28.7%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	764	66.7%
Uppercase Letter	382	33.3%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
W	72	18.8%
X	44	11.5%
M	26	6.8%
U	24	6.3%
E	22	5.8%
N	19	5.0%
A	15	3.9%
R	15	3.9%
Q	13	3.4%
V	12	3.1%
Other values (15)	120	31.4%

Decimal Number

Value	Count	Frequency (%)
0	226	29.6%
1	142	18.6%
2	84	11.0%
3	64	8.4%
4	56	7.3%
5	48	6.3%
6	45	5.9%
7	36	4.7%
8	32	4.2%
9	31	4.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	764	66.7%
Latin	382	33.3%

Most frequent character per script

Latin

Value	Count	Frequency (%)
W	72	18.8%
X	44	11.5%
M	26	6.8%
U	24	6.3%
E	22	5.8%
N	19	5.0%
A	15	3.9%
R	15	3.9%
Q	13	3.4%
V	12	3.1%
Other values (15)	120	31.4%

Common

Value	Count	Frequency (%)
0	226	29.6%
1	142	18.6%
2	84	11.0%
3	64	8.4%
4	56	7.3%
5	48	6.3%
6	45	5.9%
7	36	4.7%
8	32	4.2%
9	31	4.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1146	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	226	19.7%
1	142	12.4%
2	84	7.3%
W	72	6.3%
3	64	5.6%
4	56	4.9%
5	48	4.2%
6	45	3.9%
X	44	3.8%
7	36	3.1%
Other values (25)	329	28.7%

Matrix

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	지역(AREA)	코드(CODE)
0	강남구 개포동	A01
1	강남구 논현동	A02
2	강남구 대치동	A03
3	강남구 도곡동	A04
4	강남구 삼성동	A05
5	강남구 세곡동	A06
6	강남구 수서동	A07
7	강남구 신사동	A08
8	강남구 압구정동	A09
9	강남구 역삼동	A10

	지역(AREA)	코드(CODE)
372	중구 필동	X41
373	중구 황학동	X42
374	중구 회현동	X43
375	중구 흥인동	X44
376	중랑구 망우동	Y01
377	중랑구 면목동	Y02
378	중랑구 묵동	Y03
379	중랑구 상봉동	Y04
380	중랑구 신내동	Y05
381	중랑구 중화동	Y06

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Missing values

Sample