gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	2295
Missing cells	49
Missing cells (%)	0.4%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	89.8 KiB
Average record size in memory	40.1 B

Variable types

Categorical	2
Text	3

Dataset

Description	서울시설공단이 관리하는 지하도상가(25개)의 권역, 위치별 점포 현황 및 점포별 현재 운영중인 업종 현황을 제공하는 데이터입니다.
URL	https://www.data.go.kr/data/15003426/fileData.do

Alerts

`권역` is highly overall correlated with `상가명`	High correlation
`상가명` is highly overall correlated with `권역`	High correlation
`업종` has 47 (2.0%) missing values	Missing

Reproduction

Analysis started	2023-12-12 22:48:50.149757
Analysis finished	2023-12-12 22:48:51.282597
Duration	1.13 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

권역
Categorical

HIGH CORRELATION

Distinct	6
Distinct (%)	0.3%
Missing	0
Missing (%)	0.0%
Memory size	18.1 KiB

터미널	627
명동	566
강남	359
을지로	306
영등포	233

Length

Max length	3
Median length	3
Mean length	2.508061
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	강남
2nd row	강남
3rd row	강남
4th row	강남
5th row	강남

Common Values

Value	Count	Frequency (%)
터미널	627	27.3%
명동	566	24.7%
강남	359	15.6%
을지로	306	13.3%
영등포	233	10.2%
종로	204	8.9%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
터미널	627	27.3%
명동	566	24.7%
강남	359	15.6%
을지로	306	13.3%
영등포	233	10.2%
종로	204	8.9%

상가명
Categorical

HIGH CORRELATION

Distinct	18
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	18.1 KiB

터미널	627
강남역	221
회현	221
을지로	208
소공	139
Other values (13)	879

Length

Max length	6
Median length	3
Mean length	3.0631808
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	강남역
2nd row	강남역
3rd row	강남역
4th row	강남역
5th row	강남역

Common Values

Value	Count	Frequency (%)
터미널	627	27.3%
강남역	221	9.6%
회현	221	9.6%
을지로	208	9.1%
소공	139	6.1%
잠실역	138	6.0%
영등포로터리	91	4.0%
남대문	79	3.4%
종각	77	3.4%
영등포역	74	3.2%
Other values (8)	420	18.3%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
터미널	627	27.3%
강남역	221	9.6%
회현	221	9.6%
을지로	208	9.1%
소공	139	6.1%
잠실역	138	6.0%
영등포로터리	91	4.0%
남대문	79	3.4%
종각	77	3.4%
영등포역	74	3.2%
Other values (8)	420	18.3%

점포명
Text

Distinct	2025
Distinct (%)	88.3%
Missing	2
Missing (%)	0.1%
Memory size	18.1 KiB

Length

Max length	23
Median length	19
Mean length	4.8159616
Min length	1

Characters and Unicode

Total characters	11043
Distinct characters	750
Distinct categories	13 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1834 ?
Unique (%)	80.0%

Sample

1st row	바미라운지
2nd row	바미라운지
3rd row	월드전자랜드강남역점
4th row	월드전자랜드강남역점
5th row	메이디

Value	Count	Frequency (%)
공실	20	0.8%
강남역점	7	0.3%
토니모리	6	0.2%
caseflex	6	0.2%
입점예정	5	0.2%
더	5	0.2%
블링박스	4	0.2%
아리따움	4	0.2%
갤러리	4	0.2%
소호	4	0.2%
Other values (2124)	2447	97.4%

Most occurring characters

Value	Count	Frequency (%)
	1000	9.1%
스	324	2.9%
이	247	2.2%
리	219	2.0%
)	143	1.3%
(	143	1.3%
사	139	1.3%
라	139	1.3%
아	132	1.2%
점	105	1.0%
Other values (740)	8452	76.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8595	77.8%
Space Separator	1000	9.1%
Uppercase Letter	547	5.0%
Lowercase Letter	396	3.6%
Close Punctuation	143	1.3%
Open Punctuation	143	1.3%
Decimal Number	143	1.3%
Other Punctuation	50	0.5%
Dash Punctuation	12	0.1%
Other Symbol	9	0.1%
Other values (3)	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	324	3.8%
이	247	2.9%
리	219	2.5%
사	139	1.6%
라	139	1.6%
아	132	1.5%
점	105	1.2%
드	104	1.2%
지	102	1.2%
미	99	1.2%
Other values (664)	6985	81.3%

Uppercase Letter

Value	Count	Frequency (%)
A	57	10.4%
O	51	9.3%
T	43	7.9%
E	40	7.3%
L	33	6.0%
S	30	5.5%
M	29	5.3%
C	25	4.6%
I	22	4.0%
R	21	3.8%
Other values (16)	196	35.8%

Lowercase Letter

Value	Count	Frequency (%)
e	58	14.6%
a	37	9.3%
o	36	9.1%
l	29	7.3%
i	28	7.1%
s	24	6.1%
n	22	5.6%
r	19	4.8%
u	17	4.3%
c	17	4.3%
Other values (14)	109	27.5%

Decimal Number

Value	Count	Frequency (%)
2	38	26.6%
1	33	23.1%
0	18	12.6%
4	12	8.4%
3	10	7.0%
6	7	4.9%
9	7	4.9%
8	6	4.2%
7	6	4.2%
5	6	4.2%

Other Punctuation

Value	Count	Frequency (%)
.	24	48.0%
,	11	22.0%
'	5	10.0%
&	5	10.0%
#	2	4.0%
?	1	2.0%
/	1	2.0%
·	1	2.0%

Space Separator

Value	Count	Frequency (%)
	1000	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	143	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	143	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	12	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	9	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	3	100.0%

Math Symbol

Value	Count	Frequency (%)
+	1	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅱ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8603	77.9%
Common	1495	13.5%
Latin	944	8.5%
Han	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	324	3.8%
이	247	2.9%
리	219	2.5%
사	139	1.6%
라	139	1.6%
아	132	1.5%
점	105	1.2%
드	104	1.2%
지	102	1.2%
미	99	1.2%
Other values (664)	6993	81.3%

Latin

Value	Count	Frequency (%)
e	58	6.1%
A	57	6.0%
O	51	5.4%
T	43	4.6%
E	40	4.2%
a	37	3.9%
o	36	3.8%
L	33	3.5%
S	30	3.2%
M	29	3.1%
Other values (41)	530	56.1%

Common

Value	Count	Frequency (%)
	1000	66.9%
)	143	9.6%
(	143	9.6%
2	38	2.5%
1	33	2.2%
.	24	1.6%
0	18	1.2%
-	12	0.8%
4	12	0.8%
,	11	0.7%
Other values (14)	61	4.1%

Han

Value	Count	Frequency (%)
美	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8594	77.8%
ASCII	2437	22.1%
None	10	0.1%
CJK	1	< 0.1%
Number Forms	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1000	41.0%
)	143	5.9%
(	143	5.9%
e	58	2.4%
A	57	2.3%
O	51	2.1%
T	43	1.8%
E	40	1.6%
2	38	1.6%
a	37	1.5%
Other values (63)	827	33.9%

Hangul

Value	Count	Frequency (%)
스	324	3.8%
이	247	2.9%
리	219	2.5%
사	139	1.6%
라	139	1.6%
아	132	1.5%
점	105	1.2%
드	104	1.2%
지	102	1.2%
미	99	1.2%
Other values (663)	6984	81.3%

None

Value	Count	Frequency (%)
㈜	9	90.0%
·	1	10.0%

CJK

Value	Count	Frequency (%)
美	1	100.0%

Number Forms

Value	Count	Frequency (%)
Ⅱ	1	100.0%

호수
Text

Distinct	1976
Distinct (%)	86.1%
Missing	0
Missing (%)	0.0%
Memory size	18.1 KiB

Length

Max length	18
Median length	16
Mean length	4.4823529
Min length	1

Characters and Unicode

Total characters	10287
Distinct characters	54
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1804 ?
Unique (%)	78.6%

Sample

1st row	A-1호
2nd row	A-2호
3rd row	A-3호
4th row	A-4호
5th row	A-5호

Value	Count	Frequency (%)
18	7	0.3%
17	7	0.3%
4	7	0.3%
1	6	0.3%
16	6	0.3%
5	6	0.3%
12	6	0.3%
15	5	0.2%
45	5	0.2%
23	5	0.2%
Other values (1921)	2254	97.4%

Most occurring characters

Value	Count	Frequency (%)
-	1750	17.0%
1	1222	11.9%
0	886	8.6%
2	777	7.6%
3	641	6.2%
4	516	5.0%
	462	4.5%
5	388	3.8%
6	388	3.8%
7	357	3.5%
Other values (44)	2900	28.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	5824	56.6%
Dash Punctuation	1750	17.0%
Uppercase Letter	1148	11.2%
Other Letter	738	7.2%
Space Separator	462	4.5%
Other Punctuation	353	3.4%
Lowercase Letter	10	0.1%
Math Symbol	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
호	280	37.9%
나	60	8.1%
다	56	7.6%
라	53	7.2%
마	52	7.0%
가	46	6.2%
바	43	5.8%
특	26	3.5%
ㅡ	25	3.4%
을	20	2.7%
Other values (11)	77	10.4%

Uppercase Letter

Value	Count	Frequency (%)
B	243	21.2%
D	226	19.7%
C	203	17.7%
A	201	17.5%
E	115	10.0%
F	58	5.1%
T	46	4.0%
G	36	3.1%
S	9	0.8%
I	5	0.4%
Other values (2)	6	0.5%

Decimal Number

Value	Count	Frequency (%)
1	1222	21.0%
0	886	15.2%
2	777	13.3%
3	641	11.0%
4	516	8.9%
5	388	6.7%
6	388	6.7%
7	357	6.1%
8	334	5.7%
9	315	5.4%

Other Punctuation

Value	Count	Frequency (%)
,	271	76.8%
·	61	17.3%
.	19	5.4%
/	2	0.6%

Lowercase Letter

Value	Count	Frequency (%)
n	3	30.0%
a	3	30.0%
b	2	20.0%
e	2	20.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1750	100.0%

Space Separator

Value	Count	Frequency (%)
	462	100.0%

Math Symbol

Value	Count	Frequency (%)
~	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	8391	81.6%
Latin	1158	11.3%
Hangul	738	7.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
호	280	37.9%
나	60	8.1%
다	56	7.6%
라	53	7.2%
마	52	7.0%
가	46	6.2%
바	43	5.8%
특	26	3.5%
ㅡ	25	3.4%
을	20	2.7%
Other values (11)	77	10.4%

Common

Value	Count	Frequency (%)
-	1750	20.9%
1	1222	14.6%
0	886	10.6%
2	777	9.3%
3	641	7.6%
4	516	6.1%
	462	5.5%
5	388	4.6%
6	388	4.6%
7	357	4.3%
Other values (7)	1004	12.0%

Latin

Value	Count	Frequency (%)
B	243	21.0%
D	226	19.5%
C	203	17.5%
A	201	17.4%
E	115	9.9%
F	58	5.0%
T	46	4.0%
G	36	3.1%
S	9	0.8%
I	5	0.4%
Other values (6)	16	1.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	9488	92.2%
Hangul	713	6.9%
None	61	0.6%
Compat Jamo	25	0.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	1750	18.4%
1	1222	12.9%
0	886	9.3%
2	777	8.2%
3	641	6.8%
4	516	5.4%
	462	4.9%
5	388	4.1%
6	388	4.1%
7	357	3.8%
Other values (22)	2101	22.1%

Hangul

Value	Count	Frequency (%)
호	280	39.3%
나	60	8.4%
다	56	7.9%
라	53	7.4%
마	52	7.3%
가	46	6.5%
바	43	6.0%
특	26	3.6%
을	20	2.8%
아	16	2.2%
Other values (10)	61	8.6%

None

Value	Count	Frequency (%)
·	61	100.0%

Compat Jamo

Value	Count	Frequency (%)
ㅡ	25	100.0%

업종
Text

MISSING

Distinct	636
Distinct (%)	28.3%
Missing	47
Missing (%)	2.0%
Memory size	18.1 KiB

Length

Max length	31
Median length	30
Mean length	4.2864769
Min length	1

Characters and Unicode

Total characters	9636
Distinct characters	313
Distinct categories	6 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	445 ?
Unique (%)	19.8%

Sample

1st row	의류,화장품,핸드폰악세사리및잡화류
2nd row	의류,화장품,핸드폰악세사리및잡화류
3rd row	이동통신
4th row	이동통신
5th row	의류잡화속옷

Value	Count	Frequency (%)
의류	502	21.1%
잡화	108	4.5%
여성의류	92	3.9%
의류,잡화	84	3.5%
식음료	74	3.1%
액세서리	65	2.7%
신발	62	2.6%
화장품	48	2.0%
스포츠의류	39	1.6%
가방	36	1.5%
Other values (564)	1267	53.3%

Most occurring characters

Value	Count	Frequency (%)
의	980	10.2%
류	928	9.6%
	698	7.2%
화	578	6.0%
,	567	5.9%
잡	427	4.4%
리	243	2.5%
품	241	2.5%
세	189	2.0%
신	146	1.5%
Other values (303)	4639	48.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	8291	86.0%
Space Separator	698	7.2%
Other Punctuation	602	6.2%
Close Punctuation	20	0.2%
Open Punctuation	19	0.2%
Uppercase Letter	6	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	980	11.8%
류	928	11.2%
화	578	7.0%
잡	427	5.2%
리	243	2.9%
품	241	2.9%
세	189	2.3%
신	146	1.8%
서	145	1.7%
식	136	1.6%
Other values (293)	4278	51.6%

Uppercase Letter

Value	Count	Frequency (%)
D	2	33.3%
C	2	33.3%
P	1	16.7%
L	1	16.7%

Other Punctuation

Value	Count	Frequency (%)
,	567	94.2%
/	19	3.2%
.	16	2.7%

Space Separator

Value	Count	Frequency (%)
	698	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	20	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	19	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	8291	86.0%
Common	1339	13.9%
Latin	6	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	980	11.8%
류	928	11.2%
화	578	7.0%
잡	427	5.2%
리	243	2.9%
품	241	2.9%
세	189	2.3%
신	146	1.8%
서	145	1.7%
식	136	1.6%
Other values (293)	4278	51.6%

Common

Value	Count	Frequency (%)
	698	52.1%
,	567	42.3%
)	20	1.5%
(	19	1.4%
/	19	1.4%
.	16	1.2%

Latin

Value	Count	Frequency (%)
D	2	33.3%
C	2	33.3%
P	1	16.7%
L	1	16.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	8291	86.0%
ASCII	1345	14.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
의	980	11.8%
류	928	11.2%
화	578	7.0%
잡	427	5.2%
리	243	2.9%
품	241	2.9%
세	189	2.3%
신	146	1.8%
서	145	1.7%
식	136	1.6%
Other values (293)	4278	51.6%

ASCII

Value	Count	Frequency (%)
	698	51.9%
,	567	42.2%
)	20	1.5%
(	19	1.4%
/	19	1.4%
.	16	1.2%
D	2	0.1%
C	2	0.1%
P	1	0.1%
L	1	0.1%

Heatmap
Table

	권역	상가명
권역	1.000	1.000
상가명	1.000	1.000

Heatmap
Table

	권역	상가명
권역	1.000	0.997
상가명	0.997	1.000

Heatmap
Table

	권역	상가명
권역	1.000	0.997
상가명	0.997	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	권역	상가명	점포명	호수	업종
0	강남	강남역	바미라운지	A-1호	의류,화장품,핸드폰악세사리및잡화류
1	강남	강남역	바미라운지	A-2호	의류,화장품,핸드폰악세사리및잡화류
2	강남	강남역	월드전자랜드강남역점	A-3호	이동통신
3	강남	강남역	월드전자랜드강남역점	A-4호	이동통신
4	강남	강남역	메이디	A-5호	의류잡화속옷
5	강남	강남역	슬림핏	A-6호	기타섬유,직물및의복액세서리소매업
6	강남	강남역	보니또	A-7호	의류/잡화
7	강남	강남역	더블리스	A-8·9호	의류판매
8	강남	강남역	GS25강남메트로	A-10호	편의점
9	강남	강남역	GS25강남메트로	A-11호	편의점

	권역	상가명	점포명	호수	업종
2285	종로	동대문2차	한국	15--2	카페트,전기요
2286	종로	동대문2차	혼수백화점	16	이불
2287	종로	동대문2차	이불나라	17	이불
2288	종로	동대문2차	이불나라	18	이불
2289	종로	동대문2차	함지박주단	19,20,25	한복
2290	종로	동대문2차	영화침구	21,22	이불
2291	종로	동대문2차	고운한복	23	한복
2292	종로	동대문2차	스마일커텐	24	커튼,수예
2293	종로	동대문2차	목화침구	26	이불
2294	종로	동대문2차	이다유통	27	양말,잡화

Overview

Variables

Common Values

Length

Common Values (Plot)

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Other Symbol

Connector Punctuation

Math Symbol

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

CJK

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Other Punctuation

Lowercase Letter

Dash Punctuation

Space Separator

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Compat Jamo

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Correlations

Missing values

Sample