gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	814
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	1
Duplicate rows (%)	0.1%
Total size in memory	19.2 KiB
Average record size in memory	24.2 B

Variable types

Text	3

Dataset

Description	서울특별시 성동구 내에 위치한 미용업소 대한 현황 자료입니다. 업소명, 도로명주소, 소재지 전화번호 등의 정보를 포함하고 있습니다.
Author	서울특별시 성동구
URL	https://www.data.go.kr/data/15038119/fileData.do

Alerts

Dataset has 1 (0.1%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 01:26:28.952862
Analysis finished	2023-12-12 01:26:29.710757
Duration	0.76 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

업소명
Text

Distinct	793
Distinct (%)	97.4%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

Length

Max length	41
Median length	29
Mean length	6.7555283
Min length	1

Characters and Unicode

Total characters	5499
Distinct characters	509
Distinct categories	11 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	774 ?
Unique (%)	95.1%

Sample

1st row	선
2nd row	흙
3rd row	심's 헤어
4th row	김용희헤어
5th row	아담

Value	Count	Frequency (%)
헤어	23	2.1%
hair	15	1.3%
네일	12	1.1%
왕십리점	9	0.8%
성수점	7	0.6%
beauty	6	0.5%
salon	6	0.5%
nail	6	0.5%
리안헤어	5	0.4%
금호점	5	0.4%
Other values (946)	1021	91.6%

Most occurring characters

Value	Count	Frequency (%)
	301	5.5%
어	287	5.2%
헤	268	4.9%
리	124	2.3%
일	116	2.1%
네	115	2.1%
)	113	2.1%
(	113	2.1%
스	103	1.9%
이	101	1.8%
Other values (499)	3858	70.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	4049	73.6%
Uppercase Letter	421	7.7%
Lowercase Letter	412	7.5%
Space Separator	301	5.5%
Close Punctuation	113	2.1%
Open Punctuation	113	2.1%
Decimal Number	46	0.8%
Other Punctuation	40	0.7%
Dash Punctuation	2	< 0.1%
Connector Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
어	287	7.1%
헤	268	6.6%
리	124	3.1%
일	116	2.9%
네	115	2.8%
스	103	2.5%
이	101	2.5%
미	82	2.0%
아	70	1.7%
점	63	1.6%
Other values (426)	2720	67.2%

Uppercase Letter

Value	Count	Frequency (%)
A	50	11.9%
I	35	8.3%
E	32	7.6%
S	31	7.4%
N	27	6.4%
O	26	6.2%
L	26	6.2%
R	22	5.2%
H	19	4.5%
M	18	4.3%
Other values (15)	135	32.1%

Lowercase Letter

Value	Count	Frequency (%)
a	59	14.3%
e	42	10.2%
i	37	9.0%
l	34	8.3%
n	32	7.8%
o	30	7.3%
r	26	6.3%
t	24	5.8%
s	20	4.9%
y	19	4.6%
Other values (14)	89	21.6%

Other Punctuation

Value	Count	Frequency (%)
.	13	32.5%
,	10	25.0%
&	6	15.0%
#	3	7.5%
'	3	7.5%
:	2	5.0%
;	1	2.5%
!	1	2.5%
·	1	2.5%

Decimal Number

Value	Count	Frequency (%)
0	11	23.9%
2	11	23.9%
1	6	13.0%
4	5	10.9%
6	4	8.7%
8	3	6.5%
9	3	6.5%
3	2	4.3%
5	1	2.2%

Space Separator

Value	Count	Frequency (%)
	301	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	113	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	113	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	4045	73.6%
Latin	833	15.1%
Common	617	11.2%
Han	4	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
어	287	7.1%
헤	268	6.6%
리	124	3.1%
일	116	2.9%
네	115	2.8%
스	103	2.5%
이	101	2.5%
미	82	2.0%
아	70	1.7%
점	63	1.6%
Other values (422)	2716	67.1%

Latin

Value	Count	Frequency (%)
a	59	7.1%
A	50	6.0%
e	42	5.0%
i	37	4.4%
I	35	4.2%
l	34	4.1%
n	32	3.8%
E	32	3.8%
S	31	3.7%
o	30	3.6%
Other values (39)	451	54.1%

Common

Value	Count	Frequency (%)
	301	48.8%
)	113	18.3%
(	113	18.3%
.	13	2.1%
0	11	1.8%
2	11	1.8%
,	10	1.6%
&	6	1.0%
1	6	1.0%
4	5	0.8%
Other values (14)	28	4.5%

Han

Value	Count	Frequency (%)
花	1	25.0%
龍	1	25.0%
智	1	25.0%
樂	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	4045	73.6%
ASCII	1449	26.4%
CJK	3	0.1%
CJK Compat Ideographs	1	< 0.1%
None	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	301	20.8%
)	113	7.8%
(	113	7.8%
a	59	4.1%
A	50	3.5%
e	42	2.9%
i	37	2.6%
I	35	2.4%
l	34	2.3%
n	32	2.2%
Other values (62)	633	43.7%

Hangul

Value	Count	Frequency (%)
어	287	7.1%
헤	268	6.6%
리	124	3.1%
일	116	2.9%
네	115	2.8%
스	103	2.5%
이	101	2.5%
미	82	2.0%
아	70	1.7%
점	63	1.6%
Other values (422)	2716	67.1%

CJK

Value	Count	Frequency (%)
花	1	33.3%
龍	1	33.3%
智	1	33.3%

CJK Compat Ideographs

Value	Count	Frequency (%)
樂	1	100.0%

None

Value	Count	Frequency (%)
·	1	100.0%

도로명주소
Text

Distinct	801
Distinct (%)	98.4%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

Length

Max length	58
Median length	51
Mean length	34.663391
Min length	9

Characters and Unicode

Total characters	28216
Distinct characters	254
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	791 ?
Unique (%)	97.2%

Sample

1st row	서울특별시 성동구 왕십리로22길 9 (도선동)
2nd row	서울특별시 성동구 고산자로6길 24 (행당동)
3rd row	서울특별시 성동구 사근동길 63 (사근동,1층)
4th row	서울특별시 성동구 아차산로7길 28 (성수동2가,뚝도시장내)
5th row	서울특별시 성동구 금호산2길 30-1 (금호동3가)

Value	Count	Frequency (%)
서울특별시	810	14.8%
성동구	810	14.8%
1층	255	4.7%
행당동	128	2.3%
2층	126	2.3%
왕십리로	97	1.8%
성수동1가	96	1.8%
성수동2가	91	1.7%
하왕십리동	86	1.6%
독서당로	48	0.9%
Other values (946)	2917	53.4%

Most occurring characters

Value	Count	Frequency (%)
	4651	16.5%
동	1839	6.5%
1	1516	5.4%
성	1127	4.0%
,	929	3.3%
서	898	3.2%
2	886	3.1%
)	846	3.0%
(	846	3.0%
울	838	3.0%
Other values (244)	13840	49.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	15913	56.4%
Decimal Number	4658	16.5%
Space Separator	4651	16.5%
Other Punctuation	931	3.3%
Close Punctuation	846	3.0%
Open Punctuation	846	3.0%
Dash Punctuation	187	0.7%
Uppercase Letter	140	0.5%
Lowercase Letter	35	0.1%
Math Symbol	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
동	1839	11.6%
성	1127	7.1%
서	898	5.6%
울	838	5.3%
구	817	5.1%
시	814	5.1%
별	810	5.1%
특	810	5.1%
층	622	3.9%
로	569	3.6%
Other values (197)	6769	42.5%

Uppercase Letter

Value	Count	Frequency (%)
B	32	22.9%
L	19	13.6%
C	17	12.1%
E	12	8.6%
A	10	7.1%
I	9	6.4%
J	7	5.0%
K	6	4.3%
T	5	3.6%
R	5	3.6%
Other values (7)	18	12.9%

Decimal Number

Value	Count	Frequency (%)
1	1516	32.5%
2	886	19.0%
3	490	10.5%
0	436	9.4%
4	359	7.7%
5	225	4.8%
6	222	4.8%
7	210	4.5%
8	173	3.7%
9	141	3.0%

Lowercase Letter

Value	Count	Frequency (%)
e	8	22.9%
a	6	17.1%
o	5	14.3%
w	4	11.4%
r	4	11.4%
l	2	5.7%
z	2	5.7%
b	2	5.7%
y	1	2.9%
c	1	2.9%

Other Punctuation

Value	Count	Frequency (%)
,	929	99.8%
.	1	0.1%
@	1	0.1%

Math Symbol

Value	Count	Frequency (%)
<	4	44.4%
>	4	44.4%
~	1	11.1%

Space Separator

Value	Count	Frequency (%)
	4651	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	846	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	846	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	187	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	15913	56.4%
Common	12128	43.0%
Latin	175	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
동	1839	11.6%
성	1127	7.1%
서	898	5.6%
울	838	5.3%
구	817	5.1%
시	814	5.1%
별	810	5.1%
특	810	5.1%
층	622	3.9%
로	569	3.6%
Other values (197)	6769	42.5%

Latin

Value	Count	Frequency (%)
B	32	18.3%
L	19	10.9%
C	17	9.7%
E	12	6.9%
A	10	5.7%
I	9	5.1%
e	8	4.6%
J	7	4.0%
K	6	3.4%
a	6	3.4%
Other values (17)	49	28.0%

Common

Value	Count	Frequency (%)
	4651	38.3%
1	1516	12.5%
,	929	7.7%
2	886	7.3%
)	846	7.0%
(	846	7.0%
3	490	4.0%
0	436	3.6%
4	359	3.0%
5	225	1.9%
Other values (10)	944	7.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	15913	56.4%
ASCII	12303	43.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	4651	37.8%
1	1516	12.3%
,	929	7.6%
2	886	7.2%
)	846	6.9%
(	846	6.9%
3	490	4.0%
0	436	3.5%
4	359	2.9%
5	225	1.8%
Other values (37)	1119	9.1%

Hangul

Value	Count	Frequency (%)
동	1839	11.6%
성	1127	7.1%
서	898	5.6%
울	838	5.3%
구	817	5.1%
시	814	5.1%
별	810	5.1%
특	810	5.1%
층	622	3.9%
로	569	3.6%
Other values (197)	6769	42.5%

지번주소
Text

Distinct	662
Distinct (%)	81.3%
Missing	0
Missing (%)	0.0%
Memory size	6.5 KiB

Length

Max length	44
Median length	37
Mean length	23.68059
Min length	16

Characters and Unicode

Total characters	19276
Distinct characters	247
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	594 ?
Unique (%)	73.0%

Sample

1st row	서울특별시 성동구 도선동 141-0
2nd row	서울특별시 성동구 행당동 117-43
3rd row	서울특별시 성동구 사근동 204-9 1층
4th row	서울특별시 성동구 성수동2가 289-4 뚝도시장내
5th row	서울특별시 성동구 금호동3가 339-2

Value	Count	Frequency (%)
서울특별시	814	21.2%
성동구	814	21.2%
행당동	147	3.8%
성수동2가	104	2.7%
성수동1가	101	2.6%
하왕십리동	94	2.4%
지상1층	63	1.6%
옥수동	51	1.3%
도선동	41	1.1%
금호동4가	39	1.0%
Other values (830)	1578	41.0%

Most occurring characters

Value	Count	Frequency (%)
	3036	15.8%
동	1703	8.8%
성	1065	5.5%
1	879	4.6%
울	835	4.3%
서	834	4.3%
시	815	4.2%
특	814	4.2%
별	814	4.2%
구	814	4.2%
Other values (237)	7667	39.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	11547	59.9%
Decimal Number	3974	20.6%
Space Separator	3036	15.8%
Dash Punctuation	510	2.6%
Uppercase Letter	66	0.3%
Close Punctuation	48	0.2%
Open Punctuation	48	0.2%
Lowercase Letter	38	0.2%
Other Punctuation	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
동	1703	14.7%
성	1065	9.2%
울	835	7.2%
서	834	7.2%
시	815	7.1%
특	814	7.0%
별	814	7.0%
구	814	7.0%
가	395	3.4%
수	285	2.5%
Other values (191)	3173	27.5%

Uppercase Letter

Value	Count	Frequency (%)
B	8	12.1%
K	7	10.6%
T	6	9.1%
V	5	7.6%
S	5	7.6%
L	4	6.1%
C	4	6.1%
R	3	4.5%
I	3	4.5%
O	3	4.5%
Other values (9)	18	27.3%

Decimal Number

Value	Count	Frequency (%)
1	879	22.1%
2	542	13.6%
3	485	12.2%
6	382	9.6%
0	364	9.2%
4	288	7.2%
7	283	7.1%
5	280	7.0%
9	247	6.2%
8	224	5.6%

Lowercase Letter

Value	Count	Frequency (%)
e	9	23.7%
o	6	15.8%
a	6	15.8%
w	5	13.2%
r	5	13.2%
z	2	5.3%
l	2	5.3%
y	1	2.6%
b	1	2.6%
c	1	2.6%

Other Punctuation

Value	Count	Frequency (%)
,	5	55.6%
@	3	33.3%
.	1	11.1%

Space Separator

Value	Count	Frequency (%)
	3036	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	510	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	48	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	48	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	11547	59.9%
Common	7625	39.6%
Latin	104	0.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
동	1703	14.7%
성	1065	9.2%
울	835	7.2%
서	834	7.2%
시	815	7.1%
특	814	7.0%
별	814	7.0%
구	814	7.0%
가	395	3.4%
수	285	2.5%
Other values (191)	3173	27.5%

Latin

Value	Count	Frequency (%)
e	9	8.7%
B	8	7.7%
K	7	6.7%
T	6	5.8%
o	6	5.8%
a	6	5.8%
V	5	4.8%
S	5	4.8%
w	5	4.8%
r	5	4.8%
Other values (19)	42	40.4%

Common

Value	Count	Frequency (%)
	3036	39.8%
1	879	11.5%
2	542	7.1%
-	510	6.7%
3	485	6.4%
6	382	5.0%
0	364	4.8%
4	288	3.8%
7	283	3.7%
5	280	3.7%
Other values (7)	576	7.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	11547	59.9%
ASCII	7729	40.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	3036	39.3%
1	879	11.4%
2	542	7.0%
-	510	6.6%
3	485	6.3%
6	382	4.9%
0	364	4.7%
4	288	3.7%
7	283	3.7%
5	280	3.6%
Other values (36)	680	8.8%

Hangul

Value	Count	Frequency (%)
동	1703	14.7%
성	1065	9.2%
울	835	7.2%
서	834	7.2%
시	815	7.1%
특	814	7.0%
별	814	7.0%
구	814	7.0%
가	395	3.4%
수	285	2.5%
Other values (191)	3173	27.5%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	업소명	도로명주소	지번주소
0	선	서울특별시 성동구 왕십리로22길 9 (도선동)	서울특별시 성동구 도선동 141-0
1	흙	서울특별시 성동구 고산자로6길 24 (행당동)	서울특별시 성동구 행당동 117-43
2	심's 헤어	서울특별시 성동구 사근동길 63 (사근동,1층)	서울특별시 성동구 사근동 204-9 1층
3	김용희헤어	서울특별시 성동구 아차산로7길 28 (성수동2가,뚝도시장내)	서울특별시 성동구 성수동2가 289-4 뚝도시장내
4	아담	서울특별시 성동구 금호산2길 30-1 (금호동3가)	서울특별시 성동구 금호동3가 339-2
5	소연	서울특별시 성동구 동호로2길 11 (금호동4가)	서울특별시 성동구 금호동4가 1408-2
6	춤추는 가위	서울특별시 성동구 성수일로4길 2, 지상1층 (성수동1가)	서울특별시 성동구 성수동1가 27-1
7	경희	서울특별시 성동구 왕십리로31나길 27 (하왕십리동,지상 1층)	서울특별시 성동구 하왕십리동 890-107 지상 1층
8	행당	서울특별시 성동구 왕십리로21길 28 (행당동)	서울특별시 성동구 행당동 299-6
9	한양	서울특별시 성동구 마조로1길 26-5 (행당동)	서울특별시 성동구 행당동 19-64

	업소명	도로명주소	지번주소
804	찬아보떼	서울특별시 성동구 금호로 40, 상가동 지하1층 34호 (금호동4가, 힐스테이트 서울숲리버)	서울특별시 성동구 금호동4가 1553 힐스테이트 서울숲리버
805	루미가넷 네일죤	서울특별시 성동구 뚝섬로 379, 2층 (성수동2가)	서울특별시 성동구 성수동2가 333-16 이마트성수점 2층
806	마지안	서울특별시 성동구 성수일로4길 33, 2층 (성수동2가)	서울특별시 성동구 성수동2가 333-77
807	옥수네일라뜰리에왁싱	서울특별시 성동구 독서당로 223, 래미안 옥수 리버젠 상가 제지4층 416호 (옥수동)	서울특별시 성동구 옥수동 561 래미안 옥수 리버젠 상가
808	온야드	서울특별시 성동구 왕십리로 66-10, 2, 3층 (성수동1가)	서울특별시 성동구 성수동1가 656-462
809	네일쥬스	서울특별시 성동구 왕십리로 410, C동 2층 203호 (하왕십리동, 센트라스)	서울특별시 성동구 하왕십리동 1070 센트라스
810	네일살롱 바이선하(NAIL SALON by Sunha)	서울특별시 성동구 금호로 40, 상가동 지하2층 20-5호 (금호동4가, 힐스테이트 서울숲리버)	서울특별시 성동구 금호동4가 1553 힐스테이트 서울숲리버
811	꽃단장	서울특별시 성동구 무학로12길 12, 1층 (홍익동)	서울특별시 성동구 홍익동 96
812	뷰티하임	서울특별시 성동구 왕십리로 320, 4층 402호 (도선동)	서울특별시 성동구 도선동 46 W에비뉴타워
813	모드네일	서울특별시 성동구 마장로 137, 1층 163호 (상왕십리동, 텐즈힐)	서울특별시 성동구 상왕십리동 811 텐즈힐

Most frequently occurring

	업소명	도로명주소	지번주소	# duplicates
0	어썸미 beauty	서울특별시 성동구 왕십리로24길 17-1, 2층 (도선동)	서울특별시 성동구 도선동 193	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Other Punctuation

Decimal Number

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Connector Punctuation

Modifier Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

CJK

CJK Compat Ideographs

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Math Symbol

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Dash Punctuation

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Missing values

Sample

Duplicate rows

Most frequently occurring