gimi9 Pandas Profiling

Dataset statistics

Number of variables	1
Number of observations	429
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	14
Duplicate rows (%)	3.3%
Total size in memory	3.5 KiB
Average record size in memory	8.3 B

Variable types

Text	1

Dataset

Description	강남구에 위치한 400여개 의료기관에 대한 기관명 정보에 대해 데이터를 제공합니다.(중국어), 자세한 사항은 강남구청 관광진흥과로 문의하여 주시기 바랍니다.
Author	서울특별시 강남구
URL	https://www.data.go.kr/data/15072594/fileData.do

Alerts

Dataset has 14 (3.3%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 02:17:01.772929
Analysis finished	2023-12-12 02:17:02.083649
Duration	0.31 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

기관명
Text

Distinct	400
Distinct (%)	93.2%
Missing	0
Missing (%)	0.0%
Memory size	3.5 KiB

Length

Max length	37
Median length	25
Mean length	7.0792541
Min length	1

Characters and Unicode

Total characters	3037
Distinct characters	370
Distinct categories	10 ?
Distinct scripts	4 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	386 ?
Unique (%)	90.0%

Sample

1st row	多古整形外科
2nd row	光明眼科中心
3rd row	代美整形外科所
4th row	迪斯整形外科
5th row	MD 乳腺外科所

Value	Count	Frequency (%)
所	15	2.7%
整形外科	11	2.0%
牙科所	9	1.6%
江南severance院	7	1.2%
整形外科所	6	1.1%
三星首中心	5	0.9%
眼科所	4	0.7%
皮所	4	0.7%
spa	3	0.5%
皮科所	3	0.5%
Other values (463)	493	88.0%

Most occurring characters

Value	Count	Frequency (%)
科	224	7.4%
所	189	6.2%
	131	4.3%
外	127	4.2%
整	126	4.1%
形	125	4.1%
e	91	3.0%
a	58	1.9%
n	54	1.8%
院	52	1.7%
Other values (360)	1860	61.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1816	59.8%
Lowercase Letter	541	17.8%
Uppercase Letter	486	16.0%
Space Separator	131	4.3%
Other Punctuation	23	0.8%
Decimal Number	20	0.7%
Close Punctuation	7	0.2%
Open Punctuation	7	0.2%
Dash Punctuation	3	0.1%
Modifier Symbol	3	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
科	224	12.3%
所	189	10.4%
外	127	7.0%
整	126	6.9%
形	125	6.9%
院	52	2.9%
牙	52	2.9%
皮	39	2.1%
江	29	1.6%
中	28	1.5%
Other values (286)	825	45.4%

Lowercase Letter

Value	Count	Frequency (%)
e	91	16.8%
a	58	10.7%
n	54	10.0%
o	39	7.2%
i	38	7.0%
r	36	6.7%
l	27	5.0%
u	27	5.0%
m	24	4.4%
h	22	4.1%
Other values (16)	125	23.1%

Uppercase Letter

Value	Count	Frequency (%)
S	49	10.1%
A	35	7.2%
E	33	6.8%
N	29	6.0%
O	29	6.0%
M	26	5.3%
I	25	5.1%
L	23	4.7%
B	23	4.7%
C	23	4.7%
Other values (16)	191	39.3%

Decimal Number

Value	Count	Frequency (%)
2	3	15.0%
1	3	15.0%
8	2	10.0%
6	2	10.0%
0	2	10.0%
3	2	10.0%
4	2	10.0%
9	2	10.0%
7	1	5.0%
5	1	5.0%

Other Punctuation

Value	Count	Frequency (%)
&	9	39.1%
.	7	30.4%
'	4	17.4%
、	2	8.7%
/	1	4.3%

Close Punctuation

Value	Count	Frequency (%)
）	6	85.7%
)	1	14.3%

Open Punctuation

Value	Count	Frequency (%)
（	4	57.1%
(	3	42.9%

Space Separator

Value	Count	Frequency (%)
	131	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	3	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Han	1775	58.4%
Latin	1027	33.8%
Common	194	6.4%
Hangul	41	1.4%

Most frequent character per script

Han

Value	Count	Frequency (%)
科	224	12.6%
所	189	10.6%
外	127	7.2%
整	126	7.1%
形	125	7.0%
院	52	2.9%
牙	52	2.9%
皮	39	2.2%
江	29	1.6%
中	28	1.6%
Other values (264)	784	44.2%

Latin

Value	Count	Frequency (%)
e	91	8.9%
a	58	5.6%
n	54	5.3%
S	49	4.8%
o	39	3.8%
i	38	3.7%
r	36	3.5%
A	35	3.4%
E	33	3.2%
N	29	2.8%
Other values (42)	565	55.0%

Common

Value	Count	Frequency (%)
	131	67.5%
&	9	4.6%
.	7	3.6%
）	6	3.1%
'	4	2.1%
（	4	2.1%
-	3	1.5%
(	3	1.5%
2	3	1.5%
`	3	1.5%
Other values (12)	21	10.8%

Hangul

Value	Count	Frequency (%)
과	6	14.6%
성	4	9.8%
형	4	9.8%
외	4	9.8%
앤	2	4.9%
이	2	4.9%
원	2	4.9%
의	2	4.9%
치	2	4.9%
아	1	2.4%
Other values (12)	12	29.3%

Most occurring blocks

Value	Count	Frequency (%)
CJK	1775	58.4%
ASCII	1209	39.8%
Hangul	41	1.4%
None	12	0.4%

Most frequent character per block

CJK

Value	Count	Frequency (%)
科	224	12.6%
所	189	10.6%
外	127	7.2%
整	126	7.1%
形	125	7.0%
院	52	2.9%
牙	52	2.9%
皮	39	2.2%
江	29	1.6%
中	28	1.6%
Other values (264)	784	44.2%

ASCII

Value	Count	Frequency (%)
	131	10.8%
e	91	7.5%
a	58	4.8%
n	54	4.5%
S	49	4.1%
o	39	3.2%
i	38	3.1%
r	36	3.0%
A	35	2.9%
E	33	2.7%
Other values (61)	645	53.3%

Hangul

Value	Count	Frequency (%)
과	6	14.6%
성	4	9.8%
형	4	9.8%
외	4	9.8%
앤	2	4.9%
이	2	4.9%
원	2	4.9%
의	2	4.9%
치	2	4.9%
아	1	2.4%
Other values (12)	12	29.3%

None

Value	Count	Frequency (%)
）	6	50.0%
（	4	33.3%
、	2	16.7%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	기관명
0	多古整形外科
1	光明眼科中心
2	代美整形外科所
3	迪斯整形外科
4	MD 乳腺外科所
5	半塘整形外科
6	卓越整形外科
7	歌整形外科
8	牙科所SOJOONG
9	For.B整形外科

	기관명
419	前
420	江南家庭旅
421	格拉莫斯酒店
422	酒店
423	特里酒店
424	最佳西方精品江南酒店
425	首大使江南富特酒店
426	首思酒店
427	JBIS酒店
428	克伍德豪景世中心

Most frequently occurring

	기관명	# duplicates
10	江南Severance院	7
1	三星首中心	5
6	整形外科	5
4	所	3
7	整形外科所	3
9	氏口腔院	3
11	牙科所	3
0	CHA大CHA江南院	2
2	形象整形外科	2
3	我整形外科	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Close Punctuation

Open Punctuation

Space Separator

Dash Punctuation

Modifier Symbol

Most occurring scripts

Most frequent character per script

Han

Latin

Common

Hangul

Most occurring blocks

Most frequent character per block

CJK

ASCII

Hangul

None

Missing values

Sample

Duplicate rows

Most frequently occurring