gimi9 Pandas Profiling

Dataset statistics

Number of variables	1
Number of observations	424
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	7
Duplicate rows (%)	1.7%
Total size in memory	3.4 KiB
Average record size in memory	8.3 B

Variable types

Text	1

Dataset

Description	서울특별시 강남구에 위치한 400여개 의료기관에 대한 기관명 데이터를 제공합니다.(일본어) 자세한 사항은 서울특별시 강남구 관관진흥과로 문의하여 주시기 바랍니다.
Author	서울특별시 강남구
URL	https://www.data.go.kr/data/15072593/fileData.do

Alerts

Dataset has 7 (1.7%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 18:18:53.250558
Analysis finished	2023-12-12 18:18:53.496533
Duration	0.25 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

기관명
Text

Distinct	411
Distinct (%)	96.9%
Missing	0
Missing (%)	0.0%
Memory size	3.4 KiB

Length

Max length	49
Median length	26
Mean length	9.8632075
Min length	3

Characters and Unicode

Total characters	4182
Distinct characters	271
Distinct categories	11 ?
Distinct scripts	6 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	404 ?
Unique (%)	95.3%

Sample

1st row	TAKO美容外科
2nd row	バルグン聖母眼科
3rd row	現代美美容形成外科
4th row	潭女神美容外科
5th row	MDクリニック胸整形センタ

Value	Count	Frequency (%)
美容形成外科	31	5.0%
院	19	3.0%
科院	16	2.6%
皮膚科院	12	1.9%
病院	10	1.6%
韓院	9	1.4%
gangnam	8	1.3%
眼科院	6	1.0%
kim	6	1.0%
the	5	0.8%
Other values (459)	504	80.5%

Most occurring characters

Value	Count	Frequency (%)
科	281	6.7%
	217	5.2%
院	167	4.0%
外	141	3.4%
ン	133	3.2%
美	130	3.1%
容	126	3.0%
e	107	2.6%
n	85	2.0%
a	81	1.9%
Other values (261)	2714	64.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2646	63.3%
Lowercase Letter	795	19.0%
Uppercase Letter	442	10.6%
Space Separator	220	5.3%
Other Punctuation	23	0.5%
Decimal Number	20	0.5%
Dash Punctuation	12	0.3%
Open Punctuation	8	0.2%
Close Punctuation	8	0.2%
Modifier Symbol	7	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
科	281	10.6%
院	167	6.3%
外	141	5.3%
ン	133	5.0%
美	130	4.9%
容	126	4.8%
ル	74	2.8%
ク	65	2.5%
リ	59	2.2%
形	56	2.1%
Other values (182)	1414	53.4%

Uppercase Letter

Value	Count	Frequency (%)
S	45	10.2%
C	29	6.6%
A	29	6.6%
M	23	5.2%
E	23	5.2%
L	23	5.2%
O	22	5.0%
I	21	4.8%
K	21	4.8%
B	20	4.5%
Other values (19)	186	42.1%

Lowercase Letter

Value	Count	Frequency (%)
e	107	13.5%
n	85	10.7%
a	81	10.2%
o	70	8.8%
i	53	6.7%
u	44	5.5%
l	44	5.5%
g	43	5.4%
r	43	5.4%
m	43	5.4%
Other values (14)	182	22.9%

Decimal Number

Value	Count	Frequency (%)
3	3	15.0%
1	3	15.0%
2	3	15.0%
0	2	10.0%
6	2	10.0%
8	2	10.0%
9	2	10.0%
7	1	5.0%
5	1	5.0%
4	1	5.0%

Other Punctuation

Value	Count	Frequency (%)
.	10	43.5%
&	7	30.4%
/	2	8.7%
，	1	4.3%
·	1	4.3%
:	1	4.3%
＆	1	4.3%

Space Separator

Value	Count	Frequency (%)
	217	98.6%
	3	1.4%

Open Punctuation

Value	Count	Frequency (%)
(	7	87.5%
（	1	12.5%

Close Punctuation

Value	Count	Frequency (%)
)	7	87.5%
）	1	12.5%

Dash Punctuation

Value	Count	Frequency (%)
-	12	100.0%

Modifier Symbol

Value	Count	Frequency (%)
`	7	100.0%

Math Symbol

Value	Count	Frequency (%)
+	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Han	1348	32.2%
Katakana	1274	30.5%
Latin	1237	29.6%
Common	299	7.1%
Hangul	16	0.4%
Hiragana	8	0.2%

Most frequent character per script

Han

Value	Count	Frequency (%)
科	281	20.8%
院	167	12.4%
外	141	10.5%
美	130	9.6%
容	126	9.3%
形	56	4.2%
病	53	3.9%
成	44	3.3%
皮	38	2.8%
膚	38	2.8%
Other values (86)	274	20.3%

Katakana

Value	Count	Frequency (%)
ン	133	10.4%
ル	74	5.8%
ク	65	5.1%
リ	59	4.6%
ス	51	4.0%
イ	48	3.8%
ウ	45	3.5%
ッ	40	3.1%
ラ	37	2.9%
ム	37	2.9%
Other values (64)	685	53.8%

Latin

Value	Count	Frequency (%)
e	107	8.6%
n	85	6.9%
a	81	6.5%
o	70	5.7%
i	53	4.3%
S	45	3.6%
u	44	3.6%
l	44	3.6%
g	43	3.5%
r	43	3.5%
Other values (43)	622	50.3%

Common

Value	Count	Frequency (%)
	217	72.6%
-	12	4.0%
.	10	3.3%
(	7	2.3%
)	7	2.3%
`	7	2.3%
&	7	2.3%
3	3	1.0%
1	3	1.0%
	3	1.0%
Other values (16)	23	7.7%

Hangul

Value	Count	Frequency (%)
과	2	12.5%
원	1	6.2%
의	1	6.2%
외	1	6.2%
형	1	6.2%
성	1	6.2%
오	1	6.2%
바	1	6.2%
치	1	6.2%
굴	1	6.2%
Other values (5)	5	31.2%

Hiragana

Value	Count	Frequency (%)
い	2	25.0%
も	1	12.5%
ど	1	12.5%
こ	1	12.5%
の	1	12.5%
ん	1	12.5%
さ	1	12.5%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1524	36.4%
CJK	1348	32.2%
Katakana	1274	30.5%
Hangul	16	0.4%
None	12	0.3%
Hiragana	8	0.2%

Most frequent character per block

CJK

Value	Count	Frequency (%)
科	281	20.8%
院	167	12.4%
外	141	10.5%
美	130	9.6%
容	126	9.3%
形	56	4.2%
病	53	3.9%
成	44	3.3%
皮	38	2.8%
膚	38	2.8%
Other values (86)	274	20.3%

ASCII

Value	Count	Frequency (%)
	217	14.2%
e	107	7.0%
n	85	5.6%
a	81	5.3%
o	70	4.6%
i	53	3.5%
S	45	3.0%
u	44	2.9%
l	44	2.9%
g	43	2.8%
Other values (60)	735	48.2%

Katakana

Value	Count	Frequency (%)
ン	133	10.4%
ル	74	5.8%
ク	65	5.1%
リ	59	4.6%
ス	51	4.0%
イ	48	3.8%
ウ	45	3.5%
ッ	40	3.1%
ラ	37	2.9%
ム	37	2.9%
Other values (64)	685	53.8%

None

Value	Count	Frequency (%)
	3	25.0%
Ｇ	2	16.7%
）	1	8.3%
（	1	8.3%
，	1	8.3%
·	1	8.3%
Ｎ	1	8.3%
＆	1	8.3%
Ｉ	1	8.3%

Hiragana

Value	Count	Frequency (%)
い	2	25.0%
も	1	12.5%
ど	1	12.5%
こ	1	12.5%
の	1	12.5%
ん	1	12.5%
さ	1	12.5%

Hangul

Value	Count	Frequency (%)
과	2	12.5%
원	1	6.2%
의	1	6.2%
외	1	6.2%
형	1	6.2%
성	1	6.2%
오	1	6.2%
바	1	6.2%
치	1	6.2%
굴	1	6.2%
Other values (5)	5	31.2%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	기관명
0	TAKO美容外科
1	バルグン聖母眼科
2	現代美美容形成外科
3	潭女神美容外科
4	MDクリニック胸整形センタ
5	バタン美容外科
6	プリミア美容外科
7	オペラ美容整形外科
8	ソジュン科
9	For.B美容外科

	기관명
414	Foreheal
415	カンナムファミリホテル
416	Grammos Hotel
417	ホテル.ザ.デザイナス
418	ツリアホテル
419	ベストウエスタンプレミア江南ホテル
420	パクハイヤット
421	ホテルリッツカルトンソウル
422	JBIS Hotel
423	オクウッドプリミアコエックスセンタ

Most frequently occurring

	기관명	# duplicates
1	サムソンソウル病院	5
5	江南セブランス病院	4
4	江南セブランス病院	3
0	グロビ美容外科	2
2	ハヌルチェ韓院	2
3	ラビアン美容外科	2
6	自生韓方病院	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Modifier Symbol

Math Symbol

Most occurring scripts

Most frequent character per script

Han

Katakana

Latin

Common

Hangul

Hiragana

Most occurring blocks

Most frequent character per block

CJK

ASCII

Katakana

None

Hiragana

Hangul

Missing values

Sample

Duplicate rows

Most frequently occurring