gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	272
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	8.6 KiB
Average record size in memory	32.5 B

Variable types

Categorical	2
Text	2

Dataset

Description	제주국제자유도시개발센터에서 운영하는 JDC지정면세점의 2018년 4월 기준 입점 업체별 브랜드 현황 정보
Author	제주국제자유도시개발센터
URL	https://www.data.go.kr/data/3050975/fileData.do

Reproduction

Analysis started	2023-12-12 04:28:59.017677
Analysis finished	2023-12-12 04:28:59.523791
Duration	0.51 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

품목
Categorical

Distinct	11
Distinct (%)	4.0%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

주류	57
향수, 화장품	57
패션	38
선글라스	36
시계	26
Other values (6)	58

Length

Max length	7
Median length	2
Mean length	3.4558824
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	주류
2nd row	주류
3rd row	주류
4th row	주류
5th row	주류

Common Values

Value	Count	Frequency (%)
주류	57	21.0%
향수, 화장품	57	21.0%
패션	38	14.0%
선글라스	36	13.2%
시계	26	9.6%
담배	22	8.1%
초콜렛	15	5.5%
액세서리	12	4.4%
문구	5	1.8%
완구	2	0.7%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
주류	57	17.3%
향수	57	17.3%
화장품	57	17.3%
패션	38	11.6%
선글라스	36	10.9%
시계	26	7.9%
담배	22	6.7%
초콜렛	15	4.6%
액세서리	12	3.6%
문구	5	1.5%
Other values (2)	4	1.2%

업체명
Text

Distinct	83
Distinct (%)	30.5%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

Length

Max length	22
Median length	12
Mean length	6.2830882
Min length	3

Characters and Unicode

Total characters	1709
Distinct characters	165
Distinct categories	7 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	32 ?
Unique (%)	11.8%

Sample

1st row	다린앤컴퍼니
2nd row	다은컴퍼니
3rd row	다은컴퍼니
4th row	다은컴퍼니
5th row	정우 인터내셔날

Value	Count	Frequency (%)
인터내셔날	21	6.4%
lk	18	5.5%
인비트윈	13	4.0%
kt&g	12	3.7%
b＆f통상	10	3.0%
주)디엘이노베이션	9	2.7%
주)우림에프엠지	8	2.4%
티디코	7	2.1%
ntc	7	2.1%
엘코잉크	7	2.1%
Other values (88)	216	65.9%

Most occurring characters

Value	Count	Frequency (%)
이	65	3.8%
코	62	3.6%
	62	3.6%
(	60	3.5%
)	60	3.5%
스	54	3.2%
인	51	3.0%
리	49	2.9%
주	45	2.6%
아	43	2.5%
Other values (155)	1158	67.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1233	72.1%
Uppercase Letter	249	14.6%
Space Separator	62	3.6%
Open Punctuation	60	3.5%
Close Punctuation	60	3.5%
Other Punctuation	30	1.8%
Other Symbol	15	0.9%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
이	65	5.3%
코	62	5.0%
스	54	4.4%
인	51	4.1%
리	49	4.0%
주	45	3.6%
아	43	3.5%
디	33	2.7%
터	27	2.2%
내	27	2.2%
Other values (127)	777	63.0%

Uppercase Letter

Value	Count	Frequency (%)
K	35	14.1%
T	33	13.3%
L	26	10.4%
C	21	8.4%
B	17	6.8%
G	16	6.4%
N	16	6.4%
F	14	5.6%
D	10	4.0%
I	10	4.0%
Other values (11)	51	20.5%

Other Punctuation

Value	Count	Frequency (%)
＆	14	46.7%
&	12	40.0%
.	4	13.3%

Space Separator

Value	Count	Frequency (%)
	62	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	60	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	60	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	15	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1248	73.0%
Latin	249	14.6%
Common	212	12.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
이	65	5.2%
코	62	5.0%
스	54	4.3%
인	51	4.1%
리	49	3.9%
주	45	3.6%
아	43	3.4%
디	33	2.6%
터	27	2.2%
내	27	2.2%
Other values (128)	792	63.5%

Latin

Value	Count	Frequency (%)
K	35	14.1%
T	33	13.3%
L	26	10.4%
C	21	8.4%
B	17	6.8%
G	16	6.4%
N	16	6.4%
F	14	5.6%
D	10	4.0%
I	10	4.0%
Other values (11)	51	20.5%

Common

Value	Count	Frequency (%)
	62	29.2%
(	60	28.3%
)	60	28.3%
＆	14	6.6%
&	12	5.7%
.	4	1.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1233	72.1%
ASCII	447	26.2%
None	29	1.7%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
이	65	5.3%
코	62	5.0%
스	54	4.4%
인	51	4.1%
리	49	4.0%
주	45	3.6%
아	43	3.5%
디	33	2.7%
터	27	2.2%
내	27	2.2%
Other values (127)	777	63.0%

ASCII

Value	Count	Frequency (%)
	62	13.9%
(	60	13.4%
)	60	13.4%
K	35	7.8%
T	33	7.4%
L	26	5.8%
C	21	4.7%
B	17	3.8%
G	16	3.6%
N	16	3.6%
Other values (16)	101	22.6%

None

Value	Count	Frequency (%)
㈜	15	51.7%
＆	14	48.3%

상품군
Categorical

Distinct	7
Distinct (%)	2.6%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

수입	152
환급	62
국산	45
수입,환급	10
국산,수입	1
Other values (2)	2

Length

Max length	6
Median length	2
Mean length	2.1470588
Min length	2

Unique

Unique	3 ?
Unique (%)	1.1%

Sample

1st row	수입
2nd row	수입
3rd row	수입
4th row	수입
5th row	수입

Common Values

Value	Count	Frequency (%)
수입	152	55.9%
환급	62	22.8%
국산	45	16.5%
수입,환급	10	3.7%
국산,수입	1	0.4%
수입, 환급	1	0.4%
수입,국산	1	0.4%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
수입	153	56.0%
환급	63	23.1%
국산	45	16.5%
수입,환급	10	3.7%
국산,수입	1	0.4%
수입,국산	1	0.4%

브랜드명
Text

Distinct	254
Distinct (%)	93.4%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

Length

Max length	26
Median length	15
Mean length	7.5294118
Min length	2

Characters and Unicode

Total characters	2048
Distinct characters	156
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	238 ?
Unique (%)	87.5%

Sample

1st row	BALLANTINE
2nd row	JACK DANIEL
3rd row	GLENDRONACH
4th row	WOODFORD RESERVE
5th row	CHIVAS REGAL

Value	Count	Frequency (%)
prada	3	0.9%
lanvin	3	0.9%
gucci	3	0.9%
sui	2	0.6%
bottega	2	0.6%
sun	2	0.6%
montblanc	2	0.6%
kors	2	0.6%
london	2	0.6%
swarovski	2	0.6%
Other values (308)	324	93.4%

Most occurring characters

Value	Count	Frequency (%)
A	104	5.1%
E	90	4.4%
a	85	4.2%
O	80	3.9%
e	78	3.8%
	77	3.8%
L	75	3.7%
N	74	3.6%
I	74	3.6%
r	69	3.4%
Other values (146)	1242	60.6%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	1100	53.7%
Lowercase Letter	689	33.6%
Other Letter	145	7.1%
Space Separator	77	3.8%
Other Punctuation	27	1.3%
Decimal Number	4	0.2%
Dash Punctuation	2	0.1%
Close Punctuation	2	0.1%
Open Punctuation	2	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
스	12	8.3%
라	5	3.4%
리	5	3.4%
보	5	3.4%
카	3	2.1%
드	3	2.1%
지	3	2.1%
고	3	2.1%
로	3	2.1%
아	3	2.1%
Other values (83)	100	69.0%

Uppercase Letter

Value	Count	Frequency (%)
A	104	9.5%
E	90	8.2%
O	80	7.3%
L	75	6.8%
N	74	6.7%
I	74	6.7%
S	68	6.2%
R	67	6.1%
T	54	4.9%
C	52	4.7%
Other values (16)	362	32.9%

Lowercase Letter

Value	Count	Frequency (%)
a	85	12.3%
e	78	11.3%
r	69	10.0%
i	63	9.1%
o	58	8.4%
n	50	7.3%
s	40	5.8%
l	32	4.6%
t	26	3.8%
u	24	3.5%
Other values (15)	164	23.8%

Other Punctuation

Value	Count	Frequency (%)
.	17	63.0%
'	4	14.8%
&	3	11.1%
/	2	7.4%
,	1	3.7%

Decimal Number

Value	Count	Frequency (%)
7	2	50.0%
3	1	25.0%
9	1	25.0%

Space Separator

Value	Count	Frequency (%)
	77	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	1789	87.4%
Hangul	145	7.1%
Common	114	5.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
스	12	8.3%
라	5	3.4%
리	5	3.4%
보	5	3.4%
카	3	2.1%
드	3	2.1%
지	3	2.1%
고	3	2.1%
로	3	2.1%
아	3	2.1%
Other values (83)	100	69.0%

Latin

Value	Count	Frequency (%)
A	104	5.8%
E	90	5.0%
a	85	4.8%
O	80	4.5%
e	78	4.4%
L	75	4.2%
N	74	4.1%
I	74	4.1%
r	69	3.9%
S	68	3.8%
Other values (41)	992	55.4%

Common

Value	Count	Frequency (%)
	77	67.5%
.	17	14.9%
'	4	3.5%
&	3	2.6%
-	2	1.8%
/	2	1.8%
)	2	1.8%
(	2	1.8%
7	2	1.8%
3	1	0.9%
Other values (2)	2	1.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1903	92.9%
Hangul	145	7.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
A	104	5.5%
E	90	4.7%
a	85	4.5%
O	80	4.2%
e	78	4.1%
	77	4.0%
L	75	3.9%
N	74	3.9%
I	74	3.9%
r	69	3.6%
Other values (53)	1097	57.6%

Hangul

Value	Count	Frequency (%)
스	12	8.3%
라	5	3.4%
리	5	3.4%
보	5	3.4%
카	3	2.1%
드	3	2.1%
지	3	2.1%
고	3	2.1%
로	3	2.1%
아	3	2.1%
Other values (83)	100	69.0%

Heatmap
Table

	품목	업체명	상품군
품목	1.000	0.997	0.596
업체명	0.997	1.000	0.897
상품군	0.596	0.897	1.000

Heatmap
Table

	품목	상품군
품목	1.000	0.344
상품군	0.344	1.000

Heatmap
Table

	품목	상품군
품목	1.000	0.344
상품군	0.344	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	품목	업체명	상품군	브랜드명
0	주류	다린앤컴퍼니	수입	BALLANTINE
1	주류	다은컴퍼니	수입	JACK DANIEL
2	주류	다은컴퍼니	수입	GLENDRONACH
3	주류	다은컴퍼니	수입	WOODFORD RESERVE
4	주류	정우 인터내셔날	수입	CHIVAS REGAL
5	주류	정우 인터내셔날	수입	ROYAL SALUTE
6	주류	정우 인터내셔날	수입	GLENLIVET
7	주류	NTC	수입	J. WALKER
8	주류	NTC	수입	Baileys
9	주류	NTC	수입	SHUI JING FANG

	품목	업체명	상품군	브랜드명
262	향수, 화장품	KL 리미티드	수입	PRADA
263	향수, 화장품	KL 리미티드	수입	VALENTINO
264	향수, 화장품	(주)마운티너스	국산	DUFT&DOFT
265	향수, 화장품	(주)이니스프리	국산	Innisfree
266	향수, 화장품	(주)해브앤비	국산	Dr.jart
267	향수, 화장품	아모레퍼시픽	국산	IOPE
268	향수, 화장품	엘지생활건강	국산	Belif
269	향수, 화장품	엘지생활건강	국산	L/G
270	향수, 화장품	엘지생활건강	국산	Sum37
271	향수, 화장품	제주 경제통상진흥원	국산	제주중소기업화장품

Overview

Variables

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Other Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

None

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Other Punctuation

Decimal Number

Space Separator

Dash Punctuation

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Correlations

Missing values

Sample