gimi9 Pandas Profiling

Dataset statistics

Number of variables	2
Number of observations	22
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	484.0 B
Average record size in memory	22.0 B

Variable types

Text	2

Dataset

Description	샘플 데이터
Author	신한카드
URL	https://bigdata.seoul.go.kr/data/selectSampleData.do?sample_data_seq=50

Alerts

`업종코드(UPJONG)` has unique values	Unique
`업종분류코드명(UPJONG_NM)` has unique values	Unique

Reproduction

Analysis started	2023-12-10 14:52:55.466857
Analysis finished	2023-12-10 14:52:55.796182
Duration	0.33 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

업종코드(UPJONG)
Text

UNIQUE

Distinct	22
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	308.0 B

Length

Max length	4
Median length	4
Mean length	4
Min length	4

Characters and Unicode

Total characters	88
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	22 ?
Unique (%)	100.0%

Sample

1st row	sb01
2nd row	sb02
3rd row	sb03
4th row	sb04
5th row	sb05

Value	Count	Frequency (%)
sb01	1	4.5%
sb02	1	4.5%
sb21	1	4.5%
sb20	1	4.5%
sb19	1	4.5%
sb18	1	4.5%
sb17	1	4.5%
sb16	1	4.5%
sb15	1	4.5%
sb14	1	4.5%
Other values (12)	12	54.5%

Most occurring characters

Value	Count	Frequency (%)
s	22	25.0%
b	22	25.0%
1	13	14.8%
0	11	12.5%
2	6	6.8%
3	2	2.3%
4	2	2.3%
5	2	2.3%
6	2	2.3%
7	2	2.3%
Other values (2)	4	4.5%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	44	50.0%
Decimal Number	44	50.0%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
1	13	29.5%
0	11	25.0%
2	6	13.6%
3	2	4.5%
4	2	4.5%
5	2	4.5%
6	2	4.5%
7	2	4.5%
8	2	4.5%
9	2	4.5%

Lowercase Letter

Value	Count	Frequency (%)
s	22	50.0%
b	22	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	44	50.0%
Common	44	50.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
1	13	29.5%
0	11	25.0%
2	6	13.6%
3	2	4.5%
4	2	4.5%
5	2	4.5%
6	2	4.5%
7	2	4.5%
8	2	4.5%
9	2	4.5%

Latin

Value	Count	Frequency (%)
s	22	50.0%
b	22	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	88	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
s	22	25.0%
b	22	25.0%
1	13	14.8%
0	11	12.5%
2	6	6.8%
3	2	2.3%
4	2	2.3%
5	2	2.3%
6	2	2.3%
7	2	2.3%
Other values (2)	4	4.5%

업종분류코드명(UPJONG_NM)
Text

UNIQUE

Distinct	22
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	308.0 B

Length

Max length	11
Median length	9
Mean length	4.4545455
Min length	2

Characters and Unicode

Total characters	98
Distinct characters	55
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	22 ?
Unique (%)	100.0%

Sample

1st row	한식
2nd row	일식/중식/양식
3rd row	제과점
4th row	커피전문점
5th row	패스트푸드

Value	Count	Frequency (%)
한식	1	4.5%
일식/중식/양식	1	4.5%
자동차	1	4.5%
가전/가구	1	4.5%
의료	1	4.5%
교육용품	1	4.5%
유아교육	1	4.5%
학원	1	4.5%
가정생활/서비스	1	4.5%
미용	1	4.5%
Other values (12)	12	54.5%

Most occurring characters

Value	Count	Frequency (%)
/	11	11.2%
식	6	6.1%
유	4	4.1%
스	4	4.1%
용	3	3.1%
화	3	3.1%
품	3	3.1%
교	3	3.1%
문	3	3.1%
가	3	3.1%
Other values (45)	55	56.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	87	88.8%
Other Punctuation	11	11.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
식	6	6.9%
유	4	4.6%
스	4	4.6%
용	3	3.4%
화	3	3.4%
품	3	3.4%
교	3	3.4%
문	3	3.4%
가	3	3.4%
의	2	2.3%
Other values (44)	53	60.9%

Other Punctuation

Value	Count	Frequency (%)
/	11	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	87	88.8%
Common	11	11.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
식	6	6.9%
유	4	4.6%
스	4	4.6%
용	3	3.4%
화	3	3.4%
품	3	3.4%
교	3	3.4%
문	3	3.4%
가	3	3.4%
의	2	2.3%
Other values (44)	53	60.9%

Common

Value	Count	Frequency (%)
/	11	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	87	88.8%
ASCII	11	11.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
/	11	100.0%

Hangul

Value	Count	Frequency (%)
식	6	6.9%
유	4	4.6%
스	4	4.6%
용	3	3.4%
화	3	3.4%
품	3	3.4%
교	3	3.4%
문	3	3.4%
가	3	3.4%
의	2	2.3%
Other values (44)	53	60.9%

Phik (φk)

Heatmap
Table

	업종코드(UPJONG)	업종분류코드명(UPJONG_NM)
업종코드(UPJONG)	1.000	1.000
업종분류코드명(UPJONG_NM)	1.000	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	업종코드(UPJONG)	업종분류코드명(UPJONG_NM)
0	sb01	한식
1	sb02	일식/중식/양식
2	sb03	제과점
3	sb04	커피전문점
4	sb05	패스트푸드
5	sb06	기타요식
6	sb07	유흥
7	sb08	유통
8	sb09	음/식료품
9	sb10	의류/잡화

	업종코드(UPJONG)	업종분류코드명(UPJONG_NM)
12	sb13	여행/교통
13	sb14	미용
14	sb15	가정생활/서비스
15	sb16	학원
16	sb17	유아교육
17	sb18	교육용품
18	sb19	의료
19	sb20	가전/가구
20	sb21	자동차
21	sb22	주유

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Lowercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Correlations

Missing values

Sample