gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	554
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	22.3 KiB
Average record size in memory	41.2 B

Variable types

Text	4
Categorical	1

Dataset

Description	2015년 제·개정된 농축수산물 표준코드의 산지코드와 동일한 의미를 가지는 2013년 농축수산물 표준코드의 산지코드를 나타낸 정보
Author	농림수산식품교육문화정보원
URL	https://data.mafra.go.kr/opendata/data/indexOpenDataDetail.do?data_id=20220210000000001769

Alerts

`UPDT_DE` has constant value ""	Constant
`STD_MTC_CODE` has unique values	Unique

Reproduction

Analysis started	2023-12-11 03:28:46.643330
Analysis finished	2023-12-11 03:28:47.711553
Duration	1.07 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

STD_MTC_NEW_CODE
Text

Distinct	535
Distinct (%)	96.6%
Missing	0
Missing (%)	0.0%
Memory size	4.5 KiB

Length

Max length	5
Median length	5
Mean length	5
Min length	5

Characters and Unicode

Total characters	2770
Distinct characters	36
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	516 ?
Unique (%)	93.1%

Sample

1st row	01000
2nd row	01300
3rd row	01800
4th row	02200
5th row	02500

Value	Count	Frequency (%)
800nz	2	0.4%
800om	2	0.4%
800id	2	0.4%
800ru	2	0.4%
800ar	2	0.4%
800fk	2	0.4%
28700	2	0.4%
800es	2	0.4%
800us	2	0.4%
800ye	2	0.4%
Other values (525)	534	96.4%

Most occurring characters

Value	Count	Frequency (%)
0	1175	42.4%
8	348	12.6%
1	138	5.0%
5	111	4.0%
2	106	3.8%
3	102	3.7%
4	86	3.1%
9	63	2.3%
7	53	1.9%
6	51	1.8%
Other values (26)	537	19.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	2233	80.6%
Uppercase Letter	537	19.4%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
M	42	7.8%
S	32	6.0%
T	32	6.0%
A	30	5.6%
G	30	5.6%
N	29	5.4%
C	29	5.4%
B	25	4.7%
K	23	4.3%
R	23	4.3%
Other values (16)	242	45.1%

Decimal Number

Value	Count	Frequency (%)
0	1175	52.6%
8	348	15.6%
1	138	6.2%
5	111	5.0%
2	106	4.7%
3	102	4.6%
4	86	3.9%
9	63	2.8%
7	53	2.4%
6	51	2.3%

Most occurring scripts

Value	Count	Frequency (%)
Common	2233	80.6%
Latin	537	19.4%

Most frequent character per script

Latin

Value	Count	Frequency (%)
M	42	7.8%
S	32	6.0%
T	32	6.0%
A	30	5.6%
G	30	5.6%
N	29	5.4%
C	29	5.4%
B	25	4.7%
K	23	4.3%
R	23	4.3%
Other values (16)	242	45.1%

Common

Value	Count	Frequency (%)
0	1175	52.6%
8	348	15.6%
1	138	6.2%
5	111	5.0%
2	106	4.7%
3	102	4.6%
4	86	3.9%
9	63	2.8%
7	53	2.4%
6	51	2.3%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	2770	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	1175	42.4%
8	348	12.6%
1	138	5.0%
5	111	4.0%
2	106	3.8%
3	102	3.7%
4	86	3.1%
9	63	2.3%
7	53	1.9%
6	51	1.8%
Other values (26)	537	19.4%

STD_MTC_NEW_NM
Text

Distinct	535
Distinct (%)	96.6%
Missing	0
Missing (%)	0.0%
Memory size	4.5 KiB

Length

Max length	12
Median length	10
Mean length	5.9386282
Min length	1

Characters and Unicode

Total characters	3290
Distinct characters	299
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	516 ?
Unique (%)	93.1%

Sample

1st row	서울특별시 강북구
2nd row	서울특별시 도봉구
3rd row	서울특별시 노원구
4th row	서울특별시 중랑구
5th row	서울특별시 동대문구

Value	Count	Frequency (%)
경기도	33	4.0%
서울특별시	26	3.2%
경상북도	24	2.9%
전라남도	23	2.8%
경상남도	20	2.4%
강원도	19	2.3%
부산광역시	17	2.1%
충청남도	16	2.0%
전라북도	15	1.8%
충청북도	13	1.6%
Other values (521)	613	74.8%

Most occurring characters

Value	Count	Frequency (%)
	265	8.1%
도	210	6.4%
시	178	5.4%
군	99	3.0%
남	89	2.7%
구	83	2.5%
경	80	2.4%
아	72	2.2%
북	67	2.0%
광	67	2.0%
Other values (289)	2080	63.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	3018	91.7%
Space Separator	265	8.1%
Other Punctuation	3	0.1%
Close Punctuation	2	0.1%
Open Punctuation	2	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
도	210	7.0%
시	178	5.9%
군	99	3.3%
남	89	2.9%
구	83	2.8%
경	80	2.7%
아	72	2.4%
북	67	2.2%
광	67	2.2%
라	65	2.2%
Other values (285)	2008	66.5%

Space Separator

Value	Count	Frequency (%)
	265	100.0%

Other Punctuation

Value	Count	Frequency (%)
·	3	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	3018	91.7%
Common	272	8.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
도	210	7.0%
시	178	5.9%
군	99	3.3%
남	89	2.9%
구	83	2.8%
경	80	2.7%
아	72	2.4%
북	67	2.2%
광	67	2.2%
라	65	2.2%
Other values (285)	2008	66.5%

Common

Value	Count	Frequency (%)
	265	97.4%
·	3	1.1%
)	2	0.7%
(	2	0.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	3018	91.7%
ASCII	269	8.2%
None	3	0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	265	98.5%
)	2	0.7%
(	2	0.7%

Hangul

Value	Count	Frequency (%)
도	210	7.0%
시	178	5.9%
군	99	3.3%
남	89	2.9%
구	83	2.8%
경	80	2.7%
아	72	2.4%
북	67	2.2%
광	67	2.2%
라	65	2.2%
Other values (285)	2008	66.5%

None

Value	Count	Frequency (%)
·	3	100.0%

STD_MTC_CODE
Text

UNIQUE

Distinct	554
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	4.5 KiB

Length

Max length	6
Median length	6
Mean length	5.5397112
Min length	5

Characters and Unicode

Total characters	3069
Distinct characters	36
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	554 ?
Unique (%)	100.0%

Sample

1st row	142000
2nd row	132000
3rd row	139000
4th row	131000
5th row	130000

Value	Count	Frequency (%)
142000	1	0.2%
800mc	1	0.2%
800lb	1	0.2%
800lc	1	0.2%
800mh	1	0.2%
800mg	1	0.2%
800me	1	0.2%
800md	1	0.2%
800ma	1	0.2%
800li	1	0.2%
Other values (544)	544	98.2%

Most occurring characters

Value	Count	Frequency (%)
0	1455	47.4%
8	336	10.9%
1	172	5.6%
5	108	3.5%
3	107	3.5%
6	105	3.4%
4	82	2.7%
7	78	2.5%
2	67	2.2%
9	52	1.7%
Other values (26)	507	16.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	2562	83.5%
Uppercase Letter	507	16.5%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
M	40	7.9%
T	32	6.3%
G	30	5.9%
A	29	5.7%
S	29	5.7%
C	27	5.3%
N	26	5.1%
B	24	4.7%
P	21	4.1%
K	21	4.1%
Other values (16)	228	45.0%

Decimal Number

Value	Count	Frequency (%)
0	1455	56.8%
8	336	13.1%
1	172	6.7%
5	108	4.2%
3	107	4.2%
6	105	4.1%
4	82	3.2%
7	78	3.0%
2	67	2.6%
9	52	2.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	2562	83.5%
Latin	507	16.5%

Most frequent character per script

Latin

Value	Count	Frequency (%)
M	40	7.9%
T	32	6.3%
G	30	5.9%
A	29	5.7%
S	29	5.7%
C	27	5.3%
N	26	5.1%
B	24	4.7%
P	21	4.1%
K	21	4.1%
Other values (16)	228	45.0%

Common

Value	Count	Frequency (%)
0	1455	56.8%
8	336	13.1%
1	172	6.7%
5	108	4.2%
3	107	4.2%
6	105	4.1%
4	82	3.2%
7	78	3.0%
2	67	2.6%
9	52	2.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	3069	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	1455	47.4%
8	336	10.9%
1	172	5.6%
5	108	3.5%
3	107	3.5%
6	105	3.4%
4	82	2.7%
7	78	2.5%
2	67	2.2%
9	52	1.7%
Other values (26)	507	16.5%

STD_MTC_NM
Text

Distinct	538
Distinct (%)	97.1%
Missing	0
Missing (%)	0.0%
Memory size	4.5 KiB

Length

Max length	16
Median length	13
Mean length	5.9386282
Min length	1

Characters and Unicode

Total characters	3290
Distinct characters	306
Distinct categories	6 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	522 ?
Unique (%)	94.2%

Sample

1st row	서울특별시 강북구
2nd row	서울특별시 도봉구
3rd row	서울특별시 노원구
4th row	서울특별시 중랑구
5th row	서울특별시 동대문구

Value	Count	Frequency (%)
경기도	33	3.9%
서울특별시	26	3.1%
경상북도	24	2.8%
전라남도	23	2.7%
경상남도	20	2.4%
강원도	19	2.2%
부산광역시	17	2.0%
충청남도	16	1.9%
전라북도	15	1.8%
군도	14	1.6%
Other values (529)	642	75.6%

Most occurring characters

Value	Count	Frequency (%)
	295	9.0%
도	210	6.4%
시	174	5.3%
군	106	3.2%
남	89	2.7%
구	85	2.6%
경	80	2.4%
아	75	2.3%
광	67	2.0%
북	67	2.0%
Other values (296)	2042	62.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2989	90.9%
Space Separator	295	9.0%
Other Punctuation	3	0.1%
Open Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%
Dash Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
도	210	7.0%
시	174	5.8%
군	106	3.5%
남	89	3.0%
구	85	2.8%
경	80	2.7%
아	75	2.5%
광	67	2.2%
북	67	2.2%
라	66	2.2%
Other values (291)	1970	65.9%

Space Separator

Value	Count	Frequency (%)
	295	100.0%

Other Punctuation

Value	Count	Frequency (%)
&	3	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2989	90.9%
Common	301	9.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
도	210	7.0%
시	174	5.8%
군	106	3.5%
남	89	3.0%
구	85	2.8%
경	80	2.7%
아	75	2.5%
광	67	2.2%
북	67	2.2%
라	66	2.2%
Other values (291)	1970	65.9%

Common

Value	Count	Frequency (%)
	295	98.0%
&	3	1.0%
(	1	0.3%
)	1	0.3%
-	1	0.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2989	90.9%
ASCII	301	9.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	295	98.0%
&	3	1.0%
(	1	0.3%
)	1	0.3%
-	1	0.3%

Hangul

Value	Count	Frequency (%)
도	210	7.0%
시	174	5.8%
군	106	3.5%
남	89	3.0%
구	85	2.8%
경	80	2.7%
아	75	2.5%
광	67	2.2%
북	67	2.2%
라	66	2.2%
Other values (291)	1970	65.9%

UPDT_DE
Categorical

CONSTANT

Distinct	1
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	4.5 KiB

20220127	554

Length

Max length	8
Median length	8
Mean length	8
Min length	8

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	20220127
2nd row	20220127
3rd row	20220127
4th row	20220127
5th row	20220127

Common Values

Value	Count	Frequency (%)
20220127	554	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
20220127	554	100.0%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	STD_MTC_NEW_CODE	STD_MTC_NEW_NM	STD_MTC_CODE	STD_MTC_NM	UPDT_DE
0	01000	서울특별시 강북구	142000	서울특별시 강북구	20220127
1	01300	서울특별시 도봉구	132000	서울특별시 도봉구	20220127
2	01800	서울특별시 노원구	139000	서울특별시 노원구	20220127
3	02200	서울특별시 중랑구	131000	서울특별시 중랑구	20220127
4	02500	서울특별시 동대문구	130000	서울특별시 동대문구	20220127
5	02800	서울특별시 성북구	136000	서울특별시 성북구	20220127
6	03100	서울특별시 종로구	110000	서울특별시 종로구	20220127
7	03400	서울특별시 은평구	122000	서울특별시 은평구	20220127
8	03600	서울특별시 서대문구	120000	서울특별시 서대문구	20220127
9	03900	서울특별시 마포구	121000	서울특별시 마포구	20220127

	STD_MTC_NEW_CODE	STD_MTC_NEW_NM	STD_MTC_CODE	STD_MTC_NM	UPDT_DE
544	90800	세종특별자치시	339000	세종시 세종시	20220127
545	91000	경기도	910000	경기도	20220127
546	92000	강원도	920000	강원도	20220127
547	93000	충청남도	930000	충청남도	20220127
548	94000	충청북도	940000	충청북도	20220127
549	95000	전라남도	950000	전라남도	20220127
550	96000	전라북도	960000	전라북도	20220127
551	97000	경상남도	970000	경상남도	20220127
552	98000	경상북도	980000	경상북도	20220127
553	99000	제주특별자치도	990000	제주도	20220127

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Other Punctuation

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Other Punctuation

Open Punctuation

Close Punctuation

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Common Values

Length

Common Values (Plot)

Missing values

Sample