Overview

Dataset statistics

Number of variables6
Number of observations7942
Missing cells0
Missing cells (%)0.0%
Duplicate rows1129
Duplicate rows (%)14.2%
Total size in memory372.4 KiB
Average record size in memory48.0 B

Variable types

DateTime1
Text2
Categorical3

Dataset

Description검정업무(농산물, 원산지,우수식품, LMO, 술품질인증) 통합 관리 정보(신청일자, 품목, 종류, 생산지, 검정항목, 검정기관 등)
Author국립농산물품질관리원
URLhttps://data.mafra.go.kr/opendata/data/indexOpenDataDetail.do?data_id=20220204000000001680

Alerts

Dataset has 1129 (14.2%) duplicate rowsDuplicates
검정기관 is highly imbalanced (70.6%)Imbalance

Reproduction

Analysis started2024-03-23 07:35:10.426285
Analysis finished2024-03-23 07:35:12.125397
Duration1.7 second
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

Distinct657
Distinct (%)8.3%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
Minimum2010-01-08 00:00:00
Maximum2023-02-08 00:00:00
2024-03-23T07:35:12.320378image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
2024-03-23T07:35:12.685822image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram with fixed size bins (bins=50)

품목
Text

Distinct74
Distinct (%)0.9%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
2024-03-23T07:35:13.152124image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length11
Median length10
Mean length4.3821456
Min length1

Characters and Unicode

Total characters34803
Distinct characters132
Distinct categories3 ?
Distinct scripts2 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique14 ?
Unique (%)0.2%

Sample

1st row콩나물콩
2nd row콩나물콩
3rd row콩나물콩
4th row콩나물콩
5th row콩나물콩
ValueCountFrequency (%)
호밀 1914
24.1%
라이그라스(이탈리안 954
12.0%
베치 701
 
8.8%
청보리 660
 
8.3%
수단그라스 614
 
7.7%
콩나물콩 344
 
4.3%
귀리 274
 
3.5%
옥수수 272
 
3.4%
페스큐(톨 254
 
3.2%
금계국 188
 
2.4%
Other values (64) 1767
22.2%
2024-03-23T07:35:13.972096image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
3124
 
9.0%
2500
 
7.2%
2461
 
7.1%
2107
 
6.1%
1988
 
5.7%
1962
 
5.6%
1914
 
5.5%
( 1602
 
4.6%
) 1602
 
4.6%
1431
 
4.1%
Other values (122) 14112
40.5%

Most occurring categories

ValueCountFrequency (%)
Other Letter 31599
90.8%
Open Punctuation 1602
 
4.6%
Close Punctuation 1602
 
4.6%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
3124
 
9.9%
2500
 
7.9%
2461
 
7.8%
2107
 
6.7%
1988
 
6.3%
1962
 
6.2%
1914
 
6.1%
1431
 
4.5%
954
 
3.0%
954
 
3.0%
Other values (120) 12204
38.6%
Open Punctuation
ValueCountFrequency (%)
( 1602
100.0%
Close Punctuation
ValueCountFrequency (%)
) 1602
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 31599
90.8%
Common 3204
 
9.2%

Most frequent character per script

Hangul
ValueCountFrequency (%)
3124
 
9.9%
2500
 
7.9%
2461
 
7.8%
2107
 
6.7%
1988
 
6.3%
1962
 
6.2%
1914
 
6.1%
1431
 
4.5%
954
 
3.0%
954
 
3.0%
Other values (120) 12204
38.6%
Common
ValueCountFrequency (%)
( 1602
50.0%
) 1602
50.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 31599
90.8%
ASCII 3204
 
9.2%

Most frequent character per block

Hangul
ValueCountFrequency (%)
3124
 
9.9%
2500
 
7.9%
2461
 
7.8%
2107
 
6.7%
1988
 
6.3%
1962
 
6.2%
1914
 
6.1%
1431
 
4.5%
954
 
3.0%
954
 
3.0%
Other values (120) 12204
38.6%
ASCII
ValueCountFrequency (%)
( 1602
50.0%
) 1602
50.0%

종류
Categorical

Distinct16
Distinct (%)0.2%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
사료.목초종자
2247 
맥류
1839 
농산물종자류
1203 
조사료
1190 
화훼종자류
686 
Other values (11)
777 

Length

Max length7
Median length6
Mean length4.5119617
Min length2

Unique

Unique1 ?
Unique (%)< 0.1%

Sample

1st row두류
2nd row두류
3rd row두류
4th row두류
5th row두류

Common Values

ValueCountFrequency (%)
사료.목초종자 2247
28.3%
맥류 1839
23.2%
농산물종자류 1203
15.1%
조사료 1190
15.0%
화훼종자류 686
 
8.6%
두류 419
 
5.3%
잡곡류 154
 
1.9%
산림종묘 73
 
0.9%
LMO농산물 60
 
0.8%
미곡류 39
 
0.5%
Other values (6) 32
 
0.4%

Length

2024-03-23T07:35:14.376132image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
사료.목초종자 2247
28.3%
맥류 1839
23.2%
농산물종자류 1203
15.1%
조사료 1190
15.0%
화훼종자류 686
 
8.6%
두류 419
 
5.3%
잡곡류 154
 
1.9%
산림종묘 73
 
0.9%
lmo농산물 60
 
0.8%
미곡류 39
 
0.5%
Other values (6) 32
 
0.4%

생산지
Categorical

Distinct22
Distinct (%)0.3%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
미국
3785 
대한민국(국산)
1088 
중국
1052 
캐나다
687 
오스트레일리아(호주)
657 
Other values (17)
673 

Length

Max length11
Median length2
Mean length3.9328884
Min length2

Unique

Unique1 ?
Unique (%)< 0.1%

Sample

1st row중국
2nd row중국
3rd row중국
4th row중국
5th row중국

Common Values

ValueCountFrequency (%)
미국 3785
47.7%
대한민국(국산) 1088
 
13.7%
중국 1052
 
13.2%
캐나다 687
 
8.7%
오스트레일리아(호주) 657
 
8.3%
남아프리카공화국 271
 
3.4%
<NA> 105
 
1.3%
인도 64
 
0.8%
오리건주 52
 
0.7%
스페인 32
 
0.4%
Other values (12) 149
 
1.9%

Length

2024-03-23T07:35:14.639254image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
미국 3785
47.7%
대한민국(국산 1088
 
13.7%
중국 1052
 
13.2%
캐나다 687
 
8.7%
오스트레일리아(호주 657
 
8.3%
남아프리카공화국 271
 
3.4%
na 105
 
1.3%
인도 64
 
0.8%
오리건주 52
 
0.7%
스페인 32
 
0.4%
Other values (12) 149
 
1.9%
Distinct129
Distinct (%)1.6%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
2024-03-23T07:35:15.076246image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length95
Median length66
Mean length10.864644
Min length2

Characters and Unicode

Total characters86287
Distinct characters68
Distinct categories9 ?
Distinct scripts3 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique52 ?
Unique (%)0.7%

Sample

1st row발아율
2nd row발아율
3rd row발아율
4th row발아율
5th row발아율
ValueCountFrequency (%)
발아율 7759
36.3%
이물 4202
19.7%
이종종자 4037
18.9%
수분 2528
 
11.8%
정립 2460
 
11.5%
파쇄립 42
 
0.2%
피해립 28
 
0.1%
순도 26
 
0.1%
다른종피색 24
 
0.1%
변질률 24
 
0.1%
Other values (21) 233
 
1.1%
2024-03-23T07:35:15.833258image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
, 13421
15.6%
13421
15.6%
8260
9.6%
8131
9.4%
7764
9.0%
7759
9.0%
7759
9.0%
4202
 
4.9%
4049
 
4.7%
2609
 
3.0%
Other values (58) 8912
10.3%

Most occurring categories

ValueCountFrequency (%)
Other Letter 58944
68.3%
Other Punctuation 13503
 
15.6%
Space Separator 13421
 
15.6%
Decimal Number 172
 
0.2%
Lowercase Letter 107
 
0.1%
Close Punctuation 52
 
0.1%
Open Punctuation 52
 
0.1%
Dash Punctuation 33
 
< 0.1%
Uppercase Letter 3
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
8260
14.0%
8131
13.8%
7764
13.2%
7759
13.2%
7759
13.2%
4202
7.1%
4049
6.9%
2609
 
4.4%
2533
 
4.3%
2528
 
4.3%
Other values (40) 3350
5.7%
Decimal Number
ValueCountFrequency (%)
5 62
36.0%
6 30
17.4%
3 28
16.3%
7 18
 
10.5%
4 13
 
7.6%
8 13
 
7.6%
1 8
 
4.7%
Lowercase Letter
ValueCountFrequency (%)
m 98
91.6%
r 3
 
2.8%
x 3
 
2.8%
i 3
 
2.8%
Other Punctuation
ValueCountFrequency (%)
, 13421
99.4%
. 82
 
0.6%
Space Separator
ValueCountFrequency (%)
13421
100.0%
Close Punctuation
ValueCountFrequency (%)
) 52
100.0%
Open Punctuation
ValueCountFrequency (%)
( 52
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 33
100.0%
Uppercase Letter
ValueCountFrequency (%)
B 3
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 58944
68.3%
Common 27233
31.6%
Latin 110
 
0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
8260
14.0%
8131
13.8%
7764
13.2%
7759
13.2%
7759
13.2%
4202
7.1%
4049
6.9%
2609
 
4.4%
2533
 
4.3%
2528
 
4.3%
Other values (40) 3350
5.7%
Common
ValueCountFrequency (%)
, 13421
49.3%
13421
49.3%
. 82
 
0.3%
5 62
 
0.2%
) 52
 
0.2%
( 52
 
0.2%
- 33
 
0.1%
6 30
 
0.1%
3 28
 
0.1%
7 18
 
0.1%
Other values (3) 34
 
0.1%
Latin
ValueCountFrequency (%)
m 98
89.1%
r 3
 
2.7%
x 3
 
2.7%
i 3
 
2.7%
B 3
 
2.7%

Most occurring blocks

ValueCountFrequency (%)
Hangul 58944
68.3%
ASCII 27343
31.7%

Most frequent character per block

ASCII
ValueCountFrequency (%)
, 13421
49.1%
13421
49.1%
m 98
 
0.4%
. 82
 
0.3%
5 62
 
0.2%
) 52
 
0.2%
( 52
 
0.2%
- 33
 
0.1%
6 30
 
0.1%
3 28
 
0.1%
Other values (8) 64
 
0.2%
Hangul
ValueCountFrequency (%)
8260
14.0%
8131
13.8%
7764
13.2%
7759
13.2%
7759
13.2%
4202
7.1%
4049
6.9%
2609
 
4.4%
2533
 
4.3%
2528
 
4.3%
Other values (40) 3350
5.7%

검정기관
Categorical

IMBALANCE 

Distinct8
Distinct (%)0.1%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
국립농산물품질관리원 시험연구소 원산지검정과
5744 
국립농산물품질관리원 시험연구소 품질조사과
2172 
국립농산물품질관리원 전남지원 유통관리과
 
13
국립농산물품질관리원 경남지원 유통관리과
 
6
국립농산물품질관리원 경북지원 유통관리과
 
3
Other values (3)
 
4

Length

Max length23
Median length23
Mean length22.71997
Min length21

Unique

Unique2 ?
Unique (%)< 0.1%

Sample

1st row국립농산물품질관리원 시험연구소 원산지검정과
2nd row국립농산물품질관리원 시험연구소 원산지검정과
3rd row국립농산물품질관리원 시험연구소 원산지검정과
4th row국립농산물품질관리원 시험연구소 원산지검정과
5th row국립농산물품질관리원 시험연구소 원산지검정과

Common Values

ValueCountFrequency (%)
국립농산물품질관리원 시험연구소 원산지검정과 5744
72.3%
국립농산물품질관리원 시험연구소 품질조사과 2172
 
27.3%
국립농산물품질관리원 전남지원 유통관리과 13
 
0.2%
국립농산물품질관리원 경남지원 유통관리과 6
 
0.1%
국립농산물품질관리원 경북지원 유통관리과 3
 
< 0.1%
국립농산물품질관리원 전남지원 품질관리과 2
 
< 0.1%
국립농산물품질관리원 충북지원 유통관리과 1
 
< 0.1%
국립농산물품질관리원 전남지원 영광사무소 1
 
< 0.1%

Length

2024-03-23T07:35:16.122605image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2024-03-23T07:35:16.449676image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
국립농산물품질관리원 7942
33.3%
시험연구소 7916
33.2%
원산지검정과 5744
24.1%
품질조사과 2172
 
9.1%
유통관리과 23
 
0.1%
전남지원 16
 
0.1%
경남지원 6
 
< 0.1%
경북지원 3
 
< 0.1%
품질관리과 2
 
< 0.1%
충북지원 1
 
< 0.1%

Correlations

2024-03-23T07:35:16.726878image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
품목종류생산지검정기관
품목1.0000.9950.9420.839
종류0.9951.0000.8240.795
생산지0.9420.8241.0000.243
검정기관0.8390.7950.2431.000
2024-03-23T07:35:16.979049image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
종류생산지검정기관
종류1.0000.4180.410
생산지0.4181.0000.102
검정기관0.4100.1021.000
2024-03-23T07:35:17.215484image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
종류생산지검정기관
종류1.0000.4180.410
생산지0.4181.0000.102
검정기관0.4100.1021.000

Missing values

2024-03-23T07:35:11.421407image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2024-03-23T07:35:11.965598image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

신청일자품목종류생산지검정항목검정기관
02010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
12010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
22010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
32010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
42010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
52010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
62010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
72010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
82010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
92010-01-08콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
신청일자품목종류생산지검정항목검정기관
79322023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79332023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79342023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79352023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79362023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79372023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79382023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79392023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79402023-01-10콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
79412023-02-08현미미곡류대한민국(국산)수분국립농산물품질관리원 시험연구소 품질조사과

Duplicate rows

Most frequently occurring

신청일자품목종류생산지검정항목검정기관# duplicates
11232020-12-11콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과67
11142019-11-26콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과66
352010-07-09청보리농산물종자류대한민국(국산)발아율, 정립, 수분국립농산물품질관리원 시험연구소 원산지검정과40
11272022-12-16콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과38
9922016-01-28옥수수잡곡류미국이물, 이종종자, 발아율국립농산물품질관리원 시험연구소 품질조사과37
10272016-07-19호밀맥류미국수분국립농산물품질관리원 시험연구소 품질조사과34
10692016-09-07라이그라스(이탈리안)사료.목초종자미국발아율국립농산물품질관리원 시험연구소 품질조사과31
10232016-07-13호밀맥류미국이물, 이종종자, 발아율국립농산물품질관리원 시험연구소 품질조사과29
10422016-07-27호밀맥류미국수분국립농산물품질관리원 시험연구소 품질조사과29
522010-07-26청보리농산물종자류대한민국(국산)수분, 발아율, 정립국립농산물품질관리원 시험연구소 원산지검정과27