Overview

Dataset statistics

Number of variables6
Number of observations7942
Missing cells0
Missing cells (%)0.0%
Duplicate rows937
Duplicate rows (%)11.8%
Total size in memory380.2 KiB
Average record size in memory49.0 B

Variable types

Numeric1
Text1
Categorical4

Dataset

Description검정업무(농산물, 원산지,우수식품, LMO, 술품질인증) 통합 관리 정보(신청일자, 품목, 종류, 생산지, 검정항목, 검정기관 등)
Author국립농산물품질관리원
URLhttps://data.mafra.go.kr/opendata/data/indexOpenDataDetail.do?data_id=20220204000000001680

Alerts

Dataset has 937 (11.8%) duplicate rowsDuplicates
종류 is highly overall correlated with 검정항목High correlation
검정항목 is highly overall correlated with 종류 and 1 other fieldsHigh correlation
검정기관 is highly overall correlated with 검정항목High correlation
검정항목 is highly imbalanced (50.5%)Imbalance
검정기관 is highly imbalanced (70.6%)Imbalance

Reproduction

Analysis started2024-03-23 07:35:18.731482
Analysis finished2024-03-23 07:35:20.879757
Duration2.15 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

신청일자
Real number (ℝ)

Distinct657
Distinct (%)8.3%
Missing0
Missing (%)0.0%
Infinite0
Infinite (%)0.0%
Mean20135102
Minimum20100108
Maximum20230208
Zeros0
Zeros (%)0.0%
Negative0
Negative (%)0.0%
Memory size69.9 KiB
2024-03-23T07:35:21.123215image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Quantile statistics

Minimum20100108
5-th percentile20100727
Q120120510
median20131007
Q320150624
95-th percentile20170213
Maximum20230208
Range130100
Interquartile range (IQR)30114

Descriptive statistics

Standard deviation23199.515
Coefficient of variation (CV)0.0011521926
Kurtosis1.3110942
Mean20135102
Median Absolute Deviation (MAD)19202
Skewness0.79298963
Sum1.5991298 × 1011
Variance5.3821748 × 108
MonotonicityIncreasing
2024-03-23T07:35:21.656080image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram with fixed size bins (bins=50)
ValueCountFrequency (%)
20120712 85
 
1.1%
20160719 79
 
1.0%
20130715 78
 
1.0%
20110808 71
 
0.9%
20140710 69
 
0.9%
20201211 67
 
0.8%
20150629 67
 
0.8%
20191126 66
 
0.8%
20160725 63
 
0.8%
20160829 62
 
0.8%
Other values (647) 7235
91.1%
ValueCountFrequency (%)
20100108 15
0.2%
20100128 8
 
0.1%
20100129 1
 
< 0.1%
20100204 27
0.3%
20100205 30
0.4%
20100210 18
0.2%
20100219 9
 
0.1%
20100224 6
 
0.1%
20100303 1
 
< 0.1%
20100309 6
 
0.1%
ValueCountFrequency (%)
20230208 1
 
< 0.1%
20230110 11
 
0.1%
20221216 38
0.5%
20220113 19
 
0.2%
20211220 22
 
0.3%
20210422 1
 
< 0.1%
20210107 8
 
0.1%
20201211 67
0.8%
20200214 2
 
< 0.1%
20200213 2
 
< 0.1%

품목
Text

Distinct74
Distinct (%)0.9%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
2024-03-23T07:35:22.095200image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length11
Median length10
Mean length4.3934777
Min length1

Characters and Unicode

Total characters34893
Distinct characters134
Distinct categories3 ?
Distinct scripts2 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique14 ?
Unique (%)0.2%

Sample

1st row콩나물콩
2nd row콩나물콩
3rd row콩나물콩
4th row콩나물콩
5th row콩나물콩
ValueCountFrequency (%)
호밀 1914
24.1%
라이그라스(이탈리안 954
12.0%
베치 701
 
8.8%
청보리 660
 
8.3%
수단그라스 614
 
7.7%
콩나물콩 344
 
4.3%
귀리 274
 
3.5%
옥수수 272
 
3.4%
페스큐(톨 254
 
3.2%
금계국 188
 
2.4%
Other values (64) 1767
22.2%
2024-03-23T07:35:22.844287image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
3124
 
9.0%
2500
 
7.2%
2461
 
7.1%
2107
 
6.0%
1988
 
5.7%
1962
 
5.6%
1914
 
5.5%
( 1620
 
4.6%
) 1620
 
4.6%
1431
 
4.1%
Other values (124) 14166
40.6%

Most occurring categories

ValueCountFrequency (%)
Other Letter 31653
90.7%
Open Punctuation 1620
 
4.6%
Close Punctuation 1620
 
4.6%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
3124
 
9.9%
2500
 
7.9%
2461
 
7.8%
2107
 
6.7%
1988
 
6.3%
1962
 
6.2%
1914
 
6.0%
1431
 
4.5%
954
 
3.0%
954
 
3.0%
Other values (122) 12258
38.7%
Open Punctuation
ValueCountFrequency (%)
( 1620
100.0%
Close Punctuation
ValueCountFrequency (%)
) 1620
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 31653
90.7%
Common 3240
 
9.3%

Most frequent character per script

Hangul
ValueCountFrequency (%)
3124
 
9.9%
2500
 
7.9%
2461
 
7.8%
2107
 
6.7%
1988
 
6.3%
1962
 
6.2%
1914
 
6.0%
1431
 
4.5%
954
 
3.0%
954
 
3.0%
Other values (122) 12258
38.7%
Common
ValueCountFrequency (%)
( 1620
50.0%
) 1620
50.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 31653
90.7%
ASCII 3240
 
9.3%

Most frequent character per block

Hangul
ValueCountFrequency (%)
3124
 
9.9%
2500
 
7.9%
2461
 
7.8%
2107
 
6.7%
1988
 
6.3%
1962
 
6.2%
1914
 
6.0%
1431
 
4.5%
954
 
3.0%
954
 
3.0%
Other values (122) 12258
38.7%
ASCII
ValueCountFrequency (%)
( 1620
50.0%
) 1620
50.0%

종류
Categorical

HIGH CORRELATION 

Distinct16
Distinct (%)0.2%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
사료.목초종자
2247 
맥류
1839 
농산물종자류
1203 
조사료
1190 
화훼종자류
686 
Other values (11)
777 

Length

Max length7
Median length6
Mean length4.5119617
Min length2

Unique

Unique1 ?
Unique (%)< 0.1%

Sample

1st row두류
2nd row두류
3rd row두류
4th row두류
5th row두류

Common Values

ValueCountFrequency (%)
사료.목초종자 2247
28.3%
맥류 1839
23.2%
농산물종자류 1203
15.1%
조사료 1190
15.0%
화훼종자류 686
 
8.6%
두류 419
 
5.3%
잡곡류 154
 
1.9%
산림종묘 73
 
0.9%
LMO농산물 60
 
0.8%
미곡류 39
 
0.5%
Other values (6) 32
 
0.4%

Length

2024-03-23T07:35:23.275844image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
사료.목초종자 2247
28.3%
맥류 1839
23.2%
농산물종자류 1203
15.1%
조사료 1190
15.0%
화훼종자류 686
 
8.6%
두류 419
 
5.3%
잡곡류 154
 
1.9%
산림종묘 73
 
0.9%
lmo농산물 60
 
0.8%
미곡류 39
 
0.5%
Other values (6) 32
 
0.4%

생산지
Categorical

Distinct22
Distinct (%)0.3%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
미국
3785 
대한민국(국산)
1088 
중국
1052 
캐나다
687 
오스트레일리아(호주)
657 
Other values (17)
673 

Length

Max length11
Median length2
Mean length3.9328884
Min length2

Unique

Unique1 ?
Unique (%)< 0.1%

Sample

1st row중국
2nd row중국
3rd row중국
4th row중국
5th row중국

Common Values

ValueCountFrequency (%)
미국 3785
47.7%
대한민국(국산) 1088
 
13.7%
중국 1052
 
13.2%
캐나다 687
 
8.7%
오스트레일리아(호주) 657
 
8.3%
남아프리카공화국 271
 
3.4%
<NA> 105
 
1.3%
인도 64
 
0.8%
오리건주 52
 
0.7%
스페인 32
 
0.4%
Other values (12) 149
 
1.9%

Length

2024-03-23T07:35:23.716121image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
미국 3785
47.7%
대한민국(국산 1088
 
13.7%
중국 1052
 
13.2%
캐나다 687
 
8.7%
오스트레일리아(호주 657
 
8.3%
남아프리카공화국 271
 
3.4%
na 105
 
1.3%
인도 64
 
0.8%
오리건주 52
 
0.7%
스페인 32
 
0.4%
Other values (12) 149
 
1.9%

검정항목
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct40
Distinct (%)0.5%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
이종종자, 이물, 발아율
2225 
이종종자, 이물, 발아율, 수분
1718 
정립, 발아율
1609 
발아율
1290 
정립, 발아율, 수분
607 
Other values (35)
493 

Length

Max length95
Median length66
Mean length10.864644
Min length2

Unique

Unique11 ?
Unique (%)0.1%

Sample

1st row발아율
2nd row발아율
3rd row발아율
4th row발아율
5th row발아율

Common Values

ValueCountFrequency (%)
이종종자, 이물, 발아율 2225
28.0%
이종종자, 이물, 발아율, 수분 1718
21.6%
정립, 발아율 1609
20.3%
발아율 1290
16.2%
정립, 발아율, 수분 607
 
7.6%
정립, 이물, 발아율 141
 
1.8%
정립, 이종종자, 발아율 90
 
1.1%
수분 77
 
1.0%
이물, 발아율 23
 
0.3%
이물, 싸라기, 색택, 수분 18
 
0.2%
Other values (30) 144
 
1.8%

Length

2024-03-23T07:35:24.091320image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
발아율 7759
36.3%
이물 4202
19.7%
이종종자 4037
18.9%
수분 2528
 
11.8%
정립 2460
 
11.5%
파쇄립 42
 
0.2%
피해립 28
 
0.1%
순도 26
 
0.1%
다른종피색 24
 
0.1%
변질률 24
 
0.1%
Other values (21) 233
 
1.1%

검정기관
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct8
Distinct (%)0.1%
Missing0
Missing (%)0.0%
Memory size62.2 KiB
국립농산물품질관리원 시험연구소 원산지검정과
5744 
국립농산물품질관리원 시험연구소 품질조사과
2172 
국립농산물품질관리원 전남지원 유통관리과
 
13
국립농산물품질관리원 경남지원 유통관리과
 
6
국립농산물품질관리원 경북지원 유통관리과
 
3
Other values (3)
 
4

Length

Max length23
Median length23
Mean length22.71997
Min length21

Unique

Unique2 ?
Unique (%)< 0.1%

Sample

1st row국립농산물품질관리원 시험연구소 원산지검정과
2nd row국립농산물품질관리원 시험연구소 원산지검정과
3rd row국립농산물품질관리원 시험연구소 원산지검정과
4th row국립농산물품질관리원 시험연구소 원산지검정과
5th row국립농산물품질관리원 시험연구소 원산지검정과

Common Values

ValueCountFrequency (%)
국립농산물품질관리원 시험연구소 원산지검정과 5744
72.3%
국립농산물품질관리원 시험연구소 품질조사과 2172
 
27.3%
국립농산물품질관리원 전남지원 유통관리과 13
 
0.2%
국립농산물품질관리원 경남지원 유통관리과 6
 
0.1%
국립농산물품질관리원 경북지원 유통관리과 3
 
< 0.1%
국립농산물품질관리원 전남지원 품질관리과 2
 
< 0.1%
국립농산물품질관리원 충북지원 유통관리과 1
 
< 0.1%
국립농산물품질관리원 전남지원 영광사무소 1
 
< 0.1%

Length

2024-03-23T07:35:24.525704image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2024-03-23T07:35:25.000927image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
국립농산물품질관리원 7942
33.3%
시험연구소 7916
33.2%
원산지검정과 5744
24.1%
품질조사과 2172
 
9.1%
유통관리과 23
 
0.1%
전남지원 16
 
0.1%
경남지원 6
 
< 0.1%
경북지원 3
 
< 0.1%
품질관리과 2
 
< 0.1%
충북지원 1
 
< 0.1%

Interactions

2024-03-23T07:35:19.947285image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Correlations

2024-03-23T07:35:25.239176image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
신청일자품목종류생산지검정항목검정기관
신청일자1.0000.7610.6590.5310.7120.551
품목0.7611.0000.9950.9420.9550.839
종류0.6590.9951.0000.8240.9200.795
생산지0.5310.9420.8241.0000.7900.243
검정항목0.7120.9550.9200.7901.0000.990
검정기관0.5510.8390.7950.2430.9901.000
2024-03-23T07:35:25.421526image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
검정항목종류생산지검정기관
검정항목1.0000.5380.3100.855
종류0.5381.0000.4180.410
생산지0.3100.4181.0000.102
검정기관0.8550.4100.1021.000
2024-03-23T07:35:25.592918image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
신청일자종류생산지검정항목검정기관
신청일자1.0000.3240.2260.3090.302
종류0.3241.0000.4180.5380.410
생산지0.2260.4181.0000.3100.102
검정항목0.3090.5380.3101.0000.855
검정기관0.3020.4100.1020.8551.000

Missing values

2024-03-23T07:35:20.314752image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2024-03-23T07:35:20.662460image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

신청일자품목종류생산지검정항목검정기관
020100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
120100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
220100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
320100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
420100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
520100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
620100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
720100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
820100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
920100108콩나물콩두류중국발아율국립농산물품질관리원 시험연구소 원산지검정과
신청일자품목종류생산지검정항목검정기관
793220230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793320230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793420230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793520230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793620230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793720230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793820230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
793920230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
794020230110콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과
794120230208현미미곡류대한민국(국산)수분국립농산물품질관리원 시험연구소 품질조사과

Duplicate rows

Most frequently occurring

신청일자품목종류생산지검정항목검정기관# duplicates
93120201211콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과67
92220191126콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과66
87420160829라이그라스(이탈리안)사료.목초종자미국이종종자, 이물, 발아율국립농산물품질관리원 시험연구소 품질조사과60
31320120712청보리농산물종자류대한민국(국산)이종종자, 이물, 발아율, 수분국립농산물품질관리원 시험연구소 원산지검정과47
84020160713호밀맥류미국이종종자, 이물, 발아율국립농산물품질관리원 시험연구소 품질조사과45
3620100709청보리농산물종자류대한민국(국산)정립, 발아율, 수분국립농산물품질관리원 시험연구소 원산지검정과44
5020100726청보리농산물종자류대한민국(국산)정립, 발아율, 수분국립농산물품질관리원 시험연구소 원산지검정과44
85120160725호밀맥류미국이종종자, 이물, 발아율, 수분국립농산물품질관리원 시험연구소 품질조사과43
93520221216콩나물콩두류대한민국(국산)발아율국립농산물품질관리원 시험연구소 품질조사과38
81020160128옥수수잡곡류미국이종종자, 이물, 발아율국립농산물품질관리원 시험연구소 품질조사과37