Dataset statistics
Number of variables | 7 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 976 |
Duplicate rows (%) | 9.8% |
Total size in memory | 644.5 KiB |
Average record size in memory | 66.0 B |
Variable types
Text | 3 |
---|---|
Categorical | 3 |
Numeric | 1 |
Dataset
Description | 품목명,단위,등급,가격,산지,친환경구분,입력일 |
---|---|
Author | 서울시농수산식품공사 |
URL | https://data.seoul.go.kr/dataList/OA-2662/S/1/datasetView.do |
Dataset has 976 (9.8%) duplicate rows | Duplicates |
등급 is highly imbalanced (68.5%) | Imbalance |
친환경구분 is highly imbalanced (56.7%) | Imbalance |
Reproduction
Analysis started | 2024-04-21 00:40:05.374416 |
---|---|
Analysis finished | 2024-04-21 00:40:07.798451 |
Duration | 2.42 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
품목명
Text
Distinct | 651 |
---|---|
Distinct (%) | 6.5% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Length
Max length | 20 |
---|---|
Median length | 18 |
Mean length | 9.231 |
Min length | 5 |
Characters and Unicode
Total characters | 92310 |
---|---|
Distinct characters | 301 |
Distinct categories | 8 ? |
Distinct scripts | 3 ? |
Distinct blocks | 2 ? |
Unique
Unique | 128 ? |
---|---|
Unique (%) | 1.3% |
Sample
1st row | [기타양채]통로메인 |
---|---|
2nd row | [오이]백다다기 |
3rd row | [딸기]설향(딸기) |
4th row | [토마토]대추빨강(방울토마토) |
5th row | [버섯]버섯(꽃느타리) |
Value | Count | Frequency (%) |
오이]백다다기 | 402 | 4.0% |
딸기]설향(딸기 | 280 | 2.8% |
딸기]설향 | 261 | 2.6% |
참외]참외 | 247 | 2.5% |
토마토]토마토대저 | 207 | 2.1% |
깻잎]깻잎 | 188 | 1.9% |
참외]금싸라기(참외 | 172 | 1.7% |
호박]애호박 | 171 | 1.7% |
버섯]표고버섯 | 141 | 1.4% |
시금치]시금치 | 136 | 1.4% |
Other values (644) | 7798 |
Most occurring characters
Value | Count | Frequency (%) |
[ | 10000 | 10.8% |
] | 10000 | 10.8% |
( | 3880 | 4.2% |
) | 3853 | 4.2% |
기 | 3582 | 3.9% |
토 | 2728 | 3.0% |
추 | 2298 | 2.5% |
버 | 2196 | 2.4% |
섯 | 2196 | 2.4% |
딸 | 1849 | 2.0% |
Other values (291) | 49728 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 64177 | |
Open Punctuation | 13880 | 15.0% |
Close Punctuation | 13853 | 15.0% |
Uppercase Letter | 266 | 0.3% |
Dash Punctuation | 99 | 0.1% |
Other Punctuation | 25 | < 0.1% |
Decimal Number | 7 | < 0.1% |
Space Separator | 3 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
기 | 3582 | 5.6% |
토 | 2728 | 4.3% |
추 | 2298 | 3.6% |
버 | 2196 | 3.4% |
섯 | 2196 | 3.4% |
딸 | 1849 | 2.9% |
마 | 1831 | 2.9% |
고 | 1800 | 2.8% |
이 | 1784 | 2.8% |
양 | 1293 | 2.0% |
Other values (276) | 42620 |
Uppercase Letter
Value | Count | Frequency (%) |
B | 74 | |
O | 74 | |
X | 74 | |
R | 22 | 8.3% |
T | 22 | 8.3% |
Open Punctuation
Value | Count | Frequency (%) |
[ | 10000 | |
( | 3880 | 28.0% |
Close Punctuation
Value | Count | Frequency (%) |
] | 10000 | |
) | 3853 | 27.8% |
Other Punctuation
Value | Count | Frequency (%) |
. | 22 | |
, | 3 | 12.0% |
Decimal Number
Value | Count | Frequency (%) |
2 | 5 | |
1 | 2 | 28.6% |
Dash Punctuation
Value | Count | Frequency (%) |
- | 99 |
Space Separator
Value | Count | Frequency (%) |
3 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 64177 | |
Common | 27867 | |
Latin | 266 | 0.3% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
기 | 3582 | 5.6% |
토 | 2728 | 4.3% |
추 | 2298 | 3.6% |
버 | 2196 | 3.4% |
섯 | 2196 | 3.4% |
딸 | 1849 | 2.9% |
마 | 1831 | 2.9% |
고 | 1800 | 2.8% |
이 | 1784 | 2.8% |
양 | 1293 | 2.0% |
Other values (276) | 42620 |
Common
Value | Count | Frequency (%) |
[ | 10000 | |
] | 10000 | |
( | 3880 | 13.9% |
) | 3853 | 13.8% |
- | 99 | 0.4% |
. | 22 | 0.1% |
2 | 5 | < 0.1% |
3 | < 0.1% | |
, | 3 | < 0.1% |
1 | 2 | < 0.1% |
Latin
Value | Count | Frequency (%) |
B | 74 | |
O | 74 | |
X | 74 | |
R | 22 | 8.3% |
T | 22 | 8.3% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 64177 | |
ASCII | 28133 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
[ | 10000 | |
] | 10000 | |
( | 3880 | 13.8% |
) | 3853 | 13.7% |
- | 99 | 0.4% |
B | 74 | 0.3% |
O | 74 | 0.3% |
X | 74 | 0.3% |
R | 22 | 0.1% |
T | 22 | 0.1% |
Other values (5) | 35 | 0.1% |
Hangul
Value | Count | Frequency (%) |
기 | 3582 | 5.6% |
토 | 2728 | 4.3% |
추 | 2298 | 3.6% |
버 | 2196 | 3.4% |
섯 | 2196 | 3.4% |
딸 | 1849 | 2.9% |
마 | 1831 | 2.9% |
고 | 1800 | 2.8% |
이 | 1784 | 2.8% |
양 | 1293 | 2.0% |
Other values (276) | 42620 |
단위
Text
Distinct | 75 |
---|---|
Distinct (%) | 0.8% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
10kg | 2027 | |
2kg | 1711 | |
4kg | 1311 | |
8kg | 942 | |
1kg | 808 | 8.1% |
5kg | 766 | 7.7% |
20kg | 404 | 4.0% |
2.5kg | 346 | 3.5% |
3kg | 326 | 3.3% |
15kg | 246 | 2.5% |
Other values (55) | 1113 |
Most occurring characters
Value | Count | Frequency (%) |
k | 10000 | |
g | 10000 | |
1 | 4011 | |
2 | 2631 | 7.5% |
0 | 2465 | 7.1% |
5 | 1557 | 4.5% |
4 | 1348 | 3.9% |
8 | 1169 | 3.3% |
. | 919 | 2.6% |
3 | 494 | 1.4% |
Other values (3) | 349 | 1.0% |
Most occurring categories
Value | Count | Frequency (%) |
Lowercase Letter | 20000 | |
Decimal Number | 14024 | |
Other Punctuation | 919 | 2.6% |
Most frequent character per category
Decimal Number
Value | Count | Frequency (%) |
1 | 4011 | |
2 | 2631 | |
0 | 2465 | |
5 | 1557 | 11.1% |
4 | 1348 | 9.6% |
8 | 1169 | 8.3% |
3 | 494 | 3.5% |
6 | 143 | 1.0% |
7 | 125 | 0.9% |
9 | 81 | 0.6% |
Lowercase Letter
Value | Count | Frequency (%) |
k | 10000 | |
g | 10000 |
Other Punctuation
Value | Count | Frequency (%) |
. | 919 |
Most occurring scripts
Value | Count | Frequency (%) |
Latin | 20000 | |
Common | 14943 |
Most frequent character per script
Common
Value | Count | Frequency (%) |
1 | 4011 | |
2 | 2631 | |
0 | 2465 | |
5 | 1557 | 10.4% |
4 | 1348 | 9.0% |
8 | 1169 | 7.8% |
. | 919 | 6.2% |
3 | 494 | 3.3% |
6 | 143 | 1.0% |
7 | 125 | 0.8% |
Latin
Value | Count | Frequency (%) |
k | 10000 | |
g | 10000 |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 34943 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
k | 10000 | |
g | 10000 | |
1 | 4011 | |
2 | 2631 | 7.5% |
0 | 2465 | 7.1% |
5 | 1557 | 4.5% |
4 | 1348 | 3.9% |
8 | 1169 | 3.3% |
. | 919 | 2.6% |
3 | 494 | 1.4% |
Other values (3) | 349 | 1.0% |
등급
Categorical
IMBALANCE
 
Distinct | 9 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
특(1등) | |
---|---|
상(2등) | |
보통(3등) | 450 |
9등(등외) | 265 |
없음 | 70 |
Other values (4) | 53 |
Length
Max length | 6 |
---|---|
Median length | 5 |
Mean length | 5.0346 |
Min length | 2 |
Unique
Unique | 1 ? |
---|---|
Unique (%) | < 0.1% |
Sample
1st row | 특(1등) |
---|---|
2nd row | 특(1등) |
3rd row | 특(1등) |
4th row | 특(1등) |
5th row | 특(1등) |
Common Values
Value | Count | Frequency (%) |
특(1등) | 8199 | |
상(2등) | 963 | 9.6% |
보통(3등) | 450 | 4.5% |
9등(등외) | 265 | 2.6% |
없음 | 70 | 0.7% |
4등 | 34 | 0.3% |
5등 | 13 | 0.1% |
6등 | 5 | 0.1% |
8등 | 1 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
특(1등 | 8199 | |
상(2등 | 963 | 9.6% |
보통(3등 | 450 | 4.5% |
9등(등외 | 265 | 2.6% |
없음 | 70 | 0.7% |
4등 | 34 | 0.3% |
5등 | 13 | 0.1% |
6등 | 5 | < 0.1% |
8등 | 1 | < 0.1% |
가격
Real number (ℝ)
Distinct | 608 |
---|---|
Distinct (%) | 6.1% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 25043.345 |
Minimum | 300 |
---|---|
Maximum | 268800 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 300 |
---|---|
5-th percentile | 2400 |
Q1 | 8000 |
median | 15500 |
Q3 | 31075 |
95-th percentile | 81000 |
Maximum | 268800 |
Range | 268500 |
Interquartile range (IQR) | 23075 |
Descriptive statistics
Standard deviation | 27229.429 |
---|---|
Coefficient of variation (CV) | 1.087292 |
Kurtosis | 8.9594909 |
Mean | 25043.345 |
Median Absolute Deviation (MAD) | 9300 |
Skewness | 2.4800599 |
Sum | 2.5043346 × 108 |
Variance | 7.4144178 × 108 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
10000 | 227 | 2.3% |
12000 | 226 | 2.3% |
15000 | 224 | 2.2% |
11000 | 218 | 2.2% |
16000 | 210 | 2.1% |
14000 | 197 | 2.0% |
18000 | 192 | 1.9% |
13000 | 192 | 1.9% |
9000 | 190 | 1.9% |
17000 | 177 | 1.8% |
Other values (598) | 7947 |
Value | Count | Frequency (%) |
300 | 2 | < 0.1% |
350 | 7 | |
400 | 2 | < 0.1% |
450 | 2 | < 0.1% |
500 | 10 | |
550 | 4 | < 0.1% |
600 | 8 | |
650 | 3 | < 0.1% |
700 | 12 | |
730 | 1 | < 0.1% |
Value | Count | Frequency (%) |
268800 | 1 | < 0.1% |
259200 | 1 | < 0.1% |
250000 | 3 | |
228000 | 1 | < 0.1% |
222000 | 1 | < 0.1% |
209000 | 1 | < 0.1% |
207000 | 1 | < 0.1% |
206000 | 1 | < 0.1% |
205000 | 2 | |
203500 | 1 | < 0.1% |
산지
Text
Distinct | 179 |
---|---|
Distinct (%) | 1.8% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
경기도 | 1967 | 10.1% |
경상남도 | 1927 | 9.9% |
충청남도 | 1710 | 8.8% |
전라남도 | 1089 | 5.6% |
경상북도 | 965 | 4.9% |
진주시 | 461 | 2.4% |
전라북도 | 449 | 2.3% |
성주군 | 437 | 2.2% |
밀양시 | 374 | 1.9% |
부산광역시 | 362 | 1.9% |
Other values (178) | 9795 |
Most occurring characters
Value | Count | Frequency (%) |
9536 | 12.5% | |
도 | 9056 | 11.9% |
시 | 5762 | 7.6% |
남 | 5015 | 6.6% |
경 | 4934 | 6.5% |
군 | 3821 | 5.0% |
상 | 3055 | 4.0% |
청 | 2609 | 3.4% |
주 | 2579 | 3.4% |
충 | 2071 | 2.7% |
Other values (140) | 27759 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 66661 | |
Space Separator | 9536 | 12.5% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
도 | 9056 | 13.6% |
시 | 5762 | 8.6% |
남 | 5015 | 7.5% |
경 | 4934 | 7.4% |
군 | 3821 | 5.7% |
상 | 3055 | 4.6% |
청 | 2609 | 3.9% |
주 | 2579 | 3.9% |
충 | 2071 | 3.1% |
기 | 1972 | 3.0% |
Other values (139) | 25787 |
Space Separator
Value | Count | Frequency (%) |
9536 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 66661 | |
Common | 9536 | 12.5% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
도 | 9056 | 13.6% |
시 | 5762 | 8.6% |
남 | 5015 | 7.5% |
경 | 4934 | 7.4% |
군 | 3821 | 5.7% |
상 | 3055 | 4.6% |
청 | 2609 | 3.9% |
주 | 2579 | 3.9% |
충 | 2071 | 3.1% |
기 | 1972 | 3.0% |
Other values (139) | 25787 |
Common
Value | Count | Frequency (%) |
9536 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 66661 | |
ASCII | 9536 | 12.5% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
9536 |
Hangul
Value | Count | Frequency (%) |
도 | 9056 | 13.6% |
시 | 5762 | 8.6% |
남 | 5015 | 7.5% |
경 | 4934 | 7.4% |
군 | 3821 | 5.7% |
상 | 3055 | 4.6% |
청 | 2609 | 3.9% |
주 | 2579 | 3.9% |
충 | 2071 | 3.1% |
기 | 1972 | 3.0% |
Other values (139) | 25787 |
친환경구분
Categorical
IMBALANCE
 
Distinct | 6 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
일반 | |
---|---|
우수농산물 | |
무농약 | 632 |
품질인증 | 115 |
저농약 | 44 |
Length
Max length | 5 |
---|---|
Median length | 2 |
Mean length | 2.6039 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 일반 |
---|---|
2nd row | 일반 |
3rd row | 우수농산물 |
4th row | 우수농산물 |
5th row | 무농약 |
Common Values
Value | Count | Frequency (%) |
일반 | 7490 | |
우수농산물 | 1707 | 17.1% |
무농약 | 632 | 6.3% |
품질인증 | 115 | 1.1% |
저농약 | 44 | 0.4% |
유기농 | 12 | 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
일반 | 7490 | |
우수농산물 | 1707 | 17.1% |
무농약 | 632 | 6.3% |
품질인증 | 115 | 1.1% |
저농약 | 44 | 0.4% |
유기농 | 12 | 0.1% |
입력일
Categorical
Distinct | 4 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
20240419 | |
---|---|
20240417 | |
20240418 | |
20240416 | 259 |
Length
Max length | 8 |
---|---|
Median length | 8 |
Mean length | 8 |
Min length | 8 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 20240417 |
---|---|
2nd row | 20240419 |
3rd row | 20240417 |
4th row | 20240418 |
5th row | 20240417 |
Common Values
Value | Count | Frequency (%) |
20240419 | 3717 | |
20240417 | 3071 | |
20240418 | 2953 | |
20240416 | 259 | 2.6% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
20240419 | 3717 | |
20240417 | 3071 | |
20240418 | 2953 | |
20240416 | 259 | 2.6% |
단위 | 등급 | 가격 | 친환경구분 | 입력일 | |
---|---|---|---|---|---|
단위 | 1.000 | 0.425 | 0.666 | 0.487 | 0.161 |
등급 | 0.425 | 1.000 | 0.110 | 0.115 | 0.111 |
가격 | 0.666 | 0.110 | 1.000 | 0.133 | 0.055 |
친환경구분 | 0.487 | 0.115 | 0.133 | 1.000 | 0.176 |
입력일 | 0.161 | 0.111 | 0.055 | 0.176 | 1.000 |
입력일 | 등급 | 친환경구분 | |
---|---|---|---|
입력일 | 1.000 | 0.071 | 0.114 |
등급 | 0.071 | 1.000 | 0.057 |
친환경구분 | 0.114 | 0.057 | 1.000 |
가격 | 등급 | 친환경구분 | 입력일 | |
---|---|---|---|---|
가격 | 1.000 | 0.050 | 0.070 | 0.033 |
등급 | 0.050 | 1.000 | 0.057 | 0.071 |
친환경구분 | 0.070 | 0.057 | 1.000 | 0.114 |
입력일 | 0.033 | 0.071 | 0.114 | 1.000 |
품목명 | 단위 | 등급 | 가격 | 산지 | 친환경구분 | 입력일 | |
---|---|---|---|---|---|---|---|
72257 | [기타양채]통로메인 | 2kg | 특(1등) | 2400 | 경기도 성남시 | 일반 | 20240417 |
29790 | [오이]백다다기 | 21kg | 특(1등) | 36000 | 충청남도 천안시 | 일반 | 20240419 |
70702 | [딸기]설향(딸기) | 2kg | 특(1등) | 8000 | 경상남도 산청군 | 우수농산물 | 20240417 |
63098 | [토마토]대추빨강(방울토마토) | 3kg | 특(1등) | 15000 | 충청남도 예산군 | 우수농산물 | 20240418 |
79638 | [버섯]버섯(꽃느타리) | 2kg | 특(1등) | 4800 | 경기도 양평군 | 무농약 | 20240417 |
53518 | [버섯]표고버섯 | 8kg | 특(1등) | 36000 | 충청남도 홍성군 | 일반 | 20240418 |
76401 | [고구마]호박밤고구마 | 10kg | 특(1등) | 33500 | 전라남도 영암군 | 무농약 | 20240417 |
46444 | [딸기]설향(딸기) | 2kg | 특(1등) | 14000 | 전라남도 담양군 | 우수농산물 | 20240418 |
87557 | [양파]양파 | 15kg | 특(1등) | 16500 | 제주자치도 제주시 | 일반 | 20240417 |
26333 | [쑥갓]쑥갓 | 4kg | 특(1등) | 8500 | 경기도 광주시 | 일반 | 20240419 |
품목명 | 단위 | 등급 | 가격 | 산지 | 친환경구분 | 입력일 | |
---|---|---|---|---|---|---|---|
85387 | [생고추]오이맛고추 | 10kg | 상(2등) | 28000 | 경상남도 밀양시 | 일반 | 20240417 |
99798 | [버섯]표고버섯(중국산) | 13kg | 특(1등) | 26000 | 전라남도 장흥군 | 일반 | 20240416 |
43511 | [깻잎]깻잎관 | 4kg | 특(1등) | 9000 | 충청남도 금산군 | 일반 | 20240418 |
29672 | [오이]백다다기 | 8kg | 특(1등) | 14500 | 경기도 양주시 | 일반 | 20240419 |
76331 | [고구마]호박밤고구마 | 10kg | 특(1등) | 20000 | 전라북도 익산시 | 일반 | 20240417 |
42756 | [깻잎]깻잎 | 3kg | 특(1등) | 16500 | 충청남도 금산군 | 우수농산물 | 20240418 |
21482 | [버섯]표고버섯(국내산) | 15kg | 특(1등) | 82500 | 충청남도 천안시 | 일반 | 20240419 |
53557 | [버섯]표고버섯 | 16kg | 특(1등) | 100000 | 충청북도 진천군 | 일반 | 20240418 |
38427 | [파]대파 | 10kg | 특(1등) | 18300 | 전라남도 영광군 | 일반 | 20240418 |
80187 | [버섯]새송이 | 6kg | 보통(3등) | 7500 | 충청남도 천안시 | 무농약 | 20240417 |
Most frequently occurring
품목명 | 단위 | 등급 | 가격 | 산지 | 친환경구분 | 입력일 | # duplicates | |
---|---|---|---|---|---|---|---|---|
783 | [토마토]대저토마토 | 2.5kg | 없음 | 8000 | 부산광역시 강서구 | 일반 | 20240419 | 9 |
653 | [오이]백다다기 | 20kg | 상(2등) | 32000 | 충청남도 천안시 | 우수농산물 | 20240419 | 8 |
217 | [딸기]설향(딸기) | 2kg | 특(1등) | 7000 | 경상남도 산청군 | 우수농산물 | 20240417 | 7 |
223 | [딸기]설향(딸기) | 2kg | 특(1등) | 9000 | 경상남도 산청군 | 우수농산물 | 20240419 | 7 |
858 | [토마토]토마토대저 | 2.5kg | 특(1등) | 15000 | 부산광역시 강서구 | 일반 | 20240419 | 7 |
416 | [버섯]생표고(국내산) | 8kg | 특(1등) | 40000 | 전라북도 고창군 | 일반 | 20240417 | 6 |
596 | [아스파라거스]아스파라거스 | 1kg | 특(1등) | 7000 | 강원도 양구군 | 일반 | 20240417 | 6 |
655 | [오이]백다다기 | 20kg | 상(2등) | 34000 | 충청남도 천안시 | 우수농산물 | 20240418 | 6 |
753 | [참외]참외 | 10kg | 특(1등) | 75000 | 경상북도 성주군 | 일반 | 20240417 | 6 |
856 | [토마토]토마토대저 | 2.5kg | 특(1등) | 15000 | 부산광역시 강서구 | 일반 | 20240417 | 6 |