Dataset statistics
Number of variables | 6 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 1988 |
Duplicate rows (%) | 19.9% |
Total size in memory | 566.4 KiB |
Average record size in memory | 58.0 B |
Variable types
Text | 1 |
---|---|
Categorical | 3 |
Numeric | 2 |
Dataset
Description | 비점오염저감시설의 강우 기초자료 확보를 위한 데이터로서 기상청 API를 활용한 주소 좌표별 기상 정보를 제공합니다. |
---|---|
URL | https://www.data.go.kr/data/15070134/fileData.do |
예보시간 has constant value "" | Constant |
구분코드 has constant value "" | Constant |
Dataset has 1988 (19.9%) duplicate rows | Duplicates |
예측_값 is highly imbalanced (98.8%) | Imbalance |
Reproduction
Analysis started | 2023-12-12 09:07:35.187027 |
---|---|
Analysis finished | 2023-12-12 09:07:36.415491 |
Duration | 1.23 second |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
예보일자
Text
Distinct | 70 |
---|---|
Distinct (%) | 0.7% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Length
Max length | 13 |
---|---|
Median length | 13 |
Mean length | 13 |
Min length | 13 |
Characters and Unicode
Total characters | 130000 |
---|---|
Distinct characters | 14 |
Distinct categories | 3 ? |
Distinct scripts | 2 ? |
Distinct blocks | 2 ? |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 2022년 01월 18일 |
---|---|
2nd row | 2022년 02월 12일 |
3rd row | 2022년 12월 31일 |
4th row | 2022년 03월 03일 |
5th row | 2022년 01월 18일 |
Value | Count | Frequency (%) |
2022년 | 10000 | |
01월 | 4397 | |
02월 | 3959 | 13.2% |
12월 | 895 | 3.0% |
03월 | 749 | 2.5% |
27일 | 481 | 1.6% |
04일 | 474 | 1.6% |
05일 | 456 | 1.5% |
02일 | 429 | 1.4% |
28일 | 428 | 1.4% |
Other values (26) | 7732 |
Most occurring characters
Value | Count | Frequency (%) |
2 | 39170 | |
0 | 23450 | |
20000 | ||
년 | 10000 | 7.7% |
월 | 10000 | 7.7% |
일 | 10000 | 7.7% |
1 | 9146 | 7.0% |
3 | 2308 | 1.8% |
7 | 1071 | 0.8% |
4 | 1056 | 0.8% |
Other values (4) | 3799 | 2.9% |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 80000 | |
Other Letter | 30000 | 23.1% |
Space Separator | 20000 | 15.4% |
Most frequent character per category
Decimal Number
Value | Count | Frequency (%) |
2 | 39170 | |
0 | 23450 | |
1 | 9146 | 11.4% |
3 | 2308 | 2.9% |
7 | 1071 | 1.3% |
4 | 1056 | 1.3% |
5 | 989 | 1.2% |
8 | 981 | 1.2% |
6 | 932 | 1.2% |
9 | 897 | 1.1% |
Other Letter
Value | Count | Frequency (%) |
년 | 10000 | |
월 | 10000 | |
일 | 10000 |
Space Separator
Value | Count | Frequency (%) |
20000 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 100000 | |
Hangul | 30000 | 23.1% |
Most frequent character per script
Common
Value | Count | Frequency (%) |
2 | 39170 | |
0 | 23450 | |
20000 | ||
1 | 9146 | 9.1% |
3 | 2308 | 2.3% |
7 | 1071 | 1.1% |
4 | 1056 | 1.1% |
5 | 989 | 1.0% |
8 | 981 | 1.0% |
6 | 932 | 0.9% |
Hangul
Value | Count | Frequency (%) |
년 | 10000 | |
월 | 10000 | |
일 | 10000 |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 100000 | |
Hangul | 30000 | 23.1% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
2 | 39170 | |
0 | 23450 | |
20000 | ||
1 | 9146 | 9.1% |
3 | 2308 | 2.3% |
7 | 1071 | 1.1% |
4 | 1056 | 1.1% |
5 | 989 | 1.0% |
8 | 981 | 1.0% |
6 | 932 | 0.9% |
Hangul
Value | Count | Frequency (%) |
년 | 10000 | |
월 | 10000 | |
일 | 10000 |
예보시간
Categorical
CONSTANT
 
Distinct | 1 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
오전 12시 |
---|
Length
Max length | 6 |
---|---|
Median length | 6 |
Mean length | 6 |
Min length | 6 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 오전 12시 |
---|---|
2nd row | 오전 12시 |
3rd row | 오전 12시 |
4th row | 오전 12시 |
5th row | 오전 12시 |
Common Values
Value | Count | Frequency (%) |
오전 12시 | 10000 |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
오전 | 10000 | |
12시 | 10000 |
구분코드
Categorical
CONSTANT
 
Distinct | 1 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
PCP |
---|
Length
Max length | 3 |
---|---|
Median length | 3 |
Mean length | 3 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | PCP |
---|---|
2nd row | PCP |
3rd row | PCP |
4th row | PCP |
5th row | PCP |
Common Values
Value | Count | Frequency (%) |
PCP | 10000 |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
pcp | 10000 |
예측_값
Categorical
IMBALANCE
 
Distinct | 2 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
강수없음 | |
---|---|
1.0mm | 11 |
Length
Max length | 5 |
---|---|
Median length | 4 |
Mean length | 4.0011 |
Min length | 4 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 강수없음 |
---|---|
2nd row | 강수없음 |
3rd row | 강수없음 |
4th row | 강수없음 |
5th row | 강수없음 |
Common Values
Value | Count | Frequency (%) |
강수없음 | 9989 | |
1.0mm | 11 | 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
강수없음 | 9989 | |
1.0mm | 11 | 0.1% |
X좌표
Real number (ℝ)
Distinct | 62 |
---|---|
Distinct (%) | 0.6% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 69.8427 |
Minimum | 21 |
---|---|
Maximum | 126 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 21 |
---|---|
5-th percentile | 48 |
Q1 | 58 |
median | 64 |
Q3 | 84 |
95-th percentile | 98 |
Maximum | 126 |
Range | 105 |
Interquartile range (IQR) | 26 |
Descriptive statistics
Standard deviation | 16.614649 |
---|---|
Coefficient of variation (CV) | 0.23788669 |
Kurtosis | -0.18884527 |
Mean | 69.8427 |
Median Absolute Deviation (MAD) | 9 |
Skewness | 0.44226178 |
Sum | 698427 |
Variance | 276.04656 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
58 | 509 | 5.1% |
61 | 477 | 4.8% |
62 | 473 | 4.7% |
59 | 443 | 4.4% |
63 | 400 | 4.0% |
60 | 382 | 3.8% |
55 | 374 | 3.7% |
56 | 331 | 3.3% |
97 | 264 | 2.6% |
66 | 242 | 2.4% |
Other values (52) | 6105 |
Value | Count | Frequency (%) |
21 | 57 | |
33 | 51 | |
43 | 44 | 0.4% |
44 | 45 | 0.4% |
45 | 51 | |
46 | 85 | |
47 | 47 | 0.5% |
48 | 127 | |
49 | 81 | |
50 | 97 |
Value | Count | Frequency (%) |
126 | 53 | 0.5% |
104 | 56 | 0.6% |
102 | 105 | 1.1% |
101 | 36 | 0.4% |
100 | 55 | 0.5% |
99 | 113 | |
98 | 127 | |
97 | 264 | |
96 | 228 | |
95 | 32 | 0.3% |
Y좌표
Real number (ℝ)
Distinct | 76 |
---|---|
Distinct (%) | 0.8% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 101.3103 |
Minimum | 32 |
---|---|
Maximum | 146 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 32 |
---|---|
5-th percentile | 66 |
Q1 | 79 |
median | 103 |
Q3 | 123 |
95-th percentile | 132 |
Maximum | 146 |
Range | 114 |
Interquartile range (IQR) | 44 |
Descriptive statistics
Standard deviation | 23.59526 |
---|---|
Coefficient of variation (CV) | 0.2329009 |
Kurtosis | -0.85575802 |
Mean | 101.3103 |
Median Absolute Deviation (MAD) | 21 |
Skewness | -0.30192766 |
Sum | 1013103 |
Variance | 556.73629 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
125 | 444 | 4.4% |
126 | 401 | 4.0% |
75 | 395 | 4.0% |
123 | 365 | 3.6% |
120 | 311 | 3.1% |
128 | 308 | 3.1% |
99 | 295 | 2.9% |
77 | 276 | 2.8% |
73 | 253 | 2.5% |
74 | 242 | 2.4% |
Other values (66) | 6710 |
Value | Count | Frequency (%) |
32 | 45 | |
35 | 44 | |
50 | 43 | |
53 | 47 | |
55 | 45 | |
59 | 49 | |
60 | 45 | |
62 | 42 | |
64 | 51 | |
65 | 84 |
Value | Count | Frequency (%) |
146 | 47 | 0.5% |
141 | 82 | 0.8% |
140 | 53 | 0.5% |
138 | 97 | 1.0% |
136 | 81 | 0.8% |
134 | 94 | 0.9% |
132 | 183 | |
130 | 113 | 1.1% |
129 | 94 | 0.9% |
128 | 308 |
예보일자 | 예측_값 | X좌표 | Y좌표 | |
---|---|---|---|---|
예보일자 | 1.000 | 0.182 | 0.000 | 0.000 |
예측_값 | 0.182 | 1.000 | 0.118 | 0.046 |
X좌표 | 0.000 | 0.118 | 1.000 | 0.563 |
Y좌표 | 0.000 | 0.046 | 0.563 | 1.000 |
X좌표 | Y좌표 | 예측_값 | |
---|---|---|---|
X좌표 | 1.000 | -0.150 | 0.117 |
Y좌표 | -0.150 | 1.000 | 0.035 |
예측_값 | 0.117 | 0.035 | 1.000 |
예보일자 | 예보시간 | 구분코드 | 예측_값 | X좌표 | Y좌표 | |
---|---|---|---|---|---|---|
20521 | 2022년 01월 18일 | 오전 12시 | PCP | 강수없음 | 58 | 73 |
56621 | 2022년 02월 12일 | 오전 12시 | PCP | 강수없음 | 78 | 106 |
92991 | 2022년 12월 31일 | 오전 12시 | PCP | 강수없음 | 54 | 126 |
82054 | 2022년 03월 03일 | 오전 12시 | PCP | 강수없음 | 84 | 103 |
20339 | 2022년 01월 18일 | 오전 12시 | PCP | 강수없음 | 60 | 120 |
38080 | 2022년 01월 29일 | 오전 12시 | PCP | 강수없음 | 62 | 108 |
34015 | 2022년 01월 26일 | 오전 12시 | PCP | 강수없음 | 60 | 104 |
45217 | 2022년 02월 03일 | 오전 12시 | PCP | 강수없음 | 63 | 123 |
17060 | 2022년 01월 13일 | 오전 12시 | PCP | 강수없음 | 57 | 128 |
92663 | 2022년 12월 31일 | 오전 12시 | PCP | 강수없음 | 59 | 77 |
예보일자 | 예보시간 | 구분코드 | 예측_값 | X좌표 | Y좌표 | |
---|---|---|---|---|---|---|
85740 | 2022년 12월 26일 | 오전 12시 | PCP | 강수없음 | 76 | 67 |
22955 | 2022년 01월 21일 | 오전 12시 | PCP | 강수없음 | 61 | 65 |
14194 | 2022년 01월 12일 | 오전 12시 | PCP | 강수없음 | 97 | 88 |
34090 | 2022년 01월 26일 | 오전 12시 | PCP | 강수없음 | 57 | 126 |
83452 | 2022년 03월 04일 | 오전 12시 | PCP | 강수없음 | 83 | 68 |
56132 | 2022년 02월 11일 | 오전 12시 | PCP | 강수없음 | 59 | 74 |
46366 | 2022년 02월 03일 | 오전 12시 | PCP | 강수없음 | 75 | 87 |
44122 | 2022년 02월 05일 | 오전 12시 | PCP | 강수없음 | 83 | 104 |
74603 | 2022년 02월 26일 | 오전 12시 | PCP | 강수없음 | 72 | 95 |
87946 | 2022년 12월 30일 | 오전 12시 | PCP | 강수없음 | 72 | 83 |
Most frequently occurring
예보일자 | 예보시간 | 구분코드 | 예측_값 | X좌표 | Y좌표 | # duplicates | |
---|---|---|---|---|---|---|---|
1373 | 2022년 02월 18일 | 오전 12시 | PCP | 강수없음 | 82 | 121 | 5 |
1480 | 2022년 02월 24일 | 오전 12시 | PCP | 강수없음 | 54 | 125 | 5 |
1578 | 2022년 02월 27일 | 오전 12시 | PCP | 강수없음 | 44 | 55 | 5 |
1934 | 2022년 12월 30일 | 오전 12시 | PCP | 강수없음 | 56 | 89 | 5 |
61 | 2022년 01월 03일 | 오전 12시 | PCP | 강수없음 | 72 | 83 | 4 |
207 | 2022년 01월 08일 | 오전 12시 | PCP | 강수없음 | 43 | 95 | 4 |
246 | 2022년 01월 09일 | 오전 12시 | PCP | 강수없음 | 78 | 71 | 4 |
311 | 2022년 01월 11일 | 오전 12시 | PCP | 강수없음 | 99 | 114 | 4 |
418 | 2022년 01월 17일 | 오전 12시 | PCP | 강수없음 | 100 | 103 | 4 |
444 | 2022년 01월 18일 | 오전 12시 | PCP | 강수없음 | 92 | 94 | 4 |