Dataset statistics
Number of variables | 8 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 1235 |
Duplicate rows (%) | 12.3% |
Total size in memory | 732.4 KiB |
Average record size in memory | 75.0 B |
Variable types
Categorical | 5 |
---|---|
Numeric | 3 |
Dataset
Description | 경기도 하남시 상수도과에서 상수도 사용량, 상수업종, 부과금액 등의 정보를 제공하여 상수도 요금 과징 현황을 보여주는 자료입니다. |
---|---|
Author | 경기도 하남시 |
URL | https://www.data.go.kr/data/15042428/fileData.do |
Dataset has 1235 (12.3%) duplicate rows | Duplicates |
상수업종 is highly overall correlated with 하수사용량(톤) and 1 other fields | High correlation |
하수업종 is highly overall correlated with 하수사용량(톤) and 1 other fields | High correlation |
상수사용량(톤) is highly overall correlated with 부과금액(원) and 1 other fields | High correlation |
하수사용량(톤) is highly overall correlated with 상수업종 and 1 other fields | High correlation |
부과금액(원) is highly overall correlated with 상수사용량(톤) | High correlation |
지하업종 is highly overall correlated with 상수사용량(톤) | High correlation |
상수업종 is highly imbalanced (57.8%) | Imbalance |
지하업종 is highly imbalanced (96.4%) | Imbalance |
하수사용량(톤) is highly skewed (γ1 = 55.99470905) | Skewed |
상수사용량(톤) has 1218 (12.2%) zeros | Zeros |
하수사용량(톤) has 9976 (99.8%) zeros | Zeros |
Reproduction
Analysis started | 2024-04-13 12:24:25.569577 |
---|---|
Analysis finished | 2024-04-13 12:24:30.945110 |
Duration | 5.38 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
부과년월
Categorical
Distinct | 6 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
2023-10 | |
---|---|
2023-11 | |
2023-09 | |
2023-12 | |
2024-01 |
Length
Max length | 7 |
---|---|
Median length | 7 |
Mean length | 7 |
Min length | 7 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 2023-12 |
---|---|
2nd row | 2023-10 |
3rd row | 2023-11 |
4th row | 2024-01 |
5th row | 2023-09 |
Common Values
Value | Count | Frequency (%) |
2023-10 | 2067 | |
2023-11 | 2030 | |
2023-09 | 1989 | |
2023-12 | 1961 | |
2024-01 | 1891 | |
2024-02 | 62 | 0.6% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
2023-10 | 2067 | |
2023-11 | 2030 | |
2023-09 | 1989 | |
2023-12 | 1961 | |
2024-01 | 1891 | |
2024-02 | 62 | 0.6% |
행정동
Categorical
Distinct | 10 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
풍산동 | |
---|---|
감북동 | |
천현동 | |
덕풍3동 | |
덕풍2동 | |
Other values (5) |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 3.4036 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 덕풍2동 |
---|---|
2nd row | 천현동 |
3rd row | 덕풍2동 |
4th row | 덕풍2동 |
5th row | 춘궁동 |
Common Values
Value | Count | Frequency (%) |
풍산동 | 1992 | |
감북동 | 1547 | |
천현동 | 1333 | |
덕풍3동 | 1115 | |
덕풍2동 | 970 | |
신장2동 | 788 | 7.9% |
신장1동 | 658 | 6.6% |
초이동 | 605 | 6.0% |
덕풍1동 | 505 | 5.1% |
춘궁동 | 487 | 4.9% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
풍산동 | 1992 | |
감북동 | 1547 | |
천현동 | 1333 | |
덕풍3동 | 1115 | |
덕풍2동 | 970 | |
신장2동 | 788 | 7.9% |
신장1동 | 658 | 6.6% |
초이동 | 605 | 6.0% |
덕풍1동 | 505 | 5.1% |
춘궁동 | 487 | 4.9% |
상수업종
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 5 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
가정용 | |
---|---|
일반용 | |
<NA> | 74 |
대중탕용 | 2 |
산업용 | 2 |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 3.0076 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 일반용 |
---|---|
2nd row | 일반용 |
3rd row | 가정용 |
4th row | 일반용 |
5th row | 일반용 |
Common Values
Value | Count | Frequency (%) |
가정용 | 6606 | |
일반용 | 3316 | |
<NA> | 74 | 0.7% |
대중탕용 | 2 | < 0.1% |
산업용 | 2 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
가정용 | 6606 | |
일반용 | 3316 | |
na | 74 | 0.7% |
대중탕용 | 2 | < 0.1% |
산업용 | 2 | < 0.1% |
하수업종
Categorical
HIGH CORRELATION
 
Distinct | 4 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
가정용 | |
---|---|
일반용 | |
<NA> | 550 |
대중탕용 | 2 |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 3.0552 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 일반용 |
---|---|
2nd row | 일반용 |
3rd row | 가정용 |
4th row | 일반용 |
5th row | 일반용 |
Common Values
Value | Count | Frequency (%) |
가정용 | 6405 | |
일반용 | 3043 | |
<NA> | 550 | 5.5% |
대중탕용 | 2 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
가정용 | 6405 | |
일반용 | 3043 | |
na | 550 | 5.5% |
대중탕용 | 2 | < 0.1% |
지하업종
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 4 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
<NA> | |
---|---|
일반용 | 48 |
가정용 | 23 |
대중탕용 | 3 |
Length
Max length | 4 |
---|---|
Median length | 4 |
Mean length | 3.9929 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | <NA> |
---|---|
2nd row | <NA> |
3rd row | <NA> |
4th row | <NA> |
5th row | <NA> |
Common Values
Value | Count | Frequency (%) |
<NA> | 9926 | |
일반용 | 48 | 0.5% |
가정용 | 23 | 0.2% |
대중탕용 | 3 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
na | 9926 | |
일반용 | 48 | 0.5% |
가정용 | 23 | 0.2% |
대중탕용 | 3 | < 0.1% |
상수사용량(톤)
Real number (ℝ)
HIGH CORRELATION
  ZEROS
 
Distinct | 504 |
---|---|
Distinct (%) | 5.0% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 130.7903 |
Minimum | 0 |
---|---|
Maximum | 36695 |
Zeros | 1218 |
Zeros (%) | 12.2% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 0 |
Q1 | 5 |
median | 16 |
Q3 | 34 |
95-th percentile | 136.05 |
Maximum | 36695 |
Range | 36695 |
Interquartile range (IQR) | 29 |
Descriptive statistics
Standard deviation | 1182.4589 |
---|---|
Coefficient of variation (CV) | 9.0408758 |
Kurtosis | 422.51393 |
Mean | 130.7903 |
Median Absolute Deviation (MAD) | 12 |
Skewness | 18.200408 |
Sum | 1307903 |
Variance | 1398208.9 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
0 | 1218 | 12.2% |
1 | 292 | 2.9% |
4 | 279 | 2.8% |
7 | 275 | 2.8% |
5 | 270 | 2.7% |
10 | 265 | 2.6% |
14 | 262 | 2.6% |
6 | 256 | 2.6% |
11 | 253 | 2.5% |
2 | 253 | 2.5% |
Other values (494) | 6377 |
Value | Count | Frequency (%) |
0 | 1218 | |
1 | 292 | 2.9% |
2 | 253 | 2.5% |
3 | 230 | 2.3% |
4 | 279 | 2.8% |
5 | 270 | 2.7% |
6 | 256 | 2.6% |
7 | 275 | 2.8% |
8 | 238 | 2.4% |
9 | 214 | 2.1% |
Value | Count | Frequency (%) |
36695 | 1 | |
35742 | 1 | |
35651 | 1 | |
34327 | 1 | |
26643 | 1 | |
18695 | 1 | |
18530 | 1 | |
18207 | 1 | |
16786 | 1 | |
16693 | 1 |
하수사용량(톤)
Real number (ℝ)
HIGH CORRELATION
  SKEWED
  ZEROS
 
Distinct | 22 |
---|---|
Distinct (%) | 0.2% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 0.8409 |
Minimum | 0 |
---|---|
Maximum | 2530 |
Zeros | 9976 |
Zeros (%) | 99.8% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 0 |
Q1 | 0 |
median | 0 |
Q3 | 0 |
95-th percentile | 0 |
Maximum | 2530 |
Range | 2530 |
Interquartile range (IQR) | 0 |
Descriptive statistics
Standard deviation | 37.687651 |
---|---|
Coefficient of variation (CV) | 44.818231 |
Kurtosis | 3306.6906 |
Mean | 0.8409 |
Median Absolute Deviation (MAD) | 0 |
Skewness | 55.994709 |
Sum | 8409 |
Variance | 1420.359 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
0 | 9976 | |
232 | 2 | < 0.1% |
39 | 2 | < 0.1% |
10 | 2 | < 0.1% |
2026 | 1 | < 0.1% |
40 | 1 | < 0.1% |
8 | 1 | < 0.1% |
68 | 1 | < 0.1% |
13 | 1 | < 0.1% |
3 | 1 | < 0.1% |
Other values (12) | 12 | 0.1% |
Value | Count | Frequency (%) |
0 | 9976 | |
3 | 1 | < 0.1% |
8 | 1 | < 0.1% |
10 | 2 | < 0.1% |
13 | 1 | < 0.1% |
15 | 1 | < 0.1% |
16 | 1 | < 0.1% |
32 | 1 | < 0.1% |
35 | 1 | < 0.1% |
39 | 2 | < 0.1% |
Value | Count | Frequency (%) |
2530 | 1 | |
2026 | 1 | |
1720 | 1 | |
696 | 1 | |
326 | 1 | |
232 | 2 | |
161 | 1 | |
68 | 1 | |
63 | 1 | |
54 | 1 |
부과금액(원)
Real number (ℝ)
HIGH CORRELATION
 
Distinct | 2717 |
---|---|
Distinct (%) | 27.2% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 161366.89 |
Minimum | 0 |
---|---|
Maximum | 44590210 |
Zeros | 74 |
Zeros (%) | 0.7% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 450 |
Q1 | 5950 |
median | 15600 |
Q3 | 36940 |
95-th percentile | 201631.5 |
Maximum | 44590210 |
Range | 44590210 |
Interquartile range (IQR) | 30990 |
Descriptive statistics
Standard deviation | 1314139.5 |
---|---|
Coefficient of variation (CV) | 8.1437987 |
Kurtosis | 378.96311 |
Mean | 161366.89 |
Median Absolute Deviation (MAD) | 11880 |
Skewness | 17.092689 |
Sum | 1.6136689 × 109 |
Variance | 1.7269626 × 1012 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
440 | 381 | 3.8% |
1200 | 276 | 2.8% |
12920 | 172 | 1.7% |
10250 | 156 | 1.6% |
9360 | 150 | 1.5% |
12030 | 149 | 1.5% |
11140 | 140 | 1.4% |
15600 | 138 | 1.4% |
450 | 136 | 1.4% |
13820 | 136 | 1.4% |
Other values (2707) | 8166 |
Value | Count | Frequency (%) |
0 | 74 | 0.7% |
110 | 1 | < 0.1% |
300 | 1 | < 0.1% |
440 | 381 | |
450 | 136 | 1.4% |
460 | 14 | 0.1% |
470 | 1 | < 0.1% |
490 | 4 | < 0.1% |
510 | 1 | < 0.1% |
520 | 1 | < 0.1% |
Value | Count | Frequency (%) |
44590210 | 1 | |
34344470 | 1 | |
32368580 | 1 | |
31827000 | 1 | |
31514040 | 1 | |
31432870 | 1 | |
23799590 | 1 | |
22514650 | 1 | |
21918510 | 1 | |
19284220 | 1 |
부과년월 | 행정동 | 상수업종 | 하수업종 | 지하업종 | 상수사용량(톤) | 하수사용량(톤) | 부과금액(원) | |
---|---|---|---|---|---|---|---|---|
부과년월 | 1.000 | 0.168 | 0.024 | 0.060 | 0.000 | 0.000 | 0.150 | 0.000 |
행정동 | 0.168 | 1.000 | 0.270 | 0.318 | 0.288 | 0.058 | 0.000 | 0.052 |
상수업종 | 0.024 | 0.270 | 1.000 | 1.000 | NaN | 0.312 | NaN | 0.318 |
하수업종 | 0.060 | 0.318 | 1.000 | 1.000 | NaN | 0.043 | NaN | 0.122 |
지하업종 | 0.000 | 0.288 | NaN | NaN | 1.000 | NaN | 0.000 | 0.000 |
상수사용량(톤) | 0.000 | 0.058 | 0.312 | 0.043 | NaN | 1.000 | 0.000 | 0.957 |
하수사용량(톤) | 0.150 | 0.000 | NaN | NaN | 0.000 | 0.000 | 1.000 | 0.115 |
부과금액(원) | 0.000 | 0.052 | 0.318 | 0.122 | 0.000 | 0.957 | 0.115 | 1.000 |
상수업종 | 지하업종 | 하수업종 | 행정동 | 부과년월 | |
---|---|---|---|---|---|
상수업종 | 1.000 | NaN | 1.000 | 0.164 | 0.015 |
지하업종 | NaN | 1.000 | NaN | 0.180 | 0.000 |
하수업종 | 1.000 | NaN | 1.000 | 0.201 | 0.025 |
행정동 | 0.164 | 0.180 | 0.201 | 1.000 | 0.089 |
부과년월 | 0.015 | 0.000 | 0.025 | 0.089 | 1.000 |
상수사용량(톤) | 하수사용량(톤) | 부과금액(원) | 부과년월 | 행정동 | 상수업종 | 하수업종 | 지하업종 | |
---|---|---|---|---|---|---|---|---|
상수사용량(톤) | 1.000 | -0.075 | 0.970 | 0.000 | 0.028 | 0.144 | 0.027 | 1.000 |
하수사용량(톤) | -0.075 | 1.000 | 0.029 | 0.055 | 0.000 | 1.000 | 1.000 | 0.000 |
부과금액(원) | 0.970 | 0.029 | 1.000 | 0.000 | 0.025 | 0.147 | 0.077 | 0.000 |
부과년월 | 0.000 | 0.055 | 0.000 | 1.000 | 0.089 | 0.015 | 0.025 | 0.000 |
행정동 | 0.028 | 0.000 | 0.025 | 0.089 | 1.000 | 0.164 | 0.201 | 0.180 |
상수업종 | 0.144 | 1.000 | 0.147 | 0.015 | 0.164 | 1.000 | 1.000 | 0.000 |
하수업종 | 0.027 | 1.000 | 0.077 | 0.025 | 0.201 | 1.000 | 1.000 | 0.000 |
지하업종 | 1.000 | 0.000 | 0.000 | 0.000 | 0.180 | 0.000 | 0.000 | 1.000 |
부과년월 | 행정동 | 상수업종 | 하수업종 | 지하업종 | 상수사용량(톤) | 하수사용량(톤) | 부과금액(원) | |
---|---|---|---|---|---|---|---|---|
67097 | 2023-12 | 덕풍2동 | 일반용 | 일반용 | <NA> | 4 | 0 | 7010 |
21090 | 2023-10 | 천현동 | 일반용 | 일반용 | <NA> | 1 | 0 | 2080 |
48149 | 2023-11 | 덕풍2동 | 가정용 | 가정용 | <NA> | 25 | 0 | 24720 |
87795 | 2024-01 | 덕풍2동 | 일반용 | 일반용 | <NA> | 26 | 0 | 33190 |
18070 | 2023-09 | 춘궁동 | 일반용 | 일반용 | <NA> | 0 | 0 | 450 |
2056 | 2023-09 | 천현동 | 일반용 | 일반용 | <NA> | 0 | 0 | 720 |
55959 | 2023-11 | 감북동 | 일반용 | 일반용 | <NA> | 9 | 0 | 15220 |
93547 | 2024-01 | 풍산동 | 가정용 | 가정용 | <NA> | 23 | 0 | 22140 |
46351 | 2023-11 | 덕풍2동 | 일반용 | 일반용 | <NA> | 16 | 0 | 27480 |
83822 | 2024-01 | 신장2동 | 가정용 | 가정용 | <NA> | 11 | 0 | 10250 |
부과년월 | 행정동 | 상수업종 | 하수업종 | 지하업종 | 상수사용량(톤) | 하수사용량(톤) | 부과금액(원) | |
---|---|---|---|---|---|---|---|---|
28771 | 2023-10 | 덕풍3동 | 가정용 | 가정용 | <NA> | 2 | 0 | 2980 |
4257 | 2023-09 | 신장2동 | 가정용 | 가정용 | <NA> | 9 | 0 | 8820 |
21493 | 2023-10 | 천현동 | 일반용 | 일반용 | <NA> | 32 | 0 | 53770 |
82626 | 2024-01 | 신장1동 | 일반용 | 일반용 | <NA> | 7 | 0 | 12180 |
45555 | 2023-11 | 덕풍1동 | 가정용 | 가정용 | <NA> | 11 | 0 | 10250 |
10927 | 2023-09 | 풍산동 | 일반용 | <NA> | <NA> | 23 | 0 | 22840 |
20077 | 2023-10 | 천현동 | 가정용 | 가정용 | <NA> | 66 | 0 | 55210 |
24630 | 2023-10 | 신장2동 | 가정용 | 가정용 | <NA> | 0 | 0 | 440 |
44664 | 2023-11 | 신장2동 | 일반용 | 일반용 | <NA> | 34 | 0 | 31120 |
92471 | 2024-01 | 풍산동 | 가정용 | 가정용 | <NA> | 17 | 0 | 15600 |
Most frequently occurring
부과년월 | 행정동 | 상수업종 | 하수업종 | 지하업종 | 상수사용량(톤) | 하수사용량(톤) | 부과금액(원) | # duplicates | |
---|---|---|---|---|---|---|---|---|---|
461 | 2023-10 | 풍산동 | 가정용 | 가정용 | <NA> | 0 | 0 | 1200 | 38 |
720 | 2023-11 | 풍산동 | 가정용 | 가정용 | <NA> | 0 | 0 | 1200 | 36 |
1193 | 2024-01 | 풍산동 | 가정용 | 가정용 | <NA> | 0 | 0 | 1200 | 31 |
0 | 2023-09 | 감북동 | 가정용 | 가정용 | <NA> | 0 | 0 | 440 | 28 |
205 | 2023-09 | 풍산동 | 가정용 | 가정용 | <NA> | 0 | 0 | 1200 | 24 |
947 | 2023-12 | 풍산동 | 가정용 | 가정용 | <NA> | 0 | 0 | 1200 | 23 |
244 | 2023-10 | 감북동 | 가정용 | 가정용 | <NA> | 0 | 0 | 440 | 22 |
503 | 2023-11 | 감북동 | 가정용 | 가정용 | <NA> | 0 | 0 | 440 | 18 |
474 | 2023-10 | 풍산동 | 가정용 | 가정용 | <NA> | 14 | 0 | 12920 | 16 |
989 | 2024-01 | 감북동 | 가정용 | 가정용 | <NA> | 0 | 0 | 440 | 16 |