Dataset statistics
Number of variables | 7 |
---|---|
Number of observations | 10000 |
Missing cells | 4531 |
Missing cells (%) | 6.5% |
Duplicate rows | 415 |
Duplicate rows (%) | 4.2% |
Total size in memory | 664.1 KiB |
Average record size in memory | 68.0 B |
Variable types
Text | 1 |
---|---|
Categorical | 1 |
Numeric | 4 |
DateTime | 1 |
Dataset
Description | 전국 지하수 관정의 주소, 지하수용도코드, 년사용량, 개발일자, 심도, 양수능력, 취수계획량에 대한 정보를 제공합니다. |
---|---|
Author | 한국수자원공사 |
URL | https://www.data.go.kr/data/3074803/fileData.do |
Dataset has 415 (4.2%) duplicate rows | Duplicates |
심도 is highly overall correlated with 양수능력 and 1 other fields | High correlation |
양수능력 is highly overall correlated with 심도 and 1 other fields | High correlation |
취수계획량 is highly overall correlated with 심도 and 1 other fields | High correlation |
지하수용도 is highly imbalanced (52.8%) | Imbalance |
년사용량 has 538 (5.4%) missing values | Missing |
심도 has 908 (9.1%) missing values | Missing |
양수능력 has 681 (6.8%) missing values | Missing |
취수계획량 has 2400 (24.0%) missing values | Missing |
년사용량 has 152 (1.5%) zeros | Zeros |
심도 has 191 (1.9%) zeros | Zeros |
취수계획량 has 395 (4.0%) zeros | Zeros |
Reproduction
Analysis started | 2023-12-12 07:29:14.359644 |
---|---|
Analysis finished | 2023-12-12 07:29:18.100818 |
Duration | 3.74 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
주소
Text
Distinct | 1084 |
---|---|
Distinct (%) | 10.8% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Length
Max length | 17 |
---|---|
Median length | 16 |
Mean length | 12.3993 |
Min length | 10 |
Characters and Unicode
Total characters | 123993 |
---|---|
Distinct characters | 269 |
Distinct categories | 3 ? |
Distinct scripts | 2 ? |
Distinct blocks | 2 ? |
Unique
Unique | 210 ? |
---|---|
Unique (%) | 2.1% |
Sample
1st row | 대구광역시 달성군 옥포읍 |
---|---|
2nd row | 광주광역시 동구 용연동 |
3rd row | 인천광역시 강화군 내가면 |
4th row | 경기도 수원시 천천동 |
5th row | 대전광역시 서구 둔산동 |
Value | Count | Frequency (%) |
대전광역시 | 2141 | 7.1% |
인천광역시 | 1992 | 6.6% |
경기도 | 1794 | 6.0% |
광주광역시 | 1329 | 4.4% |
강화군 | 1211 | 4.0% |
동구 | 850 | 2.8% |
서울특별시 | 805 | 2.7% |
평택시 | 726 | 2.4% |
부산광역시 | 696 | 2.3% |
중구 | 682 | 2.3% |
Other values (1017) | 17774 |
Most occurring characters
Value | Count | Frequency (%) |
20000 | 16.1% | |
시 | 10011 | 8.1% |
광 | 9665 | 7.8% |
동 | 8759 | 7.1% |
역 | 7415 | 6.0% |
구 | 6762 | 5.5% |
대 | 3536 | 2.9% |
산 | 2759 | 2.2% |
도 | 2387 | 1.9% |
천 | 2354 | 1.9% |
Other values (259) | 50345 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 103870 | |
Space Separator | 20000 | 16.1% |
Decimal Number | 123 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
시 | 10011 | 9.6% |
광 | 9665 | 9.3% |
동 | 8759 | 8.4% |
역 | 7415 | 7.1% |
구 | 6762 | 6.5% |
대 | 3536 | 3.4% |
산 | 2759 | 2.7% |
도 | 2387 | 2.3% |
천 | 2354 | 2.3% |
군 | 2273 | 2.2% |
Other values (251) | 47949 |
Decimal Number
Value | Count | Frequency (%) |
3 | 35 | |
2 | 31 | |
1 | 30 | |
7 | 10 | 8.1% |
4 | 9 | 7.3% |
5 | 6 | 4.9% |
6 | 2 | 1.6% |
Space Separator
Value | Count | Frequency (%) |
20000 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 103870 | |
Common | 20123 | 16.2% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
시 | 10011 | 9.6% |
광 | 9665 | 9.3% |
동 | 8759 | 8.4% |
역 | 7415 | 7.1% |
구 | 6762 | 6.5% |
대 | 3536 | 3.4% |
산 | 2759 | 2.7% |
도 | 2387 | 2.3% |
천 | 2354 | 2.3% |
군 | 2273 | 2.2% |
Other values (251) | 47949 |
Common
Value | Count | Frequency (%) |
20000 | ||
3 | 35 | 0.2% |
2 | 31 | 0.2% |
1 | 30 | 0.1% |
7 | 10 | < 0.1% |
4 | 9 | < 0.1% |
5 | 6 | < 0.1% |
6 | 2 | < 0.1% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 103870 | |
ASCII | 20123 | 16.2% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
20000 | ||
3 | 35 | 0.2% |
2 | 31 | 0.2% |
1 | 30 | 0.1% |
7 | 10 | < 0.1% |
4 | 9 | < 0.1% |
5 | 6 | < 0.1% |
6 | 2 | < 0.1% |
Hangul
Value | Count | Frequency (%) |
시 | 10011 | 9.6% |
광 | 9665 | 9.3% |
동 | 8759 | 8.4% |
역 | 7415 | 7.1% |
구 | 6762 | 6.5% |
대 | 3536 | 3.4% |
산 | 2759 | 2.7% |
도 | 2387 | 2.3% |
천 | 2354 | 2.3% |
군 | 2273 | 2.2% |
Other values (251) | 47949 |
지하수용도
Categorical
IMBALANCE
 
Distinct | 5 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
생활용 | |
---|---|
농업용 | |
공업용 | 171 |
기타 | 25 |
<NA> | 2 |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 2.9977 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 농업용 |
---|---|
2nd row | 생활용 |
3rd row | 생활용 |
4th row | 생활용 |
5th row | 생활용 |
Common Values
Value | Count | Frequency (%) |
생활용 | 6002 | |
농업용 | 3800 | |
공업용 | 171 | 1.7% |
기타 | 25 | 0.2% |
<NA> | 2 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
생활용 | 6002 | |
농업용 | 3800 | |
공업용 | 171 | 1.7% |
기타 | 25 | 0.2% |
na | 2 | < 0.1% |
년사용량
Real number (ℝ)
MISSING
  ZEROS
 
Distinct | 1683 |
---|---|
Distinct (%) | 17.8% |
Missing | 538 |
Missing (%) | 5.4% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 2504.1976 |
Minimum | 0 |
---|---|
Maximum | 244704 |
Zeros | 152 |
Zeros (%) | 1.5% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 180 |
Q1 | 360 |
median | 990 |
Q3 | 1739 |
95-th percentile | 10800 |
Maximum | 244704 |
Range | 244704 |
Interquartile range (IQR) | 1379 |
Descriptive statistics
Standard deviation | 7608.7786 |
---|---|
Coefficient of variation (CV) | 3.0384098 |
Kurtosis | 281.55585 |
Mean | 2504.1976 |
Median Absolute Deviation (MAD) | 681 |
Skewness | 13.327442 |
Sum | 23694718 |
Variance | 57893512 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
277 | 483 | 4.8% |
600 | 235 | 2.4% |
360 | 232 | 2.3% |
285 | 192 | 1.9% |
280 | 175 | 1.8% |
365 | 160 | 1.6% |
0 | 152 | 1.5% |
256 | 127 | 1.3% |
300 | 122 | 1.2% |
673 | 119 | 1.2% |
Other values (1673) | 7465 | |
(Missing) | 538 | 5.4% |
Value | Count | Frequency (%) |
0 | 152 | |
1 | 18 | 0.2% |
2 | 1 | < 0.1% |
3 | 4 | < 0.1% |
4 | 2 | < 0.1% |
6 | 1 | < 0.1% |
7 | 4 | < 0.1% |
9 | 2 | < 0.1% |
10 | 6 | 0.1% |
11 | 1 | < 0.1% |
Value | Count | Frequency (%) |
244704 | 1 | |
194910 | 1 | |
194180 | 1 | |
182500 | 1 | |
144000 | 1 | |
127750 | 1 | |
115705 | 1 | |
109500 | 1 | |
102200 | 1 | |
98806 | 1 |
개발일자
Date
Distinct | 4191 |
---|---|
Distinct (%) | 41.9% |
Missing | 4 |
Missing (%) | < 0.1% |
Memory size | 156.2 KiB |
Minimum | 1900-01-01 00:00:00 |
---|---|
Maximum | 2020-12-31 00:00:00 |
심도
Real number (ℝ)
HIGH CORRELATION
  MISSING
  ZEROS
 
Distinct | 214 |
---|---|
Distinct (%) | 2.4% |
Missing | 908 |
Missing (%) | 9.1% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 68.092939 |
Minimum | 0 |
---|---|
Maximum | 1015 |
Zeros | 191 |
Zeros (%) | 1.9% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 10 |
Q1 | 25 |
median | 33 |
Q3 | 100 |
95-th percentile | 170 |
Maximum | 1015 |
Range | 1015 |
Interquartile range (IQR) | 75 |
Descriptive statistics
Standard deviation | 74.461013 |
---|---|
Coefficient of variation (CV) | 1.0935203 |
Kurtosis | 31.908849 |
Mean | 68.092939 |
Median Absolute Deviation (MAD) | 19.5 |
Skewness | 4.1985705 |
Sum | 619101 |
Variance | 5544.4424 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
30.0 | 1976 | |
100.0 | 1671 | |
20.0 | 837 | 8.4% |
150.0 | 405 | 4.0% |
25.0 | 348 | 3.5% |
50.0 | 327 | 3.3% |
120.0 | 281 | 2.8% |
80.0 | 268 | 2.7% |
70.0 | 237 | 2.4% |
40.0 | 197 | 2.0% |
Other values (204) | 2545 | |
(Missing) | 908 | 9.1% |
Value | Count | Frequency (%) |
0.0 | 191 | |
1.0 | 8 | 0.1% |
1.5 | 1 | < 0.1% |
2.0 | 7 | 0.1% |
2.2 | 1 | < 0.1% |
3.0 | 9 | 0.1% |
3.5 | 4 | < 0.1% |
3.6 | 1 | < 0.1% |
4.0 | 11 | 0.1% |
4.5 | 2 | < 0.1% |
Value | Count | Frequency (%) |
1015.0 | 1 | < 0.1% |
1000.0 | 5 | |
900.0 | 1 | < 0.1% |
895.0 | 1 | < 0.1% |
810.0 | 1 | < 0.1% |
800.0 | 1 | < 0.1% |
750.0 | 1 | < 0.1% |
700.0 | 3 | |
540.0 | 3 | |
520.0 | 4 |
양수능력
Real number (ℝ)
HIGH CORRELATION
  MISSING
 
Distinct | 331 |
---|---|
Distinct (%) | 3.6% |
Missing | 681 |
Missing (%) | 6.8% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 52.926133 |
Minimum | 0 |
---|---|
Maximum | 2400 |
Zeros | 6 |
Zeros (%) | 0.1% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 10 |
Q1 | 23.05 |
median | 32 |
Q3 | 60 |
95-th percentile | 140 |
Maximum | 2400 |
Range | 2400 |
Interquartile range (IQR) | 36.95 |
Descriptive statistics
Standard deviation | 74.401809 |
---|---|
Coefficient of variation (CV) | 1.405767 |
Kurtosis | 234.69839 |
Mean | 52.926133 |
Median Absolute Deviation (MAD) | 12 |
Skewness | 11.130637 |
Sum | 493218.63 |
Variance | 5535.6292 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
20.0 | 1296 | 13.0% |
30.0 | 1038 | 10.4% |
40.0 | 705 | 7.0% |
25.0 | 704 | 7.0% |
50.0 | 601 | 6.0% |
29.0 | 314 | 3.1% |
10.0 | 293 | 2.9% |
60.0 | 288 | 2.9% |
80.0 | 249 | 2.5% |
90.0 | 212 | 2.1% |
Other values (321) | 3619 | |
(Missing) | 681 | 6.8% |
Value | Count | Frequency (%) |
0.0 | 6 | 0.1% |
0.3 | 1 | < 0.1% |
0.5 | 1 | < 0.1% |
1.0 | 16 | 0.2% |
1.2 | 3 | < 0.1% |
1.5 | 4 | < 0.1% |
2.0 | 63 | |
2.2 | 2 | < 0.1% |
2.5 | 3 | < 0.1% |
2.7 | 1 | < 0.1% |
Value | Count | Frequency (%) |
2400.0 | 1 | |
2000.0 | 1 | |
1859.0 | 1 | |
1450.0 | 1 | |
1100.0 | 1 | |
1000.0 | 2 | |
910.0 | 1 | |
900.0 | 1 | |
870.0 | 1 | |
831.0 | 1 |
취수계획량
Real number (ℝ)
HIGH CORRELATION
  MISSING
  ZEROS
 
Distinct | 137 |
---|---|
Distinct (%) | 1.8% |
Missing | 2400 |
Missing (%) | 24.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 33.249632 |
Minimum | 0 |
---|---|
Maximum | 1500 |
Zeros | 395 |
Zeros (%) | 4.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 0 |
Q1 | 10 |
median | 20 |
Q3 | 40 |
95-th percentile | 100 |
Maximum | 1500 |
Range | 1500 |
Interquartile range (IQR) | 30 |
Descriptive statistics
Standard deviation | 51.185032 |
---|---|
Coefficient of variation (CV) | 1.5394165 |
Kurtosis | 181.43061 |
Mean | 33.249632 |
Median Absolute Deviation (MAD) | 10 |
Skewness | 9.7165896 |
Sum | 252697.2 |
Variance | 2619.9075 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
20.0 | 1308 | |
10.0 | 1055 | |
30.0 | 839 | 8.4% |
50.0 | 585 | 5.9% |
5.0 | 426 | 4.3% |
0.0 | 395 | 4.0% |
15.0 | 392 | 3.9% |
40.0 | 371 | 3.7% |
80.0 | 217 | 2.2% |
1.0 | 209 | 2.1% |
Other values (127) | 1803 | |
(Missing) | 2400 |
Value | Count | Frequency (%) |
0.0 | 395 | |
0.1 | 3 | < 0.1% |
0.2 | 6 | 0.1% |
0.3 | 2 | < 0.1% |
0.4 | 4 | < 0.1% |
0.5 | 23 | 0.2% |
0.6 | 2 | < 0.1% |
0.7 | 4 | < 0.1% |
0.8 | 6 | 0.1% |
0.9 | 1 | < 0.1% |
Value | Count | Frequency (%) |
1500.0 | 1 | < 0.1% |
1200.0 | 1 | < 0.1% |
1000.0 | 1 | < 0.1% |
900.0 | 1 | < 0.1% |
800.0 | 1 | < 0.1% |
770.0 | 1 | < 0.1% |
700.0 | 1 | < 0.1% |
600.0 | 2 | |
520.0 | 1 | < 0.1% |
500.0 | 3 |
지하수용도 | 년사용량 | 심도 | 양수능력 | 취수계획량 | |
---|---|---|---|---|---|
지하수용도 | 1.000 | 0.325 | 0.244 | 0.125 | 0.135 |
년사용량 | 0.325 | 1.000 | 0.380 | 0.834 | 0.854 |
심도 | 0.244 | 0.380 | 1.000 | 0.352 | 0.315 |
양수능력 | 0.125 | 0.834 | 0.352 | 1.000 | 0.975 |
취수계획량 | 0.135 | 0.854 | 0.315 | 0.975 | 1.000 |
년사용량 | 심도 | 양수능력 | 취수계획량 | 지하수용도 | |
---|---|---|---|---|---|
년사용량 | 1.000 | 0.324 | 0.397 | 0.306 | 0.150 |
심도 | 0.324 | 1.000 | 0.592 | 0.500 | 0.148 |
양수능력 | 0.397 | 0.592 | 1.000 | 0.604 | 0.080 |
취수계획량 | 0.306 | 0.500 | 0.604 | 1.000 | 0.086 |
지하수용도 | 0.150 | 0.148 | 0.080 | 0.086 | 1.000 |
주소 | 지하수용도 | 년사용량 | 개발일자 | 심도 | 양수능력 | 취수계획량 | |
---|---|---|---|---|---|---|---|
19188 | 대구광역시 달성군 옥포읍 | 농업용 | 356 | 2014-10-02 | 100.0 | <NA> | <NA> |
39405 | 광주광역시 동구 용연동 | 생활용 | 280 | 1986-03-06 | 30.0 | 20.0 | 1.0 |
29748 | 인천광역시 강화군 내가면 | 생활용 | 270 | 2016-10-20 | 35.0 | 15.0 | 5.0 |
80090 | 경기도 수원시 천천동 | 생활용 | 277 | 1988-01-01 | 50.0 | 26.0 | <NA> |
61571 | 대전광역시 서구 둔산동 | 생활용 | 1 | 2001-02-21 | 80.0 | 60.0 | 30.0 |
37522 | 인천광역시 옹진군 덕적면 | 생활용 | 256 | 2012-02-01 | 25.0 | 25.0 | 10.0 |
73819 | 울산광역시 울주군 두동면 | 농업용 | 1150 | 2019-09-18 | 130.0 | 33.0 | 20.0 |
10410 | 부산광역시 해운대구 중동 | 생활용 | 2628 | 1994-11-03 | 50.0 | 70.0 | 30.0 |
79544 | 경기도 수원시 이목동 | 생활용 | 277 | 2002-11-20 | <NA> | <NA> | <NA> |
4814 | 서울특별시 서초구 내곡동 | 생활용 | 252 | 1994-11-04 | 18.0 | 30.0 | 10.0 |
주소 | 지하수용도 | 년사용량 | 개발일자 | 심도 | 양수능력 | 취수계획량 | |
---|---|---|---|---|---|---|---|
55396 | 대전광역시 동구 자양동 | 생활용 | 277 | 1980-08-14 | <NA> | 20.0 | <NA> |
3734 | 서울특별시 구로구 구로동 | 생활용 | 10 | 1901-01-01 | 20.0 | 29.6 | <NA> |
28515 | 인천광역시 강화군 길상면 | 농업용 | 600 | 2002-04-29 | 100.0 | 40.0 | 30.0 |
92789 | 경기도 평택시 용이동 | 농업용 | 514 | 2003-01-20 | 30.0 | 20.0 | 10.0 |
20153 | 대구광역시 달성군 화원읍 | 농업용 | 6300 | 2012-08-31 | 100.0 | 90.0 | 90.0 |
71395 | 대전광역시 대덕구 읍내동 | 생활용 | 365 | 1990-08-01 | 70.0 | 10.0 | <NA> |
46474 | 광주광역시 광산구 동호동 | 농업용 | <NA> | 2018-03-09 | <NA> | <NA> | <NA> |
81752 | 경기도 성남시 석운동 | 생활용 | 1080 | 2004-12-28 | 100.0 | 65.0 | 5.0 |
68380 | 대전광역시 유성구 죽동 | 생활용 | 360 | 1901-01-01 | 30.0 | 25.0 | <NA> |
13133 | 부산광역시 기장군 기장읍 | 생활용 | 671 | 2015-03-12 | 150.0 | 20.0 | 3.0 |
Most frequently occurring
주소 | 지하수용도 | 년사용량 | 개발일자 | 심도 | 양수능력 | 취수계획량 | # duplicates | |
---|---|---|---|---|---|---|---|---|
363 | 인천광역시 강화군 선원면 | 농업용 | 2219 | 2020-03-02 | 50.0 | 30.0 | 40.0 | 43 |
345 | 인천광역시 강화군 불은면 | 농업용 | 2168 | 2020-03-02 | 30.0 | 20.0 | 15.0 | 35 |
373 | 인천광역시 강화군 송해면 | 생활용 | 1825 | 1901-01-01 | <NA> | <NA> | <NA> | 31 |
365 | 인천광역시 강화군 선원면 | 생활용 | 2078 | 2020-03-02 | 50.0 | 30.0 | 40.0 | 29 |
136 | 광주광역시 광산구 유계동 | 농업용 | <NA> | 2018-03-09 | <NA> | <NA> | <NA> | 27 |
122 | 광주광역시 광산구 연산동 | 농업용 | <NA> | 2018-03-09 | <NA> | <NA> | <NA> | 24 |
78 | 경기도 평택시 지제동 | 생활용 | 1319 | 2003-01-22 | 30.0 | 20.0 | 10.0 | 22 |
251 | 대전광역시 유성구 구암동 | 생활용 | 360 | 1901-01-01 | 30.0 | 25.0 | <NA> | 14 |
331 | 인천광역시 강화군 강화읍 | 생활용 | 1825 | 1901-01-01 | 30.0 | <NA> | <NA> | 13 |
366 | 인천광역시 강화군 송해면 | 농업용 | 600 | 2000-08-01 | 30.0 | 50.0 | 50.0 | 13 |