Dataset statistics
Number of variables | 9 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 800.8 KiB |
Average record size in memory | 82.0 B |
Variable types
Text | 1 |
---|---|
Categorical | 6 |
Numeric | 2 |
Dataset
Description | 강원도 속초시 상하수도요금관리 수용가기초정보입니다. 관리번호, 검침원코드, 종류코드, 구경코드, 형식코드, 설치구분코드, 대표업종코드, 세대수 자료가 포함되어있습니다. |
---|---|
Author | 강원도 속초시 |
URL | https://www.data.go.kr/data/15093752/fileData.do |
겸업종코드 is highly overall correlated with 구경코드 and 5 other fields | High correlation |
형식코드 is highly overall correlated with 구경코드 and 5 other fields | High correlation |
설치구분코드 is highly overall correlated with 형식코드 and 1 other fields | High correlation |
대표업종코드 is highly overall correlated with 형식코드 and 1 other fields | High correlation |
종류코드 is highly overall correlated with 형식코드 and 1 other fields | High correlation |
검침원코드 is highly overall correlated with 형식코드 and 1 other fields | High correlation |
구경코드 is highly overall correlated with 형식코드 and 1 other fields | High correlation |
세대수 is highly overall correlated with 형식코드 and 1 other fields | High correlation |
형식코드 is highly imbalanced (97.5%) | Imbalance |
설치구분코드 is highly imbalanced (74.2%) | Imbalance |
대표업종코드 is highly imbalanced (51.6%) | Imbalance |
겸업종코드 is highly imbalanced (91.6%) | Imbalance |
세대수 is highly skewed (γ1 = 30.21706746) | Skewed |
Reproduction
Analysis started | 2023-12-12 05:05:56.040444 |
---|---|
Analysis finished | 2023-12-12 05:05:58.247302 |
Duration | 2.21 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
관리번호
Text
Distinct | 9994 |
---|---|
Distinct (%) | 99.9% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Length
Max length | 16 |
---|---|
Median length | 16 |
Mean length | 16 |
Min length | 16 |
Characters and Unicode
Total characters | 160000 |
---|---|
Distinct characters | 11 |
Distinct categories | 2 ? |
Distinct scripts | 1 ? |
Distinct blocks | 1 ? |
Unique
Unique | 9988 ? |
---|---|
Unique (%) | 99.9% |
Sample
1st row | 05-04-138-000000 |
---|---|
2nd row | 01-03-155-290000 |
3rd row | 06-22-104-000000 |
4th row | 09-02-157-030000 |
5th row | 13-06-375-000000 |
Value | Count | Frequency (%) |
06-12-146-000000 | 2 | < 0.1% |
08-04-106-010000 | 2 | < 0.1% |
05-01-295-000000 | 2 | < 0.1% |
06-21-161-040000 | 2 | < 0.1% |
06-10-087-030000 | 2 | < 0.1% |
06-22-135-000000 | 2 | < 0.1% |
12-00-730-000000 | 1 | < 0.1% |
05-04-138-000000 | 1 | < 0.1% |
05-04-052-000000 | 1 | < 0.1% |
07-05-125-000000 | 1 | < 0.1% |
Other values (9984) | 9984 |
Most occurring characters
Value | Count | Frequency (%) |
0 | 78810 | |
- | 30000 | 18.8% |
1 | 13081 | 8.2% |
2 | 8689 | 5.4% |
3 | 5956 | 3.7% |
6 | 5358 | 3.3% |
4 | 4724 | 3.0% |
8 | 3931 | 2.5% |
5 | 3773 | 2.4% |
7 | 2954 | 1.8% |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 130000 | |
Dash Punctuation | 30000 | 18.8% |
Most frequent character per category
Decimal Number
Value | Count | Frequency (%) |
0 | 78810 | |
1 | 13081 | 10.1% |
2 | 8689 | 6.7% |
3 | 5956 | 4.6% |
6 | 5358 | 4.1% |
4 | 4724 | 3.6% |
8 | 3931 | 3.0% |
5 | 3773 | 2.9% |
7 | 2954 | 2.3% |
9 | 2724 | 2.1% |
Dash Punctuation
Value | Count | Frequency (%) |
- | 30000 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 160000 |
Most frequent character per script
Common
Value | Count | Frequency (%) |
0 | 78810 | |
- | 30000 | 18.8% |
1 | 13081 | 8.2% |
2 | 8689 | 5.4% |
3 | 5956 | 3.7% |
6 | 5358 | 3.3% |
4 | 4724 | 3.0% |
8 | 3931 | 2.5% |
5 | 3773 | 2.4% |
7 | 2954 | 1.8% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 160000 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
0 | 78810 | |
- | 30000 | 18.8% |
1 | 13081 | 8.2% |
2 | 8689 | 5.4% |
3 | 5956 | 3.7% |
6 | 5358 | 3.3% |
4 | 4724 | 3.0% |
8 | 3931 | 2.5% |
5 | 3773 | 2.4% |
7 | 2954 | 1.8% |
검침원코드
Categorical
HIGH CORRELATION
 
Distinct | 10 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
강동훈 | |
---|---|
남기화 | |
정은익 | |
엄석용 | |
최종명 | |
Other values (5) |
Length
Max length | 3 |
---|---|
Median length | 3 |
Mean length | 2.9558 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 천상한 |
---|---|
2nd row | 엄석용 |
3rd row | 김창권 |
4th row | 최종명 |
5th row | 엄석용 |
Common Values
Value | Count | Frequency (%) |
강동훈 | 1181 | |
남기화 | 1133 | |
정은익 | 1104 | |
엄석용 | 1094 | |
최종명 | 1065 | |
우종환 | 1038 | |
이재성 | 1010 | |
천상한 | 993 | |
김창권 | 940 | |
김욱 | 442 | 4.4% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
강동훈 | 1181 | |
남기화 | 1133 | |
정은익 | 1104 | |
엄석용 | 1094 | |
최종명 | 1065 | |
우종환 | 1038 | |
이재성 | 1010 | |
천상한 | 993 | |
김창권 | 940 | |
김욱 | 442 | 4.4% |
종류코드
Categorical
HIGH CORRELATION
 
Distinct | 2 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
유니온식 | |
---|---|
원격식 |
Length
Max length | 4 |
---|---|
Median length | 4 |
Mean length | 3.859 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 원격식 |
---|---|
2nd row | 유니온식 |
3rd row | 유니온식 |
4th row | 유니온식 |
5th row | 유니온식 |
Common Values
Value | Count | Frequency (%) |
유니온식 | 8590 | |
원격식 | 1410 | 14.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
유니온식 | 8590 | |
원격식 | 1410 | 14.1% |
구경코드
Real number (ℝ)
HIGH CORRELATION
 
Distinct | 9 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 15.3887 |
Minimum | 13 |
---|---|
Maximum | 200 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 13 |
---|---|
5-th percentile | 13 |
Q1 | 13 |
median | 13 |
Q3 | 13 |
95-th percentile | 25 |
Maximum | 200 |
Range | 187 |
Interquartile range (IQR) | 0 |
Descriptive statistics
Standard deviation | 9.7065665 |
---|---|
Coefficient of variation (CV) | 0.63075936 |
Kurtosis | 81.196301 |
Mean | 15.3887 |
Median Absolute Deviation (MAD) | 0 |
Skewness | 7.7394672 |
Sum | 153887 |
Variance | 94.217434 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
13 | 8704 | |
25 | 525 | 5.2% |
20 | 458 | 4.6% |
40 | 136 | 1.4% |
50 | 87 | 0.9% |
80 | 52 | 0.5% |
100 | 25 | 0.2% |
150 | 12 | 0.1% |
200 | 1 | < 0.1% |
Value | Count | Frequency (%) |
13 | 8704 | |
20 | 458 | 4.6% |
25 | 525 | 5.2% |
40 | 136 | 1.4% |
50 | 87 | 0.9% |
80 | 52 | 0.5% |
100 | 25 | 0.2% |
150 | 12 | 0.1% |
200 | 1 | < 0.1% |
Value | Count | Frequency (%) |
200 | 1 | < 0.1% |
150 | 12 | 0.1% |
100 | 25 | 0.2% |
80 | 52 | 0.5% |
50 | 87 | 0.9% |
40 | 136 | 1.4% |
25 | 525 | 5.2% |
20 | 458 | 4.6% |
13 | 8704 |
형식코드
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 2 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
<NA> | |
---|---|
직독식 | 25 |
Length
Max length | 4 |
---|---|
Median length | 4 |
Mean length | 3.9975 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | <NA> |
---|---|
2nd row | <NA> |
3rd row | <NA> |
4th row | <NA> |
5th row | <NA> |
Common Values
Value | Count | Frequency (%) |
<NA> | 9975 | |
직독식 | 25 | 0.2% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
na | 9975 | |
직독식 | 25 | 0.2% |
설치구분코드
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 8 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
정상조정 | |
---|---|
가구분할 | 769 |
정수 | 427 |
중지 | 117 |
휴전 | 32 |
Other values (3) | 11 |
Length
Max length | 6 |
---|---|
Median length | 4 |
Mean length | 3.8868 |
Min length | 2 |
Unique
Unique | 2 ? |
---|---|
Unique (%) | < 0.1% |
Sample
1st row | 정상조정 |
---|---|
2nd row | 정상조정 |
3rd row | 정상조정 |
4th row | 정상조정 |
5th row | 정상조정 |
Common Values
Value | Count | Frequency (%) |
정상조정 | 8644 | |
가구분할 | 769 | 7.7% |
정수 | 427 | 4.3% |
중지 | 117 | 1.2% |
휴전 | 32 | 0.3% |
정액료미부과 | 9 | 0.1% |
메인정산 | 1 | < 0.1% |
가산금미조정 | 1 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
정상조정 | 8644 | |
가구분할 | 769 | 7.7% |
정수 | 427 | 4.3% |
중지 | 117 | 1.2% |
휴전 | 32 | 0.3% |
정액료미부과 | 9 | 0.1% |
메인정산 | 1 | < 0.1% |
가산금미조정 | 1 | < 0.1% |
대표업종코드
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 4 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
가정용 | |
---|---|
일반용 | |
산업용 | 62 |
대중탕용 | 4 |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 3.0004 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 가정용 |
---|---|
2nd row | 가정용 |
3rd row | 가정용 |
4th row | 가정용 |
5th row | 가정용 |
Common Values
Value | Count | Frequency (%) |
가정용 | 6665 | |
일반용 | 3269 | |
산업용 | 62 | 0.6% |
대중탕용 | 4 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
가정용 | 6665 | |
일반용 | 3269 | |
산업용 | 62 | 0.6% |
대중탕용 | 4 | < 0.1% |
겸업종코드
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 2 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
<NA> | |
---|---|
가정용 | 105 |
Length
Max length | 4 |
---|---|
Median length | 4 |
Mean length | 3.9895 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | <NA> |
---|---|
2nd row | <NA> |
3rd row | <NA> |
4th row | <NA> |
5th row | <NA> |
Common Values
Value | Count | Frequency (%) |
<NA> | 9895 | |
가정용 | 105 | 1.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
na | 9895 | |
가정용 | 105 | 1.1% |
세대수
Real number (ℝ)
HIGH CORRELATION
  SKEWED
 
Distinct | 55 |
---|---|
Distinct (%) | 0.5% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 2.4076 |
Minimum | 1 |
---|---|
Maximum | 1319 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 1 |
---|---|
5-th percentile | 1 |
Q1 | 1 |
median | 1 |
Q3 | 1 |
95-th percentile | 2 |
Maximum | 1319 |
Range | 1318 |
Interquartile range (IQR) | 0 |
Descriptive statistics
Standard deviation | 26.806819 |
---|---|
Coefficient of variation (CV) | 11.134249 |
Kurtosis | 1082.2462 |
Mean | 2.4076 |
Median Absolute Deviation (MAD) | 0 |
Skewness | 30.217067 |
Sum | 24076 |
Variance | 718.60552 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
1 | 9222 | |
2 | 377 | 3.8% |
3 | 168 | 1.7% |
4 | 71 | 0.7% |
5 | 44 | 0.4% |
6 | 20 | 0.2% |
7 | 17 | 0.2% |
10 | 12 | 0.1% |
8 | 8 | 0.1% |
9 | 6 | 0.1% |
Other values (45) | 55 | 0.5% |
Value | Count | Frequency (%) |
1 | 9222 | |
2 | 377 | 3.8% |
3 | 168 | 1.7% |
4 | 71 | 0.7% |
5 | 44 | 0.4% |
6 | 20 | 0.2% |
7 | 17 | 0.2% |
8 | 8 | 0.1% |
9 | 6 | 0.1% |
10 | 12 | 0.1% |
Value | Count | Frequency (%) |
1319 | 1 | |
945 | 1 | |
866 | 1 | |
740 | 1 | |
733 | 1 | |
635 | 1 | |
614 | 1 | |
579 | 2 | |
501 | 1 | |
421 | 1 |
검침원코드 | 종류코드 | 구경코드 | 설치구분코드 | 대표업종코드 | 세대수 | |
---|---|---|---|---|---|---|
검침원코드 | 1.000 | 0.267 | 0.065 | 0.116 | 0.269 | 0.000 |
종류코드 | 0.267 | 1.000 | 0.000 | 0.117 | 0.000 | 0.000 |
구경코드 | 0.065 | 0.000 | 1.000 | 0.123 | 0.230 | 0.690 |
설치구분코드 | 0.116 | 0.117 | 0.123 | 1.000 | 0.159 | 0.121 |
대표업종코드 | 0.269 | 0.000 | 0.230 | 0.159 | 1.000 | 0.000 |
세대수 | 0.000 | 0.000 | 0.690 | 0.121 | 0.000 | 1.000 |
겸업종코드 | 형식코드 | 설치구분코드 | 대표업종코드 | 종류코드 | 검침원코드 | |
---|---|---|---|---|---|---|
겸업종코드 | 1.000 | NaN | 1.000 | 1.000 | 1.000 | 1.000 |
형식코드 | NaN | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 |
설치구분코드 | 1.000 | 1.000 | 1.000 | 0.072 | 0.088 | 0.055 |
대표업종코드 | 1.000 | 1.000 | 0.072 | 1.000 | 0.000 | 0.164 |
종류코드 | 1.000 | 1.000 | 0.088 | 0.000 | 1.000 | 0.204 |
검침원코드 | 1.000 | 1.000 | 0.055 | 0.164 | 0.204 | 1.000 |
구경코드 | 세대수 | 검침원코드 | 종류코드 | 형식코드 | 설치구분코드 | 대표업종코드 | 겸업종코드 | |
---|---|---|---|---|---|---|---|---|
구경코드 | 1.000 | 0.047 | 0.034 | 0.000 | 1.000 | 0.069 | 0.150 | 1.000 |
세대수 | 0.047 | 1.000 | 0.000 | 0.000 | 1.000 | 0.059 | 0.000 | 1.000 |
검침원코드 | 0.034 | 0.000 | 1.000 | 0.204 | 1.000 | 0.055 | 0.164 | 1.000 |
종류코드 | 0.000 | 0.000 | 0.204 | 1.000 | 1.000 | 0.088 | 0.000 | 1.000 |
형식코드 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 0.000 |
설치구분코드 | 0.069 | 0.059 | 0.055 | 0.088 | 1.000 | 1.000 | 0.072 | 1.000 |
대표업종코드 | 0.150 | 0.000 | 0.164 | 0.000 | 1.000 | 0.072 | 1.000 | 1.000 |
겸업종코드 | 1.000 | 1.000 | 1.000 | 1.000 | 0.000 | 1.000 | 1.000 | 1.000 |
관리번호 | 검침원코드 | 종류코드 | 구경코드 | 형식코드 | 설치구분코드 | 대표업종코드 | 겸업종코드 | 세대수 | |
---|---|---|---|---|---|---|---|---|---|
6219 | 05-04-138-000000 | 천상한 | 원격식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
1000 | 01-03-155-290000 | 엄석용 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
10791 | 06-22-104-000000 | 김창권 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
15577 | 09-02-157-030000 | 최종명 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
19094 | 13-06-375-000000 | 엄석용 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
10622 | 06-21-190-000000 | 우종환 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
15848 | 09-03-133-000000 | 최종명 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
415 | 01-01-231-000000 | 엄석용 | 원격식 | 13 | <NA> | 가구분할 | 가정용 | <NA> | 3 |
6175 | 05-04-099-020000 | 천상한 | 원격식 | 13 | <NA> | 정상조정 | 일반용 | <NA> | 1 |
7205 | 06-04-141-000000 | 천상한 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
관리번호 | 검침원코드 | 종류코드 | 구경코드 | 형식코드 | 설치구분코드 | 대표업종코드 | 겸업종코드 | 세대수 | |
---|---|---|---|---|---|---|---|---|---|
18034 | 12-00-720-000000 | 김욱 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
7302 | 06-04-227-000000 | 천상한 | 유니온식 | 13 | <NA> | 정상조정 | 일반용 | <NA> | 1 |
59 | 01-01-038-100000 | 엄석용 | 유니온식 | 13 | <NA> | 정상조정 | 일반용 | <NA> | 1 |
3606 | 03-04-062-150000 | 남기화 | 원격식 | 13 | <NA> | 정상조정 | 일반용 | <NA> | 1 |
16465 | 10-01-134-140000 | 이재성 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
2098 | 02-03-240-000000 | 김창권 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
17803 | 11-04-193-000000 | 이재성 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
6182 | 05-04-103-000000 | 천상한 | 원격식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |
12543 | 08-02-206-001200 | 강동훈 | 유니온식 | 13 | <NA> | 정상조정 | 일반용 | <NA> | 1 |
3426 | 03-03-222-000000 | 남기화 | 유니온식 | 13 | <NA> | 정상조정 | 가정용 | <NA> | 1 |