Dataset statistics
Number of variables | 8 |
---|---|
Number of observations | 100 |
Missing cells | 3 |
Missing cells (%) | 0.4% |
Duplicate rows | 1 |
Duplicate rows (%) | 1.0% |
Total size in memory | 6.7 KiB |
Average record size in memory | 68.3 B |
Variable types
Numeric | 3 |
---|---|
Categorical | 5 |
Dataset
Description | Sample |
---|---|
Author | 소상공인연합회 |
URL | https://www.bigdata-telecom.kr/invoke/SOKBP2603/?goodsCode=KFMECMS001 |
Dataset has 1 (1.0%) duplicate rows | Duplicates |
telno is highly overall correlated with mber_cn_nm | High correlation |
mber_nm is highly overall correlated with mber_cn_nm | High correlation |
mber_cn_nm is highly overall correlated with mber_no and 6 other fields | High correlation |
mber_group_nm is highly overall correlated with mber_no and 3 other fields | High correlation |
adres is highly overall correlated with mber_no and 2 other fields | High correlation |
mber_no is highly overall correlated with rgsde and 3 other fields | High correlation |
brthdy is highly overall correlated with mber_cn_nm | High correlation |
rgsde is highly overall correlated with mber_no and 2 other fields | High correlation |
mber_cn_nm is highly imbalanced (91.9%) | Imbalance |
Reproduction
Analysis started | 2023-12-10 06:33:52.286557 |
---|---|
Analysis finished | 2023-12-10 06:33:56.045249 |
Duration | 3.76 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
mber_no
Real number (ℝ)
HIGH CORRELATION
 
Distinct | 98 |
---|---|
Distinct (%) | 99.0% |
Missing | 1 |
Missing (%) | 1.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 2858.697 |
Minimum | 240 |
---|---|
Maximum | 12185 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 1.0 KiB |
Quantile statistics
Minimum | 240 |
---|---|
5-th percentile | 253.6 |
Q1 | 275.5 |
median | 367 |
Q3 | 5662 |
95-th percentile | 9969.4 |
Maximum | 12185 |
Range | 11945 |
Interquartile range (IQR) | 5386.5 |
Descriptive statistics
Standard deviation | 3626.9888 |
---|---|
Coefficient of variation (CV) | 1.2687559 |
Kurtosis | -0.050528938 |
Mean | 2858.697 |
Median Absolute Deviation (MAD) | 110 |
Skewness | 1.122078 |
Sum | 283011 |
Variance | 13155047 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
258 | 2 | 2.0% |
284 | 1 | 1.0% |
282 | 1 | 1.0% |
281 | 1 | 1.0% |
280 | 1 | 1.0% |
279 | 1 | 1.0% |
277 | 1 | 1.0% |
276 | 1 | 1.0% |
275 | 1 | 1.0% |
274 | 1 | 1.0% |
Other values (88) | 88 |
Value | Count | Frequency (%) |
240 | 1 | |
241 | 1 | |
245 | 1 | |
247 | 1 | |
250 | 1 | |
254 | 1 | |
255 | 1 | |
256 | 1 | |
257 | 1 | |
258 | 2 |
Value | Count | Frequency (%) |
12185 | 1 | |
11863 | 1 | |
11732 | 1 | |
11719 | 1 | |
10180 | 1 | |
9946 | 1 | |
9915 | 1 | |
9897 | 1 | |
9621 | 1 | |
9333 | 1 |
mber_nm
Categorical
HIGH CORRELATION
 
Distinct | 33 |
---|---|
Distinct (%) | 33.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
이** | |
---|---|
김** | |
박** | |
조** | 5 |
강** | 5 |
Other values (28) |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 3.01 |
Min length | 3 |
Unique
Unique | 15 ? |
---|---|
Unique (%) | 15.0% |
Sample
1st row | 신** |
---|---|
2nd row | 박** |
3rd row | 윤** |
4th row | 박** |
5th row | 한** |
Common Values
Value | Count | Frequency (%) |
이** | 17 | |
김** | 13 | |
박** | 10 | 10.0% |
조** | 5 | 5.0% |
강** | 5 | 5.0% |
신** | 4 | 4.0% |
정** | 4 | 4.0% |
최** | 4 | 4.0% |
윤** | 4 | 4.0% |
양** | 3 | 3.0% |
Other values (23) | 31 |
Length
Value | Count | Frequency (%) |
이 | 17 | |
김 | 13 | |
박 | 10 | 10.0% |
조 | 5 | 5.0% |
강 | 5 | 5.0% |
신 | 4 | 4.0% |
정 | 4 | 4.0% |
최 | 4 | 4.0% |
윤 | 4 | 4.0% |
양 | 3 | 3.0% |
Other values (23) | 31 |
telno
Categorical
HIGH CORRELATION
 
Distinct | 23 |
---|---|
Distinct (%) | 23.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
0105******** | |
---|---|
0103******** | |
0116******** | |
0108******** | |
0104******** | |
Other values (18) |
Length
Max length | 12 |
---|---|
Median length | 12 |
Mean length | 11.92 |
Min length | 4 |
Unique
Unique | 8 ? |
---|---|
Unique (%) | 8.0% |
Sample
1st row | 0100******** |
---|---|
2nd row | 0115******** |
3rd row | 0105******** |
4th row | 0115******** |
5th row | 0112******** |
Common Values
Value | Count | Frequency (%) |
0105******** | 16 | |
0103******** | 13 | |
0116******** | 13 | |
0108******** | 8 | 8.0% |
0104******** | 7 | 7.0% |
0109******** | 6 | 6.0% |
0107******** | 5 | 5.0% |
0102******** | 4 | 4.0% |
0106******** | 4 | 4.0% |
0112******** | 3 | 3.0% |
Other values (13) | 21 |
Length
Value | Count | Frequency (%) |
0105 | 16 | |
0103 | 13 | |
0116 | 13 | |
0108 | 8 | 8.0% |
0104 | 7 | 7.0% |
0109 | 6 | 6.0% |
0107 | 5 | 5.0% |
0102 | 4 | 4.0% |
0106 | 4 | 4.0% |
0113 | 3 | 3.0% |
Other values (13) | 21 |
brthdy
Real number (ℝ)
HIGH CORRELATION
 
Distinct | 98 |
---|---|
Distinct (%) | 99.0% |
Missing | 1 |
Missing (%) | 1.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 2056072.2 |
Minimum | 441125 |
---|---|
Maximum | 8205131 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 1.0 KiB |
Quantile statistics
Minimum | 441125 |
---|---|
5-th percentile | 537434.1 |
Q1 | 601025 |
median | 680109 |
Q3 | 870854.5 |
95-th percentile | 6941319.1 |
Maximum | 8205131 |
Range | 7764006 |
Interquartile range (IQR) | 269829.5 |
Descriptive statistics
Standard deviation | 2540197.5 |
---|---|
Coefficient of variation (CV) | 1.2354613 |
Kurtosis | -0.18715062 |
Mean | 2056072.2 |
Median Absolute Deviation (MAD) | 89580 |
Skewness | 1.298957 |
Sum | 2.0355114 × 108 |
Variance | 6.4526036 × 1012 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
710414 | 2 | 2.0% |
6511241 | 1 | 1.0% |
640720 | 1 | 1.0% |
651102 | 1 | 1.0% |
670221 | 1 | 1.0% |
650101 | 1 | 1.0% |
600127 | 1 | 1.0% |
670505 | 1 | 1.0% |
6912211 | 1 | 1.0% |
6903051 | 1 | 1.0% |
Other values (88) | 88 |
Value | Count | Frequency (%) |
441125 | 1 | |
470701 | 1 | |
480312 | 1 | |
510310 | 1 | |
510525 | 1 | |
540424 | 1 | |
540718 | 1 | |
551016 | 1 | |
560118 | 1 | |
560506 | 1 |
Value | Count | Frequency (%) |
8205131 | 1 | |
7512071 | 1 | |
7506241 | 1 | |
7405061 | 1 | |
7203292 | 1 | |
6912211 | 1 | |
6903051 | 1 | |
6902151 | 1 | |
6811102 | 1 | |
6612301 | 1 |
rgsde
Real number (ℝ)
HIGH CORRELATION
 
Distinct | 36 |
---|---|
Distinct (%) | 36.4% |
Missing | 1 |
Missing (%) | 1.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 20180890 |
Minimum | 20171027 |
---|---|
Maximum | 20200608 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 1.0 KiB |
Quantile statistics
Minimum | 20171027 |
---|---|
5-th percentile | 20171027 |
Q1 | 20171027 |
median | 20171215 |
Q3 | 20190712 |
95-th percentile | 20200316 |
Maximum | 20200608 |
Range | 29581 |
Interquartile range (IQR) | 19684.5 |
Descriptive statistics
Standard deviation | 10991.279 |
---|---|
Coefficient of variation (CV) | 0.00054463795 |
Kurtosis | -1.3622087 |
Mean | 20180890 |
Median Absolute Deviation (MAD) | 188 |
Skewness | 0.47833243 |
Sum | 1.9979081 × 109 |
Variance | 1.2080821 × 108 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
20171027 | 49 | |
20180213 | 5 | 5.0% |
20190621 | 3 | 3.0% |
20190715 | 3 | 3.0% |
20180109 | 3 | 3.0% |
20190712 | 2 | 2.0% |
20190521 | 2 | 2.0% |
20190409 | 2 | 2.0% |
20200313 | 2 | 2.0% |
20190830 | 2 | 2.0% |
Other values (26) | 26 |
Value | Count | Frequency (%) |
20171027 | 49 | |
20171215 | 1 | 1.0% |
20180109 | 3 | 3.0% |
20180213 | 5 | 5.0% |
20180503 | 1 | 1.0% |
20190409 | 2 | 2.0% |
20190521 | 2 | 2.0% |
20190524 | 1 | 1.0% |
20190607 | 1 | 1.0% |
20190610 | 1 | 1.0% |
Value | Count | Frequency (%) |
20200608 | 1 | |
20200526 | 1 | |
20200522 | 1 | |
20200521 | 1 | |
20200325 | 1 | |
20200315 | 1 | |
20200313 | 2 | |
20200302 | 1 | |
20200217 | 1 | |
20200210 | 1 |
mber_group_nm
Categorical
HIGH CORRELATION
 
Distinct | 47 |
---|---|
Distinct (%) | 47.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
경기도 동두천시 | |
---|---|
경기도 여주시 | |
경상남도 양산시 | |
충청남도 당진시 | 2 |
전라북도 전주시 | 2 |
Other values (42) |
Length
Max length | 12 |
---|---|
Median length | 11 |
Mean length | 8.17 |
Min length | 2 |
Unique
Unique | 35 ? |
---|---|
Unique (%) | 35.0% |
Sample
1st row | 서울특별시 은평구 |
---|---|
2nd row | 경상남도 양산시 |
3rd row | 서울특별시 서초구 |
4th row | 경상북도 경주시 |
5th row | 경기도 김포시 |
Common Values
Value | Count | Frequency (%) |
경기도 동두천시 | 29 | |
경기도 여주시 | 13 | 13.0% |
경상남도 양산시 | 5 | 5.0% |
충청남도 당진시 | 2 | 2.0% |
전라북도 전주시 | 2 | 2.0% |
전라남도 함평군 | 2 | 2.0% |
경기도 성남시 중원구 | 2 | 2.0% |
경상남도 합천군 | 2 | 2.0% |
경기도 안양시 | 2 | 2.0% |
서울특별시 구로구 | 2 | 2.0% |
Other values (37) | 39 |
Length
Value | Count | Frequency (%) |
경기도 | 54 | |
동두천시 | 29 | |
여주시 | 13 | 6.5% |
경상남도 | 10 | 5.0% |
전라남도 | 10 | 5.0% |
서울특별시 | 6 | 3.0% |
양산시 | 5 | 2.5% |
전라북도 | 5 | 2.5% |
안양시 | 2 | 1.0% |
강원도 | 2 | 1.0% |
Other values (53) | 65 |
adres
Categorical
HIGH CORRELATION
 
Distinct | 40 |
---|---|
Distinct (%) | 40.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
X | |
---|---|
전라남도 해남군 삼삼녀 | 1 |
전라남도 여수시 국동 | 1 |
충청북도 영동군 | 1 |
서울시 구로구 개봉동 132-45 | 1 |
Other values (35) |
Length
Max length | 37 |
---|---|
Median length | 1 |
Mean length | 7.8 |
Min length | 1 |
Unique
Unique | 39 ? |
---|---|
Unique (%) | 39.0% |
Sample
1st row | X |
---|---|
2nd row | X |
3rd row | X |
4th row | X |
5th row | X |
Common Values
Value | Count | Frequency (%) |
X | 61 | |
전라남도 해남군 삼삼녀 | 1 | 1.0% |
전라남도 여수시 국동 | 1 | 1.0% |
충청북도 영동군 | 1 | 1.0% |
서울시 구로구 개봉동 132-45 | 1 | 1.0% |
경기 안양시 동안구 귀인로190번길 57 (평촌동) | 1 | 1.0% |
인천 미추홀구 용현동 565-11 | 1 | 1.0% |
전라북도 군산시 | 1 | 1.0% |
경기도 남양주시 오남읍 양지리 | 1 | 1.0% |
전라남도 함평군 함평읍 중앙길 106 | 1 | 1.0% |
Other values (30) | 30 |
Length
Value | Count | Frequency (%) |
x | 61 | |
경남 | 5 | 2.1% |
전남 | 5 | 2.1% |
전라남도 | 4 | 1.7% |
경기 | 4 | 1.7% |
동안구 | 2 | 0.9% |
강원도 | 2 | 0.9% |
합천군 | 2 | 0.9% |
전북 | 2 | 0.9% |
함평읍 | 2 | 0.9% |
Other values (138) | 146 |
mber_cn_nm
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 2 |
---|---|
Distinct (%) | 2.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
개인 | |
---|---|
<NA> | 1 |
Length
Max length | 4 |
---|---|
Median length | 2 |
Mean length | 2.02 |
Min length | 2 |
Unique
Unique | 1 ? |
---|---|
Unique (%) | 1.0% |
Sample
1st row | 개인 |
---|---|
2nd row | 개인 |
3rd row | 개인 |
4th row | 개인 |
5th row | 개인 |
Common Values
Value | Count | Frequency (%) |
개인 | 99 | |
<NA> | 1 | 1.0% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
개인 | 99 | |
na | 1 | 1.0% |
mber_no | mber_nm | telno | brthdy | rgsde | mber_group_nm | adres | |
---|---|---|---|---|---|---|---|
mber_no | 1.000 | 0.556 | 0.738 | 0.116 | 0.875 | 0.978 | 0.988 |
mber_nm | 0.556 | 1.000 | 0.654 | 0.000 | 0.817 | 0.000 | 0.000 |
telno | 0.738 | 0.654 | 1.000 | 0.073 | 0.283 | 0.948 | 0.907 |
brthdy | 0.116 | 0.000 | 0.073 | 1.000 | 0.000 | 0.895 | 0.790 |
rgsde | 0.875 | 0.817 | 0.283 | 0.000 | 1.000 | 0.927 | 0.000 |
mber_group_nm | 0.978 | 0.000 | 0.948 | 0.895 | 0.927 | 1.000 | 0.989 |
adres | 0.988 | 0.000 | 0.907 | 0.790 | 0.000 | 0.989 | 1.000 |
telno | mber_nm | mber_cn_nm | mber_group_nm | adres | |
---|---|---|---|---|---|
telno | 1.000 | 0.192 | 1.000 | 0.468 | 0.407 |
mber_nm | 0.192 | 1.000 | 1.000 | 0.000 | 0.000 |
mber_cn_nm | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 |
mber_group_nm | 0.468 | 0.000 | 1.000 | 1.000 | 0.676 |
adres | 0.407 | 0.000 | 1.000 | 0.676 | 1.000 |
mber_no | brthdy | rgsde | mber_nm | telno | mber_group_nm | adres | mber_cn_nm | |
---|---|---|---|---|---|---|---|---|
mber_no | 1.000 | -0.025 | 0.937 | 0.192 | 0.355 | 0.636 | 0.736 | 1.000 |
brthdy | -0.025 | 1.000 | 0.062 | 0.000 | 0.009 | 0.489 | 0.388 | 1.000 |
rgsde | 0.937 | 0.062 | 1.000 | 0.000 | 0.415 | 0.589 | 0.484 | 1.000 |
mber_nm | 0.192 | 0.000 | 0.000 | 1.000 | 0.192 | 0.000 | 0.000 | 1.000 |
telno | 0.355 | 0.009 | 0.415 | 0.192 | 1.000 | 0.468 | 0.407 | 1.000 |
mber_group_nm | 0.636 | 0.489 | 0.589 | 0.000 | 0.468 | 1.000 | 0.676 | 1.000 |
adres | 0.736 | 0.388 | 0.484 | 0.000 | 0.407 | 0.676 | 1.000 | 1.000 |
mber_cn_nm | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 |
mber_no | mber_nm | telno | brthdy | rgsde | mber_group_nm | adres | mber_cn_nm | |
---|---|---|---|---|---|---|---|---|
0 | 258 | 신** | 0100******** | 710414 | 20171027 | 서울특별시 은평구 | X | 개인 |
1 | 407 | 박** | 0115******** | 5910022 | 20180213 | 경상남도 양산시 | X | 개인 |
2 | 816 | 윤** | 0105******** | 671012 | 20180503 | 서울특별시 서초구 | X | 개인 |
3 | 1407 | 박** | 0115******** | 7405061 | 20190409 | 경상북도 경주시 | X | 개인 |
4 | 1536 | 한** | 0112******** | 610918 | 20190409 | 경기도 김포시 | X | 개인 |
5 | 3689 | 한** | 0116******** | 540424 | 20190607 | 전라남도 해남군 | 전라남도 해남군 삼삼녀 | 개인 |
6 | 3836 | 이** | 0114******** | 5706101 | 20190610 | 충청북도 영동군 | 충청북도 영동군 | 개인 |
7 | 2365 | 조** | 0105******** | 510525 | 20190521 | 서울특별시 구로구 | 서울시 구로구 개봉동 132-45 | 개인 |
8 | 2476 | 강** | 0113******** | 6508072 | 20190521 | 경기도 안양시 | 경기 안양시 동안구 귀인로190번길 57 (평촌동) | 개인 |
9 | 4566 | 임** | 0112******** | 6308062 | 20190617 | 인천광역시 미추홀구 | 인천 미추홀구 용현동 565-11 | 개인 |
mber_no | mber_nm | telno | brthdy | rgsde | mber_group_nm | adres | mber_cn_nm | |
---|---|---|---|---|---|---|---|---|
90 | 304 | 정** | 0102******** | 700912 | 20171027 | 경기도 여주시 | X | 개인 |
91 | 367 | 송** | 0107******** | 6612301 | 20171215 | 경기도 양주시 | X | 개인 |
92 | 369 | 김** | 0103******** | 700316 | 20180109 | 경기도 여주시 | X | 개인 |
93 | 370 | 강** | 0105******** | 890506 | 20180109 | 경기도 여주시 | X | 개인 |
94 | 371 | 석** | 0107******** | 8205131 | 20180109 | 경기도 여주시 | X | 개인 |
95 | 395 | 이** | 0107******** | 630108 | 20180213 | 경상남도 양산시 | 경남 양산시 물금읍 새실로 11 (양산 대방노블랜드 7차 메가시티) | 개인 |
96 | 396 | 이** | 0104******** | 7506241 | 20180213 | 경상남도 양산시 | X | 개인 |
97 | 397 | 김** | 0103******** | 630707 | 20180213 | 경상남도 양산시 | 경남 양산시 덕계로 35 (덕계동) | 개인 |
98 | 398 | 노** | 0105******** | 7203292 | 20180213 | 경상남도 양산시 | X | 개인 |
99 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
Most frequently occurring
mber_no | mber_nm | telno | brthdy | rgsde | mber_group_nm | adres | mber_cn_nm | # duplicates | |
---|---|---|---|---|---|---|---|---|---|
0 | 258 | 신** | 0100******** | 710414 | 20171027 | 서울특별시 은평구 | X | 개인 | 2 |