Dataset statistics
Number of variables | 6 |
---|---|
Number of observations | 10000 |
Missing cells | 9981 |
Missing cells (%) | 16.6% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 546.9 KiB |
Average record size in memory | 56.0 B |
Variable types
Text | 4 |
---|---|
Categorical | 2 |
Dataset
Description | 관리_지역지구구역_pk,관리_건축물대장_pk,지역지구구역_구분_코드,지역지구구역_코드,대표_여부,기타_지역지구구역 |
---|---|
Author | 서울특별시 |
URL | https://data.seoul.go.kr/dataList/OA-15655/S/1/datasetView.do |
지역지구구역_구분_코드 is highly overall correlated with 대표_여부 | High correlation |
대표_여부 is highly overall correlated with 지역지구구역_구분_코드 | High correlation |
대표_여부 is highly imbalanced (62.2%) | Imbalance |
지역지구구역_코드 has 4620 (46.2%) missing values | Missing |
기타_지역지구구역 has 5361 (53.6%) missing values | Missing |
관리_지역지구구역_pk has unique values | Unique |
Reproduction
Analysis started | 2024-05-11 05:48:59.033458 |
---|---|
Analysis finished | 2024-05-11 05:49:00.421573 |
Duration | 1.39 second |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
관리_지역지구구역_pk
Text
UNIQUE
 
Distinct | 10000 |
---|---|
Distinct (%) | 100.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Length
Max length | 28 |
---|---|
Median length | 15 |
Mean length | 13.3923 |
Min length | 8 |
Characters and Unicode
Total characters | 133923 |
---|---|
Distinct characters | 11 |
Distinct categories | 2 ? |
Distinct scripts | 1 ? |
Distinct blocks | 1 ? |
Unique
Unique | 10000 ? |
---|---|
Unique (%) | 100.0% |
Sample
1st row | 11140-100041786 |
---|---|
2nd row | 11170-100059590 |
3rd row | 11170-100060210 |
4th row | 11140-5982 |
5th row | 11140-100047719 |
Value | Count | Frequency (%) |
11140-100041786 | 1 | < 0.1% |
11200-18540 | 1 | < 0.1% |
11140-3398 | 1 | < 0.1% |
11140-3486 | 1 | < 0.1% |
11170-100031400 | 1 | < 0.1% |
11140-100044061 | 1 | < 0.1% |
11170-100037971 | 1 | < 0.1% |
11110-270 | 1 | < 0.1% |
11170-100069740 | 1 | < 0.1% |
11110-100027902 | 1 | < 0.1% |
Other values (9990) | 9990 |
Most occurring characters
Value | Count | Frequency (%) |
1 | 43616 | |
0 | 35088 | |
- | 10000 | 7.5% |
4 | 8822 | 6.6% |
7 | 7675 | 5.7% |
2 | 5662 | 4.2% |
3 | 5435 | 4.1% |
5 | 5100 | 3.8% |
6 | 4583 | 3.4% |
8 | 3976 | 3.0% |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 123923 | |
Dash Punctuation | 10000 | 7.5% |
Most frequent character per category
Decimal Number
Value | Count | Frequency (%) |
1 | 43616 | |
0 | 35088 | |
4 | 8822 | 7.1% |
7 | 7675 | 6.2% |
2 | 5662 | 4.6% |
3 | 5435 | 4.4% |
5 | 5100 | 4.1% |
6 | 4583 | 3.7% |
8 | 3976 | 3.2% |
9 | 3966 | 3.2% |
Dash Punctuation
Value | Count | Frequency (%) |
- | 10000 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 133923 |
Most frequent character per script
Common
Value | Count | Frequency (%) |
1 | 43616 | |
0 | 35088 | |
- | 10000 | 7.5% |
4 | 8822 | 6.6% |
7 | 7675 | 5.7% |
2 | 5662 | 4.2% |
3 | 5435 | 4.1% |
5 | 5100 | 3.8% |
6 | 4583 | 3.4% |
8 | 3976 | 3.0% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 133923 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
1 | 43616 | |
0 | 35088 | |
- | 10000 | 7.5% |
4 | 8822 | 6.6% |
7 | 7675 | 5.7% |
2 | 5662 | 4.2% |
3 | 5435 | 4.1% |
5 | 5100 | 3.8% |
6 | 4583 | 3.4% |
8 | 3976 | 3.0% |
관리_건축물대장_pk
Text
Distinct | 9305 |
---|---|
Distinct (%) | 93.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Length
Max length | 28 |
---|---|
Median length | 15 |
Mean length | 11.8075 |
Min length | 7 |
Characters and Unicode
Total characters | 118075 |
---|---|
Distinct characters | 11 |
Distinct categories | 2 ? |
Distinct scripts | 1 ? |
Distinct blocks | 1 ? |
Unique
Unique | 8648 ? |
---|---|
Unique (%) | 86.5% |
Sample
1st row | 11140-9462 |
---|---|
2nd row | 11170-1639 |
3rd row | 11170-23781 |
4th row | 11140-7259 |
5th row | 11140-24692 |
Value | Count | Frequency (%) |
11110-27531 | 3 | < 0.1% |
11110-100190272 | 3 | < 0.1% |
11140-9970 | 3 | < 0.1% |
11170-17548 | 3 | < 0.1% |
11170-11419 | 3 | < 0.1% |
11110-100216420 | 3 | < 0.1% |
11110-26041 | 3 | < 0.1% |
11140-2211 | 3 | < 0.1% |
11170-2794 | 3 | < 0.1% |
11170-100207339 | 3 | < 0.1% |
Other values (9295) | 9970 |
Most occurring characters
Value | Count | Frequency (%) |
1 | 41375 | |
0 | 22275 | |
- | 10000 | 8.5% |
2 | 8644 | 7.3% |
7 | 7574 | 6.4% |
4 | 7384 | 6.3% |
3 | 4450 | 3.8% |
5 | 4236 | 3.6% |
9 | 4186 | 3.5% |
8 | 4049 | 3.4% |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 108075 | |
Dash Punctuation | 10000 | 8.5% |
Most frequent character per category
Decimal Number
Value | Count | Frequency (%) |
1 | 41375 | |
0 | 22275 | |
2 | 8644 | 8.0% |
7 | 7574 | 7.0% |
4 | 7384 | 6.8% |
3 | 4450 | 4.1% |
5 | 4236 | 3.9% |
9 | 4186 | 3.9% |
8 | 4049 | 3.7% |
6 | 3902 | 3.6% |
Dash Punctuation
Value | Count | Frequency (%) |
- | 10000 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 118075 |
Most frequent character per script
Common
Value | Count | Frequency (%) |
1 | 41375 | |
0 | 22275 | |
- | 10000 | 8.5% |
2 | 8644 | 7.3% |
7 | 7574 | 6.4% |
4 | 7384 | 6.3% |
3 | 4450 | 3.8% |
5 | 4236 | 3.6% |
9 | 4186 | 3.5% |
8 | 4049 | 3.4% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 118075 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
1 | 41375 | |
0 | 22275 | |
- | 10000 | 8.5% |
2 | 8644 | 7.3% |
7 | 7574 | 6.4% |
4 | 7384 | 6.3% |
3 | 4450 | 3.8% |
5 | 4236 | 3.6% |
9 | 4186 | 3.5% |
8 | 4049 | 3.4% |
지역지구구역_구분_코드
Categorical
HIGH CORRELATION
 
Distinct | 6 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
용도지역코드 | |
---|---|
용도지구코드 | |
용도구역코드 | |
1 | 153 |
2 | 71 |
Length
Max length | 6 |
---|---|
Median length | 6 |
Mean length | 5.8775 |
Min length | 1 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 1 |
---|---|
2nd row | 용도지역코드 |
3rd row | 용도지역코드 |
4th row | 용도지역코드 |
5th row | 용도지구코드 |
Common Values
Value | Count | Frequency (%) |
용도지역코드 | 5610 | |
용도지구코드 | 3090 | |
용도구역코드 | 1055 | 10.5% |
1 | 153 | 1.5% |
2 | 71 | 0.7% |
3 | 21 | 0.2% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
용도지역코드 | 5610 | |
용도지구코드 | 3090 | |
용도구역코드 | 1055 | 10.5% |
1 | 153 | 1.5% |
2 | 71 | 0.7% |
3 | 21 | 0.2% |
지역지구구역_코드
Text
MISSING
 
Distinct | 68 |
---|---|
Distinct (%) | 1.3% |
Missing | 4620 |
Missing (%) | 46.2% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
제2종일반주거지역 | 1861 | |
일반상업지역 | 1027 | |
제1종일반주거지역 | 660 | 12.2% |
제3종일반주거지역 | 479 | 8.8% |
준주거지역 | 222 | 4.1% |
도시지역 | 170 | 3.1% |
일반주거지역 | 160 | 3.0% |
상대보호구역 | 101 | 1.9% |
준공업지역 | 92 | 1.7% |
제1종전용주거지역 | 86 | 1.6% |
Other values (60) | 561 | 10.4% |
Most occurring characters
Value | Count | Frequency (%) |
역 | 5160 | |
지 | 4948 | |
일 | 4187 | |
반 | 4187 | |
주 | 3478 | |
거 | 3478 | |
제 | 3181 | |
종 | 3091 | |
2 | 2066 | 5.0% |
상 | 1172 | 2.9% |
Other values (83) | 6091 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 37040 | |
Decimal Number | 3927 | 9.6% |
Space Separator | 39 | 0.1% |
Uppercase Letter | 33 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
역 | 5160 | |
지 | 4948 | |
일 | 4187 | |
반 | 4187 | |
주 | 3478 | |
거 | 3478 | |
제 | 3181 | |
종 | 3091 | |
상 | 1172 | 3.2% |
업 | 1142 | 3.1% |
Other values (71) | 3016 |
Decimal Number
Value | Count | Frequency (%) |
2 | 2066 | |
1 | 1043 | |
3 | 541 | 13.8% |
0 | 246 | 6.3% |
4 | 21 | 0.5% |
6 | 10 | 0.3% |
Uppercase Letter
Value | Count | Frequency (%) |
U | 11 | |
Q | 11 | |
A | 7 | |
G | 3 | 9.1% |
F | 1 | 3.0% |
Space Separator
Value | Count | Frequency (%) |
39 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 37040 | |
Common | 3966 | 9.7% |
Latin | 33 | 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
역 | 5160 | |
지 | 4948 | |
일 | 4187 | |
반 | 4187 | |
주 | 3478 | |
거 | 3478 | |
제 | 3181 | |
종 | 3091 | |
상 | 1172 | 3.2% |
업 | 1142 | 3.1% |
Other values (71) | 3016 |
Common
Value | Count | Frequency (%) |
2 | 2066 | |
1 | 1043 | |
3 | 541 | 13.6% |
0 | 246 | 6.2% |
39 | 1.0% | |
4 | 21 | 0.5% |
6 | 10 | 0.3% |
Latin
Value | Count | Frequency (%) |
U | 11 | |
Q | 11 | |
A | 7 | |
G | 3 | 9.1% |
F | 1 | 3.0% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 37040 | |
ASCII | 3999 | 9.7% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
역 | 5160 | |
지 | 4948 | |
일 | 4187 | |
반 | 4187 | |
주 | 3478 | |
거 | 3478 | |
제 | 3181 | |
종 | 3091 | |
상 | 1172 | 3.2% |
업 | 1142 | 3.1% |
Other values (71) | 3016 |
ASCII
Value | Count | Frequency (%) |
2 | 2066 | |
1 | 1043 | |
3 | 541 | 13.5% |
0 | 246 | 6.2% |
39 | 1.0% | |
4 | 21 | 0.5% |
U | 11 | 0.3% |
Q | 11 | 0.3% |
6 | 10 | 0.3% |
A | 7 | 0.2% |
Other values (2) | 4 | 0.1% |
대표_여부
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 4 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
대표 | |
---|---|
<NA> | |
1 | 225 |
0 | 14 |
Length
Max length | 4 |
---|---|
Median length | 2 |
Mean length | 2.2605 |
Min length | 1 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 1 |
---|---|
2nd row | 대표 |
3rd row | 대표 |
4th row | 대표 |
5th row | 대표 |
Common Values
Value | Count | Frequency (%) |
대표 | 8339 | |
<NA> | 1422 | 14.2% |
1 | 225 | 2.2% |
0 | 14 | 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
대표 | 8339 | |
na | 1422 | 14.2% |
1 | 225 | 2.2% |
0 | 14 | 0.1% |
기타_지역지구구역
Text
MISSING
 
Distinct | 226 |
---|---|
Distinct (%) | 4.9% |
Missing | 5361 |
Missing (%) | 53.6% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
일반주거지역 | 592 | 12.3% |
주차장정비지구 | 403 | 8.4% |
제2종일반주거지역 | 379 | 7.9% |
일반주거 | 323 | 6.7% |
일반상업지역 | 246 | 5.1% |
최고고도지구 | 185 | 3.8% |
주거환경개선지구 | 159 | 3.3% |
도시지역 | 158 | 3.3% |
주차장정비 | 140 | 2.9% |
제1종일반주거지역 | 134 | 2.8% |
Other values (223) | 2093 |
Most occurring characters
Value | Count | Frequency (%) |
지 | 3600 | 11.6% |
역 | 2602 | 8.4% |
주 | 2494 | 8.1% |
구 | 2177 | 7.0% |
일 | 1957 | 6.3% |
반 | 1945 | 6.3% |
거 | 1930 | 6.2% |
종 | 959 | 3.1% |
제 | 871 | 2.8% |
정 | 648 | 2.1% |
Other values (153) | 11744 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 29505 | |
Decimal Number | 1079 | 3.5% |
Space Separator | 173 | 0.6% |
Open Punctuation | 55 | 0.2% |
Close Punctuation | 55 | 0.2% |
Other Punctuation | 31 | 0.1% |
Dash Punctuation | 19 | 0.1% |
Lowercase Letter | 6 | < 0.1% |
Uppercase Letter | 4 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
지 | 3600 | 12.2% |
역 | 2602 | 8.8% |
주 | 2494 | 8.5% |
구 | 2177 | 7.4% |
일 | 1957 | 6.6% |
반 | 1945 | 6.6% |
거 | 1930 | 6.5% |
종 | 959 | 3.3% |
제 | 871 | 3.0% |
정 | 648 | 2.2% |
Other values (134) | 10322 |
Decimal Number
Value | Count | Frequency (%) |
2 | 489 | |
1 | 406 | |
3 | 72 | 6.7% |
4 | 69 | 6.4% |
7 | 14 | 1.3% |
0 | 14 | 1.3% |
6 | 8 | 0.7% |
5 | 5 | 0.5% |
8 | 2 | 0.2% |
Other Punctuation
Value | Count | Frequency (%) |
, | 22 | |
/ | 4 | 12.9% |
: | 3 | 9.7% |
. | 2 | 6.5% |
Space Separator
Value | Count | Frequency (%) |
173 |
Open Punctuation
Value | Count | Frequency (%) |
( | 55 |
Close Punctuation
Value | Count | Frequency (%) |
) | 55 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 19 |
Lowercase Letter
Value | Count | Frequency (%) |
m | 6 |
Uppercase Letter
Value | Count | Frequency (%) |
M | 4 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 29505 | |
Common | 1412 | 4.6% |
Latin | 10 | < 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
지 | 3600 | 12.2% |
역 | 2602 | 8.8% |
주 | 2494 | 8.5% |
구 | 2177 | 7.4% |
일 | 1957 | 6.6% |
반 | 1945 | 6.6% |
거 | 1930 | 6.5% |
종 | 959 | 3.3% |
제 | 871 | 3.0% |
정 | 648 | 2.2% |
Other values (134) | 10322 |
Common
Value | Count | Frequency (%) |
2 | 489 | |
1 | 406 | |
173 | 12.3% | |
3 | 72 | 5.1% |
4 | 69 | 4.9% |
( | 55 | 3.9% |
) | 55 | 3.9% |
, | 22 | 1.6% |
- | 19 | 1.3% |
7 | 14 | 1.0% |
Other values (7) | 38 | 2.7% |
Latin
Value | Count | Frequency (%) |
m | 6 | |
M | 4 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 29505 | |
ASCII | 1422 | 4.6% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
지 | 3600 | 12.2% |
역 | 2602 | 8.8% |
주 | 2494 | 8.5% |
구 | 2177 | 7.4% |
일 | 1957 | 6.6% |
반 | 1945 | 6.6% |
거 | 1930 | 6.5% |
종 | 959 | 3.3% |
제 | 871 | 3.0% |
정 | 648 | 2.2% |
Other values (134) | 10322 |
ASCII
Value | Count | Frequency (%) |
2 | 489 | |
1 | 406 | |
173 | 12.2% | |
3 | 72 | 5.1% |
4 | 69 | 4.9% |
( | 55 | 3.9% |
) | 55 | 3.9% |
, | 22 | 1.5% |
- | 19 | 1.3% |
7 | 14 | 1.0% |
Other values (9) | 48 | 3.4% |
지역지구구역_구분_코드 | 지역지구구역_코드 | 대표_여부 | |
---|---|---|---|
지역지구구역_구분_코드 | 1.000 | 0.999 | 0.942 |
지역지구구역_코드 | 0.999 | 1.000 | 0.960 |
대표_여부 | 0.942 | 0.960 | 1.000 |
대표_여부 | 지역지구구역_구분_코드 | |
---|---|---|
대표_여부 | 1.000 | 0.707 |
지역지구구역_구분_코드 | 0.707 | 1.000 |
지역지구구역_구분_코드 | 대표_여부 | |
---|---|---|
지역지구구역_구분_코드 | 1.000 | 0.707 |
대표_여부 | 0.707 | 1.000 |
관리_지역지구구역_pk | 관리_건축물대장_pk | 지역지구구역_구분_코드 | 지역지구구역_코드 | 대표_여부 | 기타_지역지구구역 | |
---|---|---|---|---|---|---|
29755 | 11140-100041786 | 11140-9462 | 1 | 1023 | 1 | <NA> |
74560 | 11170-100059590 | 11170-1639 | 용도지역코드 | 일반상업지역 | 대표 | <NA> |
75126 | 11170-100060210 | 11170-23781 | 용도지역코드 | 준주거지역 | 대표 | <NA> |
51696 | 11140-5982 | 11140-7259 | 용도지역코드 | 제2종일반주거지역 | 대표 | <NA> |
35022 | 11140-100047719 | 11140-24692 | 용도지구코드 | <NA> | 대표 | <NA> |
59119 | 11170-100031924 | 11170-12884 | 용도지역코드 | 준주거지역 | <NA> | <NA> |
85697 | 11170-14629 | 11170-18925 | 용도지역코드 | 제2종일반주거지역 | 대표 | <NA> |
92675 | 11200-100047734 | 11200-100244697 | 용도지역코드 | 제2종일반주거지역 | 대표 | 제2종일반주거지역 |
5049 | 11110-100041770 | 11110-100203337 | 용도지구코드 | <NA> | 대표 | 자연경관지구 |
21007 | 11110-7335 | 11110-14974 | 용도지구코드 | <NA> | <NA> | 방화지구 |
관리_지역지구구역_pk | 관리_건축물대장_pk | 지역지구구역_구분_코드 | 지역지구구역_코드 | 대표_여부 | 기타_지역지구구역 | |
---|---|---|---|---|---|---|
67700 | 11170-100050063 | 11170-12947 | 용도지역코드 | <NA> | <NA> | 개발행위허가제한지역 |
29373 | 11140-100041354 | 11140-8809 | 용도지역코드 | 제2종일반주거지역 | 대표 | <NA> |
67006 | 11170-100045002 | 11170-680 | 용도구역코드 | <NA> | 대표 | <NA> |
77959 | 11170-100064400 | 11170-270 | 용도지역코드 | 제3종일반주거지역 | 대표 | <NA> |
94524 | 11200-12942 | 11200-13782 | 용도지역코드 | <NA> | 대표 | 일반주거 |
6167 | 11110-100047214 | 11110-100209676 | 용도구역코드 | <NA> | 대표 | 지구단위계획구역 |
46074 | 11140-18475 | 11140-23264 | 용도지구코드 | <NA> | 대표 | <NA> |
68959 | 11170-100053554 | 11170-9943 | 용도지역코드 | 준주거지역 | 대표 | <NA> |
5921 | 11110-100045872 | 11110-100208245 | 용도지역코드 | 과밀억제지역 | <NA> | 과밀억제지역 |
94033 | 11200-11781 | 11200-12693 | 용도지역코드 | 제2종일반주거지역 | 대표 | 일반주거 |