Dataset statistics
Number of variables | 6 |
---|---|
Number of observations | 500 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 24.5 KiB |
Average record size in memory | 50.3 B |
Variable types
Numeric | 2 |
---|---|
Categorical | 3 |
Text | 1 |
Dataset
Description | 샘플 데이터 |
---|---|
Author | 다음소프트 |
URL | https://bigdata.seoul.go.kr/data/selectSampleData.do?sample_data_seq=57 |
세부키워드(KEYWORD_DETAIL) has constant value "" | Constant |
수집소스(SOURCE) is highly imbalanced (94.7%) | Imbalance |
Reproduction
Analysis started | 2023-12-10 14:54:12.423766 |
---|---|
Analysis finished | 2023-12-10 14:54:13.537381 |
Duration | 1.11 second |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
DOC_DATE(DATE)
Real number (ℝ)
Distinct | 392 |
---|---|
Distinct (%) | 78.4% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 20181310 |
Minimum | 20170101 |
---|---|
Maximum | 20191228 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 4.5 KiB |
Quantile statistics
Minimum | 20170101 |
---|---|
5-th percentile | 20170311 |
Q1 | 20171023 |
median | 20180818 |
Q3 | 20190406 |
95-th percentile | 20191111 |
Maximum | 20191228 |
Range | 21127 |
Interquartile range (IQR) | 19382.5 |
Descriptive statistics
Standard deviation | 8149.1223 |
---|---|
Coefficient of variation (CV) | 0.00040379551 |
Kurtosis | -1.4805278 |
Mean | 20181310 |
Median Absolute Deviation (MAD) | 9613.5 |
Skewness | -0.12124703 |
Sum | 1.0090655 × 1010 |
Variance | 66408194 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
20190118 | 4 | 0.8% |
20191010 | 3 | 0.6% |
20190114 | 3 | 0.6% |
20170605 | 3 | 0.6% |
20180817 | 3 | 0.6% |
20191214 | 3 | 0.6% |
20180322 | 3 | 0.6% |
20181128 | 3 | 0.6% |
20190205 | 3 | 0.6% |
20180201 | 3 | 0.6% |
Other values (382) | 469 |
Value | Count | Frequency (%) |
20170101 | 1 | |
20170102 | 1 | |
20170111 | 1 | |
20170114 | 1 | |
20170118 | 1 | |
20170120 | 1 | |
20170126 | 1 | |
20170201 | 1 | |
20170205 | 1 | |
20170206 | 1 |
Value | Count | Frequency (%) |
20191228 | 1 | 0.2% |
20191227 | 1 | 0.2% |
20191226 | 1 | 0.2% |
20191222 | 2 | |
20191219 | 1 | 0.2% |
20191216 | 2 | |
20191215 | 1 | 0.2% |
20191214 | 3 | |
20191210 | 1 | 0.2% |
20191207 | 1 | 0.2% |
수집소스(SOURCE)
Categorical
IMBALANCE
 
Distinct | 2 |
---|---|
Distinct (%) | 0.4% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
커뮤니티블로그 | |
---|---|
트위터 | 3 |
Length
Max length | 7 |
---|---|
Median length | 7 |
Mean length | 6.976 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 커뮤니티블로그 |
---|---|
2nd row | 커뮤니티블로그 |
3rd row | 커뮤니티블로그 |
4th row | 커뮤니티블로그 |
5th row | 커뮤니티블로그 |
Common Values
Value | Count | Frequency (%) |
커뮤니티블로그 | 497 | |
트위터 | 3 | 0.6% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
커뮤니티블로그 | 497 | |
트위터 | 3 | 0.6% |
행정동(DONG_NM)
Text
Distinct | 293 |
---|---|
Distinct (%) | 58.6% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
Value | Count | Frequency (%) |
서울대입구 | 6 | 1.2% |
혜화역 | 5 | 1.0% |
송파구 | 5 | 1.0% |
광화문 | 5 | 1.0% |
신사역 | 5 | 1.0% |
망원 | 5 | 1.0% |
서울역 | 5 | 1.0% |
뚝섬 | 5 | 1.0% |
중구 | 5 | 1.0% |
한강진 | 5 | 1.0% |
Other values (283) | 449 |
Most occurring characters
Value | Count | Frequency (%) |
역 | 117 | 6.9% |
동 | 111 | 6.6% |
구 | 62 | 3.7% |
대 | 53 | 3.1% |
서 | 37 | 2.2% |
신 | 31 | 1.8% |
산 | 31 | 1.8% |
관 | 30 | 1.8% |
원 | 30 | 1.8% |
로 | 26 | 1.5% |
Other values (199) | 1163 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 1657 | |
Lowercase Letter | 26 | 1.5% |
Decimal Number | 8 | 0.5% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
역 | 117 | 7.1% |
동 | 111 | 6.7% |
구 | 62 | 3.7% |
대 | 53 | 3.2% |
서 | 37 | 2.2% |
신 | 31 | 1.9% |
산 | 31 | 1.9% |
관 | 30 | 1.8% |
원 | 30 | 1.8% |
로 | 26 | 1.6% |
Other values (191) | 1129 |
Lowercase Letter
Value | Count | Frequency (%) |
c | 7 | |
v | 7 | |
g | 7 | |
n | 3 | |
d | 2 | 7.7% |
Decimal Number
Value | Count | Frequency (%) |
3 | 5 | |
2 | 2 | 25.0% |
6 | 1 | 12.5% |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 1657 | |
Latin | 26 | 1.5% |
Common | 8 | 0.5% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
역 | 117 | 7.1% |
동 | 111 | 6.7% |
구 | 62 | 3.7% |
대 | 53 | 3.2% |
서 | 37 | 2.2% |
신 | 31 | 1.9% |
산 | 31 | 1.9% |
관 | 30 | 1.8% |
원 | 30 | 1.8% |
로 | 26 | 1.6% |
Other values (191) | 1129 |
Latin
Value | Count | Frequency (%) |
c | 7 | |
v | 7 | |
g | 7 | |
n | 3 | |
d | 2 | 7.7% |
Common
Value | Count | Frequency (%) |
3 | 5 | |
2 | 2 | 25.0% |
6 | 1 | 12.5% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 1657 | |
ASCII | 34 | 2.0% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
역 | 117 | 7.1% |
동 | 111 | 6.7% |
구 | 62 | 3.7% |
대 | 53 | 3.2% |
서 | 37 | 2.2% |
신 | 31 | 1.9% |
산 | 31 | 1.9% |
관 | 30 | 1.8% |
원 | 30 | 1.8% |
로 | 26 | 1.6% |
Other values (191) | 1129 |
ASCII
Value | Count | Frequency (%) |
c | 7 | |
v | 7 | |
g | 7 | |
3 | 5 | |
n | 3 | |
2 | 2 | 5.9% |
d | 2 | 5.9% |
6 | 1 | 2.9% |
행정구(GU_NM)
Categorical
Distinct | 26 |
---|---|
Distinct (%) | 5.2% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
강남구 | |
---|---|
종로구 | |
마포구 | |
용산구 | |
송파구 | |
Other values (21) |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 3.042 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 양천구 |
---|---|
2nd row | 성북구 |
3rd row | 송파구 |
4th row | 강남구 |
5th row | 서대문구 |
Common Values
Value | Count | Frequency (%) |
강남구 | 64 | |
종로구 | 60 | 12.0% |
마포구 | 42 | 8.4% |
용산구 | 41 | 8.2% |
송파구 | 35 | 7.0% |
영등포구 | 26 | 5.2% |
서초구 | 26 | 5.2% |
중구 | 23 | 4.6% |
강서구 | 17 | 3.4% |
성동구 | 16 | 3.2% |
Other values (16) | 150 |
Length
Value | Count | Frequency (%) |
강남구 | 64 | |
종로구 | 60 | 12.0% |
마포구 | 42 | 8.4% |
용산구 | 41 | 8.2% |
송파구 | 35 | 7.0% |
영등포구 | 26 | 5.2% |
서초구 | 26 | 5.2% |
중구 | 23 | 4.6% |
강서구 | 17 | 3.4% |
성동구 | 16 | 3.2% |
Other values (16) | 150 |
세부키워드(KEYWORD_DETAIL)
Categorical
CONSTANT
 
Distinct | 1 |
---|---|
Distinct (%) | 0.2% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
디저트 |
---|
Length
Max length | 3 |
---|---|
Median length | 3 |
Mean length | 3 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 디저트 |
---|---|
2nd row | 디저트 |
3rd row | 디저트 |
4th row | 디저트 |
5th row | 디저트 |
Common Values
Value | Count | Frequency (%) |
디저트 | 500 |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
디저트 | 500 |
FREQ(FREQ)
Real number (ℝ)
Distinct | 23 |
---|---|
Distinct (%) | 4.6% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 3.13 |
Minimum | 1 |
---|---|
Maximum | 72 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 4.5 KiB |
Quantile statistics
Minimum | 1 |
---|---|
5-th percentile | 1 |
Q1 | 1 |
median | 1 |
Q3 | 3 |
95-th percentile | 9.05 |
Maximum | 72 |
Range | 71 |
Interquartile range (IQR) | 2 |
Descriptive statistics
Standard deviation | 5.2863021 |
---|---|
Coefficient of variation (CV) | 1.6889144 |
Kurtosis | 71.549791 |
Mean | 3.13 |
Median Absolute Deviation (MAD) | 0 |
Skewness | 7.1559491 |
Sum | 1565 |
Variance | 27.94499 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
1 | 251 | |
2 | 82 | 16.4% |
3 | 53 | 10.6% |
4 | 26 | 5.2% |
5 | 24 | 4.8% |
6 | 14 | 2.8% |
8 | 13 | 2.6% |
7 | 9 | 1.8% |
10 | 5 | 1.0% |
11 | 4 | 0.8% |
Other values (13) | 19 | 3.8% |
Value | Count | Frequency (%) |
1 | 251 | |
2 | 82 | 16.4% |
3 | 53 | 10.6% |
4 | 26 | 5.2% |
5 | 24 | 4.8% |
6 | 14 | 2.8% |
7 | 9 | 1.8% |
8 | 13 | 2.6% |
9 | 3 | 0.6% |
10 | 5 | 1.0% |
Value | Count | Frequency (%) |
72 | 1 | |
40 | 1 | |
38 | 1 | |
37 | 1 | |
33 | 1 | |
29 | 1 | |
22 | 1 | |
19 | 1 | |
16 | 1 | |
15 | 1 |
DOC_DATE(DATE) | 수집소스(SOURCE) | 행정구(GU_NM) | FREQ(FREQ) | |
---|---|---|---|---|
DOC_DATE(DATE) | 1.000 | 0.000 | 0.000 | 0.000 |
수집소스(SOURCE) | 0.000 | 1.000 | 0.000 | 0.000 |
행정구(GU_NM) | 0.000 | 0.000 | 1.000 | 0.234 |
FREQ(FREQ) | 0.000 | 0.000 | 0.234 | 1.000 |
수집소스(SOURCE) | 행정구(GU_NM) | |
---|---|---|
수집소스(SOURCE) | 1.000 | 0.000 |
행정구(GU_NM) | 0.000 | 1.000 |
DOC_DATE(DATE) | FREQ(FREQ) | 수집소스(SOURCE) | 행정구(GU_NM) | |
---|---|---|---|---|
DOC_DATE(DATE) | 1.000 | -0.054 | 0.000 | 0.000 |
FREQ(FREQ) | -0.054 | 1.000 | 0.000 | 0.099 |
수집소스(SOURCE) | 0.000 | 0.000 | 1.000 | 0.000 |
행정구(GU_NM) | 0.000 | 0.099 | 0.000 | 1.000 |
DOC_DATE(DATE) | 수집소스(SOURCE) | 행정동(DONG_NM) | 행정구(GU_NM) | 세부키워드(KEYWORD_DETAIL) | FREQ(FREQ) | |
---|---|---|---|---|---|---|
0 | 20191120 | 커뮤니티블로그 | 대림 | 양천구 | 디저트 | 10 |
1 | 20190118 | 커뮤니티블로그 | 압구정로데오역 | 성북구 | 디저트 | 2 |
2 | 20190501 | 커뮤니티블로그 | 중구 | 송파구 | 디저트 | 1 |
3 | 20190216 | 커뮤니티블로그 | 보광동 | 강남구 | 디저트 | 1 |
4 | 20180825 | 커뮤니티블로그 | 후암동 | 서대문구 | 디저트 | 1 |
5 | 20191130 | 트위터 | 마포구 | 용산구 | 디저트 | 3 |
6 | 20180405 | 커뮤니티블로그 | 뚝섬역 | 종로구 | 디저트 | 2 |
7 | 20170912 | 커뮤니티블로그 | 청계천 | 용산구 | 디저트 | 1 |
8 | 20171024 | 커뮤니티블로그 | 상도동 | 송파구 | 디저트 | 1 |
9 | 20170829 | 커뮤니티블로그 | 광화문 | 중구 | 디저트 | 1 |
DOC_DATE(DATE) | 수집소스(SOURCE) | 행정동(DONG_NM) | 행정구(GU_NM) | 세부키워드(KEYWORD_DETAIL) | FREQ(FREQ) | |
---|---|---|---|---|---|---|
490 | 20180323 | 커뮤니티블로그 | 서울 | 양천구 | 디저트 | 1 |
491 | 20190215 | 커뮤니티블로그 | 보문 | 서대문구 | 디저트 | 72 |
492 | 20180716 | 커뮤니티블로그 | 신사역 | 중랑구 | 디저트 | 4 |
493 | 20180906 | 커뮤니티블로그 | 홍대입구 | 서대문구 | 디저트 | 1 |
494 | 20191010 | 커뮤니티블로그 | 회현동 | 강동구 | 디저트 | 1 |
495 | 20190807 | 커뮤니티블로그 | 뚝섬 | 용산구 | 디저트 | 1 |
496 | 20180619 | 커뮤니티블로그 | 공덕 | 강남구 | 디저트 | 3 |
497 | 20170412 | 커뮤니티블로그 | 잠실역 | 구로구 | 디저트 | 2 |
498 | 20190810 | 커뮤니티블로그 | 서교동 | 종로구 | 디저트 | 4 |
499 | 20190520 | 커뮤니티블로그 | 방이동 | 금천구 | 디저트 | 7 |