Dataset statistics
Number of variables | 6 |
---|---|
Number of observations | 500 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 24.5 KiB |
Average record size in memory | 50.3 B |
Variable types
Numeric | 2 |
---|---|
Categorical | 3 |
Text | 1 |
Dataset
Description | 샘플 데이터 |
---|---|
Author | 다음소프트 |
URL | https://bigdata.seoul.go.kr/data/selectSampleData.do?sample_data_seq=57 |
수집소스(SOURCE) is highly imbalanced (88.2%) | Imbalance |
Reproduction
Analysis started | 2023-12-10 14:53:50.119616 |
---|---|
Analysis finished | 2023-12-10 14:53:52.291793 |
Duration | 2.17 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
DOC_DATE(DATE)
Real number (ℝ)
Distinct | 400 |
---|---|
Distinct (%) | 80.0% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 20180170 |
Minimum | 20170109 |
---|---|
Maximum | 20191226 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 4.5 KiB |
Quantile statistics
Minimum | 20170109 |
---|---|
5-th percentile | 20170304 |
Q1 | 20170927 |
median | 20180622 |
Q3 | 20190223 |
95-th percentile | 20191018 |
Maximum | 20191226 |
Range | 21117 |
Interquartile range (IQR) | 19295.75 |
Descriptive statistics
Standard deviation | 7964.2364 |
---|---|
Coefficient of variation (CV) | 0.00039465656 |
Kurtosis | -1.4130177 |
Mean | 20180170 |
Median Absolute Deviation (MAD) | 9688.5 |
Skewness | 0.092072877 |
Sum | 1.0090085 × 1010 |
Variance | 63429062 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
20171101 | 5 | 1.0% |
20190106 | 3 | 0.6% |
20181203 | 3 | 0.6% |
20180101 | 3 | 0.6% |
20190703 | 3 | 0.6% |
20180707 | 3 | 0.6% |
20190820 | 3 | 0.6% |
20191209 | 3 | 0.6% |
20170927 | 3 | 0.6% |
20190330 | 3 | 0.6% |
Other values (390) | 468 |
Value | Count | Frequency (%) |
20170109 | 2 | |
20170119 | 1 | 0.2% |
20170121 | 2 | |
20170122 | 2 | |
20170123 | 1 | 0.2% |
20170130 | 1 | 0.2% |
20170131 | 1 | 0.2% |
20170203 | 1 | 0.2% |
20170204 | 1 | 0.2% |
20170206 | 3 |
Value | Count | Frequency (%) |
20191226 | 2 | |
20191223 | 1 | 0.2% |
20191222 | 1 | 0.2% |
20191216 | 1 | 0.2% |
20191214 | 1 | 0.2% |
20191211 | 1 | 0.2% |
20191210 | 1 | 0.2% |
20191209 | 3 | |
20191206 | 1 | 0.2% |
20191129 | 1 | 0.2% |
수집소스(SOURCE)
Categorical
IMBALANCE
 
Distinct | 2 |
---|---|
Distinct (%) | 0.4% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
블로그커뮤니티 | |
---|---|
트위터 | 8 |
Length
Max length | 7 |
---|---|
Median length | 7 |
Mean length | 6.936 |
Min length | 3 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 블로그커뮤니티 |
---|---|
2nd row | 블로그커뮤니티 |
3rd row | 블로그커뮤니티 |
4th row | 블로그커뮤니티 |
5th row | 블로그커뮤니티 |
Common Values
Value | Count | Frequency (%) |
블로그커뮤니티 | 492 | |
트위터 | 8 | 1.6% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
블로그커뮤니티 | 492 | |
트위터 | 8 | 1.6% |
행정동(DONG_NM)
Text
Distinct | 217 |
---|---|
Distinct (%) | 43.4% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
Value | Count | Frequency (%) |
서울 | 34 | 6.8% |
용산 | 14 | 2.8% |
강남 | 11 | 2.2% |
강남역 | 11 | 2.2% |
명동 | 9 | 1.8% |
용산cgv | 9 | 1.8% |
신촌 | 9 | 1.8% |
왕십리 | 8 | 1.6% |
을지로 | 7 | 1.4% |
상봉 | 7 | 1.4% |
Other values (207) | 381 |
Most occurring characters
Value | Count | Frequency (%) |
동 | 104 | 6.3% |
역 | 58 | 3.5% |
대 | 51 | 3.1% |
서 | 50 | 3.0% |
강 | 45 | 2.7% |
울 | 44 | 2.7% |
구 | 36 | 2.2% |
남 | 35 | 2.1% |
c | 34 | 2.1% |
g | 32 | 1.9% |
Other values (182) | 1156 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 1540 | |
Lowercase Letter | 103 | 6.3% |
Decimal Number | 2 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
동 | 104 | 6.8% |
역 | 58 | 3.8% |
대 | 51 | 3.3% |
서 | 50 | 3.2% |
강 | 45 | 2.9% |
울 | 44 | 2.9% |
구 | 36 | 2.3% |
남 | 35 | 2.3% |
산 | 30 | 1.9% |
신 | 28 | 1.8% |
Other values (174) | 1059 |
Lowercase Letter
Value | Count | Frequency (%) |
c | 34 | |
g | 32 | |
v | 32 | |
f | 2 | 1.9% |
i | 2 | 1.9% |
n | 1 | 1.0% |
Decimal Number
Value | Count | Frequency (%) |
3 | 1 | |
6 | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 1540 | |
Latin | 103 | 6.3% |
Common | 2 | 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
동 | 104 | 6.8% |
역 | 58 | 3.8% |
대 | 51 | 3.3% |
서 | 50 | 3.2% |
강 | 45 | 2.9% |
울 | 44 | 2.9% |
구 | 36 | 2.3% |
남 | 35 | 2.3% |
산 | 30 | 1.9% |
신 | 28 | 1.8% |
Other values (174) | 1059 |
Latin
Value | Count | Frequency (%) |
c | 34 | |
g | 32 | |
v | 32 | |
f | 2 | 1.9% |
i | 2 | 1.9% |
n | 1 | 1.0% |
Common
Value | Count | Frequency (%) |
3 | 1 | |
6 | 1 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 1540 | |
ASCII | 105 | 6.4% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
동 | 104 | 6.8% |
역 | 58 | 3.8% |
대 | 51 | 3.3% |
서 | 50 | 3.2% |
강 | 45 | 2.9% |
울 | 44 | 2.9% |
구 | 36 | 2.3% |
남 | 35 | 2.3% |
산 | 30 | 1.9% |
신 | 28 | 1.8% |
Other values (174) | 1059 |
ASCII
Value | Count | Frequency (%) |
c | 34 | |
g | 32 | |
v | 32 | |
f | 2 | 1.9% |
i | 2 | 1.9% |
3 | 1 | 1.0% |
6 | 1 | 1.0% |
n | 1 | 1.0% |
행정구(GU_NM)
Categorical
Distinct | 25 |
---|---|
Distinct (%) | 5.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
강남구 | |
---|---|
종로구 | |
용산구 | |
서울 | |
마포구 | |
Other values (20) |
Length
Max length | 4 |
---|---|
Median length | 3 |
Mean length | 2.93 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 서울 |
---|---|
2nd row | 광진구 |
3rd row | 중구 |
4th row | 송파구 |
5th row | 마포구 |
Common Values
Value | Count | Frequency (%) |
강남구 | 67 | |
종로구 | 52 | 10.4% |
용산구 | 51 | 10.2% |
서울 | 44 | 8.8% |
마포구 | 43 | 8.6% |
중구 | 32 | 6.4% |
송파구 | 22 | 4.4% |
영등포구 | 21 | 4.2% |
광진구 | 20 | 4.0% |
서대문구 | 18 | 3.6% |
Other values (15) | 130 |
Length
Value | Count | Frequency (%) |
강남구 | 67 | |
종로구 | 52 | 10.4% |
용산구 | 51 | 10.2% |
서울 | 44 | 8.8% |
마포구 | 43 | 8.6% |
중구 | 32 | 6.4% |
송파구 | 22 | 4.4% |
영등포구 | 21 | 4.2% |
광진구 | 20 | 4.0% |
서대문구 | 18 | 3.6% |
Other values (15) | 130 |
세부키워드(KEYWORD_DETAIL)
Categorical
Distinct | 20 |
---|---|
Distinct (%) | 4.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 4.0 KiB |
영화 | |
---|---|
cgv | |
영화관 | |
극장 | |
메가박스 | |
Other values (15) |
Length
Max length | 5 |
---|---|
Median length | 4 |
Mean length | 2.802 |
Min length | 2 |
Unique
Unique | 1 ? |
---|---|
Unique (%) | 0.2% |
Sample
1st row | 영화 |
---|---|
2nd row | 롯데시네마 |
3rd row | 영화 |
4th row | 영화관람 |
5th row | 영화관에서 |
Common Values
Value | Count | Frequency (%) |
영화 | 196 | |
cgv | 67 | 13.4% |
영화관 | 57 | 11.4% |
극장 | 30 | 6.0% |
메가박스 | 28 | 5.6% |
롯데시네마 | 26 | 5.2% |
영화보기 | 17 | 3.4% |
개봉 | 16 | 3.2% |
매표소 | 15 | 3.0% |
영화관에서 | 9 | 1.8% |
Other values (10) | 39 | 7.8% |
Length
Value | Count | Frequency (%) |
영화 | 196 | |
cgv | 67 | 13.4% |
영화관 | 57 | 11.4% |
극장 | 30 | 6.0% |
메가박스 | 28 | 5.6% |
롯데시네마 | 26 | 5.2% |
영화보기 | 17 | 3.4% |
개봉 | 16 | 3.2% |
매표소 | 15 | 3.0% |
영화보러 | 9 | 1.8% |
Other values (10) | 39 | 7.8% |
FREQ(FREQ)
Real number (ℝ)
Distinct | 9 |
---|---|
Distinct (%) | 1.8% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 1.31 |
Minimum | 1 |
---|---|
Maximum | 18 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 4.5 KiB |
Quantile statistics
Minimum | 1 |
---|---|
5-th percentile | 1 |
Q1 | 1 |
median | 1 |
Q3 | 1 |
95-th percentile | 2 |
Maximum | 18 |
Range | 17 |
Interquartile range (IQR) | 0 |
Descriptive statistics
Standard deviation | 1.4359749 |
---|---|
Coefficient of variation (CV) | 1.0961641 |
Kurtosis | 82.848224 |
Mean | 1.31 |
Median Absolute Deviation (MAD) | 0 |
Skewness | 8.6102671 |
Sum | 655 |
Variance | 2.062024 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
1 | 428 | |
2 | 53 | 10.6% |
3 | 8 | 1.6% |
4 | 5 | 1.0% |
15 | 2 | 0.4% |
14 | 1 | 0.2% |
10 | 1 | 0.2% |
5 | 1 | 0.2% |
18 | 1 | 0.2% |
Value | Count | Frequency (%) |
1 | 428 | |
2 | 53 | 10.6% |
3 | 8 | 1.6% |
4 | 5 | 1.0% |
5 | 1 | 0.2% |
10 | 1 | 0.2% |
14 | 1 | 0.2% |
15 | 2 | 0.4% |
18 | 1 | 0.2% |
Value | Count | Frequency (%) |
18 | 1 | 0.2% |
15 | 2 | 0.4% |
14 | 1 | 0.2% |
10 | 1 | 0.2% |
5 | 1 | 0.2% |
4 | 5 | 1.0% |
3 | 8 | 1.6% |
2 | 53 | 10.6% |
1 | 428 |
DOC_DATE(DATE) | 수집소스(SOURCE) | 행정구(GU_NM) | 세부키워드(KEYWORD_DETAIL) | FREQ(FREQ) | |
---|---|---|---|---|---|
DOC_DATE(DATE) | 1.000 | 0.156 | 0.000 | 0.000 | 0.033 |
수집소스(SOURCE) | 0.156 | 1.000 | 0.000 | 0.046 | 0.314 |
행정구(GU_NM) | 0.000 | 0.000 | 1.000 | 0.315 | 0.000 |
세부키워드(KEYWORD_DETAIL) | 0.000 | 0.046 | 0.315 | 1.000 | 0.000 |
FREQ(FREQ) | 0.033 | 0.314 | 0.000 | 0.000 | 1.000 |
세부키워드(KEYWORD_DETAIL) | 수집소스(SOURCE) | 행정구(GU_NM) | |
---|---|---|---|
세부키워드(KEYWORD_DETAIL) | 1.000 | 0.034 | 0.089 |
수집소스(SOURCE) | 0.034 | 1.000 | 0.000 |
행정구(GU_NM) | 0.089 | 0.000 | 1.000 |
DOC_DATE(DATE) | FREQ(FREQ) | 수집소스(SOURCE) | 행정구(GU_NM) | 세부키워드(KEYWORD_DETAIL) | |
---|---|---|---|---|---|
DOC_DATE(DATE) | 1.000 | -0.017 | 0.084 | 0.013 | 0.000 |
FREQ(FREQ) | -0.017 | 1.000 | 0.335 | 0.000 | 0.000 |
수집소스(SOURCE) | 0.084 | 0.335 | 1.000 | 0.000 | 0.034 |
행정구(GU_NM) | 0.013 | 0.000 | 0.000 | 1.000 | 0.089 |
세부키워드(KEYWORD_DETAIL) | 0.000 | 0.000 | 0.034 | 0.089 | 1.000 |
DOC_DATE(DATE) | 수집소스(SOURCE) | 행정동(DONG_NM) | 행정구(GU_NM) | 세부키워드(KEYWORD_DETAIL) | FREQ(FREQ) | |
---|---|---|---|---|---|---|
0 | 20190625 | 블로그커뮤니티 | 샤로수길 | 서울 | 영화 | 1 |
1 | 20170731 | 블로그커뮤니티 | 가로수길 | 광진구 | 롯데시네마 | 1 |
2 | 20190731 | 블로그커뮤니티 | 송파 | 중구 | 영화 | 1 |
3 | 20180108 | 블로그커뮤니티 | 영등포역 | 송파구 | 영화관람 | 1 |
4 | 20170121 | 블로그커뮤니티 | 파르나스몰 | 마포구 | 영화관에서 | 1 |
5 | 20180711 | 블로그커뮤니티 | 한강 | 영등포구 | 조조영화 | 1 |
6 | 20190714 | 블로그커뮤니티 | 녹사평 | 마포구 | 롯데시네마 | 1 |
7 | 20191029 | 블로그커뮤니티 | 월드컵경기장 | 용산구 | 영화 | 1 |
8 | 20190314 | 블로그커뮤니티 | 상암동 | 종로구 | 영화보기 | 3 |
9 | 20180607 | 블로그커뮤니티 | 코엑스메가박스 | 광진구 | cgv | 2 |
DOC_DATE(DATE) | 수집소스(SOURCE) | 행정동(DONG_NM) | 행정구(GU_NM) | 세부키워드(KEYWORD_DETAIL) | FREQ(FREQ) | |
---|---|---|---|---|---|---|
490 | 20170206 | 블로그커뮤니티 | 망원역 | 마포구 | 영화관 | 1 |
491 | 20180718 | 블로그커뮤니티 | 롯데월드 | 영등포구 | 영화 | 1 |
492 | 20190703 | 블로그커뮤니티 | 영등포동 | 서울 | 영화 | 1 |
493 | 20180415 | 블로그커뮤니티 | 영등포동 | 송파구 | 영화 | 1 |
494 | 20180506 | 블로그커뮤니티 | 이수역 | 서대문구 | 영화 | 18 |
495 | 20170615 | 블로그커뮤니티 | 월드컵경기장 | 중구 | cgv | 1 |
496 | 20181205 | 블로그커뮤니티 | 국립박물관 | 종로구 | 롯데시네마 | 1 |
497 | 20171025 | 블로그커뮤니티 | 신도림롯데시네마 | 은평구 | 영화관 | 2 |
498 | 20190901 | 블로그커뮤니티 | 이태원 | 중랑구 | 영화관람 | 2 |
499 | 20171025 | 블로그커뮤니티 | 을지로 | 양천구 | 롯데시네마 | 1 |