gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	66
Missing cells	14
Missing cells (%)	7.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	1.7 KiB
Average record size in memory	27.0 B

Variable types

Numeric	1
Categorical	1
Text	1

Dataset

Description	샘플 데이터
Author	KT
URL	https://bigdata.seoul.go.kr/data/selectSampleData.do?sample_data_seq=43

Alerts

`RESD_CD(대도시거주지코드)` is highly overall correlated with `RESD_DO_NM(시도)`	High correlation
`RESD_DO_NM(시도)` is highly overall correlated with `RESD_CD(대도시거주지코드)`	High correlation
`RESD_CT_NM(시군구)` has 14 (21.2%) missing values	Missing
`RESD_CD(대도시거주지코드)` has unique values	Unique

Reproduction

Analysis started	2024-04-17 17:35:08.534587
Analysis finished	2024-04-17 17:35:08.794060
Duration	0.26 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

RESD_CD(대도시거주지코드)
Real number (ℝ)

HIGH CORRELATION UNIQUE

Distinct	66
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	38858.97

Minimum	26000
Maximum	50000
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	726.0 B

Quantile statistics

Minimum	26000
5-th percentile	28147.5
Q1	41111.5
median	41283
Q3	41565
95-th percentile	45750
Maximum	50000
Range	24000
Interquartile range (IQR)	453.5

Descriptive statistics

Standard deviation	6014.16
Coefficient of variation (CV)	0.1547689
Kurtosis	-0.24225957
Mean	38858.97
Median Absolute Deviation (MAD)	277
Skewness	-0.98816869
Sum	2564692
Variance	36170120
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
26000	1	1.5%
41590	1	1.5%
41310	1	1.5%
41360	1	1.5%
41370	1	1.5%
41390	1	1.5%
41410	1	1.5%
41430	1	1.5%
41450	1	1.5%
41461	1	1.5%
Other values (56)	56	84.8%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
26000	1	1.5%
27000	1	1.5%
28110	1	1.5%
28140	1	1.5%
28170	1	1.5%
28185	1	1.5%
28200	1	1.5%
28237	1	1.5%
28245	1	1.5%
28260	1	1.5%

Value	Count	Frequency (%)
50000	1	1.5%
48000	1	1.5%
47000	1	1.5%
46000	1	1.5%
45000	1	1.5%
44000	1	1.5%
43000	1	1.5%
42000	1	1.5%
41830	1	1.5%
41820	1	1.5%

RESD_DO_NM(시도)
Categorical

HIGH CORRELATION

Distinct	16
Distinct (%)	24.2%
Missing	0
Missing (%)	0.0%
Memory size	660.0 B

경기	42
인천	10
부산	1
대구	1
광주	1
Other values (11)	11

Length

Max length	2
Median length	2
Mean length	2
Min length	2

Unique

Unique	14 ?
Unique (%)	21.2%

Sample

1st row	부산
2nd row	대구
3rd row	인천
4th row	인천
5th row	인천

Common Values

Value	Count	Frequency (%)
경기	42	63.6%
인천	10	15.2%
부산	1	1.5%
대구	1	1.5%
광주	1	1.5%
대전	1	1.5%
울산	1	1.5%
세종	1	1.5%
강원	1	1.5%
충북	1	1.5%
Other values (6)	6	9.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
경기	42	63.6%
인천	10	15.2%
부산	1	1.5%
대구	1	1.5%
광주	1	1.5%
대전	1	1.5%
울산	1	1.5%
세종	1	1.5%
강원	1	1.5%
충북	1	1.5%
Other values (6)	6	9.1%

RESD_CT_NM(시군구)
Text

MISSING

Distinct	52
Distinct (%)	100.0%
Missing	14
Missing (%)	21.2%
Memory size	660.0 B

Length

Max length	8
Median length	3
Mean length	4.3269231
Min length	2

Characters and Unicode

Total characters	225
Distinct characters	63
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	52 ?
Unique (%)	100.0%

Sample

1st row	중구
2nd row	동구
3rd row	남구
4th row	연수구
5th row	남동구

Value	Count	Frequency (%)
수원시	4	5.8%
성남시	3	4.3%
용인시	3	4.3%
고양시	3	4.3%
안산시	2	2.9%
안양시	2	2.9%
여주시	1	1.4%
가평군	1	1.4%
일산서구	1	1.4%
과천시	1	1.4%
Other values (48)	48	69.6%

Most occurring characters

Value	Count	Frequency (%)
시	40	17.8%
구	26	11.6%
	17	7.6%
양	10	4.4%
안	8	3.6%
남	7	3.1%
수	7	3.1%
원	6	2.7%
천	6	2.7%
군	6	2.7%
Other values (53)	92	40.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	208	92.4%
Space Separator	17	7.6%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
시	40	19.2%
구	26	12.5%
양	10	4.8%
안	8	3.8%
남	7	3.4%
수	7	3.4%
원	6	2.9%
천	6	2.9%
군	6	2.9%
성	5	2.4%
Other values (52)	87	41.8%

Space Separator

Value	Count	Frequency (%)
	17	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	208	92.4%
Common	17	7.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
시	40	19.2%
구	26	12.5%
양	10	4.8%
안	8	3.8%
남	7	3.4%
수	7	3.4%
원	6	2.9%
천	6	2.9%
군	6	2.9%
성	5	2.4%
Other values (52)	87	41.8%

Common

Value	Count	Frequency (%)
	17	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	208	92.4%
ASCII	17	7.6%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
시	40	19.2%
구	26	12.5%
양	10	4.8%
안	8	3.8%
남	7	3.4%
수	7	3.4%
원	6	2.9%
천	6	2.9%
군	6	2.9%
성	5	2.4%
Other values (52)	87	41.8%

ASCII

Value	Count	Frequency (%)
	17	100.0%

RESD_CD(대도시거주지코드)

RESD_CD(대도시거주지코드)

Phik (φk)
Auto

Heatmap
Table

	RESD_CD(대도시거주지코드)	RESD_DO_NM(시도)	RESD_CT_NM(시군구)
RESD_CD(대도시거주지코드)	1.000	0.987	1.000
RESD_DO_NM(시도)	0.987	1.000	1.000
RESD_CT_NM(시군구)	1.000	1.000	1.000

Heatmap
Table

	RESD_CD(대도시거주지코드)	RESD_DO_NM(시도)
RESD_CD(대도시거주지코드)	1.000	0.879
RESD_DO_NM(시도)	0.879	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	RESD_CD(대도시거주지코드)	RESD_DO_NM(시도)	RESD_CT_NM(시군구)
0	26000	부산	<NA>
1	27000	대구	<NA>
2	28110	인천	중구
3	28140	인천	동구
4	28170	인천	남구
5	28185	인천	연수구
6	28200	인천	남동구
7	28237	인천	부평구
8	28245	인천	계양구
9	28260	인천	서구

	RESD_CD(대도시거주지코드)	RESD_DO_NM(시도)	RESD_CT_NM(시군구)
56	41820	경기	가평군
57	41830	경기	양평군
58	42000	강원	<NA>
59	43000	충북	<NA>
60	44000	충남	<NA>
61	45000	전북	<NA>
62	46000	전남	<NA>
63	47000	경북	<NA>
64	48000	경남	<NA>
65	50000	제주	<NA>

Overview

Variables

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Interactions

Correlations

Missing values

Sample