gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	154
Missing cells	312
Missing cells (%)	50.6%
Duplicate rows	7
Duplicate rows (%)	4.5%
Total size in memory	5.2 KiB
Average record size in memory	34.9 B

Variable types

Unsupported	1
Numeric	1
Categorical	1
Text	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-2743/F/1/datasetView.do

Alerts

Dataset has 7 (4.5%) duplicate rows	Duplicates
`Unnamed: 0` has 154 (100.0%) missing values	Missing
`2017년 월간 ‘서울사랑’ 독자 만족도 조사` has 134 (87.0%) missing values	Missing
`Unnamed: 3` has 24 (15.6%) missing values	Missing
`Unnamed: 0` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2023-12-11 05:25:37.504092
Analysis finished	2023-12-11 05:25:38.262147
Duration	0.76 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

Unnamed: 0
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	154
Missing (%)	100.0%
Memory size	1.5 KiB

2017년 월간 ‘서울사랑’ 독자 만족도 조사
Real number (ℝ)

MISSING

Distinct	20
Distinct (%)	100.0%
Missing	134
Missing (%)	87.0%
Infinite	0
Infinite (%)	0.0%
Mean	10.5

Minimum	1
Maximum	20
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	1.5 KiB

Quantile statistics

Minimum	1
5-th percentile	1.95
Q1	5.75
median	10.5
Q3	15.25
95-th percentile	19.05
Maximum	20
Range	19
Interquartile range (IQR)	9.5

Descriptive statistics

Standard deviation	5.9160798
Coefficient of variation (CV)	0.56343617
Kurtosis	-1.2
Mean	10.5
Median Absolute Deviation (MAD)	5
Skewness	0
Sum	210
Variance	35
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=20)

Value	Count	Frequency (%)
12	1	0.6%
20	1	0.6%
19	1	0.6%
18	1	0.6%
17	1	0.6%
16	1	0.6%
15	1	0.6%
14	1	0.6%
13	1	0.6%
1	1	0.6%
Other values (10)	10	6.5%
(Missing)	134	87.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	0.6%
2	1	0.6%
3	1	0.6%
4	1	0.6%
5	1	0.6%
6	1	0.6%
7	1	0.6%
8	1	0.6%
9	1	0.6%
10	1	0.6%

Value	Count	Frequency (%)
20	1	0.6%
19	1	0.6%
18	1	0.6%
17	1	0.6%
16	1	0.6%
15	1	0.6%
14	1	0.6%
13	1	0.6%
12	1	0.6%
11	1	0.6%

Unnamed: 2
Categorical

Distinct	33
Distinct (%)	21.4%
Missing	0
Missing (%)	0.0%
Memory size	1.3 KiB

1	20
2	19
3	17
4	15
5	11
Other values (28)	72

Length

Max length	105
Median length	1
Mean length	7.2077922
Min length	1

Unique

Unique	18 ?
Unique (%)	11.7%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	선생님께서는 최근 1년 동안 「서울사랑」을 읽어보신 적이 있습니까?(책자, 홈페이지 모두 포함)

Common Values

Value	Count	Frequency (%)
1	20	13.0%
2	19	12.3%
3	17	11.0%
4	15	9.7%
5	11	7.1%
99	11	7.1%
6	10	6.5%
7	8	5.2%
8	7	4.5%
9	5	3.2%
Other values (23)	31	20.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
1	20	5.8%
2	19	5.5%
3	17	4.9%
4	15	4.3%
5	11	3.2%
99	11	3.2%
6	10	2.9%
7	8	2.3%
8	7	2.0%
것을	6	1.7%
Other values (154)	223	64.3%

Unnamed: 3
Text

MISSING

Distinct	109
Distinct (%)	83.8%
Missing	24
Missing (%)	15.6%
Memory size	1.3 KiB

Length

Max length	45
Median length	25
Mean length	11.123077
Min length	2

Characters and Unicode

Total characters	1446
Distinct characters	259
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	74.6%

Sample

1st row	그렇다
2nd row	아니다
3rd row	아주 좋다
4th row	대체로 좋은 편이다
5th row	약간의 개선이 필요하다

Value	Count	Frequency (%)
등	13	3.5%
기타	11	3.0%
및	8	2.2%
필요하다	7	1.9%
정보	6	1.6%
개선이	5	1.4%
	5	1.4%
편이다	4	1.1%
원	4	1.1%
도움이	4	1.1%
Other values (249)	302	81.8%

Most occurring characters

Value	Count	Frequency (%)
	239	16.5%
기	40	2.8%
,	39	2.7%
다	39	2.7%
구	33	2.3%
이	30	2.1%
서	28	1.9%
관	22	1.5%
하	21	1.5%
·	20	1.4%
Other values (249)	935	64.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1093	75.6%
Space Separator	239	16.5%
Other Punctuation	76	5.3%
Open Punctuation	9	0.6%
Close Punctuation	9	0.6%
Decimal Number	8	0.6%
Uppercase Letter	6	0.4%
Lowercase Letter	5	0.3%
Dash Punctuation	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	40	3.7%
다	39	3.6%
구	33	3.0%
이	30	2.7%
서	28	2.6%
관	22	2.0%
하	21	1.9%
지	19	1.7%
정	19	1.7%
자	18	1.6%
Other values (226)	824	75.4%

Decimal Number

Value	Count	Frequency (%)
0	2	25.0%
6	2	25.0%
2	1	12.5%
5	1	12.5%
3	1	12.5%
1	1	12.5%

Uppercase Letter

Value	Count	Frequency (%)
S	2	33.3%
N	1	16.7%
F	1	16.7%
D	1	16.7%
P	1	16.7%

Other Punctuation

Value	Count	Frequency (%)
,	39	51.3%
·	20	26.3%
/	12	15.8%
:	5	6.6%

Lowercase Letter

Value	Count	Frequency (%)
o	2	40.0%
k	1	20.0%
b	1	20.0%
e	1	20.0%

Space Separator

Value	Count	Frequency (%)
	239	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	9	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	9	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1093	75.6%
Common	342	23.7%
Latin	11	0.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	40	3.7%
다	39	3.6%
구	33	3.0%
이	30	2.7%
서	28	2.6%
관	22	2.0%
하	21	1.9%
지	19	1.7%
정	19	1.7%
자	18	1.6%
Other values (226)	824	75.4%

Common

Value	Count	Frequency (%)
	239	69.9%
,	39	11.4%
·	20	5.8%
/	12	3.5%
(	9	2.6%
)	9	2.6%
:	5	1.5%
0	2	0.6%
6	2	0.6%
2	1	0.3%
Other values (4)	4	1.2%

Latin

Value	Count	Frequency (%)
S	2	18.2%
o	2	18.2%
N	1	9.1%
k	1	9.1%
b	1	9.1%
e	1	9.1%
F	1	9.1%
D	1	9.1%
P	1	9.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1093	75.6%
ASCII	333	23.0%
None	20	1.4%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	239	71.8%
,	39	11.7%
/	12	3.6%
(	9	2.7%
)	9	2.7%
:	5	1.5%
S	2	0.6%
o	2	0.6%
0	2	0.6%
6	2	0.6%
Other values (12)	12	3.6%

Hangul

Value	Count	Frequency (%)
기	40	3.7%
다	39	3.6%
구	33	3.0%
이	30	2.7%
서	28	2.6%
관	22	2.0%
하	21	1.9%
지	19	1.7%
정	19	1.7%
자	18	1.6%
Other values (226)	824	75.4%

None

Value	Count	Frequency (%)
·	20	100.0%

2017년 월간 ‘서울사랑’ 독자 만족도 조사

2017년 월간 ‘서울사랑’ 독자 만족도 조사

Phik (φk)
Auto

Heatmap
Table

	2017년 월간 ‘서울사랑’ 독자 만족도 조사	Unnamed: 2
2017년 월간 ‘서울사랑’ 독자 만족도 조사	1.000	0.832
Unnamed: 2	0.832	1.000

Heatmap
Table

	2017년 월간 ‘서울사랑’ 독자 만족도 조사	Unnamed: 2
2017년 월간 ‘서울사랑’ 독자 만족도 조사	1.000	0.000
Unnamed: 2	0.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	Unnamed: 0	2017년 월간 ‘서울사랑’ 독자 만족도 조사	Unnamed: 2	Unnamed: 3
0	<NA>	<NA>	<NA>	<NA>
1	<NA>	<NA>	<NA>	<NA>
2	<NA>	<NA>	<NA>	<NA>
3	<NA>	<NA>	<NA>	<NA>
4	<NA>	1	선생님께서는 최근 1년 동안 「서울사랑」을 읽어보신 적이 있습니까?(책자, 홈페이지 모두 포함)	<NA>
5	<NA>	<NA>	1	그렇다
6	<NA>	<NA>	2	아니다
7	<NA>	2	「서울사랑」을 읽으신 후 전반적으로 어떤 느낌이 드셨습니까?	<NA>
8	<NA>	<NA>	1	아주 좋다
9	<NA>	<NA>	2	대체로 좋은 편이다

	Unnamed: 0	2017년 월간 ‘서울사랑’ 독자 만족도 조사	Unnamed: 2	Unnamed: 3
144	<NA>	20	선생님께서는 주로 무슨 일을 하고 계십니까?	<NA>
145	<NA>	<NA>	1	자영업
146	<NA>	<NA>	2	사무/기술직
147	<NA>	<NA>	3	생산/기능직
148	<NA>	<NA>	4	판매/서비스직
149	<NA>	<NA>	5	자유/전문직
150	<NA>	<NA>	6	전업주부
151	<NA>	<NA>	7	학생
152	<NA>	<NA>	8	무직/취업준비/기타
153	<NA>	<NA>	9	응답하고 싶지 않음

Most frequently occurring

	2017년 월간 ‘서울사랑’ 독자 만족도 조사	Unnamed: 2	Unnamed: 3	# duplicates
5	<NA>	99	기타	11
6	<NA>	<NA>	<NA>	4
0	<NA>	1	기사내용	2
1	<NA>	1	아주 좋다	2
2	<NA>	2	대체로 좋은 편이다	2
3	<NA>	3	약간의 개선이 필요하다	2
4	<NA>	4	대폭적인 개선이 필요하다	2

Overview

Variables

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Other Punctuation

Lowercase Letter

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Interactions

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring