gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	297
Missing cells	10
Missing cells (%)	1.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	7.4 KiB
Average record size in memory	25.4 B

Variable types

Text	2
Numeric	1

Dataset

Description	한국언론진흥재단 미디어이슈 (19년 5호)에서 시민을 대상으로 언론자유와 기사삭제 청구에 대한 인식을 조사한 데이터입니다.
Author	한국언론진흥재단
URL	https://www.data.go.kr/data/15086110/fileData.do

Alerts

사례수 has 10 (3.4%) missing values Missing

Reproduction

Analysis started	2023-12-12 14:01:37.415188
Analysis finished	2023-12-12 14:01:37.836150
Duration	0.42 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

대분류
Text

Distinct	293
Distinct (%)	98.7%
Missing	0
Missing (%)	0.0%
Memory size	2.4 KiB

Length

Max length	15
Median length	12
Mean length	6.7104377
Min length	2

Characters and Unicode

Total characters	1993
Distinct characters	118
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	292 ?
Unique (%)	98.3%

Sample

1st row	성별1
2nd row	성별2
3rd row	연령1
4th row	연령2
5th row	연령3

Value	Count	Frequency (%)
이후	5	1.7%
이용자확산행위2	1	0.3%
신체정보_1	1	0.3%
주거지_4	1	0.3%
주거지_3	1	0.3%
주거지_2	1	0.3%
주거지_1	1	0.3%
나이_4	1	0.3%
나이_3	1	0.3%
나이_2	1	0.3%
Other values (283)	283	95.3%

Most occurring characters

Value	Count	Frequency (%)
_	109	5.5%
제	80	4.0%
1	78	3.9%
사	74	3.7%
보	70	3.5%
인	69	3.5%
2	66	3.3%
3	65	3.3%
4	64	3.2%
삭	62	3.1%
Other values (108)	1256	63.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1580	79.3%
Decimal Number	304	15.3%
Connector Punctuation	109	5.5%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
제	80	5.1%
사	74	4.7%
보	70	4.4%
인	69	4.4%
삭	62	3.9%
정	50	3.2%
범	34	2.2%
적	34	2.2%
가	33	2.1%
거	33	2.1%
Other values (97)	1041	65.9%

Decimal Number

Value	Count	Frequency (%)
1	78	25.7%
2	66	21.7%
3	65	21.4%
4	64	21.1%
5	15	4.9%
6	5	1.6%
7	4	1.3%
8	3	1.0%
9	2	0.7%
0	2	0.7%

Connector Punctuation

Value	Count	Frequency (%)
_	109	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1580	79.3%
Common	413	20.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
제	80	5.1%
사	74	4.7%
보	70	4.4%
인	69	4.4%
삭	62	3.9%
정	50	3.2%
범	34	2.2%
적	34	2.2%
가	33	2.1%
거	33	2.1%
Other values (97)	1041	65.9%

Common

Value	Count	Frequency (%)
_	109	26.4%
1	78	18.9%
2	66	16.0%
3	65	15.7%
4	64	15.5%
5	15	3.6%
6	5	1.2%
7	4	1.0%
8	3	0.7%
9	2	0.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1580	79.3%
ASCII	413	20.7%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
_	109	26.4%
1	78	18.9%
2	66	16.0%
3	65	15.7%
4	64	15.5%
5	15	3.6%
6	5	1.2%
7	4	1.0%
8	3	0.7%
9	2	0.5%

Hangul

Value	Count	Frequency (%)
제	80	5.1%
사	74	4.7%
보	70	4.4%
인	69	4.4%
삭	62	3.9%
정	50	3.2%
범	34	2.2%
적	34	2.2%
가	33	2.1%
거	33	2.1%
Other values (97)	1041	65.9%

중분류
Text

Distinct	89
Distinct (%)	30.0%
Missing	0
Missing (%)	0.0%
Memory size	2.4 KiB

Length

Max length	38
Median length	36
Mean length	6.6127946
Min length	2

Characters and Unicode

Total characters	1964
Distinct characters	148
Distinct categories	7 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	76 ?
Unique (%)	25.6%

Sample

1st row	남성
2nd row	여성
3rd row	만20~29세
4th row	만30~39세
5th row	만40~49세

Value	Count	Frequency (%)
안함	83	13.3%
동의	83	13.3%
동의함	82	13.1%
별로	42	6.7%
전혀	41	6.5%
매우	41	6.5%
약간	41	6.5%
원	8	1.3%
전혀동의안함	8	1.3%
매우동의함	8	1.3%
Other values (129)	189	30.2%

Most occurring characters

Value	Count	Frequency (%)
	329	16.8%
의	200	10.2%
동	197	10.0%
함	197	10.0%
안	103	5.2%
전	53	2.7%
별	50	2.5%
우	50	2.5%
로	50	2.5%
간	50	2.5%
Other values (138)	685	34.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1516	77.2%
Space Separator	329	16.8%
Decimal Number	98	5.0%
Math Symbol	10	0.5%
Close Punctuation	4	0.2%
Open Punctuation	4	0.2%
Other Punctuation	3	0.2%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	200	13.2%
동	197	13.0%
함	197	13.0%
안	103	6.8%
전	53	3.5%
별	50	3.3%
우	50	3.3%
로	50	3.3%
간	50	3.3%
매	50	3.3%
Other values (123)	516	34.0%

Decimal Number

Value	Count	Frequency (%)
0	25	25.5%
9	19	19.4%
1	15	15.3%
5	11	11.2%
3	11	11.2%
2	5	5.1%
4	4	4.1%
8	3	3.1%
6	3	3.1%
7	2	2.0%

Space Separator

Value	Count	Frequency (%)
	329	100.0%

Math Symbol

Value	Count	Frequency (%)
~	10	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	4	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	4	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1516	77.2%
Common	448	22.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	200	13.2%
동	197	13.0%
함	197	13.0%
안	103	6.8%
전	53	3.5%
별	50	3.3%
우	50	3.3%
로	50	3.3%
간	50	3.3%
매	50	3.3%
Other values (123)	516	34.0%

Common

Value	Count	Frequency (%)
	329	73.4%
0	25	5.6%
9	19	4.2%
1	15	3.3%
5	11	2.5%
3	11	2.5%
~	10	2.2%
2	5	1.1%
4	4	0.9%
)	4	0.9%
Other values (5)	15	3.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1516	77.2%
ASCII	448	22.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	329	73.4%
0	25	5.6%
9	19	4.2%
1	15	3.3%
5	11	2.5%
3	11	2.5%
~	10	2.2%
2	5	1.1%
4	4	0.9%
)	4	0.9%
Other values (5)	15	3.3%

Hangul

Value	Count	Frequency (%)
의	200	13.2%
동	197	13.0%
함	197	13.0%
안	103	6.8%
전	53	3.5%
별	50	3.3%
우	50	3.3%
로	50	3.3%
간	50	3.3%
매	50	3.3%
Other values (123)	516	34.0%

사례수
Real number (ℝ)

MISSING

Distinct	220
Distinct (%)	76.7%
Missing	10
Missing (%)	3.4%
Infinite	0
Infinite (%)	0.0%
Mean	225.00697

Minimum	2
Maximum	844
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	2.7 KiB

Quantile statistics

Minimum	2
5-th percentile	23.3
Q1	78
median	192
Q3	354.5
95-th percentile	524.7
Maximum	844
Range	842
Interquartile range (IQR)	276.5

Descriptive statistics

Standard deviation	173.24168
Coefficient of variation (CV)	0.76993916
Kurtosis	0.45328447
Mean	225.00697
Median Absolute Deviation (MAD)	128
Skewness	0.8950196
Sum	64577
Variance	30012.678
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
357	4	1.3%
308	4	1.3%
64	4	1.3%
63	3	1.0%
315	3	1.0%
100	3	1.0%
55	3	1.0%
48	3	1.0%
32	3	1.0%
94	3	1.0%
Other values (210)	254	85.5%
(Missing)	10	3.4%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
2	1	0.3%
4	1	0.3%
6	1	0.3%
8	1	0.3%
9	2	0.7%
11	1	0.3%
12	1	0.3%
13	1	0.3%
14	1	0.3%
18	1	0.3%

Value	Count	Frequency (%)
844	1	0.3%
771	1	0.3%
769	1	0.3%
748	1	0.3%
718	1	0.3%
685	1	0.3%
681	1	0.3%
645	1	0.3%
623	1	0.3%
614	1	0.3%

사례수

사례수

Phik (φk)

Heatmap
Table

	중분류	사례수
중분류	1.000	0.694
사례수	0.694	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	대분류	중분류	사례수
0	성별1	남성	510
1	성별2	여성	490
2	연령1	만20~29세	192
3	연령2	만30~39세	207
4	연령3	만40~49세	248
5	연령4	만50~59세	243
6	연령5	만60세 이상	110
7	거주지역1	서울	197
8	거주지역2	인천	58
9	거주지역3	경기	253

	대분류	중분류	사례수
287	사회계층1	하층	94
288	사회계층2	중하층	396
289	사회계층3	중간층	440
290	사회계층4	중상층	68
291	사회계층5	상층	2
292	정치적성향1	보수	29
293	정치적성향2	보수에 가까움	144
294	정치적성향3	중도	537
295	정치적성향4	진보에 가까움	249
296	정치적성향5	진보	41

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Connector Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Space Separator

Math Symbol

Close Punctuation

Open Punctuation

Other Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Interactions

Correlations

Missing values

Sample