gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` is highly skewed (γ1 = 20.47511623)	Skewed
`금액` has 1310 (13.1%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:53:54.820371
Analysis finished	2024-05-11 06:53:56.446043
Duration	1.63 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2116
Distinct (%)	21.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.2907
Min length	2

Characters and Unicode

Total characters	72907
Distinct characters	424
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	123 ?
Unique (%)	1.2%

Sample

1st row	고덕리엔파크2단지
2nd row	암사삼성광나루
3rd row	래미안 웰스트림
4th row	래미안포레
5th row	DMC롯데캐슬더퍼스트

Value	Count	Frequency (%)
아파트	167	1.5%
래미안	39	0.4%
아이파크	27	0.3%
e편한세상	25	0.2%
신반포	18	0.2%
센트럴	16	0.1%
북한산	15	0.1%
강남한신휴플러스	14	0.1%
sk뷰	14	0.1%
고덕	14	0.1%
Other values (2191)	10448	96.8%

Most occurring characters

Value	Count	Frequency (%)
아	2715	3.7%
파	2571	3.5%
트	2416	3.3%
대	1800	2.5%
동	1634	2.2%
지	1624	2.2%
차	1442	2.0%
이	1422	2.0%
신	1393	1.9%
단	1247	1.7%
Other values (414)	54643	74.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66946	91.8%
Decimal Number	3370	4.6%
Space Separator	915	1.3%
Uppercase Letter	808	1.1%
Lowercase Letter	333	0.5%
Open Punctuation	137	0.2%
Close Punctuation	137	0.2%
Other Punctuation	132	0.2%
Dash Punctuation	126	0.2%
Letter Number	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2715	4.1%
파	2571	3.8%
트	2416	3.6%
대	1800	2.7%
동	1634	2.4%
지	1624	2.4%
차	1442	2.2%
이	1422	2.1%
신	1393	2.1%
단	1247	1.9%
Other values (369)	48682	72.7%

Uppercase Letter

Value	Count	Frequency (%)
C	138	17.1%
S	118	14.6%
K	97	12.0%
M	89	11.0%
D	89	11.0%
L	57	7.1%
H	38	4.7%
I	38	4.7%
G	37	4.6%
E	29	3.6%
Other values (7)	78	9.7%

Lowercase Letter

Value	Count	Frequency (%)
e	197	59.2%
l	30	9.0%
i	26	7.8%
s	20	6.0%
v	19	5.7%
k	18	5.4%
w	7	2.1%
c	4	1.2%
h	4	1.2%
g	4	1.2%

Decimal Number

Value	Count	Frequency (%)
2	1040	30.9%
1	972	28.8%
3	446	13.2%
4	233	6.9%
5	202	6.0%
6	144	4.3%
7	112	3.3%
8	81	2.4%
9	79	2.3%
0	61	1.8%

Other Punctuation

Value	Count	Frequency (%)
,	102	77.3%
.	30	22.7%

Space Separator

Value	Count	Frequency (%)
	915	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	137	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	137	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	126	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66946	91.8%
Common	4817	6.6%
Latin	1144	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2715	4.1%
파	2571	3.8%
트	2416	3.6%
대	1800	2.7%
동	1634	2.4%
지	1624	2.4%
차	1442	2.2%
이	1422	2.1%
신	1393	2.1%
단	1247	1.9%
Other values (369)	48682	72.7%

Latin

Value	Count	Frequency (%)
e	197	17.2%
C	138	12.1%
S	118	10.3%
K	97	8.5%
M	89	7.8%
D	89	7.8%
L	57	5.0%
H	38	3.3%
I	38	3.3%
G	37	3.2%
Other values (19)	246	21.5%

Common

Value	Count	Frequency (%)
2	1040	21.6%
1	972	20.2%
	915	19.0%
3	446	9.3%
4	233	4.8%
5	202	4.2%
6	144	3.0%
(	137	2.8%
)	137	2.8%
-	126	2.6%
Other values (6)	465	9.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66946	91.8%
ASCII	5958	8.2%
Number Forms	3	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2715	4.1%
파	2571	3.8%
트	2416	3.6%
대	1800	2.7%
동	1634	2.4%
지	1624	2.4%
차	1442	2.2%
이	1422	2.1%
신	1393	2.1%
단	1247	1.9%
Other values (369)	48682	72.7%

ASCII

Value	Count	Frequency (%)
2	1040	17.5%
1	972	16.3%
	915	15.4%
3	446	7.5%
4	233	3.9%
5	202	3.4%
e	197	3.3%
6	144	2.4%
C	138	2.3%
(	137	2.3%
Other values (34)	1534	25.7%

Number Forms

Value	Count	Frequency (%)
Ⅰ	3	100.0%

아파트코드
Text

Distinct	2120
Distinct (%)	21.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	123 ?
Unique (%)	1.2%

Sample

1st row	A13410011
2nd row	A13405002
3rd row	A10027714
4th row	A13520001
5th row	A10024828

Value	Count	Frequency (%)
a15381402	13	0.1%
a13471501	13	0.1%
a10024719	12	0.1%
a15780703	12	0.1%
a13307001	12	0.1%
a13887301	12	0.1%
a15080507	12	0.1%
a15720101	12	0.1%
a15209002	12	0.1%
a12187906	12	0.1%
Other values (2110)	9878	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18894	21.0%
1	17530	19.5%
A	10000	11.1%
3	8967	10.0%
2	8314	9.2%
5	6165	6.9%
8	5375	6.0%
7	4578	5.1%
4	4022	4.5%
6	3325	3.7%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18894	23.6%
1	17530	21.9%
3	8967	11.2%
2	8314	10.4%
5	6165	7.7%
8	5375	6.7%
7	4578	5.7%
4	4022	5.0%
6	3325	4.2%
9	2830	3.5%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18894	23.6%
1	17530	21.9%
3	8967	11.2%
2	8314	10.4%
5	6165	7.7%
8	5375	6.7%
7	4578	5.7%
4	4022	5.0%
6	3325	4.2%
9	2830	3.5%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18894	21.0%
1	17530	19.5%
A	10000	11.1%
3	8967	10.0%
2	8314	9.2%
5	6165	6.9%
8	5375	6.0%
7	4578	5.1%
4	4022	4.5%
6	3325	3.7%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8789
Min length	2

Characters and Unicode

Total characters	48789
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	잡수익
2nd row	급여
3rd row	검침수익
4th row	제수당
5th row	복리후생비

Value	Count	Frequency (%)
청소비	242	2.4%
보험료	239	2.4%
수선유지비	234	2.3%
세대전기료	229	2.3%
도서인쇄비	228	2.3%
통신비	224	2.2%
퇴직급여	220	2.2%
사무용품비	219	2.2%
교육비	212	2.1%
제수당	206	2.1%
Other values (76)	7747	77.5%

Most occurring characters

Value	Count	Frequency (%)
비	5358	11.0%
수	3552	7.3%
료	2096	4.3%
익	2014	4.1%
용	1645	3.4%
기	1301	2.7%
대	1072	2.2%
리	820	1.7%
보	818	1.7%
험	764	1.6%
Other values (110)	29349	60.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48789	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5358	11.0%
수	3552	7.3%
료	2096	4.3%
익	2014	4.1%
용	1645	3.4%
기	1301	2.7%
대	1072	2.2%
리	820	1.7%
보	818	1.7%
험	764	1.6%
Other values (110)	29349	60.2%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48789	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5358	11.0%
수	3552	7.3%
료	2096	4.3%
익	2014	4.1%
용	1645	3.4%
기	1301	2.7%
대	1072	2.2%
리	820	1.7%
보	818	1.7%
험	764	1.6%
Other values (110)	29349	60.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48789	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5358	11.0%
수	3552	7.3%
료	2096	4.3%
익	2014	4.1%
용	1645	3.4%
기	1301	2.7%
대	1072	2.2%
리	820	1.7%
보	818	1.7%
험	764	1.6%
Other values (110)	29349	60.2%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202109	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202109
2nd row	202109
3rd row	202109
4th row	202109
5th row	202109

Common Values

Value	Count	Frequency (%)
202109	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202109	10000	100.0%

금액
Real number (ℝ)

SKEWED ZEROS

Distinct	6908
Distinct (%)	69.1%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3117217.3

Minimum	-7496475
Maximum	6.0894896 × 10⁸
Zeros	1310
Zeros (%)	13.1%
Negative	10
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-7496475
5-th percentile	0
Q1	51667.5
median	300000
Q3	1354005
95-th percentile	15009725
Maximum	6.0894896 × 10⁸
Range	6.1644544 × 10⁸
Interquartile range (IQR)	1302337.5

Descriptive statistics

Standard deviation	13230692
Coefficient of variation (CV)	4.2443919
Kurtosis	696.67748
Mean	3117217.3
Median Absolute Deviation (MAD)	300000
Skewness	20.475116
Sum	3.1172173 × 10¹⁰
Variance	1.750512 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1310	13.1%
23000	83	0.8%
100000	67	0.7%
300000	65	0.7%
200000	61	0.6%
400000	38	0.4%
30000	36	0.4%
150000	35	0.4%
600000	31	0.3%
50000	30	0.3%
Other values (6898)	8244	82.4%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-7496475	1	< 0.1%
-1418720	1	< 0.1%
-1291250	1	< 0.1%
-854050	1	< 0.1%
-738493	1	< 0.1%
-720827	1	< 0.1%
-282460	1	< 0.1%
-644	1	< 0.1%
-216	1	< 0.1%
-4	1	< 0.1%

Value	Count	Frequency (%)
608948963	1	< 0.1%
466696704	1	< 0.1%
332839538	1	< 0.1%
301742206	1	< 0.1%
241122429	1	< 0.1%
216974823	1	< 0.1%
210755870	1	< 0.1%
209773233	1	< 0.1%
178201600	1	< 0.1%
151549674	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.226
금액	0.226	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
39452	고덕리엔파크2단지	A13410011	잡수익	202109	556780
38230	암사삼성광나루	A13405002	급여	202109	13319080
10358	래미안 웰스트림	A10027714	검침수익	202109	359050
43026	래미안포레	A13520001	제수당	202109	2114970
2260	DMC롯데캐슬더퍼스트	A10024828	복리후생비	202109	1294700
34021	왕십리풍림아이원	A13302206	부과차익	202109	877
37954	강변그대가리버뷰	A13402204	피복비	202109	0
20486	녹번역센트레빌	A12201005	입주자대표회의운영비	202109	763600
37162	송정건영	A13383702	도서인쇄비	202109	165000
31990	도봉파크빌2단지	A13275303	이자수익	202109	27012

	아파트명	아파트코드	비용명	년월일	금액
51437	돈암동부센트레빌	A13681303	수선유지비	202109	5458670
95523	개화산동부센트레빌	A15722102	청소비	202109	2259280
59946	가락금호	A13880407	급여	202109	18672910
60742	한양아파트	A13885102	보험료	202109	526650
39724	암사한강현대	A13471501	정화조관리비	202109	385183
74315	구의강변우성	A14320302	고용안정사업비용	202109	420000
73254	해모로	A14286108	피복비	202109	0
45309	개나리SKVIEW	A13579506	도서인쇄비	202109	143000
28112	신내4단지	A13184609	피복비	202109	62700
42175	청담자이	A13510007	회계감사비	202109	133870

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample