gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1078 (10.8%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:48:11.759454
Analysis finished	2024-05-11 06:48:14.150679
Duration	2.39 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2111
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.4343
Min length	2

Characters and Unicode

Total characters	74343
Distinct characters	431
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	104 ?
Unique (%)	1.0%

Sample

1st row	수유역두산위브
2nd row	서울숲한신더휴아파트
3rd row	래미안 신반포 리오센트
4th row	창동주공4단지
5th row	이문현대

Value	Count	Frequency (%)
아파트	206	1.9%
래미안	48	0.4%
e편한세상	35	0.3%
아이파크	25	0.2%
경남아너스빌	21	0.2%
힐스테이트	18	0.2%
푸르지오	17	0.2%
북한산	16	0.1%
이편한세상	15	0.1%
신반포	15	0.1%
Other values (2193)	10522	96.2%

Most occurring characters

Value	Count	Frequency (%)
파	2569	3.5%
아	2548	3.4%
트	2490	3.3%
지	1836	2.5%
대	1704	2.3%
동	1571	2.1%
신	1468	2.0%
차	1432	1.9%
단	1427	1.9%
이	1413	1.9%
Other values (421)	55885	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	68083	91.6%
Decimal Number	3621	4.9%
Space Separator	1035	1.4%
Uppercase Letter	771	1.0%
Lowercase Letter	265	0.4%
Open Punctuation	167	0.2%
Close Punctuation	167	0.2%
Dash Punctuation	130	0.2%
Other Punctuation	98	0.1%
Letter Number	6	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
파	2569	3.8%
아	2548	3.7%
트	2490	3.7%
지	1836	2.7%
대	1704	2.5%
동	1571	2.3%
신	1468	2.2%
차	1432	2.1%
단	1427	2.1%
이	1413	2.1%
Other values (376)	49625	72.9%

Uppercase Letter

Value	Count	Frequency (%)
S	123	16.0%
C	109	14.1%
K	89	11.5%
M	79	10.2%
D	79	10.2%
L	57	7.4%
H	47	6.1%
E	42	5.4%
I	33	4.3%
G	30	3.9%
Other values (7)	83	10.8%

Lowercase Letter

Value	Count	Frequency (%)
e	186	70.2%
i	15	5.7%
s	13	4.9%
k	13	4.9%
l	12	4.5%
v	8	3.0%
w	6	2.3%
c	4	1.5%
a	3	1.1%
g	3	1.1%

Decimal Number

Value	Count	Frequency (%)
1	1087	30.0%
2	997	27.5%
3	507	14.0%
4	241	6.7%
5	221	6.1%
6	180	5.0%
7	105	2.9%
8	104	2.9%
9	99	2.7%
0	80	2.2%

Other Punctuation

Value	Count	Frequency (%)
,	75	76.5%
.	23	23.5%

Space Separator

Value	Count	Frequency (%)
	1035	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	167	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	167	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	130	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	68083	91.6%
Common	5218	7.0%
Latin	1042	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
파	2569	3.8%
아	2548	3.7%
트	2490	3.7%
지	1836	2.7%
대	1704	2.5%
동	1571	2.3%
신	1468	2.2%
차	1432	2.1%
단	1427	2.1%
이	1413	2.1%
Other values (376)	49625	72.9%

Latin

Value	Count	Frequency (%)
e	186	17.9%
S	123	11.8%
C	109	10.5%
K	89	8.5%
M	79	7.6%
D	79	7.6%
L	57	5.5%
H	47	4.5%
E	42	4.0%
I	33	3.2%
Other values (19)	198	19.0%

Common

Value	Count	Frequency (%)
1	1087	20.8%
	1035	19.8%
2	997	19.1%
3	507	9.7%
4	241	4.6%
5	221	4.2%
6	180	3.4%
(	167	3.2%
)	167	3.2%
-	130	2.5%
Other values (6)	486	9.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	68083	91.6%
ASCII	6254	8.4%
Number Forms	6	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
파	2569	3.8%
아	2548	3.7%
트	2490	3.7%
지	1836	2.7%
대	1704	2.5%
동	1571	2.3%
신	1468	2.2%
차	1432	2.1%
단	1427	2.1%
이	1413	2.1%
Other values (376)	49625	72.9%

ASCII

Value	Count	Frequency (%)
1	1087	17.4%
	1035	16.5%
2	997	15.9%
3	507	8.1%
4	241	3.9%
5	221	3.5%
e	186	3.0%
6	180	2.9%
(	167	2.7%
)	167	2.7%
Other values (34)	1466	23.4%

Number Forms

Value	Count	Frequency (%)
Ⅰ	6	100.0%

아파트코드
Text

Distinct	2115
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	105 ?
Unique (%)	1.1%

Sample

1st row	A14270301
2nd row	A13386702
3rd row	A10025418
4th row	A13204104
5th row	A13082703

Value	Count	Frequency (%)
a13086101	13	0.1%
a15210206	13	0.1%
a15605103	13	0.1%
a15001009	12	0.1%
a13983816	12	0.1%
a15083701	12	0.1%
a15807605	11	0.1%
a13790703	11	0.1%
a14280502	11	0.1%
a13611011	11	0.1%
Other values (2105)	9881	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18643	20.7%
1	17438	19.4%
A	9984	11.1%
3	8820	9.8%
2	8497	9.4%
5	6123	6.8%
8	5478	6.1%
7	4516	5.0%
4	4011	4.5%
6	3438	3.8%
Other values (2)	3052	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18643	23.3%
1	17438	21.8%
3	8820	11.0%
2	8497	10.6%
5	6123	7.7%
8	5478	6.8%
7	4516	5.6%
4	4011	5.0%
6	3438	4.3%
9	3036	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9984	99.8%
B	16	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18643	23.3%
1	17438	21.8%
3	8820	11.0%
2	8497	10.6%
5	6123	7.7%
8	5478	6.8%
7	4516	5.6%
4	4011	5.0%
6	3438	4.3%
9	3036	3.8%

Latin

Value	Count	Frequency (%)
A	9984	99.8%
B	16	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18643	20.7%
1	17438	19.4%
A	9984	11.1%
3	8820	9.8%
2	8497	9.4%
5	6123	6.8%
8	5478	6.1%
7	4516	5.0%
4	4011	4.5%
6	3438	3.8%
Other values (2)	3052	3.4%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.7529
Min length	2

Characters and Unicode

Total characters	47529
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	연차수당
2nd row	복리후생비
3rd row	제수당
4th row	전산고지비
5th row	입주자대표회의운영비

Value	Count	Frequency (%)
소독비	251	2.5%
세대전기료	247	2.5%
도서인쇄비	243	2.4%
퇴직급여	243	2.4%
통신비	235	2.4%
제수당	227	2.3%
수선유지비	227	2.3%
사무용품비	223	2.2%
산재보험료	222	2.2%
교육비	221	2.2%
Other values (76)	7661	76.6%

Most occurring characters

Value	Count	Frequency (%)
비	5316	11.2%
수	3611	7.6%
료	2231	4.7%
익	1923	4.0%
기	1417	3.0%
용	1280	2.7%
대	1146	2.4%
리	880	1.9%
보	874	1.8%
험	804	1.7%
Other values (110)	28047	59.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	47529	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5316	11.2%
수	3611	7.6%
료	2231	4.7%
익	1923	4.0%
기	1417	3.0%
용	1280	2.7%
대	1146	2.4%
리	880	1.9%
보	874	1.8%
험	804	1.7%
Other values (110)	28047	59.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	47529	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5316	11.2%
수	3611	7.6%
료	2231	4.7%
익	1923	4.0%
기	1417	3.0%
용	1280	2.7%
대	1146	2.4%
리	880	1.9%
보	874	1.8%
험	804	1.7%
Other values (110)	28047	59.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	47529	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5316	11.2%
수	3611	7.6%
료	2231	4.7%
익	1923	4.0%
기	1417	3.0%
용	1280	2.7%
대	1146	2.4%
리	880	1.9%
보	874	1.8%
험	804	1.7%
Other values (110)	28047	59.0%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202304	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202304
2nd row	202304
3rd row	202304
4th row	202304
5th row	202304

Common Values

Value	Count	Frequency (%)
202304	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202304	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7236
Distinct (%)	72.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3778251.1

Minimum	-2820000
Maximum	4.3325737 × 10⁸
Zeros	1078
Zeros (%)	10.8%
Negative	9
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-2820000
5-th percentile	0
Q1	89567.5
median	350000
Q3	1571887.5
95-th percentile	18262329
Maximum	4.3325737 × 10⁸
Range	4.3607737 × 10⁸
Interquartile range (IQR)	1482320

Descriptive statistics

Standard deviation	14090720
Coefficient of variation (CV)	3.7294292
Kurtosis	233.88961
Mean	3778251.1
Median Absolute Deviation (MAD)	346718.5
Skewness	12.275287
Sum	3.7782511 × 10¹⁰
Variance	1.985484 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1078	10.8%
200000	96	1.0%
300000	60	0.6%
100000	59	0.6%
150000	47	0.5%
400000	39	0.4%
50000	35	0.4%
30000	34	0.3%
500000	33	0.3%
250000	30	0.3%
Other values (7226)	8489	84.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-2820000	1	< 0.1%
-447500	1	< 0.1%
-420800	1	< 0.1%
-358590	1	< 0.1%
-286320	1	< 0.1%
-217100	1	< 0.1%
-146460	1	< 0.1%
-32000	1	< 0.1%
-290	1	< 0.1%
0	1078	10.8%

Value	Count	Frequency (%)
433257372	1	< 0.1%
361828570	1	< 0.1%
296312760	1	< 0.1%
287181770	1	< 0.1%
258694178	1	< 0.1%
243383708	1	< 0.1%
242005070	1	< 0.1%
237719560	1	< 0.1%
215909205	1	< 0.1%
207789430	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.280
금액	0.280	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
64028	수유역두산위브	A14270301	연차수당	202304	580000
34707	서울숲한신더휴아파트	A13386702	복리후생비	202304	1113330
6304	래미안 신반포 리오센트	A10025418	제수당	202304	3039730
28699	창동주공4단지	A13204104	전산고지비	202304	418000
24240	이문현대	A13082703	입주자대표회의운영비	202304	1100000
70446	신길경남	A15083703	복리후생비	202304	540000
58038	공릉대동1차	A13980801	교육비	202304	0
66790	자양우성3차	A14386110	세금과공과	202304	258610
53297	가락우성2차아파트	A13880602	재활용품수익	202304	50000
22024	백련산힐스테이트3차	A12290901	부과차익	202304	1626

	아파트명	아파트코드	비용명	년월일	금액
81628	우장산한화꿈에그린	A15701004	국민연금	202304	145290
47269	양재리본타워1단지	A13713001	음식물처리비	202304	326270
18762	공덕현대	A12180401	보험료	202304	318930
65784	광장11현대홈타운	A14321001	도서인쇄비	202304	169330
70434	신길경남	A15083703	이자수익	202304	0
17003	마포도화우성아파트	A12104007	소모품비	202304	1054860
2631	마포프레스티지자이아파트	A10024347	검침수익	202304	728420
79565	이수교스위첸	A15608001	세대수도료	202304	5897830
69735	한강아파트	A15080501	재활용품수익	202304	132500
78524	대방경남아너스빌	A15602001	기타운영수익	202304	35

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample