gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2332 (23.3%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:58:41.571789
Analysis finished	2024-05-11 05:58:42.668271
Duration	1.1 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2211
Distinct (%)	22.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.3538
Min length	2

Characters and Unicode

Total characters	73538
Distinct characters	434
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	120 ?
Unique (%)	1.2%

Sample

1st row	도봉현대성우
2nd row	천호동아하이빌
3rd row	한남힐스테이트
4th row	북한산수자인
5th row	북가좌삼호제2

Value	Count	Frequency (%)
아파트	152	1.4%
래미안	29	0.3%
해모로	20	0.2%
e편한세상	19	0.2%
아이파크	18	0.2%
중계그린	17	0.2%
우리유앤미	16	0.1%
신반포	15	0.1%
경남아너스빌	15	0.1%
푸르지오	14	0.1%
Other values (2284)	10366	97.1%

Most occurring characters

Value	Count	Frequency (%)
아	2502	3.4%
파	2417	3.3%
트	2231	3.0%
지	1862	2.5%
대	1828	2.5%
동	1646	2.2%
차	1465	2.0%
신	1462	2.0%
단	1446	2.0%
이	1311	1.8%
Other values (424)	55368	75.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67298	91.5%
Decimal Number	3773	5.1%
Uppercase Letter	766	1.0%
Space Separator	759	1.0%
Lowercase Letter	332	0.5%
Open Punctuation	154	0.2%
Close Punctuation	154	0.2%
Other Punctuation	154	0.2%
Dash Punctuation	142	0.2%
Letter Number	6	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2502	3.7%
파	2417	3.6%
트	2231	3.3%
지	1862	2.8%
대	1828	2.7%
동	1646	2.4%
차	1465	2.2%
신	1462	2.2%
단	1446	2.1%
이	1311	1.9%
Other values (379)	49128	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	114	14.9%
K	97	12.7%
C	96	12.5%
D	71	9.3%
M	71	9.3%
L	71	9.3%
I	47	6.1%
H	44	5.7%
G	38	5.0%
E	26	3.4%
Other values (7)	91	11.9%

Lowercase Letter

Value	Count	Frequency (%)
e	195	58.7%
i	29	8.7%
l	24	7.2%
v	17	5.1%
s	16	4.8%
k	14	4.2%
a	9	2.7%
g	9	2.7%
w	8	2.4%
c	6	1.8%

Decimal Number

Value	Count	Frequency (%)
1	1126	29.8%
2	1087	28.8%
3	466	12.4%
4	303	8.0%
5	217	5.8%
6	164	4.3%
7	128	3.4%
9	107	2.8%
8	98	2.6%
0	77	2.0%

Other Punctuation

Value	Count	Frequency (%)
,	125	81.2%
.	29	18.8%

Space Separator

Value	Count	Frequency (%)
	759	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	154	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	154	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	142	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67298	91.5%
Common	5136	7.0%
Latin	1104	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2502	3.7%
파	2417	3.6%
트	2231	3.3%
지	1862	2.8%
대	1828	2.7%
동	1646	2.4%
차	1465	2.2%
신	1462	2.2%
단	1446	2.1%
이	1311	1.9%
Other values (379)	49128	73.0%

Latin

Value	Count	Frequency (%)
e	195	17.7%
S	114	10.3%
K	97	8.8%
C	96	8.7%
D	71	6.4%
M	71	6.4%
L	71	6.4%
I	47	4.3%
H	44	4.0%
G	38	3.4%
Other values (19)	260	23.6%

Common

Value	Count	Frequency (%)
1	1126	21.9%
2	1087	21.2%
	759	14.8%
3	466	9.1%
4	303	5.9%
5	217	4.2%
6	164	3.2%
(	154	3.0%
)	154	3.0%
-	142	2.8%
Other values (6)	564	11.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67298	91.5%
ASCII	6234	8.5%
Number Forms	6	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2502	3.7%
파	2417	3.6%
트	2231	3.3%
지	1862	2.8%
대	1828	2.7%
동	1646	2.4%
차	1465	2.2%
신	1462	2.2%
단	1446	2.1%
이	1311	1.9%
Other values (379)	49128	73.0%

ASCII

Value	Count	Frequency (%)
1	1126	18.1%
2	1087	17.4%
	759	12.2%
3	466	7.5%
4	303	4.9%
5	217	3.5%
e	195	3.1%
6	164	2.6%
(	154	2.5%
)	154	2.5%
Other values (34)	1609	25.8%

Number Forms

Value	Count	Frequency (%)
Ⅰ	6	100.0%

아파트코드
Text

Distinct	2216
Distinct (%)	22.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	120 ?
Unique (%)	1.2%

Sample

1st row	A13201201
2nd row	A13486504
3rd row	A14077901
4th row	A12204001
5th row	A12076601

Value	Count	Frequency (%)
a13986306	17	0.2%
a13611005	13	0.1%
a13519001	12	0.1%
a15701007	12	0.1%
a13671209	12	0.1%
a15303002	11	0.1%
a15209002	11	0.1%
a13583402	11	0.1%
a15609301	10	0.1%
a15210212	10	0.1%
Other values (2206)	9881	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18491	20.5%
1	17768	19.7%
A	9992	11.1%
3	8749	9.7%
2	8293	9.2%
5	6293	7.0%
8	5529	6.1%
7	4602	5.1%
4	3917	4.4%
6	3328	3.7%
Other values (2)	3038	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18491	23.1%
1	17768	22.2%
3	8749	10.9%
2	8293	10.4%
5	6293	7.9%
8	5529	6.9%
7	4602	5.8%
4	3917	4.9%
6	3328	4.2%
9	3030	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9992	99.9%
B	8	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18491	23.1%
1	17768	22.2%
3	8749	10.9%
2	8293	10.4%
5	6293	7.9%
8	5529	6.9%
7	4602	5.8%
4	3917	4.9%
6	3328	4.2%
9	3030	3.8%

Latin

Value	Count	Frequency (%)
A	9992	99.9%
B	8	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18491	20.5%
1	17768	19.7%
A	9992	11.1%
3	8749	9.7%
2	8293	9.2%
5	6293	7.0%
8	5529	6.1%
7	4602	5.1%
4	3917	4.4%
6	3328	3.7%
Other values (2)	3038	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	5.9814
Min length	2

Characters and Unicode

Total characters	59814
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	미지급금
2nd row	기타의비유동부채
3rd row	전신전화가입권
4th row	현금
5th row	미지급금

Value	Count	Frequency (%)
관리비미수금	338	3.4%
미처분이익잉여금	320	3.2%
퇴직급여충당부채	315	3.1%
선급비용	312	3.1%
예수금	311	3.1%
예금	304	3.0%
공동주택적립금	304	3.0%
연차수당충당부채	301	3.0%
가수금	298	3.0%
당기순이익	298	3.0%
Other values (67)	6899	69.0%

Most occurring characters

Value	Count	Frequency (%)
금	4621	7.7%
당	3785	6.3%
수	3130	5.2%
비	3073	5.1%
충	3017	5.0%
부	2914	4.9%
채	2611	4.4%
기	2449	4.1%
선	1888	3.2%
예	1750	2.9%
Other values (97)	30576	51.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59814	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4621	7.7%
당	3785	6.3%
수	3130	5.2%
비	3073	5.1%
충	3017	5.0%
부	2914	4.9%
채	2611	4.4%
기	2449	4.1%
선	1888	3.2%
예	1750	2.9%
Other values (97)	30576	51.1%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59814	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4621	7.7%
당	3785	6.3%
수	3130	5.2%
비	3073	5.1%
충	3017	5.0%
부	2914	4.9%
채	2611	4.4%
기	2449	4.1%
선	1888	3.2%
예	1750	2.9%
Other values (97)	30576	51.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59814	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4621	7.7%
당	3785	6.3%
수	3130	5.2%
비	3073	5.1%
충	3017	5.0%
부	2914	4.9%
채	2611	4.4%
기	2449	4.1%
선	1888	3.2%
예	1750	2.9%
Other values (97)	30576	51.1%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202109	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202109
2nd row	202109
3rd row	202109
4th row	202109
5th row	202109

Common Values

Value	Count	Frequency (%)
202109	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202109	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7333
Distinct (%)	73.3%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	72378979

Minimum	-2.896616 × 10⁸
Maximum	6.6857401 × 10⁹
Zeros	2332
Zeros (%)	23.3%
Negative	328
Negative (%)	3.3%
Memory size	166.0 KiB

Quantile statistics

Minimum	-2.896616 × 10⁸
5-th percentile	0
Q1	0
median	3186790
Q3	34856706
95-th percentile	3.6775082 × 10⁸
Maximum	6.6857401 × 10⁹
Range	6.9754017 × 10⁹
Interquartile range (IQR)	34856706

Descriptive statistics

Standard deviation	2.7400933 × 10⁸
Coefficient of variation (CV)	3.7857584
Kurtosis	142.73069
Mean	72378979
Median Absolute Deviation (MAD)	3186790
Skewness	9.8355887
Sum	7.2378979 × 10¹¹
Variance	7.5081111 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2332	23.3%
500000	21	0.2%
250000	19	0.2%
300000	18	0.2%
1000000	17	0.2%
242000	13	0.1%
200000	12	0.1%
30000000	12	0.1%
10000000	11	0.1%
2000000	10	0.1%
Other values (7323)	7535	75.3%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-289661600	1	< 0.1%
-255090780	1	< 0.1%
-194704230	1	< 0.1%
-176135835	1	< 0.1%
-145205010	1	< 0.1%
-137092890	1	< 0.1%
-132018610	1	< 0.1%
-91590905	1	< 0.1%
-88646820	1	< 0.1%
-84630330	1	< 0.1%

Value	Count	Frequency (%)
6685740092	1	< 0.1%
6066196221	1	< 0.1%
5538891275	1	< 0.1%
5094368716	1	< 0.1%
4873014602	1	< 0.1%
4187706428	1	< 0.1%
3962981329	1	< 0.1%
3640096976	1	< 0.1%
3518561164	1	< 0.1%
3407294651	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.509
금액	0.509	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
19523	도봉현대성우	A13201201	미지급금	202109	1077000
27349	천호동아하이빌	A13486504	기타의비유동부채	202109	197854
48062	한남힐스테이트	A14077901	전신전화가입권	202109	0
13197	북한산수자인	A12204001	현금	202109	166510
9870	북가좌삼호제2	A12076601	미지급금	202109	11135290
17874	신내6단지	A13176901	기타충당부채	202109	1400000
35609	방배롯데캐슬아르떼	A13771001	미지급금	202109	96937989
213	디에이치포레센트아파트	A10024258	선급비용	202109	18709110
49364	수유극동아파트	A14278101	미지급금	202109	41844340
52460	문래한신	A15009602	예금	202109	62687121

	아파트명	아파트코드	비용명	년월일	금액
13987	갈현베르빌주상복합아파트	A12271402	관리비예치금	202109	47830000
70068	신정푸른마을2단지	A15886508	예수금	202109	2164690
33270	월곡두산위브아파트	A13613008	선수수도료	202109	0
70242	은평뉴타운상림마을7단지	A41279903	임대보증금	202109	16000000
36724	서초진흥	A13785604	공동체활성화단체지원적립금	202109	0
19722	도봉한신	A13201209	수선유지비충당부채	202109	23972690
70310	은평뉴타운상림마을4단지	A41279905	선급금	202109	1566650
70369	은평뉴타운상림마을10단지	A41279906	장기수선충당부채	202109	301943838
30810	도곡대림	A13586101	전신전화가입권	202109	242000
22426	브라운스톤쌍문	A13295201	가수금	202109	252000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample