gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2378 (23.8%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:58:20.854506
Analysis finished	2024-05-11 05:58:21.958174
Duration	1.1 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2199
Distinct (%)	22.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.3422
Min length	2

Characters and Unicode

Total characters	73422
Distinct characters	434
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	122 ?
Unique (%)	1.2%

Sample

1st row	답십리동서울한양
2nd row	상계동아불암
3rd row	상계성림(미라보)
4th row	중곡SK
5th row	여의도대교

Value	Count	Frequency (%)
아파트	153	1.4%
래미안	38	0.4%
e편한세상	29	0.3%
푸르지오	20	0.2%
아이파크	19	0.2%
경남아너스빌	17	0.2%
염창	17	0.2%
보라매	15	0.1%
sk뷰	14	0.1%
고덕	14	0.1%
Other values (2276)	10347	96.9%

Most occurring characters

Value	Count	Frequency (%)
아	2482	3.4%
파	2412	3.3%
트	2299	3.1%
지	1854	2.5%
대	1712	2.3%
동	1662	2.3%
단	1488	2.0%
신	1477	2.0%
차	1441	2.0%
이	1363	1.9%
Other values (424)	55232	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67390	91.8%
Decimal Number	3614	4.9%
Uppercase Letter	840	1.1%
Space Separator	765	1.0%
Lowercase Letter	320	0.4%
Close Punctuation	138	0.2%
Open Punctuation	138	0.2%
Dash Punctuation	122	0.2%
Other Punctuation	88	0.1%
Letter Number	7	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2482	3.7%
파	2412	3.6%
트	2299	3.4%
지	1854	2.8%
대	1712	2.5%
동	1662	2.5%
단	1488	2.2%
신	1477	2.2%
차	1441	2.1%
이	1363	2.0%
Other values (380)	49200	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	134	16.0%
C	112	13.3%
K	103	12.3%
D	80	9.5%
M	80	9.5%
L	63	7.5%
H	51	6.1%
E	48	5.7%
I	43	5.1%
V	28	3.3%
Other values (7)	98	11.7%

Decimal Number

Value	Count	Frequency (%)
1	1076	29.8%
2	1036	28.7%
3	486	13.4%
4	262	7.2%
5	207	5.7%
6	143	4.0%
7	135	3.7%
8	102	2.8%
9	94	2.6%
0	73	2.0%

Lowercase Letter

Value	Count	Frequency (%)
e	214	66.9%
l	22	6.9%
i	21	6.6%
k	16	5.0%
v	15	4.7%
s	13	4.1%
w	7	2.2%
c	6	1.9%
g	3	0.9%
a	3	0.9%

Other Punctuation

Value	Count	Frequency (%)
,	70	79.5%
.	18	20.5%

Space Separator

Value	Count	Frequency (%)
	765	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	138	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	138	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	122	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	7	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67390	91.8%
Common	4865	6.6%
Latin	1167	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2482	3.7%
파	2412	3.6%
트	2299	3.4%
지	1854	2.8%
대	1712	2.5%
동	1662	2.5%
단	1488	2.2%
신	1477	2.2%
차	1441	2.1%
이	1363	2.0%
Other values (380)	49200	73.0%

Latin

Value	Count	Frequency (%)
e	214	18.3%
S	134	11.5%
C	112	9.6%
K	103	8.8%
D	80	6.9%
M	80	6.9%
L	63	5.4%
H	51	4.4%
E	48	4.1%
I	43	3.7%
Other values (18)	239	20.5%

Common

Value	Count	Frequency (%)
1	1076	22.1%
2	1036	21.3%
	765	15.7%
3	486	10.0%
4	262	5.4%
5	207	4.3%
6	143	2.9%
)	138	2.8%
(	138	2.8%
7	135	2.8%
Other values (6)	479	9.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67390	91.8%
ASCII	6025	8.2%
Number Forms	7	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2482	3.7%
파	2412	3.6%
트	2299	3.4%
지	1854	2.8%
대	1712	2.5%
동	1662	2.5%
단	1488	2.2%
신	1477	2.2%
차	1441	2.1%
이	1363	2.0%
Other values (380)	49200	73.0%

ASCII

Value	Count	Frequency (%)
1	1076	17.9%
2	1036	17.2%
	765	12.7%
3	486	8.1%
4	262	4.3%
e	214	3.6%
5	207	3.4%
6	143	2.4%
)	138	2.3%
(	138	2.3%
Other values (33)	1560	25.9%

Number Forms

Value	Count	Frequency (%)
Ⅰ	7	100.0%

아파트코드
Text

Distinct	2205
Distinct (%)	22.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	122 ?
Unique (%)	1.2%

Sample

1st row	A13003002
2nd row	A13989701
3rd row	A13980903
4th row	A14322001
5th row	A15001016

Value	Count	Frequency (%)
a13613011	13	0.1%
a15176202	12	0.1%
a13782602	12	0.1%
a15086702	12	0.1%
a13816002	12	0.1%
a13203302	12	0.1%
a13510007	12	0.1%
a13084804	11	0.1%
a13006003	11	0.1%
a14072701	11	0.1%
Other values (2195)	9882	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18356	20.4%
1	17557	19.5%
A	9996	11.1%
3	8826	9.8%
2	8285	9.2%
5	6233	6.9%
8	5629	6.3%
7	4757	5.3%
4	3925	4.4%
6	3331	3.7%
Other values (2)	3105	3.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18356	22.9%
1	17557	21.9%
3	8826	11.0%
2	8285	10.4%
5	6233	7.8%
8	5629	7.0%
7	4757	5.9%
4	3925	4.9%
6	3331	4.2%
9	3101	3.9%

Uppercase Letter

Value	Count	Frequency (%)
A	9996	> 99.9%
B	4	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18356	22.9%
1	17557	21.9%
3	8826	11.0%
2	8285	10.4%
5	6233	7.8%
8	5629	7.0%
7	4757	5.9%
4	3925	4.9%
6	3331	4.2%
9	3101	3.9%

Latin

Value	Count	Frequency (%)
A	9996	> 99.9%
B	4	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18356	20.4%
1	17557	19.5%
A	9996	11.1%
3	8826	9.8%
2	8285	9.2%
5	6233	6.9%
8	5629	6.3%
7	4757	5.3%
4	3925	4.4%
6	3331	3.7%
Other values (2)	3105	3.5%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	5.9917
Min length	2

Characters and Unicode

Total characters	59917
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	미수관리비예치금
2nd row	기타당좌자산
3rd row	선수관리비
4th row	미지급금
5th row	전신전화가입권

Value	Count	Frequency (%)
미처분이익잉여금	320	3.2%
장기수선충당부채	320	3.2%
예금	319	3.2%
관리비미수금	310	3.1%
연차수당충당부채	310	3.1%
선급비용	306	3.1%
미부과관리비	304	3.0%
장기수선충당예금	302	3.0%
당기순이익	294	2.9%
가수금	286	2.9%
Other values (67)	6929	69.3%

Most occurring characters

Value	Count	Frequency (%)
금	4517	7.5%
당	3869	6.5%
수	3215	5.4%
충	3081	5.1%
비	3053	5.1%
부	2989	5.0%
채	2666	4.4%
기	2515	4.2%
선	1980	3.3%
예	1700	2.8%
Other values (97)	30332	50.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59917	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4517	7.5%
당	3869	6.5%
수	3215	5.4%
충	3081	5.1%
비	3053	5.1%
부	2989	5.0%
채	2666	4.4%
기	2515	4.2%
선	1980	3.3%
예	1700	2.8%
Other values (97)	30332	50.6%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59917	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4517	7.5%
당	3869	6.5%
수	3215	5.4%
충	3081	5.1%
비	3053	5.1%
부	2989	5.0%
채	2666	4.4%
기	2515	4.2%
선	1980	3.3%
예	1700	2.8%
Other values (97)	30332	50.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59917	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4517	7.5%
당	3869	6.5%
수	3215	5.4%
충	3081	5.1%
비	3053	5.1%
부	2989	5.0%
채	2666	4.4%
기	2515	4.2%
선	1980	3.3%
예	1700	2.8%
Other values (97)	30332	50.6%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202112	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202112
2nd row	202112
3rd row	202112
4th row	202112
5th row	202112

Common Values

Value	Count	Frequency (%)
202112	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202112	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7274
Distinct (%)	72.7%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	80472469

Minimum	-8.9305253 × 10⁸
Maximum	1.0640625 × 10¹⁰
Zeros	2378
Zeros (%)	23.8%
Negative	334
Negative (%)	3.3%
Memory size	166.0 KiB

Quantile statistics

Minimum	-8.9305253 × 10⁸
5-th percentile	0
Q1	0
median	2879762.5
Q3	36962190
95-th percentile	3.8588375 × 10⁸
Maximum	1.0640625 × 10¹⁰
Range	1.1533678 × 10¹⁰
Interquartile range (IQR)	36962190

Descriptive statistics

Standard deviation	3.2240806 × 10⁸
Coefficient of variation (CV)	4.0064393
Kurtosis	235.81306
Mean	80472469
Median Absolute Deviation (MAD)	2879762.5
Skewness	12.195382
Sum	8.0472469 × 10¹¹
Variance	1.0394696 × 10¹⁷
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2378	23.8%
500000	31	0.3%
250000	16	0.2%
484000	15	0.1%
242000	14	0.1%
1000000	13	0.1%
300000	11	0.1%
55000	11	0.1%
200000	10	0.1%
30000	10	0.1%
Other values (7264)	7491	74.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-893052528	1	< 0.1%
-303423180	1	< 0.1%
-247014444	1	< 0.1%
-245767416	1	< 0.1%
-145121865	1	< 0.1%
-138590250	1	< 0.1%
-123413690	1	< 0.1%
-116332434	1	< 0.1%
-97530000	1	< 0.1%
-81131170	1	< 0.1%

Value	Count	Frequency (%)
10640625223	1	< 0.1%
6933255644	1	< 0.1%
6726470588	1	< 0.1%
6180208844	1	< 0.1%
5651974236	1	< 0.1%
5606103188	1	< 0.1%
5108569960	1	< 0.1%
5055983083	1	< 0.1%
4984590254	1	< 0.1%
4981990062	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.570
금액	0.570	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
14878	답십리동서울한양	A13003002	미수관리비예치금	202112	0
46474	상계동아불암	A13989701	기타당좌자산	202112	0
43829	상계성림(미라보)	A13980903	선수관리비	202112	34340000
49996	중곡SK	A14322001	미지급금	202112	8889350
50918	여의도대교	A15001016	전신전화가입권	202112	484000
54914	봉천은천1단지	A15106101	관리비미수금	202112	41982360
40130	가락금호	A13880407	선급비용	202112	18287000
42019	중계3벽산	A13922103	가수금	202112	-175098
58257	구로중앙하이츠아파트	A15285804	미수관리비예치금	202112	0
59681	독산한신	A15383307	비품	202112	45789380

	아파트명	아파트코드	비용명	년월일	금액
18369	면목두산4,5단지	A13184107	미지급금	202112	75845062
66266	염창동아3차	A15786227	퇴직급여충당부채	202112	93547818
41938	중계청암3단지	A13922001	미지급비용	202112	0
28019	삼성서광	A13509006	기타유동부채	202112	0
16210	휘경센트레빌	A13078301	미부과관리비	202112	66762970
16134	이문삼성래미안아파트	A13076801	주차장충당예금	202112	41518016
35410	반포미도2차	A13770105	현금	202112	123444
61381	신동아5	A15609006	장기수선충당예금	202112	529147485
25515	성내삼성	A13403101	미부과관리비	202112	396375117
58735	신도림우성3차	A15288804	가지급금	202112	126830

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample