gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2377 (23.8%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:58:48.619380
Analysis finished	2024-05-11 05:58:49.599807
Duration	0.98 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2212
Distinct (%)	22.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.2939
Min length	2

Characters and Unicode

Total characters	72939
Distinct characters	436
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	103 ?
Unique (%)	1.0%

Sample

1st row	신내중앙하이츠
2nd row	송파파인타운10단지
3rd row	신월대성유니드
4th row	고덕아이파크아파트
5th row	사당극동

Value	Count	Frequency (%)
아파트	143	1.3%
래미안	39	0.4%
e편한세상	19	0.2%
팰리스	17	0.2%
해모로	16	0.1%
고덕	16	0.1%
래미안밤섬리베뉴	14	0.1%
북한산	14	0.1%
아이파크	14	0.1%
우리유앤미	13	0.1%
Other values (2285)	10374	97.1%

Most occurring characters

Value	Count	Frequency (%)
아	2430	3.3%
파	2407	3.3%
트	2214	3.0%
대	1832	2.5%
지	1778	2.4%
동	1712	2.3%
차	1476	2.0%
신	1448	2.0%
단	1412	1.9%
성	1314	1.8%
Other values (426)	54916	75.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66941	91.8%
Decimal Number	3622	5.0%
Space Separator	767	1.1%
Uppercase Letter	758	1.0%
Lowercase Letter	320	0.4%
Dash Punctuation	144	0.2%
Open Punctuation	139	0.2%
Close Punctuation	139	0.2%
Other Punctuation	100	0.1%
Letter Number	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2430	3.6%
파	2407	3.6%
트	2214	3.3%
대	1832	2.7%
지	1778	2.7%
동	1712	2.6%
차	1476	2.2%
신	1448	2.2%
단	1412	2.1%
성	1314	2.0%
Other values (381)	48918	73.1%

Uppercase Letter

Value	Count	Frequency (%)
S	135	17.8%
K	102	13.5%
C	91	12.0%
L	62	8.2%
M	56	7.4%
D	56	7.4%
H	46	6.1%
I	41	5.4%
G	39	5.1%
E	38	5.0%
Other values (7)	92	12.1%

Lowercase Letter

Value	Count	Frequency (%)
e	197	61.6%
l	24	7.5%
i	22	6.9%
k	18	5.6%
v	17	5.3%
s	16	5.0%
c	10	3.1%
w	7	2.2%
h	3	0.9%
g	3	0.9%

Decimal Number

Value	Count	Frequency (%)
1	1101	30.4%
2	1054	29.1%
3	455	12.6%
4	259	7.2%
5	200	5.5%
6	144	4.0%
7	136	3.8%
8	99	2.7%
9	92	2.5%
0	82	2.3%

Other Punctuation

Value	Count	Frequency (%)
,	79	79.0%
.	21	21.0%

Space Separator

Value	Count	Frequency (%)
	767	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	144	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	139	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	139	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	9	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66941	91.8%
Common	4911	6.7%
Latin	1087	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2430	3.6%
파	2407	3.6%
트	2214	3.3%
대	1832	2.7%
지	1778	2.7%
동	1712	2.6%
차	1476	2.2%
신	1448	2.2%
단	1412	2.1%
성	1314	2.0%
Other values (381)	48918	73.1%

Latin

Value	Count	Frequency (%)
e	197	18.1%
S	135	12.4%
K	102	9.4%
C	91	8.4%
L	62	5.7%
M	56	5.2%
D	56	5.2%
H	46	4.2%
I	41	3.8%
G	39	3.6%
Other values (19)	262	24.1%

Common

Value	Count	Frequency (%)
1	1101	22.4%
2	1054	21.5%
	767	15.6%
3	455	9.3%
4	259	5.3%
5	200	4.1%
-	144	2.9%
6	144	2.9%
(	139	2.8%
)	139	2.8%
Other values (6)	509	10.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66941	91.8%
ASCII	5989	8.2%
Number Forms	9	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2430	3.6%
파	2407	3.6%
트	2214	3.3%
대	1832	2.7%
지	1778	2.7%
동	1712	2.6%
차	1476	2.2%
신	1448	2.2%
단	1412	2.1%
성	1314	2.0%
Other values (381)	48918	73.1%

ASCII

Value	Count	Frequency (%)
1	1101	18.4%
2	1054	17.6%
	767	12.8%
3	455	7.6%
4	259	4.3%
5	200	3.3%
e	197	3.3%
-	144	2.4%
6	144	2.4%
(	139	2.3%
Other values (34)	1529	25.5%

Number Forms

Value	Count	Frequency (%)
Ⅰ	9	100.0%

아파트코드
Text

Distinct	2217
Distinct (%)	22.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	103 ?
Unique (%)	1.0%

Sample

1st row	A13186907
2nd row	A13821005
3rd row	A15809403
4th row	A13408003
5th row	A15681503

Value	Count	Frequency (%)
a14001101	12	0.1%
a15608002	12	0.1%
a13985201	12	0.1%
a15805105	12	0.1%
a13980019	12	0.1%
a13679403	11	0.1%
a15386506	11	0.1%
a13184208	11	0.1%
a13606002	11	0.1%
a13681304	11	0.1%
Other values (2207)	9885	98.9%

Most occurring characters

Value	Count	Frequency (%)
0	18468	20.5%
1	17658	19.6%
A	9992	11.1%
3	8581	9.5%
2	8385	9.3%
5	6149	6.8%
8	5693	6.3%
7	4758	5.3%
4	3964	4.4%
6	3408	3.8%
Other values (2)	2944	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18468	23.1%
1	17658	22.1%
3	8581	10.7%
2	8385	10.5%
5	6149	7.7%
8	5693	7.1%
7	4758	5.9%
4	3964	5.0%
6	3408	4.3%
9	2936	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9992	99.9%
B	8	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18468	23.1%
1	17658	22.1%
3	8581	10.7%
2	8385	10.5%
5	6149	7.7%
8	5693	7.1%
7	4758	5.9%
4	3964	5.0%
6	3408	4.3%
9	2936	3.7%

Latin

Value	Count	Frequency (%)
A	9992	99.9%
B	8	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18468	20.5%
1	17658	19.6%
A	9992	11.1%
3	8581	9.5%
2	8385	9.3%
5	6149	6.8%
8	5693	6.3%
7	4758	5.3%
4	3964	4.4%
6	3408	3.8%
Other values (2)	2944	3.3%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.9956
Min length	2

Characters and Unicode

Total characters	59956
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	경비비충당부채
2nd row	주차장충당예금
3rd row	관리비예치금
4th row	미수관리비예치금
5th row	전신전화가입권

Value	Count	Frequency (%)
관리비미수금	329	3.3%
예금	325	3.2%
당기순이익	315	3.1%
예수금	310	3.1%
미처분이익잉여금	307	3.1%
공동주택적립금	306	3.1%
미부과관리비	305	3.0%
선급비용	304	3.0%
퇴직급여충당부채	300	3.0%
연차수당충당부채	296	3.0%
Other values (67)	6903	69.0%

Most occurring characters

Value	Count	Frequency (%)
금	4697	7.8%
당	3819	6.4%
비	3096	5.2%
충	3041	5.1%
수	3019	5.0%
부	2942	4.9%
채	2618	4.4%
기	2409	4.0%
예	1803	3.0%
선	1792	3.0%
Other values (97)	30720	51.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59956	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4697	7.8%
당	3819	6.4%
비	3096	5.2%
충	3041	5.1%
수	3019	5.0%
부	2942	4.9%
채	2618	4.4%
기	2409	4.0%
예	1803	3.0%
선	1792	3.0%
Other values (97)	30720	51.2%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59956	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4697	7.8%
당	3819	6.4%
비	3096	5.2%
충	3041	5.1%
수	3019	5.0%
부	2942	4.9%
채	2618	4.4%
기	2409	4.0%
예	1803	3.0%
선	1792	3.0%
Other values (97)	30720	51.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59956	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4697	7.8%
당	3819	6.4%
비	3096	5.2%
충	3041	5.1%
수	3019	5.0%
부	2942	4.9%
채	2618	4.4%
기	2409	4.0%
예	1803	3.0%
선	1792	3.0%
Other values (97)	30720	51.2%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202108	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202108
2nd row	202108
3rd row	202108
4th row	202108
5th row	202108

Common Values

Value	Count	Frequency (%)
202108	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202108	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7330
Distinct (%)	73.3%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	73334093

Minimum	-4.09024 × 10⁹
Maximum	1.1738153 × 10¹⁰
Zeros	2377
Zeros (%)	23.8%
Negative	343
Negative (%)	3.4%
Memory size	166.0 KiB

Quantile statistics

Minimum	-4.09024 × 10⁹
5-th percentile	0
Q1	0
median	2975505
Q3	34115385
95-th percentile	3.5166449 × 10⁸
Maximum	1.1738153 × 10¹⁰
Range	1.5828393 × 10¹⁰
Interquartile range (IQR)	34115385

Descriptive statistics

Standard deviation	3.0726014 × 10⁸
Coefficient of variation (CV)	4.1898676
Kurtosis	363.44093
Mean	73334093
Median Absolute Deviation (MAD)	2975505
Skewness	13.944817
Sum	7.3334093 × 10¹¹
Variance	9.4408793 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2377	23.8%
500000	27	0.3%
250000	18	0.2%
3000000	16	0.2%
300000	14	0.1%
100000	14	0.1%
242000	13	0.1%
484000	12	0.1%
1000000	12	0.1%
200000	10	0.1%
Other values (7320)	7487	74.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-4090240000	1	< 0.1%
-190693510	1	< 0.1%
-190291536	1	< 0.1%
-158616022	1	< 0.1%
-152882860	1	< 0.1%
-138548880	1	< 0.1%
-135424278	1	< 0.1%
-130563831	1	< 0.1%
-116223936	1	< 0.1%
-109655711	1	< 0.1%

Value	Count	Frequency (%)
11738152789	1	< 0.1%
9014652346	1	< 0.1%
6691255231	1	< 0.1%
6356577257	1	< 0.1%
5985559147	1	< 0.1%
4203166294	1	< 0.1%
3996183711	1	< 0.1%
3948034200	1	< 0.1%
3814810498	1	< 0.1%
3621919722	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.487
금액	0.487	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
19125	신내중앙하이츠	A13186907	경비비충당부채	202108	37786160
39159	송파파인타운10단지	A13821005	주차장충당예금	202108	0
68690	신월대성유니드	A15809403	관리비예치금	202108	43240000
25938	고덕아이파크아파트	A13408003	미수관리비예치금	202108	210000
62869	사당극동	A15681503	전신전화가입권	202108	0
22646	마장신성미소지움	A13305003	기타충당예금	202108	0
54922	신림건영4차	A15102902	기타유동부채	202108	0
46896	하계한신	A13993503	저장품	202108	370800
32518	정릉푸르지오	A13610202	미수금	202108	0
4026	래미안서초에스티지에스아파트	A10026411	경비비충당부채	202108	26542727

	아파트명	아파트코드	비용명	년월일	금액
55466	관악국제산장	A15176701	선수수익	202108	0
34226	정릉대우	A13676702	기타공동주택관리비충당부채	202108	0
57018	영화 아이닉스	A15209304	기타유동부채	202108	150000
3702	힐스테이트청계	A10026104	기타당좌자산	202108	0
3756	문래동모아미래도아파트	A10026197	미지급금	202108	28957508
33983	삼선푸르지오아파트	A13672101	퇴직급여충당부채	202108	87238787
38345	송파파크데일2단지	A13812005	선급금	202108	1330590
11103	상암월드컵파크7단지	A12127005	공동체활성화단체지원적립금	202108	0
60445	신대방경남교수	A15601102	미수관리비예치금	202108	0
16581	이문쌍용	A13082704	선급금	202108	3751560

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample