gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1973 (19.7%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:02:15.755459
Analysis finished	2024-05-11 06:02:16.814611
Duration	1.06 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2107
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	19
Mean length	7.1649
Min length	2

Characters and Unicode

Total characters	71649
Distinct characters	431
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	85 ?
Unique (%)	0.9%

Sample

1st row	흑석한강센트레빌
2nd row	개봉두산
3rd row	번동삼성
4th row	동부이촌동우성
5th row	묵동신도

Value	Count	Frequency (%)
아파트	101	1.0%
래미안	40	0.4%
신사씨티	17	0.2%
신내	16	0.2%
서울숲2차푸르지오임대	14	0.1%
신도림현대	13	0.1%
역삼아이파크	13	0.1%
은평뉴타운상림마을13단지	13	0.1%
수서삼익	12	0.1%
동일하이빌뉴시티	12	0.1%
Other values (2159)	10208	97.6%

Most occurring characters

Value	Count	Frequency (%)
아	2111	2.9%
파	2036	2.8%
대	1911	2.7%
지	1878	2.6%
트	1843	2.6%
동	1680	2.3%
차	1570	2.2%
신	1568	2.2%
단	1475	2.1%
성	1377	1.9%
Other values (421)	54200	75.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65539	91.5%
Decimal Number	3926	5.5%
Uppercase Letter	739	1.0%
Space Separator	516	0.7%
Lowercase Letter	353	0.5%
Close Punctuation	151	0.2%
Open Punctuation	151	0.2%
Dash Punctuation	135	0.2%
Other Punctuation	125	0.2%
Math Symbol	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2111	3.2%
파	2036	3.1%
대	1911	2.9%
지	1878	2.9%
트	1843	2.8%
동	1680	2.6%
차	1570	2.4%
신	1568	2.4%
단	1475	2.3%
성	1377	2.1%
Other values (375)	48090	73.4%

Uppercase Letter

Value	Count	Frequency (%)
S	139	18.8%
K	102	13.8%
C	76	10.3%
L	55	7.4%
H	46	6.2%
G	45	6.1%
D	40	5.4%
M	40	5.4%
I	39	5.3%
E	38	5.1%
Other values (7)	119	16.1%

Lowercase Letter

Value	Count	Frequency (%)
e	190	53.8%
l	46	13.0%
i	39	11.0%
v	26	7.4%
s	11	3.1%
w	11	3.1%
h	8	2.3%
k	6	1.7%
c	6	1.7%
g	5	1.4%

Decimal Number

Value	Count	Frequency (%)
2	1197	30.5%
1	1173	29.9%
3	502	12.8%
4	265	6.7%
5	206	5.2%
6	146	3.7%
7	128	3.3%
8	113	2.9%
9	98	2.5%
0	98	2.5%

Other Punctuation

Value	Count	Frequency (%)
,	102	81.6%
.	23	18.4%

Space Separator

Value	Count	Frequency (%)
	516	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	151	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	151	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	135	100.0%

Math Symbol

Value	Count	Frequency (%)
~	9	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65539	91.5%
Common	5013	7.0%
Latin	1097	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2111	3.2%
파	2036	3.1%
대	1911	2.9%
지	1878	2.9%
트	1843	2.8%
동	1680	2.6%
차	1570	2.4%
신	1568	2.4%
단	1475	2.3%
성	1377	2.1%
Other values (375)	48090	73.4%

Latin

Value	Count	Frequency (%)
e	190	17.3%
S	139	12.7%
K	102	9.3%
C	76	6.9%
L	55	5.0%
H	46	4.2%
l	46	4.2%
G	45	4.1%
D	40	3.6%
M	40	3.6%
Other values (19)	318	29.0%

Common

Value	Count	Frequency (%)
2	1197	23.9%
1	1173	23.4%
	516	10.3%
3	502	10.0%
4	265	5.3%
5	206	4.1%
)	151	3.0%
(	151	3.0%
6	146	2.9%
-	135	2.7%
Other values (7)	571	11.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65539	91.5%
ASCII	6105	8.5%
Number Forms	5	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2111	3.2%
파	2036	3.1%
대	1911	2.9%
지	1878	2.9%
트	1843	2.8%
동	1680	2.6%
차	1570	2.4%
신	1568	2.4%
단	1475	2.3%
성	1377	2.1%
Other values (375)	48090	73.4%

ASCII

Value	Count	Frequency (%)
2	1197	19.6%
1	1173	19.2%
	516	8.5%
3	502	8.2%
4	265	4.3%
5	206	3.4%
e	190	3.1%
)	151	2.5%
(	151	2.5%
6	146	2.4%
Other values (35)	1608	26.3%

Number Forms

Value	Count	Frequency (%)
Ⅰ	5	100.0%

아파트코드
Text

Distinct	2113
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	85 ?
Unique (%)	0.9%

Sample

1st row	A15679107
2nd row	A15209203
3rd row	A14206001
4th row	A14003001
5th row	A13184804

Value	Count	Frequency (%)
a12208102	17	0.2%
a12220002	13	0.1%
a13508009	13	0.1%
a13522003	12	0.1%
a13613011	12	0.1%
a15681110	11	0.1%
a10027221	11	0.1%
a13519006	11	0.1%
a13204510	11	0.1%
a13528102	11	0.1%
Other values (2103)	9878	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18174	20.2%
1	17716	19.7%
A	9988	11.1%
3	9048	10.1%
2	7975	8.9%
5	6148	6.8%
8	5815	6.5%
7	4847	5.4%
4	3852	4.3%
6	3363	3.7%
Other values (2)	3074	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18174	22.7%
1	17716	22.1%
3	9048	11.3%
2	7975	10.0%
5	6148	7.7%
8	5815	7.3%
7	4847	6.1%
4	3852	4.8%
6	3363	4.2%
9	3062	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9988	99.9%
B	12	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18174	22.7%
1	17716	22.1%
3	9048	11.3%
2	7975	10.0%
5	6148	7.7%
8	5815	7.3%
7	4847	6.1%
4	3852	4.8%
6	3363	4.2%
9	3062	3.8%

Latin

Value	Count	Frequency (%)
A	9988	99.9%
B	12	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18174	20.2%
1	17716	19.7%
A	9988	11.1%
3	9048	10.1%
2	7975	8.9%
5	6148	6.8%
8	5815	6.5%
7	4847	5.4%
4	3852	4.3%
6	3363	3.7%
Other values (2)	3074	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.9633
Min length	2

Characters and Unicode

Total characters	59633
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	예금
2nd row	미수관리비예치금
3rd row	임대보증금
4th row	미지급비용
5th row	기타재고자산

Value	Count	Frequency (%)
관리비미수금	360	3.6%
공동주택적립금	326	3.3%
예금	322	3.2%
장기수선충당예금	322	3.2%
미처분이익잉여금	316	3.2%
현금	306	3.1%
선급비용	305	3.0%
예수금	304	3.0%
미지급금	299	3.0%
비품	299	3.0%
Other values (67)	6841	68.4%

Most occurring characters

Value	Count	Frequency (%)
금	4842	8.1%
당	3735	6.3%
수	3246	5.4%
충	3096	5.2%
비	2981	5.0%
부	2908	4.9%
채	2609	4.4%
기	2328	3.9%
선	1954	3.3%
예	1838	3.1%
Other values (97)	30096	50.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59633	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4842	8.1%
당	3735	6.3%
수	3246	5.4%
충	3096	5.2%
비	2981	5.0%
부	2908	4.9%
채	2609	4.4%
기	2328	3.9%
선	1954	3.3%
예	1838	3.1%
Other values (97)	30096	50.5%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59633	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4842	8.1%
당	3735	6.3%
수	3246	5.4%
충	3096	5.2%
비	2981	5.0%
부	2908	4.9%
채	2609	4.4%
기	2328	3.9%
선	1954	3.3%
예	1838	3.1%
Other values (97)	30096	50.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59633	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4842	8.1%
당	3735	6.3%
수	3246	5.4%
충	3096	5.2%
비	2981	5.0%
부	2908	4.9%
채	2609	4.4%
기	2328	3.9%
선	1954	3.3%
예	1838	3.1%
Other values (97)	30096	50.5%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201901	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201901
2nd row	201901
3rd row	201901
4th row	201901
5th row	201901

Common Values

Value	Count	Frequency (%)
201901	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201901	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7700
Distinct (%)	77.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	73933154

Minimum	-8.1675414 × 10⁸
Maximum	1.4377587 × 10¹⁰
Zeros	1973
Zeros (%)	19.7%
Negative	377
Negative (%)	3.8%
Memory size	166.0 KiB

Quantile statistics

Minimum	-8.1675414 × 10⁸
5-th percentile	0
Q1	26815
median	3504734
Q3	38050525
95-th percentile	3.5793195 × 10⁸
Maximum	1.4377587 × 10¹⁰
Range	1.5194341 × 10¹⁰
Interquartile range (IQR)	38023710

Descriptive statistics

Standard deviation	3.1003553 × 10⁸
Coefficient of variation (CV)	4.1934574
Kurtosis	606.72614
Mean	73933154
Median Absolute Deviation (MAD)	3504734
Skewness	18.363537
Sum	7.3933154 × 10¹¹
Variance	9.612203 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1973	19.7%
250000	20	0.2%
500000	18	0.2%
484000	17	0.2%
300000	13	0.1%
100000	13	0.1%
200000	11	0.1%
1000000	9	0.1%
10000000	9	0.1%
242000	9	0.1%
Other values (7690)	7908	79.1%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-816754141	1	< 0.1%
-282000000	1	< 0.1%
-229703050	1	< 0.1%
-188414870	1	< 0.1%
-167175316	1	< 0.1%
-140789241	1	< 0.1%
-121162794	1	< 0.1%
-119105700	1	< 0.1%
-117055590	1	< 0.1%
-110611780	1	< 0.1%

Value	Count	Frequency (%)
14377587114	1	< 0.1%
9419487206	1	< 0.1%
5852909154	1	< 0.1%
5672176134	1	< 0.1%
5580403226	1	< 0.1%
5063163132	1	< 0.1%
4994129198	1	< 0.1%
4700267545	1	< 0.1%
4301918556	1	< 0.1%
4054104151	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.437
금액	0.437	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
57128	흑석한강센트레빌	A15679107	예금	201901	267639194
51832	개봉두산	A15209203	미수관리비예치금	201901	0
43569	번동삼성	A14206001	임대보증금	201901	10300000
42342	동부이촌동우성	A14003001	미지급비용	201901	62324820
14906	묵동신도	A13184804	기타재고자산	201901	471900
51743	개봉동아이파크	A15209004	수선유지비충당부채	201901	15713960
6368	북아현두산	A12079501	공동주택적립금	201901	36816046
4202	광화문풍림스페이스본 아파트	A11005401	공동주택적립금	201901	89242636
43090	한가람아파트	A14072701	임차보증금	201901	500000
30175	정릉1차e-편한세상	A13676703	미처분이익잉여금	201901	32599016

	아파트명	아파트코드	비용명	년월일	금액
27699	동소문동송산	A13603401	장기수선충당부채	201901	140016890
58232	등촌주공10단지	A15703306	선수관리비	201901	0
59726	화곡초록	A15770801	기타의비유동자산	201901	0
45057	현대강변	A14319201	공동체활성화단체지원적립금	201901	17594510
51502	고척벽산베스트블루밍	A15208006	미처분이익잉여금	201901	14507674
9102	성산2차현대	A12187703	장기수선충당부채	201901	626197894
180	e편한세상화랑대아파트	A10025855	퇴직급여충당부채	201901	30837480
20485	사근중앙하이츠	A13381701	장기수선충당예금	201901	353686502
55339	신대방현대	A15601105	연차수당충당부채	201901	23515102
3454	SH황학롯데캐슬베네치아	A10044001	주차장충당부채	201901	8262500

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Math Symbol

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample