gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2526 (25.3%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:56:15.364218
Analysis finished	2024-05-11 05:56:16.463152
Duration	1.1 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2244
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.4452
Min length	2

Characters and Unicode

Total characters	74452
Distinct characters	433
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	123 ?
Unique (%)	1.2%

Sample

1st row	구로다솜금호
2nd row	자양현대5차
3rd row	마포래미안푸르지오
4th row	묵동한국
5th row	평창롯데

Value	Count	Frequency (%)
아파트	189	1.7%
래미안	53	0.5%
e편한세상	28	0.3%
이편한세상	17	0.2%
송파	17	0.2%
푸르지오	15	0.1%
sk뷰	14	0.1%
경남아너스빌	14	0.1%
장안위더스빌	13	0.1%
양재신영체르니	12	0.1%
Other values (2332)	10500	96.6%

Most occurring characters

Value	Count	Frequency (%)
아	2595	3.5%
파	2573	3.5%
트	2432	3.3%
지	1855	2.5%
대	1735	2.3%
동	1625	2.2%
차	1543	2.1%
신	1488	2.0%
단	1402	1.9%
이	1390	1.9%
Other values (423)	55814	75.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	68094	91.5%
Decimal Number	3699	5.0%
Space Separator	953	1.3%
Uppercase Letter	799	1.1%
Lowercase Letter	365	0.5%
Close Punctuation	153	0.2%
Open Punctuation	153	0.2%
Dash Punctuation	126	0.2%
Other Punctuation	102	0.1%
Letter Number	8	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2595	3.8%
파	2573	3.8%
트	2432	3.6%
지	1855	2.7%
대	1735	2.5%
동	1625	2.4%
차	1543	2.3%
신	1488	2.2%
단	1402	2.1%
이	1390	2.0%
Other values (378)	49456	72.6%

Uppercase Letter

Value	Count	Frequency (%)
S	125	15.6%
C	120	15.0%
M	94	11.8%
D	94	11.8%
K	86	10.8%
H	50	6.3%
L	44	5.5%
I	35	4.4%
E	34	4.3%
V	28	3.5%
Other values (7)	89	11.1%

Lowercase Letter

Value	Count	Frequency (%)
e	201	55.1%
l	36	9.9%
i	32	8.8%
v	21	5.8%
s	18	4.9%
k	16	4.4%
c	14	3.8%
w	10	2.7%
h	9	2.5%
a	4	1.1%

Decimal Number

Value	Count	Frequency (%)
1	1110	30.0%
2	1070	28.9%
3	484	13.1%
4	248	6.7%
5	224	6.1%
6	163	4.4%
7	123	3.3%
9	95	2.6%
0	92	2.5%
8	90	2.4%

Other Punctuation

Value	Count	Frequency (%)
,	82	80.4%
.	20	19.6%

Space Separator

Value	Count	Frequency (%)
	953	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	153	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	153	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	126	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	8	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	68094	91.5%
Common	5186	7.0%
Latin	1172	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2595	3.8%
파	2573	3.8%
트	2432	3.6%
지	1855	2.7%
대	1735	2.5%
동	1625	2.4%
차	1543	2.3%
신	1488	2.2%
단	1402	2.1%
이	1390	2.0%
Other values (378)	49456	72.6%

Latin

Value	Count	Frequency (%)
e	201	17.2%
S	125	10.7%
C	120	10.2%
M	94	8.0%
D	94	8.0%
K	86	7.3%
H	50	4.3%
L	44	3.8%
l	36	3.1%
I	35	3.0%
Other values (19)	287	24.5%

Common

Value	Count	Frequency (%)
1	1110	21.4%
2	1070	20.6%
	953	18.4%
3	484	9.3%
4	248	4.8%
5	224	4.3%
6	163	3.1%
)	153	3.0%
(	153	3.0%
-	126	2.4%
Other values (6)	502	9.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	68094	91.5%
ASCII	6350	8.5%
Number Forms	8	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2595	3.8%
파	2573	3.8%
트	2432	3.6%
지	1855	2.7%
대	1735	2.5%
동	1625	2.4%
차	1543	2.3%
신	1488	2.2%
단	1402	2.1%
이	1390	2.0%
Other values (378)	49456	72.6%

ASCII

Value	Count	Frequency (%)
1	1110	17.5%
2	1070	16.9%
	953	15.0%
3	484	7.6%
4	248	3.9%
5	224	3.5%
e	201	3.2%
6	163	2.6%
)	153	2.4%
(	153	2.4%
Other values (34)	1591	25.1%

Number Forms

Value	Count	Frequency (%)
Ⅰ	8	100.0%

아파트코드
Text

Distinct	2248
Distinct (%)	22.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	123 ?
Unique (%)	1.2%

Sample

1st row	A15283806
2nd row	A14319203
3rd row	A12175203
4th row	A13185402
5th row	A11084601

Value	Count	Frequency (%)
a13078701	13	0.1%
a13987306	12	0.1%
a10027375	12	0.1%
a15205305	12	0.1%
a15807604	12	0.1%
a13508006	12	0.1%
a13789002	12	0.1%
a13703011	12	0.1%
a13983709	11	0.1%
a13185508	11	0.1%
Other values (2238)	9881	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18373	20.4%
1	17433	19.4%
A	9988	11.1%
3	9005	10.0%
2	8383	9.3%
5	6140	6.8%
8	5565	6.2%
7	4778	5.3%
4	3883	4.3%
6	3410	3.8%
Other values (2)	3042	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18373	23.0%
1	17433	21.8%
3	9005	11.3%
2	8383	10.5%
5	6140	7.7%
8	5565	7.0%
7	4778	6.0%
4	3883	4.9%
6	3410	4.3%
9	3030	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9988	99.9%
B	12	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18373	23.0%
1	17433	21.8%
3	9005	11.3%
2	8383	10.5%
5	6140	7.7%
8	5565	7.0%
7	4778	6.0%
4	3883	4.9%
6	3410	4.3%
9	3030	3.8%

Latin

Value	Count	Frequency (%)
A	9988	99.9%
B	12	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18373	20.4%
1	17433	19.4%
A	9988	11.1%
3	9005	10.0%
2	8383	9.3%
5	6140	6.8%
8	5565	6.2%
7	4778	5.3%
4	3883	4.3%
6	3410	3.8%
Other values (2)	3042	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	5.9612
Min length	2

Characters and Unicode

Total characters	59612
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	예금
2nd row	현금
3rd row	연차수당충당부채
4th row	비품감가상각누계액
5th row	기타유동부채

Value	Count	Frequency (%)
관리비미수금	330	3.3%
미처분이익잉여금	326	3.3%
당기순이익	313	3.1%
장기수선충당예금	313	3.1%
예금	309	3.1%
공동주택적립금	308	3.1%
연차수당충당부채	306	3.1%
예수금	302	3.0%
가수금	293	2.9%
비품감가상각누계액	290	2.9%
Other values (67)	6910	69.1%

Most occurring characters

Value	Count	Frequency (%)
금	4682	7.9%
당	3845	6.5%
수	3170	5.3%
비	3065	5.1%
충	3011	5.1%
부	2844	4.8%
채	2556	4.3%
기	2494	4.2%
선	1873	3.1%
예	1761	3.0%
Other values (97)	30311	50.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59612	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4682	7.9%
당	3845	6.5%
수	3170	5.3%
비	3065	5.1%
충	3011	5.1%
부	2844	4.8%
채	2556	4.3%
기	2494	4.2%
선	1873	3.1%
예	1761	3.0%
Other values (97)	30311	50.8%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59612	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4682	7.9%
당	3845	6.5%
수	3170	5.3%
비	3065	5.1%
충	3011	5.1%
부	2844	4.8%
채	2556	4.3%
기	2494	4.2%
선	1873	3.1%
예	1761	3.0%
Other values (97)	30311	50.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59612	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4682	7.9%
당	3845	6.5%
수	3170	5.3%
비	3065	5.1%
충	3011	5.1%
부	2844	4.8%
채	2556	4.3%
기	2494	4.2%
선	1873	3.1%
예	1761	3.0%
Other values (97)	30311	50.8%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202308	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202308
2nd row	202308
3rd row	202308
4th row	202308
5th row	202308

Common Values

Value	Count	Frequency (%)
202308	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202308	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7160
Distinct (%)	71.6%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	77844828

Minimum	-3.4508111 × 10⁸
Maximum	1.4435281 × 10¹⁰
Zeros	2526
Zeros (%)	25.3%
Negative	349
Negative (%)	3.5%
Memory size	166.0 KiB

Quantile statistics

Minimum	-3.4508111 × 10⁸
5-th percentile	0
Q1	0
median	2757067
Q3	36273762
95-th percentile	3.7224869 × 10⁸
Maximum	1.4435281 × 10¹⁰
Range	1.4780362 × 10¹⁰
Interquartile range (IQR)	36273762

Descriptive statistics

Standard deviation	3.3072303 × 10⁸
Coefficient of variation (CV)	4.2484908
Kurtosis	477.78544
Mean	77844828
Median Absolute Deviation (MAD)	2757067
Skewness	16.283004
Sum	7.7844828 × 10¹¹
Variance	1.0937773 × 10¹⁷
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2526	25.3%
500000	24	0.2%
250000	16	0.2%
1000000	13	0.1%
484000	13	0.1%
200000	12	0.1%
300000	12	0.1%
242000	9	0.1%
2000000	9	0.1%
3000000	8	0.1%
Other values (7150)	7358	73.6%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-345081106	1	< 0.1%
-310187704	1	< 0.1%
-306959554	1	< 0.1%
-285332080	1	< 0.1%
-246006355	1	< 0.1%
-204744212	1	< 0.1%
-204723650	1	< 0.1%
-192260384	1	< 0.1%
-165179325	1	< 0.1%
-160313140	1	< 0.1%

Value	Count	Frequency (%)
14435281182	1	< 0.1%
8637605194	1	< 0.1%
6562691622	1	< 0.1%
6505000187	1	< 0.1%
5508155658	1	< 0.1%
4860224589	1	< 0.1%
4644103478	1	< 0.1%
4595645088	1	< 0.1%
4332787860	1	< 0.1%
4166459492	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.314
금액	0.314	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
60222	구로다솜금호	A15283806	예금	202308	141586154
51860	자양현대5차	A14319203	현금	202308	383976
13427	마포래미안푸르지오	A12175203	연차수당충당부채	202308	213137834
20457	묵동한국	A13185402	비품감가상각누계액	202308	-2703620
10085	평창롯데	A11084601	기타유동부채	202308	0
4938	래미안베라힐즈아파트	A10025846	기타충당부채	202308	357230
41100	송파파인타운5단지	A13821003	장기수선충당부채적립금	202308	0
34516	길음뉴타운 경남아너스빌	A13610107	미처분이익잉여금	202308	0
4673	답십리파크자이	A10025754	비품감가상각누계액	202308	-28917450
20118	면목삼익	A13183502	미지급비용	202308	24182079

	아파트명	아파트코드	비용명	년월일	금액
42722	문정푸르지오1차	A13882402	수선유지비충당부채	202308	12956690
69823	신정현대	A15807204	상여충당부채	202308	0
69798	목동9단지	A15807101	관리비미수금	202308	14342120
28368	고덕리엔파크2단지	A13410011	수선유지비충당부채	202308	0
28719	길동현대아파트	A13480803	예수금	202308	561230
3618	한양수자인사가정파크아파트	A10025159	장기수선충당부채	202308	109002369
12549	마포강변힐스테이트	A12112002	당기순이익	202308	111535426
49664	한남동리첸시아	A14021001	기타충당부채	202308	1218
71044	신정삼성SH임대	A15876402	미처분이익잉여금	202308	0
62954	상도래미안1차	A15603204	수선유지비충당부채	202308	23774200

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample