gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2313 (23.1%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:55:52.436742
Analysis finished	2024-05-11 05:55:53.696863
Duration	1.26 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2242
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.3946
Min length	2

Characters and Unicode

Total characters	73946
Distinct characters	434
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	110 ?
Unique (%)	1.1%

Sample

1st row	래미안장안
2nd row	신수성원
3rd row	마천우방
4th row	임광관악파크
5th row	목동극동늘푸른

Value	Count	Frequency (%)
아파트	176	1.6%
래미안	43	0.4%
e편한세상	30	0.3%
래미안밤섬리베뉴	20	0.2%
경남아너스빌	18	0.2%
아이파크	18	0.2%
신반포	16	0.1%
해모로	15	0.1%
센트럴	14	0.1%
힐스테이트	13	0.1%
Other values (2328)	10480	96.7%

Most occurring characters

Value	Count	Frequency (%)
아	2517	3.4%
파	2495	3.4%
트	2342	3.2%
지	1865	2.5%
대	1696	2.3%
동	1642	2.2%
차	1470	2.0%
신	1455	2.0%
단	1432	1.9%
이	1296	1.8%
Other values (424)	55736	75.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67560	91.4%
Decimal Number	3684	5.0%
Space Separator	926	1.3%
Uppercase Letter	855	1.2%
Lowercase Letter	371	0.5%
Close Punctuation	151	0.2%
Open Punctuation	151	0.2%
Dash Punctuation	121	0.2%
Other Punctuation	117	0.2%
Letter Number	10	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2517	3.7%
파	2495	3.7%
트	2342	3.5%
지	1865	2.8%
대	1696	2.5%
동	1642	2.4%
차	1470	2.2%
신	1455	2.2%
단	1432	2.1%
이	1296	1.9%
Other values (379)	49350	73.0%

Uppercase Letter

Value	Count	Frequency (%)
C	136	15.9%
S	133	15.6%
K	99	11.6%
M	94	11.0%
D	94	11.0%
E	44	5.1%
L	44	5.1%
H	44	5.1%
I	35	4.1%
V	27	3.2%
Other values (7)	105	12.3%

Lowercase Letter

Value	Count	Frequency (%)
e	203	54.7%
i	36	9.7%
l	28	7.5%
v	23	6.2%
s	21	5.7%
k	18	4.9%
w	17	4.6%
c	8	2.2%
h	7	1.9%
g	5	1.3%

Decimal Number

Value	Count	Frequency (%)
2	1084	29.4%
1	1082	29.4%
3	494	13.4%
4	258	7.0%
5	204	5.5%
6	156	4.2%
9	119	3.2%
7	110	3.0%
8	101	2.7%
0	76	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	91	77.8%
.	26	22.2%

Space Separator

Value	Count	Frequency (%)
	926	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	151	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	151	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	121	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	10	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67560	91.4%
Common	5150	7.0%
Latin	1236	1.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2517	3.7%
파	2495	3.7%
트	2342	3.5%
지	1865	2.8%
대	1696	2.5%
동	1642	2.4%
차	1470	2.2%
신	1455	2.2%
단	1432	2.1%
이	1296	1.9%
Other values (379)	49350	73.0%

Latin

Value	Count	Frequency (%)
e	203	16.4%
C	136	11.0%
S	133	10.8%
K	99	8.0%
M	94	7.6%
D	94	7.6%
E	44	3.6%
L	44	3.6%
H	44	3.6%
i	36	2.9%
Other values (19)	309	25.0%

Common

Value	Count	Frequency (%)
2	1084	21.0%
1	1082	21.0%
	926	18.0%
3	494	9.6%
4	258	5.0%
5	204	4.0%
6	156	3.0%
)	151	2.9%
(	151	2.9%
-	121	2.3%
Other values (6)	523	10.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67560	91.4%
ASCII	6376	8.6%
Number Forms	10	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2517	3.7%
파	2495	3.7%
트	2342	3.5%
지	1865	2.8%
대	1696	2.5%
동	1642	2.4%
차	1470	2.2%
신	1455	2.2%
단	1432	2.1%
이	1296	1.9%
Other values (379)	49350	73.0%

ASCII

Value	Count	Frequency (%)
2	1084	17.0%
1	1082	17.0%
	926	14.5%
3	494	7.7%
4	258	4.0%
5	204	3.2%
e	203	3.2%
6	156	2.4%
)	151	2.4%
(	151	2.4%
Other values (34)	1667	26.1%

Number Forms

Value	Count	Frequency (%)
Ⅰ	10	100.0%

아파트코드
Text

Distinct	2246
Distinct (%)	22.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	111 ?
Unique (%)	1.1%

Sample

1st row	A13084101
2nd row	A12185504
3rd row	A13812004
4th row	A15179701
5th row	A15881601

Value	Count	Frequency (%)
a13876108	13	0.1%
a12078704	13	0.1%
a15677501	12	0.1%
a15807706	12	0.1%
a15208006	12	0.1%
a13583507	12	0.1%
a13676101	11	0.1%
a13984003	11	0.1%
a13082805	11	0.1%
a15080204	11	0.1%
Other values (2236)	9882	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18356	20.4%
1	17487	19.4%
A	9982	11.1%
3	8925	9.9%
2	8384	9.3%
5	6127	6.8%
8	5528	6.1%
7	4737	5.3%
4	3988	4.4%
6	3441	3.8%
Other values (2)	3045	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18356	22.9%
1	17487	21.9%
3	8925	11.2%
2	8384	10.5%
5	6127	7.7%
8	5528	6.9%
7	4737	5.9%
4	3988	5.0%
6	3441	4.3%
9	3027	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9982	99.8%
B	18	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18356	22.9%
1	17487	21.9%
3	8925	11.2%
2	8384	10.5%
5	6127	7.7%
8	5528	6.9%
7	4737	5.9%
4	3988	5.0%
6	3441	4.3%
9	3027	3.8%

Latin

Value	Count	Frequency (%)
A	9982	99.8%
B	18	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18356	20.4%
1	17487	19.4%
A	9982	11.1%
3	8925	9.9%
2	8384	9.3%
5	6127	6.8%
8	5528	6.1%
7	4737	5.3%
4	3988	4.4%
6	3441	3.8%
Other values (2)	3045	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	5.9548
Min length	2

Characters and Unicode

Total characters	59548
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	주차장충당부채
2nd row	주차장충당예금
3rd row	관리비미수금
4th row	연차수당충당부채
5th row	주차장충당예금

Value	Count	Frequency (%)
미처분이익잉여금	333	3.3%
비품	324	3.2%
당기순이익	321	3.2%
관리비미수금	321	3.2%
미부과관리비	316	3.2%
예수금	311	3.1%
연차수당충당부채	310	3.1%
예금	305	3.0%
장기수선충당예금	301	3.0%
퇴직급여충당부채	301	3.0%
Other values (67)	6857	68.6%

Most occurring characters

Value	Count	Frequency (%)
금	4606	7.7%
당	3838	6.4%
비	3131	5.3%
수	3116	5.2%
충	3031	5.1%
부	2985	5.0%
채	2651	4.5%
기	2447	4.1%
선	1898	3.2%
예	1708	2.9%
Other values (97)	30137	50.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59548	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4606	7.7%
당	3838	6.4%
비	3131	5.3%
수	3116	5.2%
충	3031	5.1%
부	2985	5.0%
채	2651	4.5%
기	2447	4.1%
선	1898	3.2%
예	1708	2.9%
Other values (97)	30137	50.6%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59548	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4606	7.7%
당	3838	6.4%
비	3131	5.3%
수	3116	5.2%
충	3031	5.1%
부	2985	5.0%
채	2651	4.5%
기	2447	4.1%
선	1898	3.2%
예	1708	2.9%
Other values (97)	30137	50.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59548	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4606	7.7%
당	3838	6.4%
비	3131	5.3%
수	3116	5.2%
충	3031	5.1%
부	2985	5.0%
채	2651	4.5%
기	2447	4.1%
선	1898	3.2%
예	1708	2.9%
Other values (97)	30137	50.6%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202305	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202305
2nd row	202305
3rd row	202305
4th row	202305
5th row	202305

Common Values

Value	Count	Frequency (%)
202305	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202305	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7381
Distinct (%)	73.8%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	74861717

Minimum	-5.6924091 × 10⁸
Maximum	9.1357985 × 10⁹
Zeros	2313
Zeros (%)	23.1%
Negative	337
Negative (%)	3.4%
Memory size	166.0 KiB

Quantile statistics

Minimum	-5.6924091 × 10⁸
5-th percentile	0
Q1	0
median	3338580
Q3	36436218
95-th percentile	3.6650414 × 10⁸
Maximum	9.1357985 × 10⁹
Range	9.7050394 × 10⁹
Interquartile range (IQR)	36436218

Descriptive statistics

Standard deviation	2.9052407 × 10⁸
Coefficient of variation (CV)	3.8808096
Kurtosis	266.73587
Mean	74861717
Median Absolute Deviation (MAD)	3338580
Skewness	12.632523
Sum	7.4861717 × 10¹¹
Variance	8.4404234 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2313	23.1%
250000	24	0.2%
500000	23	0.2%
300000	19	0.2%
20000000	13	0.1%
1000000	13	0.1%
50000000	12	0.1%
30000000	10	0.1%
242000	9	0.1%
2000000	9	0.1%
Other values (7371)	7555	75.5%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-569240906	1	< 0.1%
-305657384	1	< 0.1%
-282000000	1	< 0.1%
-250338994	1	< 0.1%
-205902930	1	< 0.1%
-195908810	1	< 0.1%
-193815940	1	< 0.1%
-181451277	1	< 0.1%
-170740090	1	< 0.1%
-159862831	1	< 0.1%

Value	Count	Frequency (%)
9135798497	1	< 0.1%
8509798610	1	< 0.1%
7520948106	1	< 0.1%
5726898757	1	< 0.1%
4835290235	1	< 0.1%
4604081984	1	< 0.1%
4189299278	1	< 0.1%
3975949573	1	< 0.1%
3899876302	1	< 0.1%
3446085498	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.526
금액	0.526	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
18522	래미안장안	A13084101	주차장충당부채	202305	0
14244	신수성원	A12185504	주차장충당예금	202305	0
40448	마천우방	A13812004	관리비미수금	202305	54691785
57888	임광관악파크	A15179701	연차수당충당부채	202305	21834060
71622	목동극동늘푸른	A15881601	주차장충당예금	202305	0
24703	마장SH-vill임대	A13305005	전신전화가입권	202305	0
63207	상도더샵2차	A15603009	선급금	202305	55360
38456	현대멤피스아파트	A13782902	복리후생비충당부채	202305	379150
9517	황학아크로타워	A10086801	승강기유지비충당부채	202305	0
48318	중계그린	A13986306	기타당좌자산	202305	3817000

	아파트명	아파트코드	비용명	년월일	금액
19079	신내벽산	A13113002	전신전화가입권	202305	200000
7225	보라매 신동아파밀리에아파트	A10027381	미수금	202305	0
2400	힐스테이트클래시안아파트	A10024615	미지급비용	202305	171539861
30315	청담자이	A13510007	기타충당부채	202305	150000
34633	길음뉴타운 경남아너스빌	A13610107	비품감가상각누계액	202305	-27123300
3136	신촌그랑자이아파트	A10025003	연차수당충당부채	202305	75281396
58599	구로두산	A15205405	장기수선충당예금	202305	883368777
56683	여의도시범아파트	A15089421	퇴직급여충당부채	202305	360669843
36372	길음뉴타운 데시앙	A13676605	선수수도료	202305	0
29147	SK허브진주상복합아파트	A13484004	공동주택적립금	202305	54959467

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample