gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2241 (22.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:59:41.828670
Analysis finished	2024-05-11 05:59:42.690315
Duration	0.86 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2203
Distinct (%)	22.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.2641
Min length	2

Characters and Unicode

Total characters	72641
Distinct characters	436
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	120 ?
Unique (%)	1.2%

Sample

1st row	금천롯데캐슬골드파크1차아파트
2nd row	송파현대1차
3rd row	삼성한솔
4th row	전농우성
5th row	상봉우정

Value	Count	Frequency (%)
아파트	139	1.3%
래미안	25	0.2%
북한산	19	0.2%
고덕	17	0.2%
e편한세상	15	0.1%
아이파크	15	0.1%
서울숲2차푸르지오임대	14	0.1%
신내	14	0.1%
면목삼익	13	0.1%
도화현대1차아파트	13	0.1%
Other values (2272)	10363	97.3%

Most occurring characters

Value	Count	Frequency (%)
파	2312	3.2%
아	2299	3.2%
트	2069	2.8%
지	1889	2.6%
대	1850	2.5%
동	1703	2.3%
차	1534	2.1%
단	1516	2.1%
신	1438	2.0%
성	1261	1.7%
Other values (426)	54770	75.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66344	91.3%
Decimal Number	3847	5.3%
Uppercase Letter	797	1.1%
Space Separator	718	1.0%
Lowercase Letter	337	0.5%
Close Punctuation	159	0.2%
Open Punctuation	159	0.2%
Dash Punctuation	144	0.2%
Other Punctuation	123	0.2%
Letter Number	7	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
파	2312	3.5%
아	2299	3.5%
트	2069	3.1%
지	1889	2.8%
대	1850	2.8%
동	1703	2.6%
차	1534	2.3%
단	1516	2.3%
신	1438	2.2%
성	1261	1.9%
Other values (381)	48473	73.1%

Uppercase Letter

Value	Count	Frequency (%)
C	126	15.8%
S	120	15.1%
K	103	12.9%
M	84	10.5%
D	84	10.5%
L	51	6.4%
G	37	4.6%
I	36	4.5%
H	35	4.4%
E	29	3.6%
Other values (7)	92	11.5%

Decimal Number

Value	Count	Frequency (%)
1	1203	31.3%
2	1104	28.7%
3	481	12.5%
4	236	6.1%
5	215	5.6%
6	187	4.9%
7	138	3.6%
8	103	2.7%
0	93	2.4%
9	87	2.3%

Lowercase Letter

Value	Count	Frequency (%)
e	196	58.2%
l	30	8.9%
i	30	8.9%
v	20	5.9%
s	20	5.9%
h	10	3.0%
k	10	3.0%
w	9	2.7%
a	6	1.8%
g	6	1.8%

Other Punctuation

Value	Count	Frequency (%)
,	107	87.0%
.	16	13.0%

Space Separator

Value	Count	Frequency (%)
	718	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	159	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	159	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	144	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	7	100.0%

Math Symbol

Value	Count	Frequency (%)
~	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66344	91.3%
Common	5156	7.1%
Latin	1141	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
파	2312	3.5%
아	2299	3.5%
트	2069	3.1%
지	1889	2.8%
대	1850	2.8%
동	1703	2.6%
차	1534	2.3%
단	1516	2.3%
신	1438	2.2%
성	1261	1.9%
Other values (381)	48473	73.1%

Latin

Value	Count	Frequency (%)
e	196	17.2%
C	126	11.0%
S	120	10.5%
K	103	9.0%
M	84	7.4%
D	84	7.4%
L	51	4.5%
G	37	3.2%
I	36	3.2%
H	35	3.1%
Other values (18)	269	23.6%

Common

Value	Count	Frequency (%)
1	1203	23.3%
2	1104	21.4%
	718	13.9%
3	481	9.3%
4	236	4.6%
5	215	4.2%
6	187	3.6%
)	159	3.1%
(	159	3.1%
-	144	2.8%
Other values (7)	550	10.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66344	91.3%
ASCII	6290	8.7%
Number Forms	7	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
파	2312	3.5%
아	2299	3.5%
트	2069	3.1%
지	1889	2.8%
대	1850	2.8%
동	1703	2.6%
차	1534	2.3%
단	1516	2.3%
신	1438	2.2%
성	1261	1.9%
Other values (381)	48473	73.1%

ASCII

Value	Count	Frequency (%)
1	1203	19.1%
2	1104	17.6%
	718	11.4%
3	481	7.6%
4	236	3.8%
5	215	3.4%
e	196	3.1%
6	187	3.0%
)	159	2.5%
(	159	2.5%
Other values (34)	1632	25.9%

Number Forms

Value	Count	Frequency (%)
Ⅰ	7	100.0%

아파트코드
Text

Distinct	2209
Distinct (%)	22.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	120 ?
Unique (%)	1.2%

Sample

1st row	A10027188
2nd row	A13885301
3rd row	A13509004
4th row	A13084803
5th row	A13185602

Value	Count	Frequency (%)
a13183502	13	0.1%
a12181406	13	0.1%
a15383905	12	0.1%
a15870701	12	0.1%
a15807705	11	0.1%
a13905204	11	0.1%
a14272309	11	0.1%
a15210212	11	0.1%
a13822701	11	0.1%
a15288807	11	0.1%
Other values (2199)	9884	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18407	20.5%
1	17670	19.6%
A	9984	11.1%
3	8769	9.7%
2	8115	9.0%
5	6333	7.0%
8	5772	6.4%
7	4721	5.2%
4	3934	4.4%
6	3308	3.7%
Other values (2)	2987	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18407	23.0%
1	17670	22.1%
3	8769	11.0%
2	8115	10.1%
5	6333	7.9%
8	5772	7.2%
7	4721	5.9%
4	3934	4.9%
6	3308	4.1%
9	2971	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9984	99.8%
B	16	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18407	23.0%
1	17670	22.1%
3	8769	11.0%
2	8115	10.1%
5	6333	7.9%
8	5772	7.2%
7	4721	5.9%
4	3934	4.9%
6	3308	4.1%
9	2971	3.7%

Latin

Value	Count	Frequency (%)
A	9984	99.8%
B	16	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18407	20.5%
1	17670	19.6%
A	9984	11.1%
3	8769	9.7%
2	8115	9.0%
5	6333	7.0%
8	5772	6.4%
7	4721	5.2%
4	3934	4.4%
6	3308	3.7%
Other values (2)	2987	3.3%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.9261
Min length	2

Characters and Unicode

Total characters	59261
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	비품감가상각누계액
2nd row	상여충당부채
3rd row	관리비예치금
4th row	예수금
5th row	주차장충당부채

Value	Count	Frequency (%)
예금	347	3.5%
당기순이익	335	3.4%
관리비미수금	334	3.3%
예수금	328	3.3%
공동주택적립금	320	3.2%
비품	319	3.2%
선급비용	315	3.1%
퇴직급여충당부채	308	3.1%
수선유지비충당부채	301	3.0%
미처분이익잉여금	296	3.0%
Other values (67)	6797	68.0%

Most occurring characters

Value	Count	Frequency (%)
금	4676	7.9%
당	3726	6.3%
수	3233	5.5%
비	3062	5.2%
충	3031	5.1%
부	2935	5.0%
채	2626	4.4%
기	2305	3.9%
선	1922	3.2%
예	1811	3.1%
Other values (97)	29934	50.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59261	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4676	7.9%
당	3726	6.3%
수	3233	5.5%
비	3062	5.2%
충	3031	5.1%
부	2935	5.0%
채	2626	4.4%
기	2305	3.9%
선	1922	3.2%
예	1811	3.1%
Other values (97)	29934	50.5%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59261	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4676	7.9%
당	3726	6.3%
수	3233	5.5%
비	3062	5.2%
충	3031	5.1%
부	2935	5.0%
채	2626	4.4%
기	2305	3.9%
선	1922	3.2%
예	1811	3.1%
Other values (97)	29934	50.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59261	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4676	7.9%
당	3726	6.3%
수	3233	5.5%
비	3062	5.2%
충	3031	5.1%
부	2935	5.0%
채	2626	4.4%
기	2305	3.9%
선	1922	3.2%
예	1811	3.1%
Other values (97)	29934	50.5%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202011	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202011
2nd row	202011
3rd row	202011
4th row	202011
5th row	202011

Common Values

Value	Count	Frequency (%)
202011	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202011	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7434
Distinct (%)	74.3%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	70143146

Minimum	-7.2125818 × 10⁸
Maximum	5.2345699 × 10⁹
Zeros	2241
Zeros (%)	22.4%
Negative	304
Negative (%)	3.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	-7.2125818 × 10⁸
5-th percentile	0
Q1	0
median	3299275
Q3	35225150
95-th percentile	3.6036926 × 10⁸
Maximum	5.2345699 × 10⁹
Range	5.9558281 × 10⁹
Interquartile range (IQR)	35225150

Descriptive statistics

Standard deviation	2.4871378 × 10⁸
Coefficient of variation (CV)	3.5458031
Kurtosis	116.95362
Mean	70143146
Median Absolute Deviation (MAD)	3299275
Skewness	8.9086308
Sum	7.0143146 × 10¹¹
Variance	6.1858547 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2241	22.4%
500000	30	0.3%
484000	15	0.1%
250000	14	0.1%
100000	11	0.1%
2000000	10	0.1%
300000	10	0.1%
3000000	10	0.1%
600000	9	0.1%
200000	9	0.1%
Other values (7424)	7641	76.4%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-721258178	1	< 0.1%
-269665410	1	< 0.1%
-163934940	1	< 0.1%
-145925010	1	< 0.1%
-138881815	1	< 0.1%
-138288333	1	< 0.1%
-117859134	1	< 0.1%
-112350030	1	< 0.1%
-102572890	1	< 0.1%
-93851930	1	< 0.1%

Value	Count	Frequency (%)
5234569921	1	< 0.1%
5153608837	1	< 0.1%
4549930706	1	< 0.1%
4479047170	1	< 0.1%
4438531106	1	< 0.1%
4227412758	1	< 0.1%
3813507246	2	< 0.1%
3565154654	1	< 0.1%
3226222970	1	< 0.1%
3151897116	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.480
금액	0.480	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
4249	금천롯데캐슬골드파크1차아파트	A10027188	비품감가상각누계액	202011	-93851930
39632	송파현대1차	A13885301	상여충당부채	202011	0
26917	삼성한솔	A13509004	관리비예치금	202011	42595000
15820	전농우성	A13084803	예수금	202011	2642355
17844	상봉우정	A13185602	주차장충당부채	202011	0
219	인왕산어울림 아파트	A10024620	선급비용	202011	7202810
17061	신내6단지	A13176901	공동주택적립금	202011	34930152
67524	목동6단지	A15875103	관리비예치금	202011	60300000
37830	올림픽훼밀리타운	A13820201	시설보수충당부채	202011	164435091
38429	한신코아	A13824003	저장품	202011	97000

	아파트명	아파트코드	비용명	년월일	금액
63471	마곡수명산파크7단지	A15728005	선수관리비	202011	1699365
63424	마곡수명산파크2단지	A15728004	선수난방비	202011	0
43326	상계주공12단지	A13982202	장기수선충당예금	202011	1198843068
55729	오류금강	A15210206	비품	202011	1930950
12543	북한산현대홈타운	A12204102	선수수도료	202011	1185830
21828	행당두산	A13307001	가수금	202011	10117200
57667	신도림대림7차e-편한세상	A15288807	승강기유지비충당부채	202011	0
66698	목동삼성쉐르빌2차	A15807601	미수금	202011	4365900
54380	대학동현대(구신림9동)	A15186002	장기수선충당부채	202011	284525601
45757	동부이촌동우성	A14003001	선수관리비	202011	0

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample