gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1661 (16.6%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:55:36.808985
Analysis finished	2024-05-11 06:55:38.639555
Duration	1.83 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2100
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.2269
Min length	2

Characters and Unicode

Total characters	72269
Distinct characters	429
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	96 ?
Unique (%)	1.0%

Sample

1st row	신개봉삼환
2nd row	신당푸르지오
3rd row	상계주공14단지
4th row	현대강변
5th row	대치우성1차아파트

Value	Count	Frequency (%)
아파트	165	1.5%
래미안	28	0.3%
e편한세상	21	0.2%
북한산	20	0.2%
아이파크	20	0.2%
고덕	17	0.2%
힐스테이트	17	0.2%
고척대우	16	0.1%
sk뷰	15	0.1%
신내	14	0.1%
Other values (2169)	10384	96.9%

Most occurring characters

Value	Count	Frequency (%)
아	2542	3.5%
파	2478	3.4%
트	2300	3.2%
대	1888	2.6%
지	1630	2.3%
동	1566	2.2%
차	1559	2.2%
이	1414	2.0%
신	1404	1.9%
성	1272	1.8%
Other values (419)	54216	75.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66369	91.8%
Decimal Number	3411	4.7%
Uppercase Letter	812	1.1%
Space Separator	785	1.1%
Lowercase Letter	361	0.5%
Open Punctuation	138	0.2%
Close Punctuation	138	0.2%
Other Punctuation	124	0.2%
Dash Punctuation	122	0.2%
Letter Number	6	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2542	3.8%
파	2478	3.7%
트	2300	3.5%
대	1888	2.8%
지	1630	2.5%
동	1566	2.4%
차	1559	2.3%
이	1414	2.1%
신	1404	2.1%
성	1272	1.9%
Other values (373)	48316	72.8%

Uppercase Letter

Value	Count	Frequency (%)
S	129	15.9%
C	114	14.0%
K	98	12.1%
D	90	11.1%
M	90	11.1%
L	51	6.3%
H	47	5.8%
I	41	5.0%
G	38	4.7%
E	24	3.0%
Other values (7)	90	11.1%

Lowercase Letter

Value	Count	Frequency (%)
e	192	53.2%
l	44	12.2%
i	29	8.0%
v	25	6.9%
k	21	5.8%
c	20	5.5%
s	16	4.4%
h	5	1.4%
w	5	1.4%
a	2	0.6%

Decimal Number

Value	Count	Frequency (%)
2	1065	31.2%
1	1017	29.8%
3	463	13.6%
4	220	6.4%
5	178	5.2%
6	144	4.2%
7	99	2.9%
9	86	2.5%
8	85	2.5%
0	54	1.6%

Other Punctuation

Value	Count	Frequency (%)
,	99	79.8%
.	25	20.2%

Space Separator

Value	Count	Frequency (%)
	785	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	138	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	138	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	122	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	6	100.0%

Math Symbol

Value	Count	Frequency (%)
~	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66369	91.8%
Common	4721	6.5%
Latin	1179	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2542	3.8%
파	2478	3.7%
트	2300	3.5%
대	1888	2.8%
지	1630	2.5%
동	1566	2.4%
차	1559	2.3%
이	1414	2.1%
신	1404	2.1%
성	1272	1.9%
Other values (373)	48316	72.8%

Latin

Value	Count	Frequency (%)
e	192	16.3%
S	129	10.9%
C	114	9.7%
K	98	8.3%
D	90	7.6%
M	90	7.6%
L	51	4.3%
H	47	4.0%
l	44	3.7%
I	41	3.5%
Other values (19)	283	24.0%

Common

Value	Count	Frequency (%)
2	1065	22.6%
1	1017	21.5%
	785	16.6%
3	463	9.8%
4	220	4.7%
5	178	3.8%
6	144	3.1%
(	138	2.9%
)	138	2.9%
-	122	2.6%
Other values (7)	451	9.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66369	91.8%
ASCII	5894	8.2%
Number Forms	6	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2542	3.8%
파	2478	3.7%
트	2300	3.5%
대	1888	2.8%
지	1630	2.5%
동	1566	2.4%
차	1559	2.3%
이	1414	2.1%
신	1404	2.1%
성	1272	1.9%
Other values (373)	48316	72.8%

ASCII

Value	Count	Frequency (%)
2	1065	18.1%
1	1017	17.3%
	785	13.3%
3	463	7.9%
4	220	3.7%
e	192	3.3%
5	178	3.0%
6	144	2.4%
(	138	2.3%
)	138	2.3%
Other values (35)	1554	26.4%

Number Forms

Value	Count	Frequency (%)
Ⅰ	6	100.0%

아파트코드
Text

Distinct	2106
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	98 ?
Unique (%)	1.0%

Sample

1st row	A15280602
2nd row	A10045001
3rd row	A13981903
4th row	A14319201
5th row	A13583403

Value	Count	Frequency (%)
a15279404	16	0.2%
a12010001	12	0.1%
a10027817	12	0.1%
a15106101	12	0.1%
a12013003	12	0.1%
a15721005	12	0.1%
a13086701	12	0.1%
a13591402	11	0.1%
a13003202	11	0.1%
a13527203	11	0.1%
Other values (2096)	9879	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18733	20.8%
1	17706	19.7%
A	10000	11.1%
3	8953	9.9%
2	8292	9.2%
5	6161	6.8%
8	5491	6.1%
7	4662	5.2%
4	3741	4.2%
6	3475	3.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18733	23.4%
1	17706	22.1%
3	8953	11.2%
2	8292	10.4%
5	6161	7.7%
8	5491	6.9%
7	4662	5.8%
4	3741	4.7%
6	3475	4.3%
9	2786	3.5%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18733	23.4%
1	17706	22.1%
3	8953	11.2%
2	8292	10.4%
5	6161	7.7%
8	5491	6.9%
7	4662	5.8%
4	3741	4.7%
6	3475	4.3%
9	2786	3.5%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18733	20.8%
1	17706	19.7%
A	10000	11.1%
3	8953	9.9%
2	8292	9.2%
5	6161	6.8%
8	5491	6.1%
7	4662	5.2%
4	3741	4.2%
6	3475	3.9%

비용명
Text

Distinct	85
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.886
Min length	2

Characters and Unicode

Total characters	48860
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	잡수익
2nd row	고용보험료
3rd row	소모품비
4th row	승강기수익
5th row	잡수익

Value	Count	Frequency (%)
통신비	229	2.3%
이자수익	227	2.3%
입주자대표회의운영비	224	2.2%
급여	223	2.2%
보험료	211	2.1%
교육비	209	2.1%
소독비	206	2.1%
세대전기료	202	2.0%
연체료수익	202	2.0%
산재보험료	201	2.0%
Other values (75)	7866	78.7%

Most occurring characters

Value	Count	Frequency (%)
비	5345	10.9%
수	3535	7.2%
료	2104	4.3%
익	2024	4.1%
용	1720	3.5%
기	1213	2.5%
대	1044	2.1%
리	828	1.7%
보	795	1.6%
험	756	1.5%
Other values (110)	29496	60.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48860	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5345	10.9%
수	3535	7.2%
료	2104	4.3%
익	2024	4.1%
용	1720	3.5%
기	1213	2.5%
대	1044	2.1%
리	828	1.7%
보	795	1.6%
험	756	1.5%
Other values (110)	29496	60.4%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48860	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5345	10.9%
수	3535	7.2%
료	2104	4.3%
익	2024	4.1%
용	1720	3.5%
기	1213	2.5%
대	1044	2.1%
리	828	1.7%
보	795	1.6%
험	756	1.5%
Other values (110)	29496	60.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48860	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5345	10.9%
수	3535	7.2%
료	2104	4.3%
익	2024	4.1%
용	1720	3.5%
기	1213	2.5%
대	1044	2.1%
리	828	1.7%
보	795	1.6%
험	756	1.5%
Other values (110)	29496	60.4%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202011	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202011
2nd row	202011
3rd row	202011
4th row	202011
5th row	202011

Common Values

Value	Count	Frequency (%)
202011	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202011	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6606
Distinct (%)	66.1%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3110485.7

Minimum	-4273300
Maximum	5.6064406 × 10⁸
Zeros	1661
Zeros (%)	16.6%
Negative	8
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-4273300
5-th percentile	0
Q1	45221
median	279460
Q3	1220132.5
95-th percentile	15299156
Maximum	5.6064406 × 10⁸
Range	5.6491736 × 10⁸
Interquartile range (IQR)	1174911.5

Descriptive statistics

Standard deviation	12664716
Coefficient of variation (CV)	4.0716201
Kurtosis	619.31299
Mean	3110485.7
Median Absolute Deviation (MAD)	279460
Skewness	18.477294
Sum	3.1104857 × 10¹⁰
Variance	1.6039504 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1661	16.6%
200000	77	0.8%
300000	77	0.8%
100000	61	0.6%
150000	46	0.5%
30000	35	0.4%
600000	35	0.4%
400000	34	0.3%
50000	34	0.3%
250000	31	0.3%
Other values (6596)	7909	79.1%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-4273300	1	< 0.1%
-520040	1	< 0.1%
-280620	1	< 0.1%
-271330	1	< 0.1%
-250454	1	< 0.1%
-229350	1	< 0.1%
-40000	1	< 0.1%
-35750	1	< 0.1%
0	1661	16.6%
1	1	< 0.1%

Value	Count	Frequency (%)
560644058	1	< 0.1%
475548020	1	< 0.1%
247984940	1	< 0.1%
203537810	1	< 0.1%
190039492	1	< 0.1%
167626810	1	< 0.1%
162659600	1	< 0.1%
159488006	1	< 0.1%
159208010	1	< 0.1%
147102409	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.278
금액	0.278	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
85771	신개봉삼환	A15280602	잡수익	202011	315360
10698	신당푸르지오	A10045001	고용보험료	202011	137060
65859	상계주공14단지	A13981903	소모품비	202011	886020
73816	현대강변	A14319201	승강기수익	202011	0
45085	대치우성1차아파트	A13583403	잡수익	202011	1500182
6325	용산푸르지오써밋	A10026759	승강기유지비	202011	1782000
65997	상계신동아	A13982003	청소비	202011	4373800
9229	위례아이파크아파트	A10027744	건강보험료	202011	811450
91459	사당삼호그린	A15609002	고용안정사업비용	202011	380000
65134	공릉대아2차	A13980604	부과차익	202011	1323

	아파트명	아파트코드	비용명	년월일	금액
16652	마포동원베네스트	A12170401	이자수익	202011	0
92266	사당신동아4단지	A15677204	장기수선비	202011	13864680
87690	신도림현대	A15288803	부과차손	202011	0
78826	한강아파트	A15080501	통신비	202011	43270
42782	수서까치마을	A13522007	청소비	202011	14628630
17196	서강한화오벨리스크스위트	A12177801	지급수수료	202011	27600
62614	중계양지대림2차	A13922110	산재보험료	202011	162730
78037	양평삼호	A15010304	재활용품수익	202011	213000
80954	신대림신동아파밀리에	A15095002	세대수도료	202011	3503760
3639	신정이든채	A10025649	고용보험료	202011	107320

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample