gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1446 (14.5%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:59:12.012148
Analysis finished	2024-05-11 06:59:14.176808
Duration	2.16 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2110
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1243
Min length	2

Characters and Unicode

Total characters	71243
Distinct characters	430
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	94 ?
Unique (%)	0.9%

Sample

1st row	여의도한양
2nd row	천왕이펜하우스2단지
3rd row	잠원한신로얄
4th row	보라매아카데미타워아파트
5th row	e편한세상신촌아파트

Value	Count	Frequency (%)
아파트	122	1.2%
래미안	29	0.3%
힐스테이트	18	0.2%
왕십리	15	0.1%
브라운스톤	15	0.1%
신반포	14	0.1%
목동2단지	13	0.1%
e편한세상	12	0.1%
청계벽산	12	0.1%
공덕자이	12	0.1%
Other values (2165)	10280	97.5%

Most occurring characters

Value	Count	Frequency (%)
파	2225	3.1%
아	2216	3.1%
트	1970	2.8%
대	1885	2.6%
지	1766	2.5%
동	1644	2.3%
신	1517	2.1%
차	1516	2.1%
단	1393	2.0%
성	1359	1.9%
Other values (420)	53752	75.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65416	91.8%
Decimal Number	3686	5.2%
Uppercase Letter	731	1.0%
Space Separator	584	0.8%
Lowercase Letter	344	0.5%
Dash Punctuation	131	0.2%
Open Punctuation	121	0.2%
Close Punctuation	121	0.2%
Other Punctuation	105	0.1%
Letter Number	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
파	2225	3.4%
아	2216	3.4%
트	1970	3.0%
대	1885	2.9%
지	1766	2.7%
동	1644	2.5%
신	1517	2.3%
차	1516	2.3%
단	1393	2.1%
성	1359	2.1%
Other values (375)	47925	73.3%

Uppercase Letter

Value	Count	Frequency (%)
S	127	17.4%
C	91	12.4%
K	84	11.5%
L	61	8.3%
H	57	7.8%
M	49	6.7%
D	49	6.7%
G	40	5.5%
E	39	5.3%
I	36	4.9%
Other values (7)	98	13.4%

Lowercase Letter

Value	Count	Frequency (%)
e	189	54.9%
l	40	11.6%
i	35	10.2%
v	25	7.3%
c	14	4.1%
k	12	3.5%
w	12	3.5%
s	8	2.3%
h	3	0.9%
a	3	0.9%

Decimal Number

Value	Count	Frequency (%)
1	1113	30.2%
2	1082	29.4%
3	494	13.4%
4	250	6.8%
5	203	5.5%
6	161	4.4%
7	113	3.1%
9	108	2.9%
8	84	2.3%
0	78	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	91	86.7%
.	14	13.3%

Space Separator

Value	Count	Frequency (%)
	584	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	131	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	121	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	121	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65416	91.8%
Common	4748	6.7%
Latin	1079	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
파	2225	3.4%
아	2216	3.4%
트	1970	3.0%
대	1885	2.9%
지	1766	2.7%
동	1644	2.5%
신	1517	2.3%
차	1516	2.3%
단	1393	2.1%
성	1359	2.1%
Other values (375)	47925	73.3%

Latin

Value	Count	Frequency (%)
e	189	17.5%
S	127	11.8%
C	91	8.4%
K	84	7.8%
L	61	5.7%
H	57	5.3%
M	49	4.5%
D	49	4.5%
G	40	3.7%
l	40	3.7%
Other values (19)	292	27.1%

Common

Value	Count	Frequency (%)
1	1113	23.4%
2	1082	22.8%
	584	12.3%
3	494	10.4%
4	250	5.3%
5	203	4.3%
6	161	3.4%
-	131	2.8%
(	121	2.5%
)	121	2.5%
Other values (6)	488	10.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65416	91.8%
ASCII	5823	8.2%
Number Forms	4	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
파	2225	3.4%
아	2216	3.4%
트	1970	3.0%
대	1885	2.9%
지	1766	2.7%
동	1644	2.5%
신	1517	2.3%
차	1516	2.3%
단	1393	2.1%
성	1359	2.1%
Other values (375)	47925	73.3%

ASCII

Value	Count	Frequency (%)
1	1113	19.1%
2	1082	18.6%
	584	10.0%
3	494	8.5%
4	250	4.3%
5	203	3.5%
e	189	3.2%
6	161	2.8%
-	131	2.2%
S	127	2.2%
Other values (34)	1489	25.6%

Number Forms

Value	Count	Frequency (%)
Ⅰ	4	100.0%

아파트코드
Text

Distinct	2116
Distinct (%)	21.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	95 ?
Unique (%)	0.9%

Sample

1st row	A15088918
2nd row	A15213003
3rd row	A13790706
4th row	A15601002
5th row	A10027213

Value	Count	Frequency (%)
a15875102	13	0.1%
a10027906	12	0.1%
a13302001	12	0.1%
a13881204	12	0.1%
a10026207	12	0.1%
a13470101	12	0.1%
a14319008	11	0.1%
a13606004	11	0.1%
a14003105	11	0.1%
a10025850	11	0.1%
Other values (2106)	9883	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18483	20.5%
1	17644	19.6%
A	9996	11.1%
3	8842	9.8%
2	7930	8.8%
5	6223	6.9%
8	5861	6.5%
7	4785	5.3%
4	3861	4.3%
6	3453	3.8%
Other values (2)	2922	3.2%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18483	23.1%
1	17644	22.1%
3	8842	11.1%
2	7930	9.9%
5	6223	7.8%
8	5861	7.3%
7	4785	6.0%
4	3861	4.8%
6	3453	4.3%
9	2918	3.6%

Uppercase Letter

Value	Count	Frequency (%)
A	9996	> 99.9%
B	4	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18483	23.1%
1	17644	22.1%
3	8842	11.1%
2	7930	9.9%
5	6223	7.8%
8	5861	7.3%
7	4785	6.0%
4	3861	4.8%
6	3453	4.3%
9	2918	3.6%

Latin

Value	Count	Frequency (%)
A	9996	> 99.9%
B	4	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18483	20.5%
1	17644	19.6%
A	9996	11.1%
3	8842	9.8%
2	7930	8.8%
5	6223	6.9%
8	5861	6.5%
7	4785	5.3%
4	3861	4.3%
6	3453	3.8%
Other values (2)	2922	3.2%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.9016
Min length	2

Characters and Unicode

Total characters	49016
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	재활용품비용
2nd row	부과차익
3rd row	기타부대비
4th row	보험료
5th row	공동전기료

Value	Count	Frequency (%)
수선유지비	232	2.3%
연체료수익	229	2.3%
이자수익	228	2.3%
청소비	222	2.2%
경비비	218	2.2%
세대전기료	217	2.2%
승강기유지비	213	2.1%
교육비	213	2.1%
제수당	208	2.1%
소독비	207	2.1%
Other values (77)	7813	78.1%

Most occurring characters

Value	Count	Frequency (%)
비	5488	11.2%
수	3590	7.3%
료	2081	4.2%
익	2016	4.1%
용	1723	3.5%
기	1325	2.7%
대	1063	2.2%
리	852	1.7%
보	818	1.7%
험	765	1.6%
Other values (110)	29295	59.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	49016	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5488	11.2%
수	3590	7.3%
료	2081	4.2%
익	2016	4.1%
용	1723	3.5%
기	1325	2.7%
대	1063	2.2%
리	852	1.7%
보	818	1.7%
험	765	1.6%
Other values (110)	29295	59.8%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	49016	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5488	11.2%
수	3590	7.3%
료	2081	4.2%
익	2016	4.1%
용	1723	3.5%
기	1325	2.7%
대	1063	2.2%
리	852	1.7%
보	818	1.7%
험	765	1.6%
Other values (110)	29295	59.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	49016	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5488	11.2%
수	3590	7.3%
료	2081	4.2%
익	2016	4.1%
용	1723	3.5%
기	1325	2.7%
대	1063	2.2%
리	852	1.7%
보	818	1.7%
험	765	1.6%
Other values (110)	29295	59.8%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201907	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201907
2nd row	201907
3rd row	201907
4th row	201907
5th row	201907

Common Values

Value	Count	Frequency (%)
201907	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201907	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6823
Distinct (%)	68.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2885624.1

Minimum	-19145800
Maximum	2.7944257 × 10⁸
Zeros	1446
Zeros (%)	14.5%
Negative	12
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-19145800
5-th percentile	0
Q1	57860
median	323015
Q3	1426900
95-th percentile	14073855
Maximum	2.7944257 × 10⁸
Range	2.9858837 × 10⁸
Interquartile range (IQR)	1369040

Descriptive statistics

Standard deviation	10290204
Coefficient of variation (CV)	3.5660236
Kurtosis	240.3056
Mean	2885624.1
Median Absolute Deviation (MAD)	323015
Skewness	12.362524
Sum	2.8856241 × 10¹⁰
Variance	1.058883 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1446	14.5%
200000	83	0.8%
300000	57	0.6%
100000	52	0.5%
150000	43	0.4%
500000	37	0.4%
50000	34	0.3%
400000	32	0.3%
450000	29	0.3%
180000	26	0.3%
Other values (6813)	8161	81.6%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-19145800	1	< 0.1%
-6281240	1	< 0.1%
-5369950	1	< 0.1%
-1126430	1	< 0.1%
-695680	1	< 0.1%
-280100	1	< 0.1%
-150000	1	< 0.1%
-73690	1	< 0.1%
-69170	1	< 0.1%
-66000	1	< 0.1%

Value	Count	Frequency (%)
279442572	1	< 0.1%
256949930	1	< 0.1%
256549930	1	< 0.1%
255035760	1	< 0.1%
246583458	1	< 0.1%
205817991	1	< 0.1%
159976420	1	< 0.1%
143732894	1	< 0.1%
117617066	1	< 0.1%
117052312	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.550
금액	0.550	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
74710	여의도한양	A15088918	재활용품비용	201907	1345000
79213	천왕이펜하우스2단지	A15213003	부과차익	201907	1370
50424	잠원한신로얄	A13790706	기타부대비	201907	389040
83410	보라매아카데미타워아파트	A15601002	보험료	201907	569991
3898	e편한세상신촌아파트	A10027213	공동전기료	201907	12222932
54726	가락래미안파크팰리스	A13881005	잡비용	201907	5463550
6286	정릉꿈에그린아파트	A10028000	고용보험료	201907	70700
3562	도봉숲 아뜨리움	A10027136	지급수수료	201907	200000
7651	황학아크로타워	A10086801	보험료	201907	432730
65353	산천리버힐제2	A14076401	고용안정사업수익	201907	500000

	아파트명	아파트코드	비용명	년월일	금액
13047	마포자이2차	A12172401	장기수선비	201907	4340000
94851	목동우성2차	A15807703	급여	201907	21528160
93926	신트리1단지	A15807002	선거관리위원회운영비	201907	560000
77281	봉천동아제2	A15192202	보험료	201907	278420
97434	은평뉴타운박석고개1단지	A41279910	부과차익	201907	130
23412	신내5단지대림두산	A13184610	고용보험료	201907	308420
42163	개포주공5단지	A13599402	주차장수익	201907	1433520
65051	동부센트레빌아스테리움	A14070901	음식물처리비	201907	360000
6242	LH강남힐스테이트	A10027985	잡수익	201907	8636702
88384	염창1차보람더하임아파트	A15704007	복리후생비	201907	479770

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample