gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 655 (6.6%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:47:56.571574
Analysis finished	2024-05-11 06:47:58.808777
Duration	2.24 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2255
Distinct (%)	22.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.4462
Min length	2

Characters and Unicode

Total characters	74462
Distinct characters	434
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	153 ?
Unique (%)	1.5%

Sample

1st row	송파레미니스2단지
2nd row	화곡2차보람
3rd row	강동 리버스트 7단지 아파트
4th row	성내삼성
5th row	압구정현대아파트

Value	Count	Frequency (%)
아파트	215	2.0%
래미안	49	0.4%
e편한세상	34	0.3%
sk뷰	29	0.3%
아이파크	27	0.2%
고덕	20	0.2%
신반포	19	0.2%
힐스테이트	19	0.2%
해모로	18	0.2%
푸르지오	17	0.2%
Other values (2341)	10542	95.9%

Most occurring characters

Value	Count	Frequency (%)
파	2692	3.6%
아	2650	3.6%
트	2491	3.3%
지	1830	2.5%
대	1647	2.2%
동	1638	2.2%
신	1504	2.0%
차	1459	2.0%
단	1424	1.9%
이	1421	1.9%
Other values (424)	55706	74.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	68071	91.4%
Decimal Number	3577	4.8%
Space Separator	1086	1.5%
Uppercase Letter	888	1.2%
Lowercase Letter	305	0.4%
Close Punctuation	148	0.2%
Open Punctuation	148	0.2%
Dash Punctuation	131	0.2%
Other Punctuation	103	0.1%
Letter Number	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
파	2692	4.0%
아	2650	3.9%
트	2491	3.7%
지	1830	2.7%
대	1647	2.4%
동	1638	2.4%
신	1504	2.2%
차	1459	2.1%
단	1424	2.1%
이	1421	2.1%
Other values (379)	49315	72.4%

Uppercase Letter

Value	Count	Frequency (%)
S	147	16.6%
C	128	14.4%
K	101	11.4%
M	90	10.1%
D	90	10.1%
L	51	5.7%
E	49	5.5%
I	46	5.2%
H	46	5.2%
V	34	3.8%
Other values (7)	106	11.9%

Lowercase Letter

Value	Count	Frequency (%)
e	185	60.7%
l	26	8.5%
i	22	7.2%
k	20	6.6%
s	19	6.2%
v	17	5.6%
w	7	2.3%
c	4	1.3%
a	2	0.7%
g	2	0.7%

Decimal Number

Value	Count	Frequency (%)
1	1071	29.9%
2	1035	28.9%
3	463	12.9%
4	251	7.0%
5	225	6.3%
6	154	4.3%
7	127	3.6%
9	99	2.8%
8	92	2.6%
0	60	1.7%

Other Punctuation

Value	Count	Frequency (%)
,	86	83.5%
.	17	16.5%

Space Separator

Value	Count	Frequency (%)
	1086	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	148	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	148	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	131	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	68071	91.4%
Common	5193	7.0%
Latin	1198	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
파	2692	4.0%
아	2650	3.9%
트	2491	3.7%
지	1830	2.7%
대	1647	2.4%
동	1638	2.4%
신	1504	2.2%
차	1459	2.1%
단	1424	2.1%
이	1421	2.1%
Other values (379)	49315	72.4%

Latin

Value	Count	Frequency (%)
e	185	15.4%
S	147	12.3%
C	128	10.7%
K	101	8.4%
M	90	7.5%
D	90	7.5%
L	51	4.3%
E	49	4.1%
I	46	3.8%
H	46	3.8%
Other values (19)	265	22.1%

Common

Value	Count	Frequency (%)
	1086	20.9%
1	1071	20.6%
2	1035	19.9%
3	463	8.9%
4	251	4.8%
5	225	4.3%
6	154	3.0%
)	148	2.8%
(	148	2.8%
-	131	2.5%
Other values (6)	481	9.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	68071	91.4%
ASCII	6386	8.6%
Number Forms	5	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
파	2692	4.0%
아	2650	3.9%
트	2491	3.7%
지	1830	2.7%
대	1647	2.4%
동	1638	2.4%
신	1504	2.2%
차	1459	2.1%
단	1424	2.1%
이	1421	2.1%
Other values (379)	49315	72.4%

ASCII

Value	Count	Frequency (%)
	1086	17.0%
1	1071	16.8%
2	1035	16.2%
3	463	7.3%
4	251	3.9%
5	225	3.5%
e	185	2.9%
6	154	2.4%
)	148	2.3%
(	148	2.3%
Other values (34)	1620	25.4%

Number Forms

Value	Count	Frequency (%)
Ⅰ	5	100.0%

아파트코드
Text

Distinct	2260
Distinct (%)	22.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	155 ?
Unique (%)	1.6%

Sample

1st row	A10026249
2nd row	A15770101
3rd row	A10024421
4th row	A13403101
5th row	A13589802

Value	Count	Frequency (%)
a15701602	12	0.1%
a13981405	12	0.1%
a15180705	12	0.1%
a13778204	12	0.1%
a13383003	12	0.1%
a13592605	12	0.1%
a13876108	12	0.1%
a13817101	11	0.1%
a13202103	11	0.1%
a13986004	11	0.1%
Other values (2250)	9883	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18576	20.6%
1	17351	19.3%
A	9985	11.1%
3	8919	9.9%
2	8254	9.2%
5	6224	6.9%
8	5639	6.3%
7	4595	5.1%
4	4040	4.5%
6	3357	3.7%
Other values (2)	3060	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18576	23.2%
1	17351	21.7%
3	8919	11.1%
2	8254	10.3%
5	6224	7.8%
8	5639	7.0%
7	4595	5.7%
4	4040	5.1%
6	3357	4.2%
9	3045	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9985	99.9%
B	15	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18576	23.2%
1	17351	21.7%
3	8919	11.1%
2	8254	10.3%
5	6224	7.8%
8	5639	7.0%
7	4595	5.7%
4	4040	5.1%
6	3357	4.2%
9	3045	3.8%

Latin

Value	Count	Frequency (%)
A	9985	99.9%
B	15	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18576	20.6%
1	17351	19.3%
A	9985	11.1%
3	8919	9.9%
2	8254	9.2%
5	6224	6.9%
8	5639	6.3%
7	4595	5.1%
4	4040	4.5%
6	3357	3.7%
Other values (2)	3060	3.4%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.7833
Min length	2

Characters and Unicode

Total characters	47833
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	잡수익
2nd row	건강보험료
3rd row	청소비
4th row	청소비
5th row	세금과공과

Value	Count	Frequency (%)
승강기유지비	251	2.5%
사무용품비	246	2.5%
교육비	244	2.4%
도서인쇄비	236	2.4%
입주자대표회의운영비	234	2.3%
연체료수익	234	2.3%
급여	233	2.3%
청소비	227	2.3%
건강보험료	226	2.3%
퇴직급여	225	2.2%
Other values (76)	7644	76.4%

Most occurring characters

Value	Count	Frequency (%)
비	5353	11.2%
수	3573	7.5%
료	2259	4.7%
익	1903	4.0%
기	1393	2.9%
용	1274	2.7%
대	1114	2.3%
보	914	1.9%
리	886	1.9%
험	857	1.8%
Other values (110)	28307	59.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	47833	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5353	11.2%
수	3573	7.5%
료	2259	4.7%
익	1903	4.0%
기	1393	2.9%
용	1274	2.7%
대	1114	2.3%
보	914	1.9%
리	886	1.9%
험	857	1.8%
Other values (110)	28307	59.2%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	47833	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5353	11.2%
수	3573	7.5%
료	2259	4.7%
익	1903	4.0%
기	1393	2.9%
용	1274	2.7%
대	1114	2.3%
보	914	1.9%
리	886	1.9%
험	857	1.8%
Other values (110)	28307	59.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	47833	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5353	11.2%
수	3573	7.5%
료	2259	4.7%
익	1903	4.0%
기	1393	2.9%
용	1274	2.7%
대	1114	2.3%
보	914	1.9%
리	886	1.9%
험	857	1.8%
Other values (110)	28307	59.2%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202303	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202303
2nd row	202303
3rd row	202303
4th row	202303
5th row	202303

Common Values

Value	Count	Frequency (%)
202303	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202303	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7540
Distinct (%)	75.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3878402.7

Minimum	-2325450
Maximum	6.1211066 × 10⁸
Zeros	655
Zeros (%)	6.6%
Negative	7
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-2325450
5-th percentile	0
Q1	97277.5
median	351615
Q3	1604109.5
95-th percentile	20632585
Maximum	6.1211066 × 10⁸
Range	6.1443611 × 10⁸
Interquartile range (IQR)	1506832

Descriptive statistics

Standard deviation	13762696
Coefficient of variation (CV)	3.5485475
Kurtosis	445.20392
Mean	3878402.7
Median Absolute Deviation (MAD)	333100
Skewness	14.553384
Sum	3.8784027 × 10¹⁰
Variance	1.894118 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	655	6.6%
35000	110	1.1%
200000	89	0.9%
100000	67	0.7%
150000	55	0.5%
300000	54	0.5%
400000	48	0.5%
50000	38	0.4%
30000	31	0.3%
220000	28	0.3%
Other values (7530)	8825	88.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-2325450	1	< 0.1%
-1620650	1	< 0.1%
-1029560	1	< 0.1%
-738950	1	< 0.1%
-40000	1	< 0.1%
-602	1	< 0.1%
-71	1	< 0.1%
0	655	6.6%
1	1	< 0.1%
2	1	< 0.1%

Value	Count	Frequency (%)
612110660	1	< 0.1%
236217820	1	< 0.1%
220237377	1	< 0.1%
216071187	1	< 0.1%
214661050	1	< 0.1%
207239120	1	< 0.1%
204960771	1	< 0.1%
200714090	1	< 0.1%
185724820	1	< 0.1%
180963207	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.310
금액	0.310	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
8415	송파레미니스2단지	A10026249	잡수익	202303	700
88293	화곡2차보람	A15770101	건강보험료	202303	209990
2744	강동 리버스트 7단지 아파트	A10024421	청소비	202303	13447886
36380	성내삼성	A13403101	청소비	202303	16260386
43447	압구정현대아파트	A13589802	세금과공과	202303	0
2575	상도역롯데캐슬파크엘	A10024365	검침수익	202303	400000
12465	강동역신동아파밀리에	A10027948	주차장수익	202303	1100000
35830	한신무학	A13385705	알뜰시장수익	202303	480000
52259	신반포4차	A13790828	연차수당	202303	1127170
40601	강남엘에이치1단지	A13519007	세대전기료	202303	47525410

	아파트명	아파트코드	비용명	년월일	금액
46980	종암2차아이파크	A13671204	교육비	202303	190000
27517	묵동신안1차	A13185507	수선유지비	202303	1141640
89469	한사랑2차삼성아파트(등촌동)	A15783907	재활용품수익	202303	135600
31293	방학삼성래미안1단지	A13285406	소독비	202303	350000
21870	DMC자이1단지	A12275501	임대료수익	202303	1679091
34313	행당한진타운	A13377703	광고료수익	202303	850000
61132	상계한신3차	A13982002	급여	202303	12734790
56555	풍납신성노바빌	A13887301	건강보험료	202303	430100
83436	한강쌍용	A15606005	주차장수익	202303	797920
82290	신대방현대	A15601105	소독비	202303	590000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample