gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 856 (8.6%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:57:32.241285
Analysis finished	2024-05-11 06:57:34.434495
Duration	2.19 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2157
Distinct (%)	21.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.2036
Min length	2

Characters and Unicode

Total characters	72036
Distinct characters	431
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	1.0%

Sample

1st row	상계수락한신
2nd row	번동한양
3rd row	신정현대
4th row	중동계룡
5th row	대치롯데캐슬아파트

Value	Count	Frequency (%)
아파트	128	1.2%
래미안	28	0.3%
힐스테이트	20	0.2%
신내	18	0.2%
북한산	17	0.2%
신반포	17	0.2%
입주자대표회의	16	0.2%
래미안밤섬리베뉴	14	0.1%
아이파크	14	0.1%
코오롱하늘채아파트	14	0.1%
Other values (2220)	10324	97.3%

Most occurring characters

Value	Count	Frequency (%)
아	2435	3.4%
파	2290	3.2%
트	2078	2.9%
지	1829	2.5%
대	1805	2.5%
동	1688	2.3%
신	1510	2.1%
차	1457	2.0%
단	1444	2.0%
성	1302	1.8%
Other values (421)	54198	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66060	91.7%
Decimal Number	3734	5.2%
Uppercase Letter	680	0.9%
Space Separator	662	0.9%
Lowercase Letter	312	0.4%
Close Punctuation	158	0.2%
Open Punctuation	158	0.2%
Dash Punctuation	147	0.2%
Other Punctuation	113	0.2%
Letter Number	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2435	3.7%
파	2290	3.5%
트	2078	3.1%
지	1829	2.8%
대	1805	2.7%
동	1688	2.6%
신	1510	2.3%
차	1457	2.2%
단	1444	2.2%
성	1302	2.0%
Other values (376)	48222	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	108	15.9%
C	98	14.4%
K	89	13.1%
D	61	9.0%
M	61	9.0%
L	43	6.3%
H	38	5.6%
E	34	5.0%
I	33	4.9%
A	25	3.7%
Other values (7)	90	13.2%

Decimal Number

Value	Count	Frequency (%)
2	1130	30.3%
1	1082	29.0%
3	506	13.6%
4	261	7.0%
5	211	5.7%
6	158	4.2%
9	106	2.8%
8	100	2.7%
7	92	2.5%
0	88	2.4%

Lowercase Letter

Value	Count	Frequency (%)
e	198	63.5%
i	24	7.7%
l	20	6.4%
v	16	5.1%
k	16	5.1%
s	13	4.2%
w	9	2.9%
c	6	1.9%
a	5	1.6%
g	5	1.6%

Other Punctuation

Value	Count	Frequency (%)
,	87	77.0%
.	26	23.0%

Space Separator

Value	Count	Frequency (%)
	662	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	158	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	158	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	147	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	9	100.0%

Math Symbol

Value	Count	Frequency (%)
~	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66060	91.7%
Common	4975	6.9%
Latin	1001	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2435	3.7%
파	2290	3.5%
트	2078	3.1%
지	1829	2.8%
대	1805	2.7%
동	1688	2.6%
신	1510	2.3%
차	1457	2.2%
단	1444	2.2%
성	1302	2.0%
Other values (376)	48222	73.0%

Latin

Value	Count	Frequency (%)
e	198	19.8%
S	108	10.8%
C	98	9.8%
K	89	8.9%
D	61	6.1%
M	61	6.1%
L	43	4.3%
H	38	3.8%
E	34	3.4%
I	33	3.3%
Other values (18)	238	23.8%

Common

Value	Count	Frequency (%)
2	1130	22.7%
1	1082	21.7%
	662	13.3%
3	506	10.2%
4	261	5.2%
5	211	4.2%
6	158	3.2%
)	158	3.2%
(	158	3.2%
-	147	3.0%
Other values (7)	502	10.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66060	91.7%
ASCII	5967	8.3%
Number Forms	9	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2435	3.7%
파	2290	3.5%
트	2078	3.1%
지	1829	2.8%
대	1805	2.7%
동	1688	2.6%
신	1510	2.3%
차	1457	2.2%
단	1444	2.2%
성	1302	2.0%
Other values (376)	48222	73.0%

ASCII

Value	Count	Frequency (%)
2	1130	18.9%
1	1082	18.1%
	662	11.1%
3	506	8.5%
4	261	4.4%
5	211	3.5%
e	198	3.3%
6	158	2.6%
)	158	2.6%
(	158	2.6%
Other values (34)	1443	24.2%

Number Forms

Value	Count	Frequency (%)
Ⅰ	9	100.0%

아파트코드
Text

Distinct	2164
Distinct (%)	21.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	1.0%

Sample

1st row	A13920105
2nd row	A14286104
3rd row	A15807204
4th row	A12187901
5th row	A10024821

Value	Count	Frequency (%)
a13410003	13	0.1%
a12201301	13	0.1%
a15375809	13	0.1%
a10027553	12	0.1%
a12187906	12	0.1%
a12070101	12	0.1%
a15004507	12	0.1%
a15205513	12	0.1%
a12007001	11	0.1%
a13923103	11	0.1%
Other values (2154)	9879	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18460	20.5%
1	17601	19.6%
A	9983	11.1%
3	8789	9.8%
2	8290	9.2%
5	6248	6.9%
8	5773	6.4%
7	4774	5.3%
4	3770	4.2%
6	3371	3.7%
Other values (2)	2941	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18460	23.1%
1	17601	22.0%
3	8789	11.0%
2	8290	10.4%
5	6248	7.8%
8	5773	7.2%
7	4774	6.0%
4	3770	4.7%
6	3371	4.2%
9	2924	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9983	99.8%
B	17	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18460	23.1%
1	17601	22.0%
3	8789	11.0%
2	8290	10.4%
5	6248	7.8%
8	5773	7.2%
7	4774	6.0%
4	3770	4.7%
6	3371	4.2%
9	2924	3.7%

Latin

Value	Count	Frequency (%)
A	9983	99.8%
B	17	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18460	20.5%
1	17601	19.6%
A	9983	11.1%
3	8789	9.8%
2	8290	9.2%
5	6248	6.9%
8	5773	6.4%
7	4774	5.3%
4	3770	4.2%
6	3371	3.7%
Other values (2)	2941	3.3%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.7955
Min length	2

Characters and Unicode

Total characters	47955
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	위탁관리수수료
2nd row	연체료수익
3rd row	소독비
4th row	검침수익
5th row	승강기유지비

Value	Count	Frequency (%)
청소비	247	2.5%
수선유지비	245	2.5%
연체료수익	238	2.4%
승강기유지비	238	2.4%
사무용품비	237	2.4%
급여	237	2.4%
소독비	237	2.4%
통신비	234	2.3%
퇴직급여	227	2.3%
경비비	224	2.2%
Other values (77)	7636	76.4%

Most occurring characters

Value	Count	Frequency (%)
비	5378	11.2%
수	3630	7.6%
료	2197	4.6%
익	1943	4.1%
용	1695	3.5%
기	1355	2.8%
대	1051	2.2%
보	886	1.8%
험	825	1.7%
리	816	1.7%
Other values (110)	28179	58.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	47955	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5378	11.2%
수	3630	7.6%
료	2197	4.6%
익	1943	4.1%
용	1695	3.5%
기	1355	2.8%
대	1051	2.2%
보	886	1.8%
험	825	1.7%
리	816	1.7%
Other values (110)	28179	58.8%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	47955	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5378	11.2%
수	3630	7.6%
료	2197	4.6%
익	1943	4.1%
용	1695	3.5%
기	1355	2.8%
대	1051	2.2%
보	886	1.8%
험	825	1.7%
리	816	1.7%
Other values (110)	28179	58.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	47955	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5378	11.2%
수	3630	7.6%
료	2197	4.6%
익	1943	4.1%
용	1695	3.5%
기	1355	2.8%
대	1051	2.2%
보	886	1.8%
험	825	1.7%
리	816	1.7%
Other values (110)	28179	58.8%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202002	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202002
2nd row	202002
3rd row	202002
4th row	202002
5th row	202002

Common Values

Value	Count	Frequency (%)
202002	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202002	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7302
Distinct (%)	73.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3484129.5

Minimum	-2285555
Maximum	4.3522297 × 10⁸
Zeros	856
Zeros (%)	8.6%
Negative	11
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-2285555
5-th percentile	0
Q1	93185
median	332460
Q3	1441682.5
95-th percentile	17098769
Maximum	4.3522297 × 10⁸
Range	4.3750852 × 10⁸
Interquartile range (IQR)	1348497.5

Descriptive statistics

Standard deviation	13518360
Coefficient of variation (CV)	3.8799821
Kurtosis	305.45498
Mean	3484129.5
Median Absolute Deviation (MAD)	317540
Skewness	13.976058
Sum	3.4841295 × 10¹⁰
Variance	1.8274605 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	856	8.6%
200000	82	0.8%
100000	81	0.8%
300000	68	0.7%
150000	54	0.5%
400000	42	0.4%
250000	38	0.4%
50000	38	0.4%
500000	34	0.3%
220000	30	0.3%
Other values (7292)	8677	86.8%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-2285555	1	< 0.1%
-1763878	1	< 0.1%
-904920	1	< 0.1%
-517100	1	< 0.1%
-234720	1	< 0.1%
-117500	1	< 0.1%
-80000	1	< 0.1%
-71260	1	< 0.1%
-51120	1	< 0.1%
-2459	1	< 0.1%

Value	Count	Frequency (%)
435222968	1	< 0.1%
351387546	1	< 0.1%
342790630	1	< 0.1%
333476770	1	< 0.1%
313970370	1	< 0.1%
284752702	1	< 0.1%
242034746	1	< 0.1%
203604370	1	< 0.1%
201529847	1	< 0.1%
160034000	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.410
금액	0.410	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
53198	상계수락한신	A13920105	위탁관리수수료	202002	327419
63439	번동한양	A14286104	연체료수익	202002	8120
88107	신정현대	A15807204	소독비	202002	170000
15039	중동계룡	A12187901	검침수익	202002	74850
61	대치롯데캐슬아파트	A10024821	승강기유지비	202002	550000
6261	위례아이파크아파트	A10027744	연차수당	202002	630080
5851	상도2차 두산위브트레지움 아파트	A10027633	검침비용	202002	249830
5137	목동힐스테이트	A10027375	재활용품수익	202002	1621500
54095	중계주공5단지	A13922114	회계감사비	202002	108166
89546	신정이펜하우스3단지	A15879502	통신비	202002	116390

	아파트명	아파트코드	비용명	년월일	금액
84449	화곡초록	A15770801	제수당	202002	1322000
78593	브라운스톤상도	A15603002	고용보험료	202002	122800
85517	등촌대림e편한세상	A15783703	산재보험료	202002	149440
4482	경희궁자이3단지	A10027105	연체료수익	202002	33040
91361	은평뉴타운우물골8단지	A41279915	산재보험료	202002	129860
60259	동부이촌동우성	A14003001	공동수도료	202002	56070
14988	래미안용강아파트	A12187602	감가상각비	202002	45000
18794	휘경동일하이빌	A13009202	승강기수익	202002	160000
46682	서초2차e편한세상	A13787102	업무추진비	202002	100000
17020	DMC자이1단지	A12275501	잡수익	202002	0

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample