gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1517 (15.2%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:58:58.743319
Analysis finished	2024-05-11 06:59:00.970334
Duration	2.23 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2109
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1683
Min length	2

Characters and Unicode

Total characters	71683
Distinct characters	430
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	93 ?
Unique (%)	0.9%

Sample

1st row	녹번대림
2nd row	당산2가현대
3rd row	압구정한양3단지
4th row	상계주공3단지
5th row	대치포스코더샵

Value	Count	Frequency (%)
아파트	125	1.2%
래미안	23	0.2%
힐스테이트	18	0.2%
신반포	17	0.2%
코오롱하늘채아파트	16	0.2%
신동아파밀리에	15	0.1%
우리유앤미	15	0.1%
래미안밤섬리베뉴	13	0.1%
e편한세상	13	0.1%
잠실파크리오	13	0.1%
Other values (2163)	10271	97.5%

Most occurring characters

Value	Count	Frequency (%)
아	2298	3.2%
파	2223	3.1%
트	1991	2.8%
대	1866	2.6%
지	1790	2.5%
동	1645	2.3%
차	1560	2.2%
신	1493	2.1%
단	1440	2.0%
성	1387	1.9%
Other values (420)	53990	75.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65833	91.8%
Decimal Number	3805	5.3%
Uppercase Letter	705	1.0%
Space Separator	588	0.8%
Lowercase Letter	268	0.4%
Open Punctuation	123	0.2%
Close Punctuation	123	0.2%
Dash Punctuation	120	0.2%
Other Punctuation	110	0.2%
Letter Number	8	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2298	3.5%
파	2223	3.4%
트	1991	3.0%
대	1866	2.8%
지	1790	2.7%
동	1645	2.5%
차	1560	2.4%
신	1493	2.3%
단	1440	2.2%
성	1387	2.1%
Other values (375)	48140	73.1%

Uppercase Letter

Value	Count	Frequency (%)
S	108	15.3%
C	103	14.6%
K	94	13.3%
L	59	8.4%
D	50	7.1%
M	50	7.1%
G	49	7.0%
I	33	4.7%
H	33	4.7%
E	32	4.5%
Other values (7)	94	13.3%

Lowercase Letter

Value	Count	Frequency (%)
e	167	62.3%
l	28	10.4%
i	24	9.0%
v	18	6.7%
w	7	2.6%
s	6	2.2%
k	6	2.2%
c	4	1.5%
a	3	1.1%
g	3	1.1%

Decimal Number

Value	Count	Frequency (%)
2	1131	29.7%
1	1119	29.4%
3	528	13.9%
4	272	7.1%
5	198	5.2%
6	186	4.9%
9	113	3.0%
7	91	2.4%
8	89	2.3%
0	78	2.0%

Other Punctuation

Value	Count	Frequency (%)
,	90	81.8%
.	20	18.2%

Space Separator

Value	Count	Frequency (%)
	588	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	123	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	123	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	120	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	8	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65833	91.8%
Common	4869	6.8%
Latin	981	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2298	3.5%
파	2223	3.4%
트	1991	3.0%
대	1866	2.8%
지	1790	2.7%
동	1645	2.5%
차	1560	2.4%
신	1493	2.3%
단	1440	2.2%
성	1387	2.1%
Other values (375)	48140	73.1%

Latin

Value	Count	Frequency (%)
e	167	17.0%
S	108	11.0%
C	103	10.5%
K	94	9.6%
L	59	6.0%
D	50	5.1%
M	50	5.1%
G	49	5.0%
I	33	3.4%
H	33	3.4%
Other values (19)	235	24.0%

Common

Value	Count	Frequency (%)
2	1131	23.2%
1	1119	23.0%
	588	12.1%
3	528	10.8%
4	272	5.6%
5	198	4.1%
6	186	3.8%
(	123	2.5%
)	123	2.5%
-	120	2.5%
Other values (6)	481	9.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65833	91.8%
ASCII	5842	8.1%
Number Forms	8	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2298	3.5%
파	2223	3.4%
트	1991	3.0%
대	1866	2.8%
지	1790	2.7%
동	1645	2.5%
차	1560	2.4%
신	1493	2.3%
단	1440	2.2%
성	1387	2.1%
Other values (375)	48140	73.1%

ASCII

Value	Count	Frequency (%)
2	1131	19.4%
1	1119	19.2%
	588	10.1%
3	528	9.0%
4	272	4.7%
5	198	3.4%
6	186	3.2%
e	167	2.9%
(	123	2.1%
)	123	2.1%
Other values (34)	1407	24.1%

Number Forms

Value	Count	Frequency (%)
Ⅰ	8	100.0%

아파트코드
Text

Distinct	2115
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	93 ?
Unique (%)	0.9%

Sample

1st row	A12283603
2nd row	A15004202
3rd row	A13590602
4th row	A13971502
5th row	A13584101

Value	Count	Frequency (%)
a15807705	13	0.1%
a13824006	13	0.1%
a10027920	12	0.1%
a13790004	12	0.1%
a15807101	12	0.1%
a15086007	11	0.1%
a13403101	11	0.1%
a13822902	11	0.1%
a13983712	11	0.1%
a13881701	11	0.1%
Other values (2105)	9883	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18295	20.3%
1	17687	19.7%
A	9993	11.1%
3	8826	9.8%
2	8125	9.0%
5	6244	6.9%
8	5765	6.4%
7	4845	5.4%
4	3730	4.1%
6	3479	3.9%
Other values (2)	3011	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18295	22.9%
1	17687	22.1%
3	8826	11.0%
2	8125	10.2%
5	6244	7.8%
8	5765	7.2%
7	4845	6.1%
4	3730	4.7%
6	3479	4.3%
9	3004	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9993	99.9%
B	7	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18295	22.9%
1	17687	22.1%
3	8826	11.0%
2	8125	10.2%
5	6244	7.8%
8	5765	7.2%
7	4845	6.1%
4	3730	4.7%
6	3479	4.3%
9	3004	3.8%

Latin

Value	Count	Frequency (%)
A	9993	99.9%
B	7	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18295	20.3%
1	17687	19.7%
A	9993	11.1%
3	8826	9.8%
2	8125	9.0%
5	6244	6.9%
8	5765	6.4%
7	4845	5.4%
4	3730	4.1%
6	3479	3.9%
Other values (2)	3011	3.3%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.9195
Min length	2

Characters and Unicode

Total characters	49195
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	재활용품비용
2nd row	급여
3rd row	알뜰시장수익
4th row	재활용품비용
5th row	연체료수익

Value	Count	Frequency (%)
급여	221	2.2%
사무용품비	220	2.2%
소독비	216	2.2%
통신비	210	2.1%
이자수익	209	2.1%
산재보험료	209	2.1%
도서인쇄비	208	2.1%
교육비	207	2.1%
연체료수익	205	2.1%
퇴직급여	205	2.1%
Other values (77)	7890	78.9%

Most occurring characters

Value	Count	Frequency (%)
비	5429	11.0%
수	3572	7.3%
익	2039	4.1%
료	2010	4.1%
용	1811	3.7%
기	1274	2.6%
대	1037	2.1%
리	806	1.6%
보	763	1.6%
지	719	1.5%
Other values (110)	29735	60.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	49195	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5429	11.0%
수	3572	7.3%
익	2039	4.1%
료	2010	4.1%
용	1811	3.7%
기	1274	2.6%
대	1037	2.1%
리	806	1.6%
보	763	1.6%
지	719	1.5%
Other values (110)	29735	60.4%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	49195	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5429	11.0%
수	3572	7.3%
익	2039	4.1%
료	2010	4.1%
용	1811	3.7%
기	1274	2.6%
대	1037	2.1%
리	806	1.6%
보	763	1.6%
지	719	1.5%
Other values (110)	29735	60.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	49195	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5429	11.0%
수	3572	7.3%
익	2039	4.1%
료	2010	4.1%
용	1811	3.7%
기	1274	2.6%
대	1037	2.1%
리	806	1.6%
보	763	1.6%
지	719	1.5%
Other values (110)	29735	60.4%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201908	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201908
2nd row	201908
3rd row	201908
4th row	201908
5th row	201908

Common Values

Value	Count	Frequency (%)
201908	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201908	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6624
Distinct (%)	66.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2976380.4

Minimum	-32769330
Maximum	3.430316 × 10⁸
Zeros	1517
Zeros (%)	15.2%
Negative	12
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-32769330
5-th percentile	0
Q1	53975
median	296150
Q3	1319737.5
95-th percentile	13588412
Maximum	3.430316 × 10⁸
Range	3.7580093 × 10⁸
Interquartile range (IQR)	1265762.5

Descriptive statistics

Standard deviation	12097385
Coefficient of variation (CV)	4.0644619
Kurtosis	244.24359
Mean	2976380.4
Median Absolute Deviation (MAD)	296150
Skewness	12.871718
Sum	2.9763804 × 10¹⁰
Variance	1.4634672 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1517	15.2%
200000	91	0.9%
62500	75	0.8%
100000	71	0.7%
300000	60	0.6%
150000	45	0.4%
500000	44	0.4%
400000	44	0.4%
250000	37	0.4%
50000	33	0.3%
Other values (6614)	7983	79.8%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-32769330	1	< 0.1%
-8575906	1	< 0.1%
-6310479	1	< 0.1%
-3070930	1	< 0.1%
-1467580	1	< 0.1%
-1021950	1	< 0.1%
-645000	1	< 0.1%
-260000	1	< 0.1%
-183300	1	< 0.1%
-30000	1	< 0.1%

Value	Count	Frequency (%)
343031600	1	< 0.1%
321221537	1	< 0.1%
297604730	1	< 0.1%
282812480	1	< 0.1%
206216679	1	< 0.1%
201351822	1	< 0.1%
197601200	1	< 0.1%
195202772	1	< 0.1%
194225358	1	< 0.1%
179572749	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.641
금액	0.641	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
17819	녹번대림	A12283603	재활용품비용	201908	303000
71526	당산2가현대	A15004202	급여	201908	15923960
41949	압구정한양3단지	A13590602	알뜰시장수익	201908	190909
59187	상계주공3단지	A13971502	재활용품비용	201908	1076000
41444	대치포스코더샵	A13584101	연체료수익	201908	56840
66930	번동삼성	A14206001	통신비	201908	28870
18670	답십리두산	A13003201	제수당	201908	1829640
74712	문래자이아파트	A15083404	경비비	201908	58298450
43977	정릉힐스테이트3차	A13610005	검침수익	201908	224455
45324	동일하이빌뉴시티	A13613011	입주자대표회의운영비	201908	1255000

	아파트명	아파트코드	비용명	년월일	금액
49909	방배래미안	A13785301	연차수당	201908	564110
94744	목동현대하이페리온2차	A15805111	소모품비	201908	601500
68837	자양현대홈타운8차	A14319007	급여	201908	4615000
51599	신반포4차	A13790828	기타운영수익	201908	2576047
30537	성수아이파크	A13312303	주차장운영비	201908	1909700
72776	문래두산위브	A15009505	청소비	201908	4184270
96355	목동우성2차	A15807703	재활용품수익	201908	852727
12859	상암월드컵8단지	A12127008	세금과공과	201908	67500
60939	상계한신1차	A13981304	이자수익	201908	-9701
33538	성내2차e-편한세상	A13403001	급여	201908	3550000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample