gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1610 (16.1%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:49:49.250965
Analysis finished	2024-05-11 06:49:51.431239
Duration	2.18 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2158
Distinct (%)	21.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.4079
Min length	2

Characters and Unicode

Total characters	74079
Distinct characters	431
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	96 ?
Unique (%)	1.0%

Sample

1st row	e편한세상 염창
2nd row	당산동1차효성아파트
3rd row	송파한양2차
4th row	한강타운아파트
5th row	오류푸르지오

Value	Count	Frequency (%)
아파트	211	1.9%
래미안	50	0.5%
아이파크	31	0.3%
e편한세상	29	0.3%
신반포	20	0.2%
sk뷰	18	0.2%
푸르지오	17	0.2%
힐스테이트	16	0.1%
북한산	15	0.1%
신내역	15	0.1%
Other values (2241)	10553	96.2%

Most occurring characters

Value	Count	Frequency (%)
아	2734	3.7%
파	2644	3.6%
트	2588	3.5%
지	1742	2.4%
대	1740	2.3%
동	1624	2.2%
이	1491	2.0%
차	1484	2.0%
신	1323	1.8%
단	1319	1.8%
Other values (421)	55390	74.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67951	91.7%
Decimal Number	3471	4.7%
Space Separator	1066	1.4%
Uppercase Letter	703	0.9%
Lowercase Letter	347	0.5%
Open Punctuation	157	0.2%
Close Punctuation	157	0.2%
Other Punctuation	116	0.2%
Dash Punctuation	107	0.1%
Letter Number	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2734	4.0%
파	2644	3.9%
트	2588	3.8%
지	1742	2.6%
대	1740	2.6%
동	1624	2.4%
이	1491	2.2%
차	1484	2.2%
신	1323	1.9%
단	1319	1.9%
Other values (376)	49262	72.5%

Uppercase Letter

Value	Count	Frequency (%)
C	122	17.4%
S	118	16.8%
K	85	12.1%
M	80	11.4%
D	80	11.4%
H	35	5.0%
E	34	4.8%
L	33	4.7%
I	24	3.4%
G	18	2.6%
Other values (7)	74	10.5%

Lowercase Letter

Value	Count	Frequency (%)
e	190	54.8%
s	27	7.8%
k	26	7.5%
l	26	7.5%
i	25	7.2%
v	19	5.5%
c	12	3.5%
w	9	2.6%
h	7	2.0%
a	3	0.9%

Decimal Number

Value	Count	Frequency (%)
1	1040	30.0%
2	1032	29.7%
3	441	12.7%
4	257	7.4%
5	185	5.3%
6	146	4.2%
8	109	3.1%
7	105	3.0%
9	94	2.7%
0	62	1.8%

Other Punctuation

Value	Count	Frequency (%)
,	92	79.3%
.	24	20.7%

Space Separator

Value	Count	Frequency (%)
	1066	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	157	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	157	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	107	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67951	91.7%
Common	5074	6.8%
Latin	1054	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2734	4.0%
파	2644	3.9%
트	2588	3.8%
지	1742	2.6%
대	1740	2.6%
동	1624	2.4%
이	1491	2.2%
차	1484	2.2%
신	1323	1.9%
단	1319	1.9%
Other values (376)	49262	72.5%

Latin

Value	Count	Frequency (%)
e	190	18.0%
C	122	11.6%
S	118	11.2%
K	85	8.1%
M	80	7.6%
D	80	7.6%
H	35	3.3%
E	34	3.2%
L	33	3.1%
s	27	2.6%
Other values (19)	250	23.7%

Common

Value	Count	Frequency (%)
	1066	21.0%
1	1040	20.5%
2	1032	20.3%
3	441	8.7%
4	257	5.1%
5	185	3.6%
(	157	3.1%
)	157	3.1%
6	146	2.9%
8	109	2.1%
Other values (6)	484	9.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67951	91.7%
ASCII	6124	8.3%
Number Forms	4	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2734	4.0%
파	2644	3.9%
트	2588	3.8%
지	1742	2.6%
대	1740	2.6%
동	1624	2.4%
이	1491	2.2%
차	1484	2.2%
신	1323	1.9%
단	1319	1.9%
Other values (376)	49262	72.5%

ASCII

Value	Count	Frequency (%)
	1066	17.4%
1	1040	17.0%
2	1032	16.9%
3	441	7.2%
4	257	4.2%
e	190	3.1%
5	185	3.0%
(	157	2.6%
)	157	2.6%
6	146	2.4%
Other values (34)	1453	23.7%

Number Forms

Value	Count	Frequency (%)
Ⅰ	4	100.0%

아파트코드
Text

Distinct	2162
Distinct (%)	21.6%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	1.0%

Sample

1st row	A10025600
2nd row	A15004506
3rd row	A13885304
4th row	A15780604
5th row	A15210209

Value	Count	Frequency (%)
a14272314	13	0.1%
a15009402	13	0.1%
a15805302	13	0.1%
a10025387	13	0.1%
a15210209	13	0.1%
a13486703	12	0.1%
a13606003	12	0.1%
a15602007	12	0.1%
a15722104	11	0.1%
a13922901	11	0.1%
Other values (2152)	9877	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18788	20.9%
1	17392	19.3%
A	10000	11.1%
3	8841	9.8%
2	8414	9.3%
5	6305	7.0%
8	5498	6.1%
7	4526	5.0%
4	3914	4.3%
6	3598	4.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18788	23.5%
1	17392	21.7%
3	8841	11.1%
2	8414	10.5%
5	6305	7.9%
8	5498	6.9%
7	4526	5.7%
4	3914	4.9%
6	3598	4.5%
9	2724	3.4%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18788	23.5%
1	17392	21.7%
3	8841	11.1%
2	8414	10.5%
5	6305	7.9%
8	5498	6.9%
7	4526	5.7%
4	3914	4.9%
6	3598	4.5%
9	2724	3.4%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18788	20.9%
1	17392	19.3%
A	10000	11.1%
3	8841	9.8%
2	8414	9.3%
5	6305	7.0%
8	5498	6.1%
7	4526	5.0%
4	3914	4.3%
6	3598	4.0%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8444
Min length	2

Characters and Unicode

Total characters	48444
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	4 ?
Unique (%)	< 0.1%

Sample

1st row	국민연금
2nd row	검침수익
3rd row	복리후생비
4th row	음식물처리비
5th row	세대수도료

Value	Count	Frequency (%)
퇴직급여	233	2.3%
수선유지비	232	2.3%
통신비	220	2.2%
세대전기료	218	2.2%
승강기유지비	218	2.2%
산재보험료	215	2.1%
청소비	214	2.1%
도서인쇄비	212	2.1%
사무용품비	212	2.1%
소독비	209	2.1%
Other values (77)	7817	78.2%

Most occurring characters

Value	Count	Frequency (%)
비	5356	11.1%
수	3530	7.3%
료	2164	4.5%
익	1925	4.0%
용	1383	2.9%
기	1336	2.8%
대	1092	2.3%
리	886	1.8%
보	862	1.8%
험	815	1.7%
Other values (110)	29095	60.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48444	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5356	11.1%
수	3530	7.3%
료	2164	4.5%
익	1925	4.0%
용	1383	2.9%
기	1336	2.8%
대	1092	2.3%
리	886	1.8%
보	862	1.8%
험	815	1.7%
Other values (110)	29095	60.1%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48444	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5356	11.1%
수	3530	7.3%
료	2164	4.5%
익	1925	4.0%
용	1383	2.9%
기	1336	2.8%
대	1092	2.3%
리	886	1.8%
보	862	1.8%
험	815	1.7%
Other values (110)	29095	60.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48444	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5356	11.1%
수	3530	7.3%
료	2164	4.5%
익	1925	4.0%
용	1383	2.9%
기	1336	2.8%
대	1092	2.3%
리	886	1.8%
보	862	1.8%
험	815	1.7%
Other values (110)	29095	60.1%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202311	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202311
2nd row	202311
3rd row	202311
4th row	202311
5th row	202311

Common Values

Value	Count	Frequency (%)
202311	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202311	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6881
Distinct (%)	68.8%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	4160977.9

Minimum	-900000
Maximum	3.9555692 × 10⁸
Zeros	1610
Zeros (%)	16.1%
Negative	6
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-900000
5-th percentile	0
Q1	53187.5
median	302250
Q3	1500767.5
95-th percentile	20748695
Maximum	3.9555692 × 10⁸
Range	3.9645692 × 10⁸
Interquartile range (IQR)	1447580

Descriptive statistics

Standard deviation	15650890
Coefficient of variation (CV)	3.761349
Kurtosis	164.10257
Mean	4160977.9
Median Absolute Deviation (MAD)	302250
Skewness	10.518958
Sum	4.1609779 × 10¹⁰
Variance	2.4495036 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1610	16.1%
200000	64	0.6%
300000	54	0.5%
100000	44	0.4%
400000	42	0.4%
150000	40	0.4%
30000	32	0.3%
250000	32	0.3%
600000	31	0.3%
500000	28	0.3%
Other values (6871)	8023	80.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-900000	1	< 0.1%
-708140	1	< 0.1%
-237930	1	< 0.1%
-35820	1	< 0.1%
-1169	1	< 0.1%
-603	1	< 0.1%
0	1610	16.1%
2	1	< 0.1%
3	1	< 0.1%
5	2	< 0.1%

Value	Count	Frequency (%)
395556924	1	< 0.1%
354799008	1	< 0.1%
322414270	1	< 0.1%
302398685	1	< 0.1%
293929600	1	< 0.1%
278272701	1	< 0.1%
254065410	1	< 0.1%
245627208	1	< 0.1%
215705432	1	< 0.1%
207323610	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.416
금액	0.416	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
7266	e편한세상 염창	A10025600	국민연금	202311	255750
75721	당산동1차효성아파트	A15004506	검침수익	202311	206400
60397	송파한양2차	A13885304	복리후생비	202311	246091
94694	한강타운아파트	A15780604	음식물처리비	202311	1593820
83295	오류푸르지오	A15210209	세대수도료	202311	7288750
96548	염창한화꿈에그린	A15786424	승강기수익	202311	325000
37565	래미안하이리버	A13380302	소모품비	202311	1991054
20021	공덕래미안5차	A12170603	산재보험료	202311	227330
68876	공릉현대성우	A13994501	교통비	202311	0
68109	하계현대우성	A13987303	회계감사비	202311	0

	아파트명	아파트코드	비용명	년월일	금액
17379	디엠씨현대	A12013101	지급수수료	202311	1757050
89759	사당동작삼성래미안아파트	A15609306	연체료수익	202311	252440
98612	목동13단지	A15807605	알뜰시장수익	202311	4565100
61738	상계금호타운	A13920501	부과차익	202311	855
2973	디에이치포레센트아파트	A10024258	주차장수익	202311	551670
28000	신내동성4차	A13113003	잡수익	202311	650
4225	위례포레샤인18단지	A10024577	세대난방비	202311	50225340
54875	서초우성5차아파트	A13785705	광고료수익	202311	80000
44921	도곡대림아크로빌	A13527014	세대수도료	202311	8988400
22481	백련산힐스테이트1차	A12201003	소독비	202311	584000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample