gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 809 (8.1%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 07:00:26.880668
Analysis finished	2024-05-11 07:00:29.557990
Duration	2.68 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2104
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1105
Min length	2

Characters and Unicode

Total characters	71105
Distinct characters	432
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	103 ?
Unique (%)	1.0%

Sample

1st row	잠실우성1,2,3차
2nd row	상암월드컵8단지
3rd row	압구정미성1차
4th row	등촌서광
5th row	명일한양

Value	Count	Frequency (%)
아파트	129	1.2%
래미안	25	0.2%
입주자대표회의	16	0.2%
힐스테이트	14	0.1%
북한산	14	0.1%
신동아파밀리에	14	0.1%
자양현대	14	0.1%
서초포레스타3단지	13	0.1%
서초참누리에코리치	13	0.1%
금호대우	12	0.1%
Other values (2157)	10216	97.5%

Most occurring characters

Value	Count	Frequency (%)
아	2241	3.2%
파	2159	3.0%
대	1953	2.7%
트	1911	2.7%
지	1777	2.5%
동	1677	2.4%
신	1564	2.2%
차	1551	2.2%
단	1425	2.0%
성	1367	1.9%
Other values (422)	53480	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65316	91.9%
Decimal Number	3838	5.4%
Uppercase Letter	609	0.9%
Space Separator	519	0.7%
Lowercase Letter	287	0.4%
Open Punctuation	142	0.2%
Close Punctuation	142	0.2%
Other Punctuation	134	0.2%
Dash Punctuation	110	0.2%
Letter Number	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2241	3.4%
파	2159	3.3%
대	1953	3.0%
트	1911	2.9%
지	1777	2.7%
동	1677	2.6%
신	1564	2.4%
차	1551	2.4%
단	1425	2.2%
성	1367	2.1%
Other values (376)	47691	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	110	18.1%
K	81	13.3%
C	54	8.9%
L	52	8.5%
H	48	7.9%
I	35	5.7%
M	34	5.6%
D	34	5.6%
G	33	5.4%
E	33	5.4%
Other values (7)	95	15.6%

Lowercase Letter

Value	Count	Frequency (%)
e	161	56.1%
l	36	12.5%
i	30	10.5%
v	24	8.4%
w	10	3.5%
k	8	2.8%
s	8	2.8%
c	4	1.4%
a	2	0.7%
g	2	0.7%

Decimal Number

Value	Count	Frequency (%)
1	1146	29.9%
2	1123	29.3%
3	559	14.6%
4	282	7.3%
5	183	4.8%
6	156	4.1%
7	104	2.7%
9	100	2.6%
8	98	2.6%
0	87	2.3%

Other Punctuation

Value	Count	Frequency (%)
,	115	85.8%
.	19	14.2%

Space Separator

Value	Count	Frequency (%)
	519	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	142	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	142	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	110	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	5	100.0%

Math Symbol

Value	Count	Frequency (%)
~	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65316	91.9%
Common	4888	6.9%
Latin	901	1.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2241	3.4%
파	2159	3.3%
대	1953	3.0%
트	1911	2.9%
지	1777	2.7%
동	1677	2.6%
신	1564	2.4%
차	1551	2.4%
단	1425	2.2%
성	1367	2.1%
Other values (376)	47691	73.0%

Latin

Value	Count	Frequency (%)
e	161	17.9%
S	110	12.2%
K	81	9.0%
C	54	6.0%
L	52	5.8%
H	48	5.3%
l	36	4.0%
I	35	3.9%
M	34	3.8%
D	34	3.8%
Other values (19)	256	28.4%

Common

Value	Count	Frequency (%)
1	1146	23.4%
2	1123	23.0%
3	559	11.4%
	519	10.6%
4	282	5.8%
5	183	3.7%
6	156	3.2%
(	142	2.9%
)	142	2.9%
,	115	2.4%
Other values (7)	521	10.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65316	91.9%
ASCII	5784	8.1%
Number Forms	5	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2241	3.4%
파	2159	3.3%
대	1953	3.0%
트	1911	2.9%
지	1777	2.7%
동	1677	2.6%
신	1564	2.4%
차	1551	2.4%
단	1425	2.2%
성	1367	2.1%
Other values (376)	47691	73.0%

ASCII

Value	Count	Frequency (%)
1	1146	19.8%
2	1123	19.4%
3	559	9.7%
	519	9.0%
4	282	4.9%
5	183	3.2%
e	161	2.8%
6	156	2.7%
(	142	2.5%
)	142	2.5%
Other values (35)	1371	23.7%

Number Forms

Value	Count	Frequency (%)
Ⅰ	5	100.0%

아파트코드
Text

Distinct	2110
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	103 ?
Unique (%)	1.0%

Sample

1st row	A13822702
2nd row	A12127008
3rd row	A13511001
4th row	A15784008
5th row	A13482603

Value	Count	Frequency (%)
a14319003	14	0.1%
a13778211	13	0.1%
a13716003	13	0.1%
a13790703	12	0.1%
a13285305	12	0.1%
a13309404	12	0.1%
a13286107	12	0.1%
a15875102	11	0.1%
a15807208	11	0.1%
a10078901	11	0.1%
Other values (2100)	9879	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18326	20.4%
1	17778	19.8%
A	9993	11.1%
3	8952	9.9%
2	7997	8.9%
5	6081	6.8%
8	5757	6.4%
7	4886	5.4%
4	3805	4.2%
6	3451	3.8%
Other values (2)	2974	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18326	22.9%
1	17778	22.2%
3	8952	11.2%
2	7997	10.0%
5	6081	7.6%
8	5757	7.2%
7	4886	6.1%
4	3805	4.8%
6	3451	4.3%
9	2967	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9993	99.9%
B	7	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18326	22.9%
1	17778	22.2%
3	8952	11.2%
2	7997	10.0%
5	6081	7.6%
8	5757	7.2%
7	4886	6.1%
4	3805	4.8%
6	3451	4.3%
9	2967	3.7%

Latin

Value	Count	Frequency (%)
A	9993	99.9%
B	7	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18326	20.4%
1	17778	19.8%
A	9993	11.1%
3	8952	9.9%
2	7997	8.9%
5	6081	6.8%
8	5757	6.4%
7	4886	5.4%
4	3805	4.2%
6	3451	3.8%
Other values (2)	2974	3.3%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.7723
Min length	2

Characters and Unicode

Total characters	47723
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	승강기유지비
2nd row	세금과공과
3rd row	공동수도료
4th row	산재보험료
5th row	음식물처리비

Value	Count	Frequency (%)
수선유지비	244	2.4%
통신비	239	2.4%
승강기유지비	237	2.4%
잡수익	237	2.4%
경비비	235	2.4%
사무용품비	234	2.3%
입주자대표회의운영비	230	2.3%
소독비	227	2.3%
도서인쇄비	225	2.2%
소모품비	224	2.2%
Other values (76)	7668	76.7%

Most occurring characters

Value	Count	Frequency (%)
비	5476	11.5%
수	3535	7.4%
료	2213	4.6%
익	1815	3.8%
용	1632	3.4%
기	1360	2.8%
대	1131	2.4%
보	880	1.8%
험	845	1.8%
리	820	1.7%
Other values (110)	28016	58.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	47723	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5476	11.5%
수	3535	7.4%
료	2213	4.6%
익	1815	3.8%
용	1632	3.4%
기	1360	2.8%
대	1131	2.4%
보	880	1.8%
험	845	1.8%
리	820	1.7%
Other values (110)	28016	58.7%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	47723	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5476	11.5%
수	3535	7.4%
료	2213	4.6%
익	1815	3.8%
용	1632	3.4%
기	1360	2.8%
대	1131	2.4%
보	880	1.8%
험	845	1.8%
리	820	1.7%
Other values (110)	28016	58.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	47723	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5476	11.5%
수	3535	7.4%
료	2213	4.6%
익	1815	3.8%
용	1632	3.4%
기	1360	2.8%
대	1131	2.4%
보	880	1.8%
험	845	1.8%
리	820	1.7%
Other values (110)	28016	58.7%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201902	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201902
2nd row	201902
3rd row	201902
4th row	201902
5th row	201902

Common Values

Value	Count	Frequency (%)
201902	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201902	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7167
Distinct (%)	71.7%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3379751.5

Minimum	-22801593
Maximum	4.1374388 × 10⁸
Zeros	809
Zeros (%)	8.1%
Negative	8
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-22801593
5-th percentile	0
Q1	93302.5
median	323245
Q3	1483027.5
95-th percentile	16653808
Maximum	4.1374388 × 10⁸
Range	4.3654547 × 10⁸
Interquartile range (IQR)	1389725

Descriptive statistics

Standard deviation	12463725
Coefficient of variation (CV)	3.6877637
Kurtosis	243.96765
Mean	3379751.5
Median Absolute Deviation (MAD)	306358
Skewness	12.238068
Sum	3.3797515 × 10¹⁰
Variance	1.5534443 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	809	8.1%
200000	88	0.9%
100000	80	0.8%
300000	69	0.7%
150000	56	0.6%
50000	48	0.5%
48000	42	0.4%
38000	38	0.4%
60000	36	0.4%
120000	35	0.4%
Other values (7157)	8699	87.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-22801593	1	< 0.1%
-9205150	1	< 0.1%
-1362220	1	< 0.1%
-822570	1	< 0.1%
-748230	1	< 0.1%
-240000	1	< 0.1%
-2566	1	< 0.1%
-1230	1	< 0.1%
0	809	8.1%
1	2	< 0.1%

Value	Count	Frequency (%)
413743878	1	< 0.1%
296422958	1	< 0.1%
274895170	1	< 0.1%
232765297	1	< 0.1%
207245470	1	< 0.1%
204036270	1	< 0.1%
196694230	1	< 0.1%
196279850	1	< 0.1%
184458900	1	< 0.1%
178320458	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.523
금액	0.523	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
47948	잠실우성1,2,3차	A13822702	승강기유지비	201902	5491200
10638	상암월드컵8단지	A12127008	세금과공과	201902	2860
33350	압구정미성1차	A13511001	공동수도료	201902	0
83052	등촌서광	A15784008	산재보험료	201902	162620
31136	명일한양	A13482603	음식물처리비	201902	1824000
35605	개포1차2차우성	A13528105	재활용품수익	201902	535800
31510	둔촌역청구아파트	A13484501	입주자대표회의운영비	201902	255560
1003	래미안미드카운티	A10026232	위탁관리수수료	201902	1134350
71677	오류금강수목원	A15210211	검침수익	201902	266600
86563	목동1단지	A15875101	선거관리위원회운영비	201902	1977300

	아파트명	아파트코드	비용명	년월일	금액
16081	답십리우성그린	A13003404	교통비	201902	2600
17918	이문e-편한세상	A13082805	장기수선비	201902	18493420
78963	신대방우성2차	A15685201	경비비	201902	5611155
26359	금호대우	A13309404	보험료	201902	1212810
51573	중계한화꿈에그린더퍼스트	A13922003	건강보험료	201902	404750
87175	양천벽산블루밍	A15883201	공동주택지원금수익	201902	76160
15464	신성수정	A12289402	입주자대표회의운영비	201902	429880
69593	봉천벽산타운2차	A15180701	퇴직급여	201902	391880
77958	남성두산위브트레지움	A15677501	광고료수익	201902	393500
65031	문래현대6차아파트	A15009605	기타사용료	201902	150000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample