gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1759 (17.6%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:58:16.070244
Analysis finished	2024-05-11 06:58:17.906801
Duration	1.84 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2081
Distinct (%)	20.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1121
Min length	2

Characters and Unicode

Total characters	71121
Distinct characters	426
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	104 ?
Unique (%)	1.0%

Sample

1st row	은평뉴타운상림마을13단지
2nd row	등촌라인
3rd row	가락프라자
4th row	힐스테이트 백련산4차 아파트
5th row	신도림롯데

Value	Count	Frequency (%)
아파트	132	1.2%
래미안	39	0.4%
신반포	17	0.2%
힐스테이트	17	0.2%
신동아파밀리에	15	0.1%
고덕	14	0.1%
신내	14	0.1%
여의도진주	14	0.1%
가양대림경동	13	0.1%
잠원신화	13	0.1%
Other values (2137)	10304	97.3%

Most occurring characters

Value	Count	Frequency (%)
아	2301	3.2%
파	2191	3.1%
트	2019	2.8%
대	1843	2.6%
동	1770	2.5%
지	1670	2.3%
차	1544	2.2%
신	1543	2.2%
성	1384	1.9%
이	1304	1.8%
Other values (416)	53552	75.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65266	91.8%
Decimal Number	3538	5.0%
Uppercase Letter	732	1.0%
Space Separator	648	0.9%
Lowercase Letter	375	0.5%
Open Punctuation	152	0.2%
Close Punctuation	152	0.2%
Dash Punctuation	131	0.2%
Other Punctuation	115	0.2%
Letter Number	6	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2301	3.5%
파	2191	3.4%
트	2019	3.1%
대	1843	2.8%
동	1770	2.7%
지	1670	2.6%
차	1544	2.4%
신	1543	2.4%
성	1384	2.1%
이	1304	2.0%
Other values (370)	47697	73.1%

Uppercase Letter

Value	Count	Frequency (%)
S	143	19.5%
K	104	14.2%
C	87	11.9%
L	49	6.7%
H	47	6.4%
G	41	5.6%
D	40	5.5%
M	40	5.5%
I	39	5.3%
E	38	5.2%
Other values (7)	104	14.2%

Lowercase Letter

Value	Count	Frequency (%)
e	184	49.1%
l	50	13.3%
i	42	11.2%
v	35	9.3%
s	16	4.3%
k	14	3.7%
w	14	3.7%
c	8	2.1%
h	6	1.6%
a	3	0.8%

Decimal Number

Value	Count	Frequency (%)
1	1091	30.8%
2	1008	28.5%
3	494	14.0%
4	262	7.4%
5	160	4.5%
6	157	4.4%
8	105	3.0%
7	99	2.8%
9	84	2.4%
0	78	2.2%

Other Punctuation

Value	Count	Frequency (%)
,	105	91.3%
.	10	8.7%

Space Separator

Value	Count	Frequency (%)
	648	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	152	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	152	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	131	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	6	100.0%

Math Symbol

Value	Count	Frequency (%)
~	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65266	91.8%
Common	4742	6.7%
Latin	1113	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2301	3.5%
파	2191	3.4%
트	2019	3.1%
대	1843	2.8%
동	1770	2.7%
지	1670	2.6%
차	1544	2.4%
신	1543	2.4%
성	1384	2.1%
이	1304	2.0%
Other values (370)	47697	73.1%

Latin

Value	Count	Frequency (%)
e	184	16.5%
S	143	12.8%
K	104	9.3%
C	87	7.8%
l	50	4.5%
L	49	4.4%
H	47	4.2%
i	42	3.8%
G	41	3.7%
D	40	3.6%
Other values (19)	326	29.3%

Common

Value	Count	Frequency (%)
1	1091	23.0%
2	1008	21.3%
	648	13.7%
3	494	10.4%
4	262	5.5%
5	160	3.4%
6	157	3.3%
(	152	3.2%
)	152	3.2%
-	131	2.8%
Other values (7)	487	10.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65266	91.8%
ASCII	5849	8.2%
Number Forms	6	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2301	3.5%
파	2191	3.4%
트	2019	3.1%
대	1843	2.8%
동	1770	2.7%
지	1670	2.6%
차	1544	2.4%
신	1543	2.4%
성	1384	2.1%
이	1304	2.0%
Other values (370)	47697	73.1%

ASCII

Value	Count	Frequency (%)
1	1091	18.7%
2	1008	17.2%
	648	11.1%
3	494	8.4%
4	262	4.5%
e	184	3.1%
5	160	2.7%
6	157	2.7%
(	152	2.6%
)	152	2.6%
Other values (35)	1541	26.3%

Number Forms

Value	Count	Frequency (%)
Ⅰ	6	100.0%

아파트코드
Text

Distinct	2087
Distinct (%)	20.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	104 ?
Unique (%)	1.0%

Sample

1st row	A12220002
2nd row	A15783806
3rd row	A13881204
4th row	A10026834
5th row	A15205511

Value	Count	Frequency (%)
a15089513	14	0.1%
a15780703	13	0.1%
a13528103	13	0.1%
a15375809	13	0.1%
a13790703	13	0.1%
a10026734	12	0.1%
a15288004	12	0.1%
a15722102	12	0.1%
a15303401	12	0.1%
a15807210	11	0.1%
Other values (2077)	9875	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18652	20.7%
1	17705	19.7%
A	10000	11.1%
3	8883	9.9%
2	7889	8.8%
5	6308	7.0%
8	5785	6.4%
7	4738	5.3%
4	3666	4.1%
6	3530	3.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18652	23.3%
1	17705	22.1%
3	8883	11.1%
2	7889	9.9%
5	6308	7.9%
8	5785	7.2%
7	4738	5.9%
4	3666	4.6%
6	3530	4.4%
9	2844	3.6%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18652	23.3%
1	17705	22.1%
3	8883	11.1%
2	7889	9.9%
5	6308	7.9%
8	5785	7.2%
7	4738	5.9%
4	3666	4.6%
6	3530	4.4%
9	2844	3.6%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18652	20.7%
1	17705	19.7%
A	10000	11.1%
3	8883	9.9%
2	7889	8.8%
5	6308	7.0%
8	5785	6.4%
7	4738	5.3%
4	3666	4.1%
6	3530	3.9%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.903
Min length	2

Characters and Unicode

Total characters	49030
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	소독비
2nd row	고용보험료
3rd row	세금과공과
4th row	세대전기료
5th row	광고료수익

Value	Count	Frequency (%)
경비비	223	2.2%
교육비	221	2.2%
청소비	219	2.2%
장기수선비	214	2.1%
세대전기료	211	2.1%
잡수익	209	2.1%
이자수익	206	2.1%
급여	204	2.0%
통신비	203	2.0%
소독비	203	2.0%
Other values (77)	7887	78.9%

Most occurring characters

Value	Count	Frequency (%)
비	5431	11.1%
수	3627	7.4%
료	2078	4.2%
익	2063	4.2%
용	1743	3.6%
기	1287	2.6%
대	1046	2.1%
리	862	1.8%
보	779	1.6%
험	730	1.5%
Other values (110)	29384	59.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	49030	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5431	11.1%
수	3627	7.4%
료	2078	4.2%
익	2063	4.2%
용	1743	3.6%
기	1287	2.6%
대	1046	2.1%
리	862	1.8%
보	779	1.6%
험	730	1.5%
Other values (110)	29384	59.9%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	49030	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5431	11.1%
수	3627	7.4%
료	2078	4.2%
익	2063	4.2%
용	1743	3.6%
기	1287	2.6%
대	1046	2.1%
리	862	1.8%
보	779	1.6%
험	730	1.5%
Other values (110)	29384	59.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	49030	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5431	11.1%
수	3627	7.4%
료	2078	4.2%
익	2063	4.2%
용	1743	3.6%
기	1287	2.6%
대	1046	2.1%
리	862	1.8%
보	779	1.6%
험	730	1.5%
Other values (110)	29384	59.9%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201911	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201911
2nd row	201911
3rd row	201911
4th row	201911
5th row	201911

Common Values

Value	Count	Frequency (%)
201911	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201911	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6541
Distinct (%)	65.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2990892.6

Minimum	-32769330
Maximum	2.0096224 × 10⁸
Zeros	1759
Zeros (%)	17.6%
Negative	11
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-32769330
5-th percentile	0
Q1	39807.5
median	260410.5
Q3	1230445
95-th percentile	14788429
Maximum	2.0096224 × 10⁸
Range	2.3373158 × 10⁸
Interquartile range (IQR)	1190637.5

Descriptive statistics

Standard deviation	10450711
Coefficient of variation (CV)	3.4941779
Kurtosis	107.82101
Mean	2990892.6
Median Absolute Deviation (MAD)	260410.5
Skewness	8.7461757
Sum	2.9908926 × 10¹⁰
Variance	1.0921736 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1759	17.6%
200000	72	0.7%
300000	67	0.7%
100000	66	0.7%
150000	46	0.5%
400000	42	0.4%
30000	36	0.4%
250000	34	0.3%
60000	32	0.3%
350000	28	0.3%
Other values (6531)	7818	78.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-32769330	1	< 0.1%
-11423630	1	< 0.1%
-3090910	1	< 0.1%
-2727330	1	< 0.1%
-1988790	1	< 0.1%
-201100	1	< 0.1%
-147490	1	< 0.1%
-32000	2	< 0.1%
-27000	1	< 0.1%
-510	1	< 0.1%

Value	Count	Frequency (%)
200962245	1	< 0.1%
189102270	1	< 0.1%
187379820	1	< 0.1%
179848890	1	< 0.1%
179574800	1	< 0.1%
176920440	1	< 0.1%
172230900	1	< 0.1%
157076306	1	< 0.1%
137892860	1	< 0.1%
131750720	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.558
금액	0.558	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
18026	은평뉴타운상림마을13단지	A12220002	소독비	201911	170000
93855	등촌라인	A15783806	고용보험료	201911	83280
56416	가락프라자	A13881204	세금과공과	201911	0
3518	힐스테이트 백련산4차 아파트	A10026834	세대전기료	201911	44430080
79770	신도림롯데	A15205511	광고료수익	201911	180000
37344	천호현대타워	A13487102	사무용품비	201911	45400
85892	신대방한성	A15601202	충당부채전입이자비용	201911	0
45294	길음뉴타운8단지	A13611008	재활용품수익	201911	1796400
57009	송파한양2차	A13885304	부과차손	201911	255
70017	광진트라팰리스	A14319305	세대수도료	201911	4102120

	아파트명	아파트코드	비용명	년월일	금액
96861	신정동아이파크	A15807210	회계감사비	201911	0
33735	옥수극동그린아파트	A13384403	통신비	201911	74400
69602	자양대동	A14319008	고용안정사업수익	201911	1000000
38984	압구정현대8차	A13511201	퇴직급여	201911	3284222
9720	홍제유원하나제2	A12009001	승강기유지비	201911	75000
39441	강남한양수자인	A13520002	연체료수익	201911	485810
98326	신정이펜하우스3단지	A15879502	세대난방비	201911	38175470
30499	마장SH-vill임대	A13305005	잡비용	201911	5286760
83839	신도림우성1,2차	A15288806	보험료	201911	410065
43628	브라운스톤동선	A13603702	정화조관리비	201911	0

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample