gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1806 (18.1%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:51:27.618347
Analysis finished	2024-05-11 06:51:29.462114
Duration	1.84 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2120
Distinct (%)	21.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.3631
Min length	2

Characters and Unicode

Total characters	73631
Distinct characters	428
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	108 ?
Unique (%)	1.1%

Sample

1st row	공릉2단지라이프
2nd row	서울숲행당푸르지오
3rd row	신길우성3차아파트
4th row	래미안강동팰리스
5th row	구의강변우성

Value	Count	Frequency (%)
아파트	209	1.9%
래미안	52	0.5%
e편한세상	33	0.3%
고덕	27	0.2%
아이파크	22	0.2%
코오롱하늘채아파트	18	0.2%
푸르지오	18	0.2%
북한산	17	0.2%
sk뷰	17	0.2%
잠원신화	15	0.1%
Other values (2201)	10514	96.1%

Most occurring characters

Value	Count	Frequency (%)
아	2686	3.6%
파	2684	3.6%
트	2536	3.4%
대	1698	2.3%
지	1686	2.3%
동	1543	2.1%
이	1446	2.0%
차	1380	1.9%
신	1307	1.8%
성	1292	1.8%
Other values (418)	55373	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67527	91.7%
Decimal Number	3364	4.6%
Space Separator	1020	1.4%
Uppercase Letter	837	1.1%
Lowercase Letter	332	0.5%
Close Punctuation	148	0.2%
Open Punctuation	148	0.2%
Dash Punctuation	143	0.2%
Other Punctuation	110	0.1%
Letter Number	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2686	4.0%
파	2684	4.0%
트	2536	3.8%
대	1698	2.5%
지	1686	2.5%
동	1543	2.3%
이	1446	2.1%
차	1380	2.0%
신	1307	1.9%
성	1292	1.9%
Other values (373)	49269	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	138	16.5%
C	119	14.2%
M	86	10.3%
D	86	10.3%
K	83	9.9%
L	68	8.1%
H	55	6.6%
I	45	5.4%
E	37	4.4%
G	30	3.6%
Other values (7)	90	10.8%

Lowercase Letter

Value	Count	Frequency (%)
e	193	58.1%
l	36	10.8%
i	26	7.8%
v	19	5.7%
k	18	5.4%
s	17	5.1%
c	8	2.4%
w	4	1.2%
a	4	1.2%
g	4	1.2%

Decimal Number

Value	Count	Frequency (%)
1	1015	30.2%
2	955	28.4%
3	455	13.5%
4	234	7.0%
5	198	5.9%
6	151	4.5%
7	112	3.3%
8	106	3.2%
9	80	2.4%
0	58	1.7%

Other Punctuation

Value	Count	Frequency (%)
,	92	83.6%
.	18	16.4%

Space Separator

Value	Count	Frequency (%)
	1020	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	148	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	148	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	143	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67527	91.7%
Common	4933	6.7%
Latin	1171	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2686	4.0%
파	2684	4.0%
트	2536	3.8%
대	1698	2.5%
지	1686	2.5%
동	1543	2.3%
이	1446	2.1%
차	1380	2.0%
신	1307	1.9%
성	1292	1.9%
Other values (373)	49269	73.0%

Latin

Value	Count	Frequency (%)
e	193	16.5%
S	138	11.8%
C	119	10.2%
M	86	7.3%
D	86	7.3%
K	83	7.1%
L	68	5.8%
H	55	4.7%
I	45	3.8%
E	37	3.2%
Other values (19)	261	22.3%

Common

Value	Count	Frequency (%)
	1020	20.7%
1	1015	20.6%
2	955	19.4%
3	455	9.2%
4	234	4.7%
5	198	4.0%
6	151	3.1%
)	148	3.0%
(	148	3.0%
-	143	2.9%
Other values (6)	466	9.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67527	91.7%
ASCII	6102	8.3%
Number Forms	2	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2686	4.0%
파	2684	4.0%
트	2536	3.8%
대	1698	2.5%
지	1686	2.5%
동	1543	2.3%
이	1446	2.1%
차	1380	2.0%
신	1307	1.9%
성	1292	1.9%
Other values (373)	49269	73.0%

ASCII

Value	Count	Frequency (%)
	1020	16.7%
1	1015	16.6%
2	955	15.7%
3	455	7.5%
4	234	3.8%
5	198	3.2%
e	193	3.2%
6	151	2.5%
)	148	2.4%
(	148	2.4%
Other values (34)	1585	26.0%

Number Forms

Value	Count	Frequency (%)
Ⅰ	2	100.0%

아파트코드
Text

Distinct	2124
Distinct (%)	21.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	108 ?
Unique (%)	1.1%

Sample

1st row	A13980510
2nd row	A13307002
3rd row	A15086004
4th row	A10026852
5th row	A14320302

Value	Count	Frequency (%)
a13204408	15	0.1%
a13790703	15	0.1%
a10025263	15	0.1%
a13590204	13	0.1%
a13519006	13	0.1%
a13007001	13	0.1%
a12179004	12	0.1%
a15703001	12	0.1%
a15701007	12	0.1%
a10025533	12	0.1%
Other values (2114)	9868	98.7%

Most occurring characters

Value	Count	Frequency (%)
0	18995	21.1%
1	17463	19.4%
A	10000	11.1%
3	9003	10.0%
2	8690	9.7%
5	5738	6.4%
8	5200	5.8%
7	4572	5.1%
4	3984	4.4%
6	3432	3.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18995	23.7%
1	17463	21.8%
3	9003	11.3%
2	8690	10.9%
5	5738	7.2%
8	5200	6.5%
7	4572	5.7%
4	3984	5.0%
6	3432	4.3%
9	2923	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18995	23.7%
1	17463	21.8%
3	9003	11.3%
2	8690	10.9%
5	5738	7.2%
8	5200	6.5%
7	4572	5.7%
4	3984	5.0%
6	3432	4.3%
9	2923	3.7%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18995	21.1%
1	17463	19.4%
A	10000	11.1%
3	9003	10.0%
2	8690	9.7%
5	5738	6.4%
8	5200	5.8%
7	4572	5.1%
4	3984	4.4%
6	3432	3.8%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8916
Min length	2

Characters and Unicode

Total characters	48916
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	승강기수익
2nd row	음식물처리비
3rd row	제수당
4th row	위탁관리수수료
5th row	소모품비

Value	Count	Frequency (%)
도서인쇄비	225	2.2%
승강기유지비	224	2.2%
이자수익	222	2.2%
소독비	220	2.2%
세대전기료	215	2.1%
보험료	214	2.1%
사무용품비	212	2.1%
퇴직급여	208	2.1%
청소비	204	2.0%
경비비	204	2.0%
Other values (77)	7852	78.5%

Most occurring characters

Value	Count	Frequency (%)
비	5330	10.9%
수	3632	7.4%
료	2139	4.4%
익	2052	4.2%
용	1684	3.4%
기	1322	2.7%
대	1055	2.2%
리	866	1.8%
보	795	1.6%
지	777	1.6%
Other values (110)	29264	59.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48916	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5330	10.9%
수	3632	7.4%
료	2139	4.4%
익	2052	4.2%
용	1684	3.4%
기	1322	2.7%
대	1055	2.2%
리	866	1.8%
보	795	1.6%
지	777	1.6%
Other values (110)	29264	59.8%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48916	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5330	10.9%
수	3632	7.4%
료	2139	4.4%
익	2052	4.2%
용	1684	3.4%
기	1322	2.7%
대	1055	2.2%
리	866	1.8%
보	795	1.6%
지	777	1.6%
Other values (110)	29264	59.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48916	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5330	10.9%
수	3632	7.4%
료	2139	4.4%
익	2052	4.2%
용	1684	3.4%
기	1322	2.7%
대	1055	2.2%
리	866	1.8%
보	795	1.6%
지	777	1.6%
Other values (110)	29264	59.8%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202210	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202210
2nd row	202210
3rd row	202210
4th row	202210
5th row	202210

Common Values

Value	Count	Frequency (%)
202210	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202210	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6660
Distinct (%)	66.6%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3057720.6

Minimum	-1543073
Maximum	4.3433044 × 10⁸
Zeros	1806
Zeros (%)	18.1%
Negative	10
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-1543073
5-th percentile	0
Q1	30000
median	265955
Q3	1262117.5
95-th percentile	14897631
Maximum	4.3433044 × 10⁸
Range	4.3587351 × 10⁸
Interquartile range (IQR)	1232117.5

Descriptive statistics

Standard deviation	11158044
Coefficient of variation (CV)	3.6491379
Kurtosis	325.45824
Mean	3057720.6
Median Absolute Deviation (MAD)	265955
Skewness	13.075976
Sum	3.0577206 × 10¹⁰
Variance	1.2450195 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1806	18.1%
200000	85	0.9%
300000	63	0.6%
100000	51	0.5%
150000	44	0.4%
400000	37	0.4%
250000	31	0.3%
30000	30	0.3%
60000	29	0.3%
120000	24	0.2%
Other values (6650)	7800	78.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-1543073	1	< 0.1%
-1309090	1	< 0.1%
-836450	1	< 0.1%
-329660	1	< 0.1%
-292700	1	< 0.1%
-150060	1	< 0.1%
-12780	1	< 0.1%
-5220	1	< 0.1%
-2960	1	< 0.1%
-62	1	< 0.1%

Value	Count	Frequency (%)
434330440	1	< 0.1%
282099260	1	< 0.1%
235949360	1	< 0.1%
183942000	1	< 0.1%
172182525	1	< 0.1%
171738210	1	< 0.1%
140727926	1	< 0.1%
138052055	1	< 0.1%
135715690	1	< 0.1%
132321480	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.307
금액	0.307	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
66674	공릉2단지라이프	A13980510	승강기수익	202210	900000
36132	서울숲행당푸르지오	A13307002	음식물처리비	202210	685490
81510	신길우성3차아파트	A15086004	제수당	202210	1050000
9633	래미안강동팰리스	A10026852	위탁관리수수료	202210	878490
75766	구의강변우성	A14320302	소모품비	202210	214310
37394	옥수하이츠제2	A13375904	복리후생비	202210	0
30562	신내우남푸르미아	A13186502	기타부대비	202210	172780
52629	정릉1차e-편한세상	A13676703	복리후생비	202210	840000
82421	대림동현대	A15095001	복리후생비	202210	335700
2916	아크로 서울포레스트	A10024503	충당부채전입이자비용	202210	0

	아파트명	아파트코드	비용명	년월일	금액
47903	압구정한양아파트제2단지	A13590204	통신비	202210	212360
97690	화곡초록	A15770801	전산고지비	202210	259600
19695	공덕래미안5차	A12170603	감가상각비	202210	100000
62475	가락삼익맨숀	A13885306	소모품비	202210	406370
91457	힐스테이트상도프레스티지	A15603008	공동주택지원금수익	202210	0
86962	고척대우	A15279404	소모품비	202210	146170
91776	상도경향렉스빌	A15603401	승강기수익	202210	0
5827	고덕 그라시움 아파트	A10025263	공동주택지원금수익	202210	0
67921	상계주공11단지	A13982301	부과차익	202210	4819
52639	정릉1차e-편한세상	A13676703	주차장수익	202210	2407350

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample