gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2274 (22.7%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:59:36.325601
Analysis finished	2024-05-11 05:59:37.196882
Duration	0.87 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2191
Distinct (%)	21.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	21
Median length	19
Mean length	7.2825
Min length	2

Characters and Unicode

Total characters	72825
Distinct characters	436
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	123 ?
Unique (%)	1.2%

Sample

1st row	잠실올림픽공원아이파크
2nd row	송천센트레빌
3rd row	구로주공
4th row	대치1차현대아파트
5th row	신길경남

Value	Count	Frequency (%)
아파트	167	1.6%
래미안	38	0.4%
e편한세상	19	0.2%
래미안밤섬리베뉴	15	0.1%
힐스테이트	13	0.1%
아이파크	13	0.1%
북한산	13	0.1%
푸르지오	13	0.1%
sk뷰	12	0.1%
서울숲2차푸르지오임대	12	0.1%
Other values (2255)	10324	97.0%

Most occurring characters

Value	Count	Frequency (%)
아	2469	3.4%
파	2441	3.4%
트	2249	3.1%
지	1824	2.5%
대	1790	2.5%
동	1686	2.3%
차	1528	2.1%
신	1516	2.1%
단	1446	2.0%
성	1319	1.8%
Other values (426)	54557	74.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66671	91.5%
Decimal Number	3732	5.1%
Uppercase Letter	777	1.1%
Space Separator	715	1.0%
Lowercase Letter	379	0.5%
Open Punctuation	146	0.2%
Close Punctuation	146	0.2%
Dash Punctuation	129	0.2%
Other Punctuation	120	0.2%
Letter Number	8	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2469	3.7%
파	2441	3.7%
트	2249	3.4%
지	1824	2.7%
대	1790	2.7%
동	1686	2.5%
차	1528	2.3%
신	1516	2.3%
단	1446	2.2%
성	1319	2.0%
Other values (380)	48403	72.6%

Uppercase Letter

Value	Count	Frequency (%)
S	116	14.9%
C	104	13.4%
K	100	12.9%
M	66	8.5%
D	66	8.5%
L	57	7.3%
I	45	5.8%
H	37	4.8%
E	36	4.6%
G	35	4.5%
Other values (7)	115	14.8%

Lowercase Letter

Value	Count	Frequency (%)
e	214	56.5%
i	30	7.9%
l	28	7.4%
s	26	6.9%
k	21	5.5%
v	21	5.5%
w	13	3.4%
c	10	2.6%
h	10	2.6%
a	3	0.8%

Decimal Number

Value	Count	Frequency (%)
1	1138	30.5%
2	1078	28.9%
3	490	13.1%
4	276	7.4%
5	199	5.3%
6	165	4.4%
7	118	3.2%
9	105	2.8%
8	83	2.2%
0	80	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	93	77.5%
.	27	22.5%

Space Separator

Value	Count	Frequency (%)
	715	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	146	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	146	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	129	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	8	100.0%

Math Symbol

Value	Count	Frequency (%)
~	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66671	91.5%
Common	4990	6.9%
Latin	1164	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2469	3.7%
파	2441	3.7%
트	2249	3.4%
지	1824	2.7%
대	1790	2.7%
동	1686	2.5%
차	1528	2.3%
신	1516	2.3%
단	1446	2.2%
성	1319	2.0%
Other values (380)	48403	72.6%

Latin

Value	Count	Frequency (%)
e	214	18.4%
S	116	10.0%
C	104	8.9%
K	100	8.6%
M	66	5.7%
D	66	5.7%
L	57	4.9%
I	45	3.9%
H	37	3.2%
E	36	3.1%
Other values (19)	323	27.7%

Common

Value	Count	Frequency (%)
1	1138	22.8%
2	1078	21.6%
	715	14.3%
3	490	9.8%
4	276	5.5%
5	199	4.0%
6	165	3.3%
(	146	2.9%
)	146	2.9%
-	129	2.6%
Other values (7)	508	10.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66671	91.5%
ASCII	6146	8.4%
Number Forms	8	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2469	3.7%
파	2441	3.7%
트	2249	3.4%
지	1824	2.7%
대	1790	2.7%
동	1686	2.5%
차	1528	2.3%
신	1516	2.3%
단	1446	2.2%
성	1319	2.0%
Other values (380)	48403	72.6%

ASCII

Value	Count	Frequency (%)
1	1138	18.5%
2	1078	17.5%
	715	11.6%
3	490	8.0%
4	276	4.5%
e	214	3.5%
5	199	3.2%
6	165	2.7%
(	146	2.4%
)	146	2.4%
Other values (35)	1579	25.7%

Number Forms

Value	Count	Frequency (%)
Ⅰ	8	100.0%

아파트코드
Text

Distinct	2198
Distinct (%)	22.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	124 ?
Unique (%)	1.2%

Sample

1st row	A10025185
2nd row	A14272313
3rd row	A15286809
4th row	A10024799
5th row	A15083703

Value	Count	Frequency (%)
a15807703	12	0.1%
a13204510	11	0.1%
a15005001	11	0.1%
a13991017	11	0.1%
a13519006	11	0.1%
a15375809	11	0.1%
a15083703	11	0.1%
a15807311	11	0.1%
a13920106	11	0.1%
a13611202	11	0.1%
Other values (2188)	9889	98.9%

Most occurring characters

Value	Count	Frequency (%)
0	18546	20.6%
1	17731	19.7%
A	9984	11.1%
3	8810	9.8%
2	8177	9.1%
5	6241	6.9%
8	5618	6.2%
7	4788	5.3%
4	3740	4.2%
6	3323	3.7%
Other values (2)	3042	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18546	23.2%
1	17731	22.2%
3	8810	11.0%
2	8177	10.2%
5	6241	7.8%
8	5618	7.0%
7	4788	6.0%
4	3740	4.7%
6	3323	4.2%
9	3026	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9984	99.8%
B	16	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18546	23.2%
1	17731	22.2%
3	8810	11.0%
2	8177	10.2%
5	6241	7.8%
8	5618	7.0%
7	4788	6.0%
4	3740	4.7%
6	3323	4.2%
9	3026	3.8%

Latin

Value	Count	Frequency (%)
A	9984	99.8%
B	16	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18546	20.6%
1	17731	19.7%
A	9984	11.1%
3	8810	9.8%
2	8177	9.1%
5	6241	6.9%
8	5618	6.2%
7	4788	5.3%
4	3740	4.2%
6	3323	3.7%
Other values (2)	3042	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.977
Min length	2

Characters and Unicode

Total characters	59770
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	당기순이익
2nd row	현금
3rd row	장기수선충당부채
4th row	선급비용
5th row	공동체활성화단체지원적립금

Value	Count	Frequency (%)
선급비용	341	3.4%
당기순이익	337	3.4%
예금	333	3.3%
비품	324	3.2%
장기수선충당예금	322	3.2%
연차수당충당부채	320	3.2%
미처분이익잉여금	315	3.1%
퇴직급여충당부채	313	3.1%
예수금	312	3.1%
관리비미수금	307	3.1%
Other values (67)	6776	67.8%

Most occurring characters

Value	Count	Frequency (%)
금	4595	7.7%
당	3909	6.5%
수	3195	5.3%
충	3169	5.3%
비	3083	5.2%
부	3009	5.0%
채	2707	4.5%
기	2428	4.1%
선	1953	3.3%
예	1832	3.1%
Other values (97)	29890	50.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59770	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4595	7.7%
당	3909	6.5%
수	3195	5.3%
충	3169	5.3%
비	3083	5.2%
부	3009	5.0%
채	2707	4.5%
기	2428	4.1%
선	1953	3.3%
예	1832	3.1%
Other values (97)	29890	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59770	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4595	7.7%
당	3909	6.5%
수	3195	5.3%
충	3169	5.3%
비	3083	5.2%
부	3009	5.0%
채	2707	4.5%
기	2428	4.1%
선	1953	3.3%
예	1832	3.1%
Other values (97)	29890	50.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59770	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4595	7.7%
당	3909	6.5%
수	3195	5.3%
충	3169	5.3%
비	3083	5.2%
부	3009	5.0%
채	2707	4.5%
기	2428	4.1%
선	1953	3.3%
예	1832	3.1%
Other values (97)	29890	50.0%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202012	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202012
2nd row	202012
3rd row	202012
4th row	202012
5th row	202012

Common Values

Value	Count	Frequency (%)
202012	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202012	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7395
Distinct (%)	74.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	72169035

Minimum	-4.09024 × 10⁹
Maximum	7.376961 × 10⁹
Zeros	2274
Zeros (%)	22.7%
Negative	326
Negative (%)	3.3%
Memory size	166.0 KiB

Quantile statistics

Minimum	-4.09024 × 10⁹
5-th percentile	0
Q1	0
median	3378054.5
Q3	36960243
95-th percentile	3.6455594 × 10⁸
Maximum	7.376961 × 10⁹
Range	1.1467201 × 10¹⁰
Interquartile range (IQR)	36960243

Descriptive statistics

Standard deviation	2.716446 × 10⁸
Coefficient of variation (CV)	3.7640049
Kurtosis	174.33614
Mean	72169035
Median Absolute Deviation (MAD)	3378054.5
Skewness	9.8846743
Sum	7.2169035 × 10¹¹
Variance	7.3790788 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2274	22.7%
250000	31	0.3%
500000	30	0.3%
300000	15	0.1%
242000	14	0.1%
484000	10	0.1%
1000000	10	0.1%
400000	10	0.1%
10000000	9	0.1%
30000000	9	0.1%
Other values (7385)	7588	75.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-4090240000	1	< 0.1%
-421312336	1	< 0.1%
-243342513	1	< 0.1%
-199831810	1	< 0.1%
-190670210	1	< 0.1%
-138881815	1	< 0.1%
-128141840	1	< 0.1%
-121466611	1	< 0.1%
-110568181	1	< 0.1%
-104892771	1	< 0.1%

Value	Count	Frequency (%)
7376961038	1	< 0.1%
6412048173	1	< 0.1%
5776718393	1	< 0.1%
5325406194	1	< 0.1%
5051111961	1	< 0.1%
4202900346	1	< 0.1%
4028253729	1	< 0.1%
3927368279	1	< 0.1%
3927107289	1	< 0.1%
3270784730	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.498
금액	0.498	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
1389	잠실올림픽공원아이파크	A10025185	당기순이익	202012	100338649
47565	송천센트레빌	A14272313	현금	202012	21159
56959	구로주공	A15286809	장기수선충당부채	202012	1772552961
510	대치1차현대아파트	A10024799	선급비용	202012	760260
52085	신길경남	A15083703	공동체활성화단체지원적립금	202012	1676950
62264	마곡엠밸리7단지	A15721007	퇴직급여충당예금	202012	0
15025	이문삼성래미안아파트	A13076801	예금	202012	126551339
18720	도봉한신	A13201209	장기수선충당부채적립금	202012	0
37307	가락극동	A13816202	선수수도료	202012	0
37856	송파파인타운9단지	A13821007	현금	202012	131311

	아파트명	아파트코드	비용명	년월일	금액
57853	독산주공14단지	A15375809	주차장충당부채	202012	0
66425	목동우성2차	A15807703	일반관리비충당부채	202012	0
22913	행당두산위브아파트	A13377901	미수금	202012	0
9103	디엠씨한양	A12081703	가수금	202012	5632127
56377	신도림쌍용플래티넘노블	A15283801	기타의비유동자산	202012	0
11987	백련산힐스테이트2차	A12201002	공동체활성화단체지원적립금	202012	0
11468	신수현대	A12185603	저장품	202012	24000
43978	월계청백3단지	A13985105	미부과관리비	202012	85023075
57848	독산주공14단지	A15375809	미지급금	202012	131831409
57804	독산동한양수자인아파트	A15370301	선급비용	202012	4805100

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample