gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2242 (22.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:59:01.913752
Analysis finished	2024-05-11 05:59:03.169952
Duration	1.26 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2224
Distinct (%)	22.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	21
Median length	19
Mean length	7.2941
Min length	2

Characters and Unicode

Total characters	72941
Distinct characters	437
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	136 ?
Unique (%)	1.4%

Sample

1st row	명수대현대
2nd row	천왕이펜하우스1단지
3rd row	청계한신휴플러스
4th row	신길삼환
5th row	개포7차우성

Value	Count	Frequency (%)
아파트	139	1.3%
래미안	35	0.3%
e편한세상	20	0.2%
경남아너스빌	15	0.1%
마포	15	0.1%
아이파크	15	0.1%
신반포	15	0.1%
은평뉴타운상림마을6단지	15	0.1%
고덕	13	0.1%
sk뷰	13	0.1%
Other values (2291)	10316	97.2%

Most occurring characters

Value	Count	Frequency (%)
아	2404	3.3%
파	2361	3.2%
트	2240	3.1%
지	1878	2.6%
대	1811	2.5%
동	1692	2.3%
신	1500	2.1%
차	1468	2.0%
단	1463	2.0%
성	1287	1.8%
Other values (427)	54837	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66866	91.7%
Decimal Number	3719	5.1%
Uppercase Letter	747	1.0%
Space Separator	681	0.9%
Lowercase Letter	355	0.5%
Close Punctuation	155	0.2%
Open Punctuation	155	0.2%
Dash Punctuation	144	0.2%
Other Punctuation	113	0.2%
Letter Number	6	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2404	3.6%
파	2361	3.5%
트	2240	3.3%
지	1878	2.8%
대	1811	2.7%
동	1692	2.5%
신	1500	2.2%
차	1468	2.2%
단	1463	2.2%
성	1287	1.9%
Other values (382)	48762	72.9%

Uppercase Letter

Value	Count	Frequency (%)
S	125	16.7%
C	102	13.7%
K	92	12.3%
D	68	9.1%
M	68	9.1%
L	54	7.2%
H	48	6.4%
G	33	4.4%
E	32	4.3%
I	30	4.0%
Other values (7)	95	12.7%

Lowercase Letter

Value	Count	Frequency (%)
e	201	56.6%
l	30	8.5%
i	27	7.6%
k	21	5.9%
s	20	5.6%
v	18	5.1%
c	16	4.5%
w	9	2.5%
h	7	2.0%
a	3	0.8%

Decimal Number

Value	Count	Frequency (%)
1	1106	29.7%
2	1094	29.4%
3	475	12.8%
4	284	7.6%
5	210	5.6%
6	148	4.0%
7	132	3.5%
8	98	2.6%
9	94	2.5%
0	78	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	90	79.6%
.	23	20.4%

Space Separator

Value	Count	Frequency (%)
	681	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	155	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	155	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	144	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	6	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66866	91.7%
Common	4967	6.8%
Latin	1108	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2404	3.6%
파	2361	3.5%
트	2240	3.3%
지	1878	2.8%
대	1811	2.7%
동	1692	2.5%
신	1500	2.2%
차	1468	2.2%
단	1463	2.2%
성	1287	1.9%
Other values (382)	48762	72.9%

Latin

Value	Count	Frequency (%)
e	201	18.1%
S	125	11.3%
C	102	9.2%
K	92	8.3%
D	68	6.1%
M	68	6.1%
L	54	4.9%
H	48	4.3%
G	33	3.0%
E	32	2.9%
Other values (19)	285	25.7%

Common

Value	Count	Frequency (%)
1	1106	22.3%
2	1094	22.0%
	681	13.7%
3	475	9.6%
4	284	5.7%
5	210	4.2%
)	155	3.1%
(	155	3.1%
6	148	3.0%
-	144	2.9%
Other values (6)	515	10.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66866	91.7%
ASCII	6069	8.3%
Number Forms	6	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2404	3.6%
파	2361	3.5%
트	2240	3.3%
지	1878	2.8%
대	1811	2.7%
동	1692	2.5%
신	1500	2.2%
차	1468	2.2%
단	1463	2.2%
성	1287	1.9%
Other values (382)	48762	72.9%

ASCII

Value	Count	Frequency (%)
1	1106	18.2%
2	1094	18.0%
	681	11.2%
3	475	7.8%
4	284	4.7%
5	210	3.5%
e	201	3.3%
)	155	2.6%
(	155	2.6%
6	148	2.4%
Other values (34)	1560	25.7%

Number Forms

Value	Count	Frequency (%)
Ⅰ	6	100.0%

아파트코드
Text

Distinct	2229
Distinct (%)	22.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	137 ?
Unique (%)	1.4%

Sample

1st row	A15679105
2nd row	A15213006
3rd row	A13003005
4th row	A15005705
5th row	A13594403

Value	Count	Frequency (%)
a13592601	12	0.1%
a15721007	12	0.1%
a13920207	11	0.1%
a12201003	11	0.1%
a13821005	11	0.1%
a15784008	11	0.1%
a14006001	11	0.1%
a15805002	11	0.1%
a12185504	10	0.1%
a41279903	10	0.1%
Other values (2219)	9890	98.9%

Most occurring characters

Value	Count	Frequency (%)
0	18305	20.3%
1	17612	19.6%
A	9994	11.1%
3	8776	9.8%
2	8392	9.3%
5	6157	6.8%
8	5717	6.4%
7	4806	5.3%
4	3930	4.4%
6	3311	3.7%
Other values (2)	3000	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18305	22.9%
1	17612	22.0%
3	8776	11.0%
2	8392	10.5%
5	6157	7.7%
8	5717	7.1%
7	4806	6.0%
4	3930	4.9%
6	3311	4.1%
9	2994	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9994	99.9%
B	6	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18305	22.9%
1	17612	22.0%
3	8776	11.0%
2	8392	10.5%
5	6157	7.7%
8	5717	7.1%
7	4806	6.0%
4	3930	4.9%
6	3311	4.1%
9	2994	3.7%

Latin

Value	Count	Frequency (%)
A	9994	99.9%
B	6	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18305	20.3%
1	17612	19.6%
A	9994	11.1%
3	8776	9.8%
2	8392	9.3%
5	6157	6.8%
8	5717	6.4%
7	4806	5.3%
4	3930	4.4%
6	3311	3.7%
Other values (2)	3000	3.3%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.9775
Min length	2

Characters and Unicode

Total characters	59775
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	선수금
2nd row	수선유지비충당부채
3rd row	선급금
4th row	기타인건비충당부채
5th row	기타의비유동부채

Value	Count	Frequency (%)
예금	325	3.2%
공동주택적립금	324	3.2%
당기순이익	321	3.2%
예수금	314	3.1%
미처분이익잉여금	308	3.1%
선급비용	307	3.1%
비품감가상각누계액	300	3.0%
비품	294	2.9%
현금	289	2.9%
미부과관리비	288	2.9%
Other values (67)	6930	69.3%

Most occurring characters

Value	Count	Frequency (%)
금	4648	7.8%
당	3762	6.3%
수	3076	5.1%
비	3030	5.1%
충	2998	5.0%
부	2868	4.8%
채	2570	4.3%
기	2438	4.1%
선	1867	3.1%
예	1772	3.0%
Other values (97)	30746	51.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59775	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4648	7.8%
당	3762	6.3%
수	3076	5.1%
비	3030	5.1%
충	2998	5.0%
부	2868	4.8%
채	2570	4.3%
기	2438	4.1%
선	1867	3.1%
예	1772	3.0%
Other values (97)	30746	51.4%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59775	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4648	7.8%
당	3762	6.3%
수	3076	5.1%
비	3030	5.1%
충	2998	5.0%
부	2868	4.8%
채	2570	4.3%
기	2438	4.1%
선	1867	3.1%
예	1772	3.0%
Other values (97)	30746	51.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59775	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4648	7.8%
당	3762	6.3%
수	3076	5.1%
비	3030	5.1%
충	2998	5.0%
부	2868	4.8%
채	2570	4.3%
기	2438	4.1%
선	1867	3.1%
예	1772	3.0%
Other values (97)	30746	51.4%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202106	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202106
2nd row	202106
3rd row	202106
4th row	202106
5th row	202106

Common Values

Value	Count	Frequency (%)
202106	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202106	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7423
Distinct (%)	74.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	70900741

Minimum	-1.9470423 × 10⁸
Maximum	7.7686708 × 10⁹
Zeros	2242
Zeros (%)	22.4%
Negative	360
Negative (%)	3.6%
Memory size	166.0 KiB

Quantile statistics

Minimum	-1.9470423 × 10⁸
5-th percentile	0
Q1	0
median	3042395
Q3	33948912
95-th percentile	3.4010499 × 10⁸
Maximum	7.7686708 × 10⁹
Range	7.9633751 × 10⁹
Interquartile range (IQR)	33948912

Descriptive statistics

Standard deviation	2.8033231 × 10⁸
Coefficient of variation (CV)	3.95387
Kurtosis	218.59471
Mean	70900741
Median Absolute Deviation (MAD)	3042395
Skewness	11.87336
Sum	7.0900741 × 10¹¹
Variance	7.8586203 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2242	22.4%
500000	26	0.3%
250000	25	0.2%
242000	14	0.1%
300000	13	0.1%
2000000	13	0.1%
200000	12	0.1%
1000000	11	0.1%
100000	10	0.1%
10000000	9	0.1%
Other values (7413)	7625	76.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-194704230	1	< 0.1%
-182775015	1	< 0.1%
-175231185	1	< 0.1%
-153861997	1	< 0.1%
-152040753	1	< 0.1%
-149241812	1	< 0.1%
-128999000	1	< 0.1%
-126083581	1	< 0.1%
-113580500	1	< 0.1%
-109090670	1	< 0.1%

Value	Count	Frequency (%)
7768670842	1	< 0.1%
7740016860	1	< 0.1%
6223659276	1	< 0.1%
5490318343	1	< 0.1%
5241202454	1	< 0.1%
5201529526	1	< 0.1%
5030565723	1	< 0.1%
4471555406	1	< 0.1%
4114027730	1	< 0.1%
3967016615	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.431
금액	0.431	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
62859	명수대현대	A15679105	선수금	202106	0
57855	천왕이펜하우스1단지	A15213006	수선유지비충당부채	202106	3200180
14692	청계한신휴플러스	A13003005	선급금	202106	609320
52303	신길삼환	A15005705	기타인건비충당부채	202106	0
31464	개포7차우성	A13594403	기타의비유동부채	202106	101473720
15604	래미안장안2차	A13010005	가수금	202106	6801871
55945	봉천벽산타운2차	A15180701	비품	202106	9407920
70031	신정뉴타운롯데캐슬	A15883402	미수금	202106	11260
15307	휘경주공1단지	A13009002	승강기유지비충당부채	202106	0
38248	거여5단지	A13811205	기타유형자산	202106	26365200

	아파트명	아파트코드	비용명	년월일	금액
44740	상계성원	A13982101	미지급금	202106	13758230
70465	신정학마을1단지	A15886512	가지급금	202106	1177680
57701	오류삼천리	A15210210	예수금	202106	3794120
66415	등촌태영	A15783902	주차장충당예금	202106	188903121
1700	신내글로리움아파트	A10025137	저장품	202106	120000
67489	화곡유림노르웨이숲	A15791001	선수수도료	202106	141650
55173	신림동부센트레빌	A15102202	현금	202106	359110
59791	신도림대림1,2차	A15288814	장기수선충당부채	202106	1631072258
44703	상계한신2차	A13982005	장기수선충당부채	202106	625585928
1655	DMC에코자이	A10025130	장기수선충당예금	202106	50656594

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample