gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1123 (11.2%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:59:59.088401
Analysis finished	2024-05-11 07:00:01.028654
Duration	1.94 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2098
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1213
Min length	2

Characters and Unicode

Total characters	71213
Distinct characters	428
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	115 ?
Unique (%)	1.1%

Sample

1st row	서초더샵포레
2nd row	성수현대
3rd row	은평뉴타운구파발10단지1관리
4th row	신내동성7차
5th row	마포동원베네스트

Value	Count	Frequency (%)
아파트	122	1.2%
래미안	21	0.2%
코오롱하늘채아파트	19	0.2%
신동아파밀리에	18	0.2%
왕십리	17	0.2%
은평뉴타운상림마을6단지	16	0.2%
신길우성2차	15	0.1%
신내	14	0.1%
입주자대표회의	13	0.1%
우리유앤미	13	0.1%
Other values (2154)	10245	97.5%

Most occurring characters

Value	Count	Frequency (%)
아	2247	3.2%
파	2159	3.0%
트	1975	2.8%
대	1902	2.7%
지	1808	2.5%
동	1621	2.3%
차	1558	2.2%
신	1539	2.2%
단	1459	2.0%
성	1368	1.9%
Other values (418)	53577	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65452	91.9%
Decimal Number	3868	5.4%
Uppercase Letter	598	0.8%
Space Separator	556	0.8%
Lowercase Letter	251	0.4%
Other Punctuation	126	0.2%
Open Punctuation	121	0.2%
Close Punctuation	121	0.2%
Dash Punctuation	109	0.2%
Letter Number	6	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2247	3.4%
파	2159	3.3%
트	1975	3.0%
대	1902	2.9%
지	1808	2.8%
동	1621	2.5%
차	1558	2.4%
신	1539	2.4%
단	1459	2.2%
성	1368	2.1%
Other values (372)	47816	73.1%

Uppercase Letter

Value	Count	Frequency (%)
S	108	18.1%
K	90	15.1%
C	77	12.9%
L	48	8.0%
E	38	6.4%
M	37	6.2%
D	37	6.2%
G	33	5.5%
I	31	5.2%
H	27	4.5%
Other values (7)	72	12.0%

Lowercase Letter

Value	Count	Frequency (%)
e	157	62.5%
i	24	9.6%
l	22	8.8%
v	16	6.4%
w	11	4.4%
s	7	2.8%
k	6	2.4%
c	2	0.8%
a	2	0.8%
g	2	0.8%

Decimal Number

Value	Count	Frequency (%)
1	1180	30.5%
2	1107	28.6%
3	484	12.5%
4	294	7.6%
5	214	5.5%
6	183	4.7%
9	121	3.1%
7	104	2.7%
8	94	2.4%
0	87	2.2%

Other Punctuation

Value	Count	Frequency (%)
,	111	88.1%
.	15	11.9%

Space Separator

Value	Count	Frequency (%)
	556	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	121	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	121	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	109	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	6	100.0%

Math Symbol

Value	Count	Frequency (%)
~	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65452	91.9%
Common	4906	6.9%
Latin	855	1.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2247	3.4%
파	2159	3.3%
트	1975	3.0%
대	1902	2.9%
지	1808	2.8%
동	1621	2.5%
차	1558	2.4%
신	1539	2.4%
단	1459	2.2%
성	1368	2.1%
Other values (372)	47816	73.1%

Latin

Value	Count	Frequency (%)
e	157	18.4%
S	108	12.6%
K	90	10.5%
C	77	9.0%
L	48	5.6%
E	38	4.4%
M	37	4.3%
D	37	4.3%
G	33	3.9%
I	31	3.6%
Other values (19)	199	23.3%

Common

Value	Count	Frequency (%)
1	1180	24.1%
2	1107	22.6%
	556	11.3%
3	484	9.9%
4	294	6.0%
5	214	4.4%
6	183	3.7%
9	121	2.5%
(	121	2.5%
)	121	2.5%
Other values (7)	525	10.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65452	91.9%
ASCII	5755	8.1%
Number Forms	6	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2247	3.4%
파	2159	3.3%
트	1975	3.0%
대	1902	2.9%
지	1808	2.8%
동	1621	2.5%
차	1558	2.4%
신	1539	2.4%
단	1459	2.2%
성	1368	2.1%
Other values (372)	47816	73.1%

ASCII

Value	Count	Frequency (%)
1	1180	20.5%
2	1107	19.2%
	556	9.7%
3	484	8.4%
4	294	5.1%
5	214	3.7%
6	183	3.2%
e	157	2.7%
9	121	2.1%
(	121	2.1%
Other values (35)	1338	23.2%

Number Forms

Value	Count	Frequency (%)
Ⅰ	6	100.0%

아파트코드
Text

Distinct	2103
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	115 ?
Unique (%)	1.1%

Sample

1st row	A13718001
2nd row	A13382502
3rd row	A41279927
4th row	A13113001
5th row	A12170401

Value	Count	Frequency (%)
a15086007	15	0.1%
a14086001	12	0.1%
a12174601	12	0.1%
a13983815	12	0.1%
a15601202	12	0.1%
a15083701	12	0.1%
a12201301	12	0.1%
a12127003	12	0.1%
a15205405	11	0.1%
a15807706	11	0.1%
Other values (2093)	9879	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18297	20.3%
1	17632	19.6%
A	9994	11.1%
3	8803	9.8%
2	8069	9.0%
5	6311	7.0%
8	5775	6.4%
7	4867	5.4%
4	3699	4.1%
6	3553	3.9%
Other values (2)	3000	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18297	22.9%
1	17632	22.0%
3	8803	11.0%
2	8069	10.1%
5	6311	7.9%
8	5775	7.2%
7	4867	6.1%
4	3699	4.6%
6	3553	4.4%
9	2994	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9994	99.9%
B	6	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18297	22.9%
1	17632	22.0%
3	8803	11.0%
2	8069	10.1%
5	6311	7.9%
8	5775	7.2%
7	4867	6.1%
4	3699	4.6%
6	3553	4.4%
9	2994	3.7%

Latin

Value	Count	Frequency (%)
A	9994	99.9%
B	6	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18297	20.3%
1	17632	19.6%
A	9994	11.1%
3	8803	9.8%
2	8069	9.0%
5	6311	7.0%
8	5775	6.4%
7	4867	5.4%
4	3699	4.1%
6	3553	3.9%
Other values (2)	3000	3.3%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8446
Min length	2

Characters and Unicode

Total characters	48446
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	< 0.1%

Sample

1st row	부과차손
2nd row	임대료수익
3rd row	연차수당
4th row	장기수선비
5th row	고용안정사업비용

Value	Count	Frequency (%)
교육비	231	2.3%
통신비	230	2.3%
세대전기료	227	2.3%
퇴직급여	223	2.2%
소독비	221	2.2%
장기수선비	213	2.1%
청소비	211	2.1%
소모품비	210	2.1%
경비비	209	2.1%
이자수익	207	2.1%
Other values (76)	7818	78.2%

Most occurring characters

Value	Count	Frequency (%)
비	5431	11.2%
수	3617	7.5%
료	2117	4.4%
익	1967	4.1%
용	1703	3.5%
기	1361	2.8%
대	1050	2.2%
리	851	1.8%
보	798	1.6%
험	757	1.6%
Other values (110)	28794	59.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48446	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5431	11.2%
수	3617	7.5%
료	2117	4.4%
익	1967	4.1%
용	1703	3.5%
기	1361	2.8%
대	1050	2.2%
리	851	1.8%
보	798	1.6%
험	757	1.6%
Other values (110)	28794	59.4%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48446	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5431	11.2%
수	3617	7.5%
료	2117	4.4%
익	1967	4.1%
용	1703	3.5%
기	1361	2.8%
대	1050	2.2%
리	851	1.8%
보	798	1.6%
험	757	1.6%
Other values (110)	28794	59.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48446	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5431	11.2%
수	3617	7.5%
료	2117	4.4%
익	1967	4.1%
용	1703	3.5%
기	1361	2.8%
대	1050	2.2%
리	851	1.8%
보	798	1.6%
험	757	1.6%
Other values (110)	28794	59.4%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201904	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201904
2nd row	201904
3rd row	201904
4th row	201904
5th row	201904

Common Values

Value	Count	Frequency (%)
201904	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201904	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7059
Distinct (%)	70.6%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3259841

Minimum	-2341030
Maximum	4.2105318 × 10⁸
Zeros	1123
Zeros (%)	11.2%
Negative	13
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-2341030
5-th percentile	0
Q1	85652.5
median	329580
Q3	1518840
95-th percentile	15611872
Maximum	4.2105318 × 10⁸
Range	4.2339421 × 10⁸
Interquartile range (IQR)	1433187.5

Descriptive statistics

Standard deviation	12142479
Coefficient of variation (CV)	3.7248685
Kurtosis	277.52887
Mean	3259841
Median Absolute Deviation (MAD)	328054
Skewness	13.0065
Sum	3.259841 × 10¹⁰
Variance	1.474398 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1123	11.2%
200000	99	1.0%
100000	69	0.7%
150000	60	0.6%
300000	51	0.5%
500000	45	0.4%
30000	44	0.4%
110000	31	0.3%
250000	30	0.3%
50000	30	0.3%
Other values (7049)	8418	84.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-2341030	1	< 0.1%
-1725000	1	< 0.1%
-1059910	1	< 0.1%
-1041315	1	< 0.1%
-624300	1	< 0.1%
-164980	1	< 0.1%
-95450	1	< 0.1%
-58224	1	< 0.1%
-38000	1	< 0.1%
-7030	1	< 0.1%

Value	Count	Frequency (%)
421053180	1	< 0.1%
278984274	1	< 0.1%
258817380	1	< 0.1%
247531574	1	< 0.1%
243841075	1	< 0.1%
243441075	1	< 0.1%
226143722	1	< 0.1%
207617660	1	< 0.1%
162487455	1	< 0.1%
154683140	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.333
금액	0.333	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
45528	서초더샵포레	A13718001	부과차손	201904	10693
30290	성수현대	A13382502	임대료수익	201904	0
94505	은평뉴타운구파발10단지1관리	A41279927	연차수당	201904	395600
20242	신내동성7차	A13113001	장기수선비	201904	2730300
11733	마포동원베네스트	A12170401	고용안정사업비용	201904	1370000
29253	행당한진타운	A13377703	세대전기료	201904	76802410
84647	등촌주공2단지	A15703304	감가상각비	201904	110380
92241	신정푸른마을1단지임대	A15879501	잡비용	201904	527910
77200	고척동아한신	A15283706	승강기유지비	201904	554400
13866	래미안용강아파트	A12187602	재활용품비용	201904	210000

	아파트명	아파트코드	비용명	년월일	금액
18523	전농동아임대	A13071301	교육비	201904	32000
3073	금천롯데캐슬골드파크1차아파트	A10027188	감가상각비	201904	678620
67132	자양한양	A14387605	청소비	201904	9513500
23257	신내새한아파트	A13187406	퇴직급여	201904	1543560
39732	역삼래미안	A13592706	이자수익	201904	0
86954	등촌우성101동	A15772901	제수당	201904	1465000
31028	강변건영	A13392307	고용안정사업수익	201904	1421930
57548	상계성림(미라보)	A13980903	소독비	201904	165000
43514	삼선푸르지오아파트	A13672101	위탁관리수수료	201904	696100
24050	방학삼익세라믹	A13202308	재활용품수익	201904	216364

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample