gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` is highly skewed (γ1 = 20.10608385)	Skewed
`금액` has 603 (6.0%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:47:44.079817
Analysis finished	2024-05-11 06:47:45.828188
Duration	1.75 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2237
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.3892
Min length	2

Characters and Unicode

Total characters	73892
Distinct characters	432
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	138 ?
Unique (%)	1.4%

Sample

1st row	휘경동양1.2차
2nd row	우장산한화꿈에그린
3rd row	정릉스카이쌍용
4th row	이문대우1차
5th row	하계극동건영벽산

Value	Count	Frequency (%)
아파트	198	1.8%
래미안	57	0.5%
아이파크	25	0.2%
e편한세상	22	0.2%
이편한세상	20	0.2%
sk뷰	19	0.2%
해모로	16	0.1%
마포	15	0.1%
센트럴	13	0.1%
휘경	13	0.1%
Other values (2323)	10512	96.4%

Most occurring characters

Value	Count	Frequency (%)
아	2590	3.5%
파	2550	3.5%
트	2437	3.3%
지	1840	2.5%
대	1686	2.3%
동	1579	2.1%
이	1467	2.0%
차	1453	2.0%
단	1424	1.9%
신	1407	1.9%
Other values (422)	55459	75.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67625	91.5%
Decimal Number	3613	4.9%
Space Separator	1010	1.4%
Uppercase Letter	849	1.1%
Lowercase Letter	287	0.4%
Dash Punctuation	135	0.2%
Open Punctuation	132	0.2%
Close Punctuation	132	0.2%
Other Punctuation	106	0.1%
Letter Number	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2590	3.8%
파	2550	3.8%
트	2437	3.6%
지	1840	2.7%
대	1686	2.5%
동	1579	2.3%
이	1467	2.2%
차	1453	2.1%
단	1424	2.1%
신	1407	2.1%
Other values (377)	49192	72.7%

Uppercase Letter

Value	Count	Frequency (%)
S	131	15.4%
C	116	13.7%
K	101	11.9%
D	82	9.7%
M	82	9.7%
L	57	6.7%
I	50	5.9%
H	45	5.3%
E	40	4.7%
G	30	3.5%
Other values (7)	115	13.5%

Lowercase Letter

Value	Count	Frequency (%)
e	169	58.9%
l	26	9.1%
i	23	8.0%
s	17	5.9%
v	15	5.2%
k	13	4.5%
w	9	3.1%
h	7	2.4%
c	6	2.1%
g	1	0.3%

Decimal Number

Value	Count	Frequency (%)
2	1069	29.6%
1	1069	29.6%
3	483	13.4%
4	257	7.1%
5	198	5.5%
6	156	4.3%
7	104	2.9%
9	103	2.9%
8	99	2.7%
0	75	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	86	81.1%
.	20	18.9%

Space Separator

Value	Count	Frequency (%)
	1010	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	135	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	132	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	132	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67625	91.5%
Common	5128	6.9%
Latin	1139	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2590	3.8%
파	2550	3.8%
트	2437	3.6%
지	1840	2.7%
대	1686	2.5%
동	1579	2.3%
이	1467	2.2%
차	1453	2.1%
단	1424	2.1%
신	1407	2.1%
Other values (377)	49192	72.7%

Latin

Value	Count	Frequency (%)
e	169	14.8%
S	131	11.5%
C	116	10.2%
K	101	8.9%
D	82	7.2%
M	82	7.2%
L	57	5.0%
I	50	4.4%
H	45	4.0%
E	40	3.5%
Other values (19)	266	23.4%

Common

Value	Count	Frequency (%)
2	1069	20.8%
1	1069	20.8%
	1010	19.7%
3	483	9.4%
4	257	5.0%
5	198	3.9%
6	156	3.0%
-	135	2.6%
(	132	2.6%
)	132	2.6%
Other values (6)	487	9.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67625	91.5%
ASCII	6264	8.5%
Number Forms	3	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2590	3.8%
파	2550	3.8%
트	2437	3.6%
지	1840	2.7%
대	1686	2.5%
동	1579	2.3%
이	1467	2.2%
차	1453	2.1%
단	1424	2.1%
신	1407	2.1%
Other values (377)	49192	72.7%

ASCII

Value	Count	Frequency (%)
2	1069	17.1%
1	1069	17.1%
	1010	16.1%
3	483	7.7%
4	257	4.1%
5	198	3.2%
e	169	2.7%
6	156	2.5%
-	135	2.2%
(	132	2.1%
Other values (34)	1586	25.3%

Number Forms

Value	Count	Frequency (%)
Ⅰ	3	100.0%

아파트코드
Text

Distinct	2242
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	139 ?
Unique (%)	1.4%

Sample

1st row	A13009001
2nd row	A15701004
3rd row	A13676504
4th row	A13082702
5th row	A13987306

Value	Count	Frequency (%)
a15086601	13	0.1%
a12119006	13	0.1%
a13885102	12	0.1%
a13790703	12	0.1%
a13920506	12	0.1%
a15009602	12	0.1%
a15678103	12	0.1%
a15086006	11	0.1%
a13508012	11	0.1%
a13285406	11	0.1%
Other values (2232)	9881	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18684	20.8%
1	17351	19.3%
A	9990	11.1%
3	8855	9.8%
2	8357	9.3%
5	6217	6.9%
8	5518	6.1%
7	4578	5.1%
4	4107	4.6%
6	3410	3.8%
Other values (2)	2933	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18684	23.4%
1	17351	21.7%
3	8855	11.1%
2	8357	10.4%
5	6217	7.8%
8	5518	6.9%
7	4578	5.7%
4	4107	5.1%
6	3410	4.3%
9	2923	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9990	99.9%
B	10	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18684	23.4%
1	17351	21.7%
3	8855	11.1%
2	8357	10.4%
5	6217	7.8%
8	5518	6.9%
7	4578	5.7%
4	4107	5.1%
6	3410	4.3%
9	2923	3.7%

Latin

Value	Count	Frequency (%)
A	9990	99.9%
B	10	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18684	20.8%
1	17351	19.3%
A	9990	11.1%
3	8855	9.8%
2	8357	9.3%
5	6217	6.9%
8	5518	6.1%
7	4578	5.1%
4	4107	4.6%
6	3410	3.8%
Other values (2)	2933	3.3%

비용명
Text

Distinct	84
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.7308
Min length	2

Characters and Unicode

Total characters	47308
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	보험료
2nd row	승강기유지비
3rd row	업무추진비
4th row	정화조관리비
5th row	고용안정사업수익

Value	Count	Frequency (%)
승강기유지비	266	2.7%
청소비	258	2.6%
사무용품비	254	2.5%
세대전기료	249	2.5%
보험료	249	2.5%
퇴직급여	241	2.4%
경비비	240	2.4%
위탁관리수수료	239	2.4%
복리후생비	233	2.3%
통신비	232	2.3%
Other values (74)	7539	75.4%

Most occurring characters

Value	Count	Frequency (%)
비	5411	11.4%
수	3477	7.3%
료	2318	4.9%
익	1756	3.7%
기	1380	2.9%
용	1297	2.7%
대	1137	2.4%
리	981	2.1%
보	930	2.0%
험	884	1.9%
Other values (110)	27737	58.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	47308	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5411	11.4%
수	3477	7.3%
료	2318	4.9%
익	1756	3.7%
기	1380	2.9%
용	1297	2.7%
대	1137	2.4%
리	981	2.1%
보	930	2.0%
험	884	1.9%
Other values (110)	27737	58.6%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	47308	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5411	11.4%
수	3477	7.3%
료	2318	4.9%
익	1756	3.7%
기	1380	2.9%
용	1297	2.7%
대	1137	2.4%
리	981	2.1%
보	930	2.0%
험	884	1.9%
Other values (110)	27737	58.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	47308	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5411	11.4%
수	3477	7.3%
료	2318	4.9%
익	1756	3.7%
기	1380	2.9%
용	1297	2.7%
대	1137	2.4%
리	981	2.1%
보	930	2.0%
험	884	1.9%
Other values (110)	27737	58.6%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202302	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202302
2nd row	202302
3rd row	202302
4th row	202302
5th row	202302

Common Values

Value	Count	Frequency (%)
202302	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202302	10000	100.0%

금액
Real number (ℝ)

SKEWED ZEROS

Distinct	7506
Distinct (%)	75.1%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	4498065.3

Minimum	-1641320
Maximum	8.1540053 × 10⁸
Zeros	603
Zeros (%)	6.0%
Negative	7
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-1641320
5-th percentile	0
Q1	112880
median	388000
Q3	1685415
95-th percentile	21549663
Maximum	8.1540053 × 10⁸
Range	8.1704185 × 10⁸
Interquartile range (IQR)	1572535

Descriptive statistics

Standard deviation	19118615
Coefficient of variation (CV)	4.2504085
Kurtosis	696.6956
Mean	4498065.3
Median Absolute Deviation (MAD)	358000
Skewness	20.106084
Sum	4.4980653 × 10¹⁰
Variance	3.6552144 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	603	6.0%
200000	104	1.0%
100000	87	0.9%
300000	70	0.7%
150000	47	0.5%
78000	41	0.4%
50000	39	0.4%
110000	31	0.3%
500000	27	0.3%
250000	27	0.3%
Other values (7496)	8924	89.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-1641320	1	< 0.1%
-549170	1	< 0.1%
-276920	1	< 0.1%
-269110	1	< 0.1%
-240000	1	< 0.1%
-173830	1	< 0.1%
-104	1	< 0.1%
0	603	6.0%
1	1	< 0.1%
2	1	< 0.1%

Value	Count	Frequency (%)
815400530	1	< 0.1%
811006690	1	< 0.1%
375066224	1	< 0.1%
320390497	1	< 0.1%
306598670	1	< 0.1%
299683120	1	< 0.1%
279442580	1	< 0.1%
238206490	1	< 0.1%
224800800	1	< 0.1%
214550060	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.389
금액	0.389	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
22527	휘경동양1.2차	A13009001	보험료	202302	748730
82777	우장산한화꿈에그린	A15701004	승강기유지비	202302	726000
45942	정릉스카이쌍용	A13676504	업무추진비	202302	300000
23732	이문대우1차	A13082702	정화조관리비	202302	516800
61569	하계극동건영벽산	A13987306	고용안정사업수익	202302	0
46069	정릉1차e-편한세상	A13676703	세대수도료	202302	15196910
16787	서강GS	A12114001	통신비	202302	226380
61376	하계1차청구아파트	A13987205	회계감사비	202302	90750
83093	등촌IPARK	A15703204	연차수당	202302	1772070
12755	신당약수하이츠	A10045404	사무용품비	202302	184400

	아파트명	아파트코드	비용명	년월일	금액
5724	항동하버라인2단지	A10025387	소독비	202302	283500
92029	은평뉴타운우물골6단지	A41279917	충당부채전입이자비용	202302	0
77593	신도림현대	A15288803	입주자대표회의운영비	202302	250000
38905	강남신동아파밀리에2단지	A13519002	음식물처리비	202302	403410
7466	목동롯데캐슬 마에스트로	A10026023	제수당	202302	2408020
39378	수서삼익	A13522003	음식물처리비	202302	576900
63826	시티파크2단지	A14088201	세대난방비	202302	24014800
9094	서초푸르지오써밋	A10026941	급여	202302	34527150
71603	양평성원	A15086603	국민연금	202302	237460
21001	DMC자이1단지	A12275501	건강보험료	202302	431120

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample