gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` is highly skewed (γ1 = 28.94624167)	Skewed
`금액` has 2263 (22.6%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:56:44.764186
Analysis finished	2024-05-11 05:56:46.080335
Duration	1.32 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2210
Distinct (%)	22.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	19
Mean length	7.3798
Min length	2

Characters and Unicode

Total characters	73798
Distinct characters	437
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	113 ?
Unique (%)	1.1%

Sample

1st row	청담대림
2nd row	상봉듀오트리스
3rd row	금호어울림1차
4th row	강남한신휴플러스 8단지
5th row	롯데캐슬

Value	Count	Frequency (%)
아파트	166	1.5%
래미안	27	0.3%
e편한세상	25	0.2%
푸르지오	20	0.2%
은평뉴타운상림마을6단지	19	0.2%
아이파크	19	0.2%
경남아너스빌	18	0.2%
해모로	17	0.2%
래미안밤섬리베뉴	15	0.1%
북한산	15	0.1%
Other values (2292)	10417	96.8%

Most occurring characters

Value	Count	Frequency (%)
아	2585	3.5%
파	2482	3.4%
트	2326	3.2%
지	1866	2.5%
대	1772	2.4%
동	1685	2.3%
차	1559	2.1%
단	1476	2.0%
신	1450	2.0%
이	1413	1.9%
Other values (427)	55184	74.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67504	91.5%
Decimal Number	3789	5.1%
Space Separator	830	1.1%
Uppercase Letter	774	1.0%
Lowercase Letter	348	0.5%
Close Punctuation	147	0.2%
Open Punctuation	147	0.2%
Dash Punctuation	142	0.2%
Other Punctuation	113	0.2%
Letter Number	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2585	3.8%
파	2482	3.7%
트	2326	3.4%
지	1866	2.8%
대	1772	2.6%
동	1685	2.5%
차	1559	2.3%
단	1476	2.2%
신	1450	2.1%
이	1413	2.1%
Other values (382)	48890	72.4%

Uppercase Letter

Value	Count	Frequency (%)
S	125	16.1%
C	114	14.7%
K	92	11.9%
D	72	9.3%
M	72	9.3%
L	68	8.8%
H	60	7.8%
E	35	4.5%
I	32	4.1%
A	22	2.8%
Other values (7)	82	10.6%

Lowercase Letter

Value	Count	Frequency (%)
e	196	56.3%
i	30	8.6%
l	30	8.6%
v	20	5.7%
c	18	5.2%
k	16	4.6%
s	12	3.4%
w	9	2.6%
g	6	1.7%
a	6	1.7%

Decimal Number

Value	Count	Frequency (%)
1	1165	30.7%
2	1076	28.4%
3	504	13.3%
4	267	7.0%
5	222	5.9%
6	180	4.8%
7	118	3.1%
9	96	2.5%
8	92	2.4%
0	69	1.8%

Other Punctuation

Value	Count	Frequency (%)
,	88	77.9%
.	25	22.1%

Space Separator

Value	Count	Frequency (%)
	830	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	147	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	147	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	142	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67504	91.5%
Common	5168	7.0%
Latin	1126	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2585	3.8%
파	2482	3.7%
트	2326	3.4%
지	1866	2.8%
대	1772	2.6%
동	1685	2.5%
차	1559	2.3%
단	1476	2.2%
신	1450	2.1%
이	1413	2.1%
Other values (382)	48890	72.4%

Latin

Value	Count	Frequency (%)
e	196	17.4%
S	125	11.1%
C	114	10.1%
K	92	8.2%
D	72	6.4%
M	72	6.4%
L	68	6.0%
H	60	5.3%
E	35	3.1%
I	32	2.8%
Other values (19)	260	23.1%

Common

Value	Count	Frequency (%)
1	1165	22.5%
2	1076	20.8%
	830	16.1%
3	504	9.8%
4	267	5.2%
5	222	4.3%
6	180	3.5%
)	147	2.8%
(	147	2.8%
-	142	2.7%
Other values (6)	488	9.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67504	91.5%
ASCII	6290	8.5%
Number Forms	4	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2585	3.8%
파	2482	3.7%
트	2326	3.4%
지	1866	2.8%
대	1772	2.6%
동	1685	2.5%
차	1559	2.3%
단	1476	2.2%
신	1450	2.1%
이	1413	2.1%
Other values (382)	48890	72.4%

ASCII

Value	Count	Frequency (%)
1	1165	18.5%
2	1076	17.1%
	830	13.2%
3	504	8.0%
4	267	4.2%
5	222	3.5%
e	196	3.1%
6	180	2.9%
)	147	2.3%
(	147	2.3%
Other values (34)	1556	24.7%

Number Forms

Value	Count	Frequency (%)
Ⅰ	4	100.0%

아파트코드
Text

Distinct	2217
Distinct (%)	22.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	114 ?
Unique (%)	1.1%

Sample

1st row	A13510006
2nd row	A10027670
3rd row	A13812003
4th row	A10027909
5th row	A15807205

Value	Count	Frequency (%)
a12010202	14	0.1%
a13983811	13	0.1%
a12185303	12	0.1%
a15807601	12	0.1%
a15209305	12	0.1%
a12220001	11	0.1%
a13776301	11	0.1%
a15602001	11	0.1%
a12085303	11	0.1%
a11077101	11	0.1%
Other values (2207)	9882	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18333	20.4%
1	17569	19.5%
A	9996	11.1%
3	8761	9.7%
2	8275	9.2%
5	6215	6.9%
8	5717	6.4%
7	4730	5.3%
4	4059	4.5%
6	3338	3.7%
Other values (2)	3007	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18333	22.9%
1	17569	22.0%
3	8761	11.0%
2	8275	10.3%
5	6215	7.8%
8	5717	7.1%
7	4730	5.9%
4	4059	5.1%
6	3338	4.2%
9	3003	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9996	> 99.9%
B	4	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18333	22.9%
1	17569	22.0%
3	8761	11.0%
2	8275	10.3%
5	6215	7.8%
8	5717	7.1%
7	4730	5.9%
4	4059	5.1%
6	3338	4.2%
9	3003	3.8%

Latin

Value	Count	Frequency (%)
A	9996	> 99.9%
B	4	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18333	20.4%
1	17569	19.5%
A	9996	11.1%
3	8761	9.7%
2	8275	9.2%
5	6215	6.9%
8	5717	6.4%
7	4730	5.3%
4	4059	4.5%
6	3338	3.7%
Other values (2)	3007	3.3%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	6.0264
Min length	2

Characters and Unicode

Total characters	60264
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	주차장충당부채
2nd row	관리비예치금
3rd row	현금
4th row	현금
5th row	수선유지비충당부채

Value	Count	Frequency (%)
퇴직급여충당부채	333	3.3%
미처분이익잉여금	320	3.2%
장기수선충당부채	317	3.2%
예수금	313	3.1%
연차수당충당부채	307	3.1%
예금	306	3.1%
비품	305	3.0%
선급비용	295	2.9%
공동주택적립금	295	2.9%
당기순이익	292	2.9%
Other values (67)	6917	69.2%

Most occurring characters

Value	Count	Frequency (%)
금	4558	7.6%
당	3959	6.6%
충	3148	5.2%
수	3145	5.2%
비	3059	5.1%
부	3035	5.0%
채	2737	4.5%
기	2457	4.1%
선	1875	3.1%
예	1773	2.9%
Other values (97)	30518	50.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	60264	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4558	7.6%
당	3959	6.6%
충	3148	5.2%
수	3145	5.2%
비	3059	5.1%
부	3035	5.0%
채	2737	4.5%
기	2457	4.1%
선	1875	3.1%
예	1773	2.9%
Other values (97)	30518	50.6%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	60264	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4558	7.6%
당	3959	6.6%
충	3148	5.2%
수	3145	5.2%
비	3059	5.1%
부	3035	5.0%
채	2737	4.5%
기	2457	4.1%
선	1875	3.1%
예	1773	2.9%
Other values (97)	30518	50.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	60264	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4558	7.6%
당	3959	6.6%
충	3148	5.2%
수	3145	5.2%
비	3059	5.1%
부	3035	5.0%
채	2737	4.5%
기	2457	4.1%
선	1875	3.1%
예	1773	2.9%
Other values (97)	30518	50.6%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202201	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202201
2nd row	202201
3rd row	202201
4th row	202201
5th row	202201

Common Values

Value	Count	Frequency (%)
202201	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202201	10000	100.0%

금액
Real number (ℝ)

SKEWED ZEROS

Distinct	7419
Distinct (%)	74.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	79401132

Minimum	-2.8881651 × 10⁸
Maximum	2.2674316 × 10¹⁰
Zeros	2263
Zeros (%)	22.6%
Negative	366
Negative (%)	3.7%
Memory size	166.0 KiB

Quantile statistics

Minimum	-2.8881651 × 10⁸
5-th percentile	0
Q1	0
median	3222414
Q3	39620065
95-th percentile	3.751509 × 10⁸
Maximum	2.2674316 × 10¹⁰
Range	2.2963133 × 10¹⁰
Interquartile range (IQR)	39620065

Descriptive statistics

Standard deviation	3.7010666 × 10⁸
Coefficient of variation (CV)	4.6612265
Kurtosis	1508.8189
Mean	79401132
Median Absolute Deviation (MAD)	3222414
Skewness	28.946242
Sum	7.9401132 × 10¹¹
Variance	1.3697894 × 10¹⁷
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2263	22.6%
500000	24	0.2%
300000	20	0.2%
250000	18	0.2%
242000	16	0.2%
484000	10	0.1%
55000	10	0.1%
2000000	9	0.1%
30000000	9	0.1%
200000	9	0.1%
Other values (7409)	7612	76.1%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-288816510	1	< 0.1%
-261437990	1	< 0.1%
-258613552	1	< 0.1%
-247223594	1	< 0.1%
-195908810	1	< 0.1%
-190422700	1	< 0.1%
-139043880	1	< 0.1%
-130798052	1	< 0.1%
-113645208	1	< 0.1%
-104221160	1	< 0.1%

Value	Count	Frequency (%)
22674316027	1	< 0.1%
11665415223	1	< 0.1%
5141986238	1	< 0.1%
4618510216	1	< 0.1%
4187121542	1	< 0.1%
4090240000	1	< 0.1%
4036757193	1	< 0.1%
3868317160	1	< 0.1%
3811974595	1	< 0.1%
3626773009	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.171
금액	0.171	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
28866	청담대림	A13510006	주차장충당부채	202201	0
6433	상봉듀오트리스	A10027670	관리비예치금	202201	123093600
38818	금호어울림1차	A13812003	현금	202201	6070
7043	강남한신휴플러스 8단지	A10027909	현금	202201	256031
68128	롯데캐슬	A15807205	수선유지비충당부채	202201	0
14048	갈현현대아파트	A12205004	현금	202201	377840
69419	목동현대1차	A15882008	현금	202201	137600
67150	화곡중앙하이츠	A15788203	선수관리비	202201	115940000
4349	래미안로이파크아파트	A10026299	저장품	202201	667500
6380	상도2차 두산위브트레지움 아파트	A10027633	선급비용	202201	33648950

	아파트명	아파트코드	비용명	년월일	금액
50364	자양더샵스타시티	A14319012	예금	202201	1777651521
1608	로데오현대아파트	A10024814	연차수당충당부채	202201	3749660
47567	대우월드마크용산	A14001101	예금	202201	109593920
6792	DMC파크뷰자이아파트	A10027817	기타유동부채	202201	43237126
29653	수서삼성	A13522004	세대배부용비품	202201	1027000
62306	보라매삼성쉐르빌	A15672002	당기순이익	202201	1272612
45674	수락산벨리체아파트	A13983811	기타충당부채	202201	28180973
14329	은평뉴타운상림마을6단지 제1아파트(8단지 푸르지오)	A12220001	예금	202201	138607389
53065	양평동삼천리아파트	A15010303	수선유지비충당부채	202201	1203400
5789	파크하비오푸르지오아파트	A10027346	임대보증금	202201	50000000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample