gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2336 (23.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:55:38.503180
Analysis finished	2024-05-11 05:55:39.441148
Duration	0.94 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2248
Distinct (%)	22.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.4022
Min length	2

Characters and Unicode

Total characters	74022
Distinct characters	431
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	127 ?
Unique (%)	1.3%

Sample

1st row	롯데캐슬아이비
2nd row	한남하이츠
3rd row	면목늘푸른동아아파트
4th row	서울숲2차푸르지오임대
5th row	래미안트리베라1차

Value	Count	Frequency (%)
아파트	177	1.6%
래미안	39	0.4%
e편한세상	24	0.2%
아이파크	23	0.2%
sk뷰	17	0.2%
해모로	16	0.1%
힐스테이트	16	0.1%
경남아너스빌	15	0.1%
길음뉴타운	14	0.1%
북한산	14	0.1%
Other values (2333)	10466	96.7%

Most occurring characters

Value	Count	Frequency (%)
아	2566	3.5%
파	2507	3.4%
트	2388	3.2%
지	1785	2.4%
대	1726	2.3%
동	1660	2.2%
차	1497	2.0%
신	1433	1.9%
이	1431	1.9%
단	1389	1.9%
Other values (421)	55640	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67772	91.6%
Decimal Number	3656	4.9%
Space Separator	903	1.2%
Uppercase Letter	839	1.1%
Lowercase Letter	282	0.4%
Open Punctuation	155	0.2%
Close Punctuation	155	0.2%
Dash Punctuation	130	0.2%
Other Punctuation	125	0.2%
Letter Number	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2566	3.8%
파	2507	3.7%
트	2388	3.5%
지	1785	2.6%
대	1726	2.5%
동	1660	2.4%
차	1497	2.2%
신	1433	2.1%
이	1431	2.1%
단	1389	2.0%
Other values (377)	49390	72.9%

Uppercase Letter

Value	Count	Frequency (%)
S	145	17.3%
C	113	13.5%
K	104	12.4%
M	87	10.4%
D	87	10.4%
H	49	5.8%
L	48	5.7%
I	42	5.0%
E	41	4.9%
V	26	3.1%
Other values (7)	97	11.6%

Decimal Number

Value	Count	Frequency (%)
1	1089	29.8%
2	1077	29.5%
3	470	12.9%
4	277	7.6%
5	229	6.3%
6	161	4.4%
7	104	2.8%
9	94	2.6%
8	83	2.3%
0	72	2.0%

Lowercase Letter

Value	Count	Frequency (%)
e	177	62.8%
i	19	6.7%
k	19	6.7%
l	16	5.7%
s	15	5.3%
v	13	4.6%
c	8	2.8%
w	7	2.5%
a	4	1.4%
g	4	1.4%

Other Punctuation

Value	Count	Frequency (%)
,	98	78.4%
.	27	21.6%

Space Separator

Value	Count	Frequency (%)
	903	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	155	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	155	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	130	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67772	91.6%
Common	5124	6.9%
Latin	1126	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2566	3.8%
파	2507	3.7%
트	2388	3.5%
지	1785	2.6%
대	1726	2.5%
동	1660	2.4%
차	1497	2.2%
신	1433	2.1%
이	1431	2.1%
단	1389	2.0%
Other values (377)	49390	72.9%

Latin

Value	Count	Frequency (%)
e	177	15.7%
S	145	12.9%
C	113	10.0%
K	104	9.2%
M	87	7.7%
D	87	7.7%
H	49	4.4%
L	48	4.3%
I	42	3.7%
E	41	3.6%
Other values (18)	233	20.7%

Common

Value	Count	Frequency (%)
1	1089	21.3%
2	1077	21.0%
	903	17.6%
3	470	9.2%
4	277	5.4%
5	229	4.5%
6	161	3.1%
(	155	3.0%
)	155	3.0%
-	130	2.5%
Other values (6)	478	9.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67772	91.6%
ASCII	6245	8.4%
Number Forms	5	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2566	3.8%
파	2507	3.7%
트	2388	3.5%
지	1785	2.6%
대	1726	2.5%
동	1660	2.4%
차	1497	2.2%
신	1433	2.1%
이	1431	2.1%
단	1389	2.0%
Other values (377)	49390	72.9%

ASCII

Value	Count	Frequency (%)
1	1089	17.4%
2	1077	17.2%
	903	14.5%
3	470	7.5%
4	277	4.4%
5	229	3.7%
e	177	2.8%
6	161	2.6%
(	155	2.5%
)	155	2.5%
Other values (33)	1552	24.9%

Number Forms

Value	Count	Frequency (%)
Ⅰ	5	100.0%

아파트코드
Text

Distinct	2253
Distinct (%)	22.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	127 ?
Unique (%)	1.3%

Sample

1st row	A15088915
2nd row	A13375901
3rd row	A13183504
4th row	A13378103
5th row	A14272309

Value	Count	Frequency (%)
a12012203	12	0.1%
a13986306	11	0.1%
a15277302	11	0.1%
a13204510	11	0.1%
a15178201	11	0.1%
a15678103	11	0.1%
a14086001	11	0.1%
a13610003	11	0.1%
a13410006	11	0.1%
a15179701	10	0.1%
Other values (2243)	9890	98.9%

Most occurring characters

Value	Count	Frequency (%)
0	18439	20.5%
1	17415	19.4%
A	9983	11.1%
3	8768	9.7%
2	8404	9.3%
5	6196	6.9%
8	5549	6.2%
7	4707	5.2%
4	4084	4.5%
6	3427	3.8%
Other values (2)	3028	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18439	23.0%
1	17415	21.8%
3	8768	11.0%
2	8404	10.5%
5	6196	7.7%
8	5549	6.9%
7	4707	5.9%
4	4084	5.1%
6	3427	4.3%
9	3011	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9983	99.8%
B	17	0.2%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18439	23.0%
1	17415	21.8%
3	8768	11.0%
2	8404	10.5%
5	6196	7.7%
8	5549	6.9%
7	4707	5.9%
4	4084	5.1%
6	3427	4.3%
9	3011	3.8%

Latin

Value	Count	Frequency (%)
A	9983	99.8%
B	17	0.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18439	20.5%
1	17415	19.4%
A	9983	11.1%
3	8768	9.7%
2	8404	9.3%
5	6196	6.9%
8	5549	6.2%
7	4707	5.2%
4	4084	4.5%
6	3427	3.8%
Other values (2)	3028	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	5.9304
Min length	2

Characters and Unicode

Total characters	59304
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	수선유지비충당부채
2nd row	전신전화가입권
3rd row	미지급금
4th row	안전진단비충당부채
5th row	장기수선충당부채

Value	Count	Frequency (%)
비품	320	3.2%
장기수선충당예금	319	3.2%
퇴직급여충당부채	319	3.2%
미처분이익잉여금	315	3.1%
선급비용	314	3.1%
예금	313	3.1%
관리비미수금	306	3.1%
예수금	305	3.0%
연차수당충당부채	303	3.0%
당기순이익	301	3.0%
Other values (67)	6885	68.8%

Most occurring characters

Value	Count	Frequency (%)
금	4678	7.9%
당	3804	6.4%
수	3168	5.3%
비	3034	5.1%
충	3006	5.1%
부	2864	4.8%
채	2577	4.3%
기	2434	4.1%
선	1878	3.2%
예	1780	3.0%
Other values (97)	30081	50.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59304	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4678	7.9%
당	3804	6.4%
수	3168	5.3%
비	3034	5.1%
충	3006	5.1%
부	2864	4.8%
채	2577	4.3%
기	2434	4.1%
선	1878	3.2%
예	1780	3.0%
Other values (97)	30081	50.7%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59304	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4678	7.9%
당	3804	6.4%
수	3168	5.3%
비	3034	5.1%
충	3006	5.1%
부	2864	4.8%
채	2577	4.3%
기	2434	4.1%
선	1878	3.2%
예	1780	3.0%
Other values (97)	30081	50.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59304	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4678	7.9%
당	3804	6.4%
수	3168	5.3%
비	3034	5.1%
충	3006	5.1%
부	2864	4.8%
채	2577	4.3%
기	2434	4.1%
선	1878	3.2%
예	1780	3.0%
Other values (97)	30081	50.7%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202303	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202303
2nd row	202303
3rd row	202303
4th row	202303
5th row	202303

Common Values

Value	Count	Frequency (%)
202303	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202303	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7342
Distinct (%)	73.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	78772942

Minimum	-3.758759 × 10⁸
Maximum	1.6079052 × 10¹⁰
Zeros	2336
Zeros (%)	23.4%
Negative	325
Negative (%)	3.2%
Memory size	166.0 KiB

Quantile statistics

Minimum	-3.758759 × 10⁸
5-th percentile	0
Q1	0
median	3015638
Q3	35228410
95-th percentile	3.8693145 × 10⁸
Maximum	1.6079052 × 10¹⁰
Range	1.6454928 × 10¹⁰
Interquartile range (IQR)	35228410

Descriptive statistics

Standard deviation	3.3253583 × 10⁸
Coefficient of variation (CV)	4.2214474
Kurtosis	624.94763
Mean	78772942
Median Absolute Deviation (MAD)	3015638
Skewness	17.894021
Sum	7.8772942 × 10¹¹
Variance	1.1058008 × 10¹⁷
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2336	23.4%
500000	27	0.3%
250000	19	0.2%
300000	18	0.2%
484000	15	0.1%
242000	14	0.1%
5000000	13	0.1%
1000000	13	0.1%
20000000	12	0.1%
200000	11	0.1%
Other values (7332)	7522	75.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-375875896	1	< 0.1%
-322714222	1	< 0.1%
-200435790	1	< 0.1%
-188894300	1	< 0.1%
-147908370	1	< 0.1%
-146871400	1	< 0.1%
-146061190	1	< 0.1%
-140474971	1	< 0.1%
-138136348	1	< 0.1%
-135649720	1	< 0.1%

Value	Count	Frequency (%)
16079052029	1	< 0.1%
7278051186	1	< 0.1%
6835355038	1	< 0.1%
5641618667	1	< 0.1%
5560181075	1	< 0.1%
5141654741	1	< 0.1%
5101420333	1	< 0.1%
4608025703	1	< 0.1%
4476478414	1	< 0.1%
3944348839	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.277
금액	0.277	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
56521	롯데캐슬아이비	A15088915	수선유지비충당부채	202303	32559055
25466	한남하이츠	A13375901	전신전화가입권	202303	0
20110	면목늘푸른동아아파트	A13183504	미지급금	202303	65720870
25977	서울숲2차푸르지오임대	A13378103	안전진단비충당부채	202303	593820
51216	래미안트리베라1차	A14272309	장기수선충당부채	202303	330348671
17016	용두두산위브	A13007001	미지급금	202303	55257846
54526	문래삼환	A15009402	비품	202303	11320880
3811	래미안퍼스트하이	A10025245	수선유지비충당부채	202303	0
54211	포레나 신길	A15005501	연차수당충당부채	202303	24640140
57313	관악푸르지오제2단지	A15105301	장기수선충당예금	202303	0

	아파트명	아파트코드	비용명	년월일	금액
62361	남서울 무지개	A15383905	미지급금	202303	122156049
31377	도곡삼성	A13527004	미수수익	202303	671530
60508	신구로현대	A15283902	일반관리비충당부채	202303	0
10272	독립문파크빌	A12008001	기타충당예금	202303	0
30469	압구정신현대	A13511004	기타유형자산	202303	9360990
11856	월드컵현대	A12081602	선수수도료	202303	4476850
12186	삼성래미안공덕2차	A12102008	기타당좌자산	202303	0
8921	롯데캐슬베네치아	A10044002	미지급금	202303	238355894
25128	성수금호3차	A13311101	당기순이익	202303	18734525
29563	역삼경남	A13508002	미수관리비예치금	202303	0

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample