gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2439 (24.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:56:07.905284
Analysis finished	2024-05-11 05:56:09.145683
Duration	1.24 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2250
Distinct (%)	22.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.4474
Min length	2

Characters and Unicode

Total characters	74474
Distinct characters	435
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	138 ?
Unique (%)	1.4%

Sample

1st row	래미안장위포레카운티아파트
2nd row	신반포4차
3rd row	신내9단지
4th row	둔촌동동아
5th row	광장신동아파밀리에

Value	Count	Frequency (%)
아파트	194	1.8%
래미안	53	0.5%
e편한세상	28	0.3%
경남아너스빌	22	0.2%
송파	20	0.2%
아이파크	19	0.2%
래미안밤섬리베뉴	15	0.1%
해모로	15	0.1%
푸르지오	15	0.1%
sk뷰	14	0.1%
Other values (2337)	10514	96.4%

Most occurring characters

Value	Count	Frequency (%)
아	2580	3.5%
파	2539	3.4%
트	2437	3.3%
지	1896	2.5%
동	1695	2.3%
대	1692	2.3%
신	1474	2.0%
단	1469	2.0%
이	1440	1.9%
차	1410	1.9%
Other values (425)	55842	75.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	68169	91.5%
Decimal Number	3582	4.8%
Space Separator	1010	1.4%
Uppercase Letter	920	1.2%
Lowercase Letter	302	0.4%
Open Punctuation	133	0.2%
Close Punctuation	133	0.2%
Dash Punctuation	109	0.1%
Other Punctuation	107	0.1%
Letter Number	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2580	3.8%
파	2539	3.7%
트	2437	3.6%
지	1896	2.8%
동	1695	2.5%
대	1692	2.5%
신	1474	2.2%
단	1469	2.2%
이	1440	2.1%
차	1410	2.1%
Other values (380)	49537	72.7%

Uppercase Letter

Value	Count	Frequency (%)
S	151	16.4%
K	123	13.4%
C	121	13.2%
D	85	9.2%
M	85	9.2%
L	60	6.5%
I	54	5.9%
E	51	5.5%
H	49	5.3%
V	35	3.8%
Other values (7)	106	11.5%

Lowercase Letter

Value	Count	Frequency (%)
e	192	63.6%
l	30	9.9%
i	20	6.6%
v	17	5.6%
s	15	5.0%
k	9	3.0%
h	8	2.6%
c	4	1.3%
w	3	1.0%
a	2	0.7%

Decimal Number

Value	Count	Frequency (%)
2	1034	28.9%
1	1032	28.8%
3	485	13.5%
4	268	7.5%
5	201	5.6%
6	167	4.7%
9	115	3.2%
7	108	3.0%
8	97	2.7%
0	75	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	83	77.6%
.	24	22.4%

Space Separator

Value	Count	Frequency (%)
	1010	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	133	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	133	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	109	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	9	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	68169	91.5%
Common	5074	6.8%
Latin	1231	1.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2580	3.8%
파	2539	3.7%
트	2437	3.6%
지	1896	2.8%
동	1695	2.5%
대	1692	2.5%
신	1474	2.2%
단	1469	2.2%
이	1440	2.1%
차	1410	2.1%
Other values (380)	49537	72.7%

Latin

Value	Count	Frequency (%)
e	192	15.6%
S	151	12.3%
K	123	10.0%
C	121	9.8%
D	85	6.9%
M	85	6.9%
L	60	4.9%
I	54	4.4%
E	51	4.1%
H	49	4.0%
Other values (19)	260	21.1%

Common

Value	Count	Frequency (%)
2	1034	20.4%
1	1032	20.3%
	1010	19.9%
3	485	9.6%
4	268	5.3%
5	201	4.0%
6	167	3.3%
(	133	2.6%
)	133	2.6%
9	115	2.3%
Other values (6)	496	9.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	68169	91.5%
ASCII	6296	8.5%
Number Forms	9	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2580	3.8%
파	2539	3.7%
트	2437	3.6%
지	1896	2.8%
동	1695	2.5%
대	1692	2.5%
신	1474	2.2%
단	1469	2.2%
이	1440	2.1%
차	1410	2.1%
Other values (380)	49537	72.7%

ASCII

Value	Count	Frequency (%)
2	1034	16.4%
1	1032	16.4%
	1010	16.0%
3	485	7.7%
4	268	4.3%
5	201	3.2%
e	192	3.0%
6	167	2.7%
S	151	2.4%
(	133	2.1%
Other values (34)	1623	25.8%

Number Forms

Value	Count	Frequency (%)
Ⅰ	9	100.0%

아파트코드
Text

Distinct	2254
Distinct (%)	22.5%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	139 ?
Unique (%)	1.4%

Sample

1st row	A10025461
2nd row	A13790828
3rd row	A13187305
4th row	A13406002
5th row	A14380605

Value	Count	Frequency (%)
a15792602	14	0.1%
a13380803	13	0.1%
a15089411	13	0.1%
a10026924	13	0.1%
a15805303	12	0.1%
a41279917	12	0.1%
a14272304	12	0.1%
a15721006	11	0.1%
a15722102	11	0.1%
a13006003	11	0.1%
Other values (2244)	9878	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18522	20.6%
1	17383	19.3%
A	9988	11.1%
3	8776	9.8%
2	8425	9.4%
5	6257	7.0%
8	5447	6.1%
7	4661	5.2%
4	4013	4.5%
6	3423	3.8%
Other values (2)	3105	3.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18522	23.2%
1	17383	21.7%
3	8776	11.0%
2	8425	10.5%
5	6257	7.8%
8	5447	6.8%
7	4661	5.8%
4	4013	5.0%
6	3423	4.3%
9	3093	3.9%

Uppercase Letter

Value	Count	Frequency (%)
A	9988	99.9%
B	12	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18522	23.2%
1	17383	21.7%
3	8776	11.0%
2	8425	10.5%
5	6257	7.8%
8	5447	6.8%
7	4661	5.8%
4	4013	5.0%
6	3423	4.3%
9	3093	3.9%

Latin

Value	Count	Frequency (%)
A	9988	99.9%
B	12	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18522	20.6%
1	17383	19.3%
A	9988	11.1%
3	8776	9.8%
2	8425	9.4%
5	6257	7.0%
8	5447	6.1%
7	4661	5.2%
4	4013	4.5%
6	3423	3.8%
Other values (2)	3105	3.5%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.9789
Min length	2

Characters and Unicode

Total characters	59789
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	당기순이익
2nd row	미수수익
3rd row	당기순이익
4th row	미처분이익잉여금
5th row	예수금

Value	Count	Frequency (%)
연차수당충당부채	323	3.2%
장기수선충당예금	315	3.1%
선급비용	314	3.1%
미처분이익잉여금	307	3.1%
관리비미수금	307	3.1%
비품	301	3.0%
당기순이익	300	3.0%
예수금	300	3.0%
공동주택적립금	298	3.0%
퇴직급여충당부채	293	2.9%
Other values (67)	6942	69.4%

Most occurring characters

Value	Count	Frequency (%)
금	4617	7.7%
당	3840	6.4%
수	3115	5.2%
충	3008	5.0%
비	3008	5.0%
부	2832	4.7%
채	2548	4.3%
기	2467	4.1%
선	1923	3.2%
예	1718	2.9%
Other values (97)	30713	51.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59789	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4617	7.7%
당	3840	6.4%
수	3115	5.2%
충	3008	5.0%
비	3008	5.0%
부	2832	4.7%
채	2548	4.3%
기	2467	4.1%
선	1923	3.2%
예	1718	2.9%
Other values (97)	30713	51.4%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59789	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4617	7.7%
당	3840	6.4%
수	3115	5.2%
충	3008	5.0%
비	3008	5.0%
부	2832	4.7%
채	2548	4.3%
기	2467	4.1%
선	1923	3.2%
예	1718	2.9%
Other values (97)	30713	51.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59789	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4617	7.7%
당	3840	6.4%
수	3115	5.2%
충	3008	5.0%
비	3008	5.0%
부	2832	4.7%
채	2548	4.3%
기	2467	4.1%
선	1923	3.2%
예	1718	2.9%
Other values (97)	30713	51.4%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202307	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202307
2nd row	202307
3rd row	202307
4th row	202307
5th row	202307

Common Values

Value	Count	Frequency (%)
202307	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202307	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7191
Distinct (%)	71.9%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	79015370

Minimum	-3.8900128 × 10⁸
Maximum	8.5835122 × 10⁹
Zeros	2439
Zeros (%)	24.4%
Negative	349
Negative (%)	3.5%
Memory size	166.0 KiB

Quantile statistics

Minimum	-3.8900128 × 10⁸
5-th percentile	0
Q1	0
median	2731579.5
Q3	36731885
95-th percentile	3.966876 × 10⁸
Maximum	8.5835122 × 10⁹
Range	8.9725135 × 10⁹
Interquartile range (IQR)	36731885

Descriptive statistics

Standard deviation	2.957669 × 10⁸
Coefficient of variation (CV)	3.7431566
Kurtosis	161.09316
Mean	79015370
Median Absolute Deviation (MAD)	2731579.5
Skewness	10.114869
Sum	7.901537 × 10¹¹
Variance	8.7478058 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2439	24.4%
500000	33	0.3%
250000	26	0.3%
300000	19	0.2%
1000000	17	0.2%
10000000	15	0.1%
100000	13	0.1%
484000	12	0.1%
200000	11	0.1%
242000	11	0.1%
Other values (7181)	7404	74.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-389001283	1	< 0.1%
-329973010	1	< 0.1%
-164694360	1	< 0.1%
-146871400	1	< 0.1%
-128171264	1	< 0.1%
-127089406	1	< 0.1%
-125288064	1	< 0.1%
-120316856	1	< 0.1%
-117966690	1	< 0.1%
-113580500	1	< 0.1%

Value	Count	Frequency (%)
8583512204	1	< 0.1%
6087730861	1	< 0.1%
5457108888	1	< 0.1%
5271660033	1	< 0.1%
4820644805	1	< 0.1%
4488118530	1	< 0.1%
4397557030	1	< 0.1%
3958199369	1	< 0.1%
3849821947	1	< 0.1%
3741998939	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.484
금액	0.484	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
4189	래미안장위포레카운티아파트	A10025461	당기순이익	202307	50396810
39618	신반포4차	A13790828	미수수익	202307	0
21197	신내9단지	A13187305	당기순이익	202307	39735837
27629	둔촌동동아	A13406002	미처분이익잉여금	202307	4904800
52488	광장신동아파밀리에	A14380605	예수금	202307	1184680
11219	DMC래미안e편한세상	A12013003	소프트웨어	202307	0
18073	대림아파트201동	A13079401	미부과관리비	202307	22091429
52603	광장삼성1,2차	A14381506	예금	202307	104108780
50145	원효산호	A14085002	시설보수충당부채	202307	94206
55415	래미안당산1차아파트	A15081001	연차수당충당부채	202307	12429488

	아파트명	아파트코드	비용명	년월일	금액
13949	마포태영아파트	A12181103	선급금	202307	8441230
9002	신당푸르지오	A10045001	수선유지비충당부채	202307	1795290
24287	창동성원	A13292701	공동주택적립금	202307	15053434
49075	대우월드마크용산	A14001101	주차장충당예금	202307	0
44433	중계한화꿈에그린	A13922905	예수금	202307	1942130
10791	홍은풍림2차	A12010103	미수수익	202307	0
70353	신트리4단지	A15807316	장기수선충당예금	202307	690166809
43115	송파현대힐스테이트	A13887901	청소비충당부채	202307	6388664
33649	돈암동일하이빌	A13603501	기타당좌자산	202307	0
20398	신내5단지대림두산	A13184610	저장품	202307	982190

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample