gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2404 (24.0%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:56:51.753698
Analysis finished	2024-05-11 05:56:52.895404
Duration	1.14 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2233
Distinct (%)	22.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.4124
Min length	2

Characters and Unicode

Total characters	74124
Distinct characters	436
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	108 ?
Unique (%)	1.1%

Sample

1st row	방배래미안
2nd row	힐스테이트청계
3rd row	디엠씨한양
4th row	길음뉴타운11단지 롯데캐슬골든힐스아파트
5th row	신내진로아파트

Value	Count	Frequency (%)
아파트	168	1.6%
래미안	40	0.4%
e편한세상	19	0.2%
sk뷰	17	0.2%
푸르지오	15	0.1%
강남한신휴플러스	15	0.1%
아이파크상도동	14	0.1%
아이파크	14	0.1%
송파	13	0.1%
북한산	13	0.1%
Other values (2314)	10451	97.0%

Most occurring characters

Value	Count	Frequency (%)
파	2514	3.4%
아	2474	3.3%
트	2316	3.1%
지	1881	2.5%
대	1763	2.4%
동	1671	2.3%
단	1479	2.0%
차	1462	2.0%
신	1434	1.9%
이	1364	1.8%
Other values (426)	55766	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67718	91.4%
Decimal Number	3688	5.0%
Uppercase Letter	940	1.3%
Space Separator	865	1.2%
Lowercase Letter	389	0.5%
Open Punctuation	143	0.2%
Close Punctuation	143	0.2%
Dash Punctuation	128	0.2%
Other Punctuation	101	0.1%
Letter Number	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
파	2514	3.7%
아	2474	3.7%
트	2316	3.4%
지	1881	2.8%
대	1763	2.6%
동	1671	2.5%
단	1479	2.2%
차	1462	2.2%
신	1434	2.1%
이	1364	2.0%
Other values (381)	49360	72.9%

Uppercase Letter

Value	Count	Frequency (%)
S	149	15.9%
C	143	15.2%
K	116	12.3%
D	100	10.6%
M	100	10.6%
L	61	6.5%
H	61	6.5%
I	43	4.6%
E	40	4.3%
V	31	3.3%
Other values (7)	96	10.2%

Lowercase Letter

Value	Count	Frequency (%)
e	178	45.8%
l	50	12.9%
i	46	11.8%
v	30	7.7%
k	19	4.9%
s	18	4.6%
c	14	3.6%
w	14	3.6%
a	7	1.8%
g	7	1.8%

Decimal Number

Value	Count	Frequency (%)
1	1135	30.8%
2	1024	27.8%
3	525	14.2%
4	247	6.7%
5	203	5.5%
6	180	4.9%
8	105	2.8%
9	96	2.6%
7	89	2.4%
0	84	2.3%

Other Punctuation

Value	Count	Frequency (%)
,	75	74.3%
.	26	25.7%

Space Separator

Value	Count	Frequency (%)
	865	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	143	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	143	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	128	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	9	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67718	91.4%
Common	5068	6.8%
Latin	1338	1.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
파	2514	3.7%
아	2474	3.7%
트	2316	3.4%
지	1881	2.8%
대	1763	2.6%
동	1671	2.5%
단	1479	2.2%
차	1462	2.2%
신	1434	2.1%
이	1364	2.0%
Other values (381)	49360	72.9%

Latin

Value	Count	Frequency (%)
e	178	13.3%
S	149	11.1%
C	143	10.7%
K	116	8.7%
D	100	7.5%
M	100	7.5%
L	61	4.6%
H	61	4.6%
l	50	3.7%
i	46	3.4%
Other values (19)	334	25.0%

Common

Value	Count	Frequency (%)
1	1135	22.4%
2	1024	20.2%
	865	17.1%
3	525	10.4%
4	247	4.9%
5	203	4.0%
6	180	3.6%
(	143	2.8%
)	143	2.8%
-	128	2.5%
Other values (6)	475	9.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67718	91.4%
ASCII	6397	8.6%
Number Forms	9	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
파	2514	3.7%
아	2474	3.7%
트	2316	3.4%
지	1881	2.8%
대	1763	2.6%
동	1671	2.5%
단	1479	2.2%
차	1462	2.2%
신	1434	2.1%
이	1364	2.0%
Other values (381)	49360	72.9%

ASCII

Value	Count	Frequency (%)
1	1135	17.7%
2	1024	16.0%
	865	13.5%
3	525	8.2%
4	247	3.9%
5	203	3.2%
6	180	2.8%
e	178	2.8%
S	149	2.3%
(	143	2.2%
Other values (34)	1748	27.3%

Number Forms

Value	Count	Frequency (%)
Ⅰ	9	100.0%

아파트코드
Text

Distinct	2238
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	109 ?
Unique (%)	1.1%

Sample

1st row	A13785301
2nd row	A10026104
3rd row	A12081703
4th row	A10025753
5th row	A13187203

Value	Count	Frequency (%)
a15603203	14	0.1%
a15788302	13	0.1%
a14075201	12	0.1%
a13204506	12	0.1%
a13876111	11	0.1%
a15010303	11	0.1%
a13986306	11	0.1%
a15601103	11	0.1%
a13922907	11	0.1%
a15205305	11	0.1%
Other values (2228)	9883	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18553	20.6%
1	17607	19.6%
A	9998	11.1%
3	8784	9.8%
2	8242	9.2%
5	6292	7.0%
8	5474	6.1%
7	4668	5.2%
4	3968	4.4%
6	3366	3.7%
Other values (2)	3048	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18553	23.2%
1	17607	22.0%
3	8784	11.0%
2	8242	10.3%
5	6292	7.9%
8	5474	6.8%
7	4668	5.8%
4	3968	5.0%
6	3366	4.2%
9	3046	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9998	> 99.9%
B	2	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18553	23.2%
1	17607	22.0%
3	8784	11.0%
2	8242	10.3%
5	6292	7.9%
8	5474	6.8%
7	4668	5.8%
4	3968	5.0%
6	3366	4.2%
9	3046	3.8%

Latin

Value	Count	Frequency (%)
A	9998	> 99.9%
B	2	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18553	20.6%
1	17607	19.6%
A	9998	11.1%
3	8784	9.8%
2	8242	9.2%
5	6292	7.0%
8	5474	6.1%
7	4668	5.2%
4	3968	4.4%
6	3366	3.7%
Other values (2)	3048	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	6.0174
Min length	2

Characters and Unicode

Total characters	60174
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	당기순이익
2nd row	비품감가상각누계액
3rd row	임차보증금
4th row	경비비충당부채
5th row	연차수당충당부채

Value	Count	Frequency (%)
당기순이익	330	3.3%
예수금	321	3.2%
장기수선충당부채	317	3.2%
미처분이익잉여금	314	3.1%
공동주택적립금	312	3.1%
관리비미수금	307	3.1%
연차수당충당부채	297	3.0%
퇴직급여충당부채	296	3.0%
비품	293	2.9%
장기수선충당예금	290	2.9%
Other values (67)	6923	69.2%

Most occurring characters

Value	Count	Frequency (%)
금	4616	7.7%
당	3850	6.4%
수	3175	5.3%
비	3057	5.1%
충	3038	5.0%
부	2930	4.9%
채	2631	4.4%
기	2567	4.3%
선	1924	3.2%
예	1752	2.9%
Other values (97)	30634	50.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	60174	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4616	7.7%
당	3850	6.4%
수	3175	5.3%
비	3057	5.1%
충	3038	5.0%
부	2930	4.9%
채	2631	4.4%
기	2567	4.3%
선	1924	3.2%
예	1752	2.9%
Other values (97)	30634	50.9%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	60174	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4616	7.7%
당	3850	6.4%
수	3175	5.3%
비	3057	5.1%
충	3038	5.0%
부	2930	4.9%
채	2631	4.4%
기	2567	4.3%
선	1924	3.2%
예	1752	2.9%
Other values (97)	30634	50.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	60174	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4616	7.7%
당	3850	6.4%
수	3175	5.3%
비	3057	5.1%
충	3038	5.0%
부	2930	4.9%
채	2631	4.4%
기	2567	4.3%
선	1924	3.2%
예	1752	2.9%
Other values (97)	30634	50.9%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202211	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202211
2nd row	202211
3rd row	202211
4th row	202211
5th row	202211

Common Values

Value	Count	Frequency (%)
202211	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202211	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7264
Distinct (%)	72.6%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	78442339

Minimum	-3.0480155 × 10⁸
Maximum	7.9696948 × 10⁹
Zeros	2404
Zeros (%)	24.0%
Negative	316
Negative (%)	3.2%
Memory size	166.0 KiB

Quantile statistics

Minimum	-3.0480155 × 10⁸
5-th percentile	0
Q1	0
median	3190293
Q3	35590695
95-th percentile	3.6519962 × 10⁸
Maximum	7.9696948 × 10⁹
Range	8.2744963 × 10⁹
Interquartile range (IQR)	35590695

Descriptive statistics

Standard deviation	3.1475446 × 10⁸
Coefficient of variation (CV)	4.0125583
Kurtosis	172.78921
Mean	78442339
Median Absolute Deviation (MAD)	3190293
Skewness	10.954263
Sum	7.8442339 × 10¹¹
Variance	9.9070371 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2404	24.0%
500000	30	0.3%
250000	25	0.2%
300000	14	0.1%
20000000	12	0.1%
1000000	12	0.1%
3000000	10	0.1%
484000	9	0.1%
30000000	9	0.1%
5000000	9	0.1%
Other values (7254)	7466	74.7%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-304801554	1	< 0.1%
-282000000	1	< 0.1%
-230922000	1	< 0.1%
-217586902	1	< 0.1%
-189646440	1	< 0.1%
-181655535	1	< 0.1%
-176217090	1	< 0.1%
-172538742	1	< 0.1%
-133996205	1	< 0.1%
-124133098	1	< 0.1%

Value	Count	Frequency (%)
7969694790	1	< 0.1%
6760034048	1	< 0.1%
6708736961	1	< 0.1%
6456490884	1	< 0.1%
5670790872	1	< 0.1%
5350536280	1	< 0.1%
4893464632	1	< 0.1%
4841359797	1	< 0.1%
4749517431	1	< 0.1%
4641096323	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.478
금액	0.478	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
37862	방배래미안	A13785301	당기순이익	202211	30570791
4691	힐스테이트청계	A10026104	비품감가상각누계액	202211	-18004480
11196	디엠씨한양	A12081703	임차보증금	202211	0
3970	길음뉴타운11단지 롯데캐슬골든힐스아파트	A10025753	경비비충당부채	202211	15461780
20304	신내진로아파트	A13187203	연차수당충당부채	202211	13276145
5157	꿈의숲코오롱하늘채아파트	A10026571	공동주택적립금	202211	42827106
32069	역삼럭키	A13585804	가수금	202211	235240
13337	망원2차대림	A12182401	수선유지비충당부채	202211	2104973
19334	면목늘푸른동아아파트	A13183504	기타의비유동부채	202211	0
37462	방배신삼호	A13782602	관리비예치금	202211	167349650

	아파트명	아파트코드	비용명	년월일	금액
15275	갈현한솔아파트	A12281801	기타의비유동부채	202211	0
43556	중계주공5단지	A13922114	비품	202211	53973280
70013	목동10단지	A15873701	예수금	202211	6473910
35474	정릉스카이쌍용	A13676504	주차장충당부채	202211	0
25463	래미안하이리버	A13380302	장기수선충당부채	202211	340365110
60855	남서울힐스테이트	A15370103	장기수선충당부채	202211	1202515593
21972	창동대동	A13204501	선급금	202211	311260
49454	청화아파트	A14086001	선수관리비	202211	115692000
65592	마곡푸르지오	A15722004	기타충당부채	202211	0
30684	역삼삼익	A13527006	예수금	202211	1649850

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample