gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1182 (11.8%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:59:42.530047
Analysis finished	2024-05-11 06:59:44.986565
Duration	2.46 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2092
Distinct (%)	20.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1268
Min length	2

Characters and Unicode

Total characters	71268
Distinct characters	431
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	82 ?
Unique (%)	0.8%

Sample

1st row	상봉프레미어스엠코
2nd row	서강쌍용예가
3rd row	청담현대3차
4th row	가락대림아파트
5th row	신내건영2차아파트

Value	Count	Frequency (%)
아파트	119	1.1%
래미안	22	0.2%
입주자대표회의	15	0.1%
경남아너스빌	15	0.1%
코오롱하늘채아파트	14	0.1%
힐스테이트	14	0.1%
신반포	12	0.1%
고덕현대	12	0.1%
신내5단지대림두산	12	0.1%
은평뉴타운상림마을6단지	12	0.1%
Other values (2146)	10257	97.6%

Most occurring characters

Value	Count	Frequency (%)
아	2224	3.1%
파	2107	3.0%
트	1886	2.6%
대	1877	2.6%
지	1791	2.5%
동	1742	2.4%
신	1548	2.2%
차	1503	2.1%
단	1411	2.0%
성	1361	1.9%
Other values (421)	53818	75.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65367	91.7%
Decimal Number	3812	5.3%
Uppercase Letter	693	1.0%
Space Separator	548	0.8%
Lowercase Letter	313	0.4%
Other Punctuation	143	0.2%
Dash Punctuation	130	0.2%
Open Punctuation	125	0.2%
Close Punctuation	125	0.2%
Letter Number	7	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2224	3.4%
파	2107	3.2%
트	1886	2.9%
대	1877	2.9%
지	1791	2.7%
동	1742	2.7%
신	1548	2.4%
차	1503	2.3%
단	1411	2.2%
성	1361	2.1%
Other values (375)	47917	73.3%

Uppercase Letter

Value	Count	Frequency (%)
S	121	17.5%
K	85	12.3%
C	74	10.7%
L	52	7.5%
D	49	7.1%
M	49	7.1%
G	43	6.2%
H	42	6.1%
I	41	5.9%
E	31	4.5%
Other values (7)	106	15.3%

Lowercase Letter

Value	Count	Frequency (%)
e	179	57.2%
l	34	10.9%
i	31	9.9%
v	23	7.3%
w	12	3.8%
k	10	3.2%
s	9	2.9%
c	8	2.6%
h	3	1.0%
a	2	0.6%

Decimal Number

Value	Count	Frequency (%)
1	1208	31.7%
2	1106	29.0%
3	478	12.5%
4	261	6.8%
5	236	6.2%
6	153	4.0%
9	98	2.6%
7	97	2.5%
8	89	2.3%
0	86	2.3%

Other Punctuation

Value	Count	Frequency (%)
,	132	92.3%
.	11	7.7%

Space Separator

Value	Count	Frequency (%)
	548	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	130	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	125	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	125	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	7	100.0%

Math Symbol

Value	Count	Frequency (%)
~	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65367	91.7%
Common	4888	6.9%
Latin	1013	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2224	3.4%
파	2107	3.2%
트	1886	2.9%
대	1877	2.9%
지	1791	2.7%
동	1742	2.7%
신	1548	2.4%
차	1503	2.3%
단	1411	2.2%
성	1361	2.1%
Other values (375)	47917	73.3%

Latin

Value	Count	Frequency (%)
e	179	17.7%
S	121	11.9%
K	85	8.4%
C	74	7.3%
L	52	5.1%
D	49	4.8%
M	49	4.8%
G	43	4.2%
H	42	4.1%
I	41	4.0%
Other values (19)	278	27.4%

Common

Value	Count	Frequency (%)
1	1208	24.7%
2	1106	22.6%
	548	11.2%
3	478	9.8%
4	261	5.3%
5	236	4.8%
6	153	3.1%
,	132	2.7%
-	130	2.7%
(	125	2.6%
Other values (7)	511	10.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65367	91.7%
ASCII	5894	8.3%
Number Forms	7	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2224	3.4%
파	2107	3.2%
트	1886	2.9%
대	1877	2.9%
지	1791	2.7%
동	1742	2.7%
신	1548	2.4%
차	1503	2.3%
단	1411	2.2%
성	1361	2.1%
Other values (375)	47917	73.3%

ASCII

Value	Count	Frequency (%)
1	1208	20.5%
2	1106	18.8%
	548	9.3%
3	478	8.1%
4	261	4.4%
5	236	4.0%
e	179	3.0%
6	153	2.6%
,	132	2.2%
-	130	2.2%
Other values (35)	1463	24.8%

Number Forms

Value	Count	Frequency (%)
Ⅰ	7	100.0%

아파트코드
Text

Distinct	2099
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	83 ?
Unique (%)	0.8%

Sample

1st row	A13122002
2nd row	A12119006
3rd row	A13510102
4th row	A13880204
5th row	A13185607

Value	Count	Frequency (%)
a13184610	12	0.1%
a12013003	12	0.1%
a15679109	11	0.1%
a15886507	11	0.1%
a13380104	11	0.1%
a15770801	11	0.1%
a13285503	11	0.1%
a15010502	11	0.1%
a13204510	11	0.1%
a15284603	11	0.1%
Other values (2089)	9888	98.9%

Most occurring characters

Value	Count	Frequency (%)
0	18280	20.3%
1	17698	19.7%
A	9995	11.1%
3	8957	10.0%
2	8074	9.0%
5	6172	6.9%
8	5790	6.4%
7	4813	5.3%
4	3861	4.3%
6	3382	3.8%
Other values (2)	2978	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18280	22.9%
1	17698	22.1%
3	8957	11.2%
2	8074	10.1%
5	6172	7.7%
8	5790	7.2%
7	4813	6.0%
4	3861	4.8%
6	3382	4.2%
9	2973	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9995	> 99.9%
B	5	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18280	22.9%
1	17698	22.1%
3	8957	11.2%
2	8074	10.1%
5	6172	7.7%
8	5790	7.2%
7	4813	6.0%
4	3861	4.8%
6	3382	4.2%
9	2973	3.7%

Latin

Value	Count	Frequency (%)
A	9995	> 99.9%
B	5	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18280	20.3%
1	17698	19.7%
A	9995	11.1%
3	8957	10.0%
2	8074	9.0%
5	6172	6.9%
8	5790	6.4%
7	4813	5.3%
4	3861	4.3%
6	3382	3.8%
Other values (2)	2978	3.3%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8465
Min length	2

Characters and Unicode

Total characters	48465
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	잡수익
2nd row	수선유지비
3rd row	입주자대표회의운영비
4th row	사무용품비
5th row	상여

Value	Count	Frequency (%)
소독비	229	2.3%
사무용품비	229	2.3%
퇴직급여	228	2.3%
청소비	224	2.2%
이자수익	221	2.2%
소모품비	221	2.2%
세대전기료	218	2.2%
수선유지비	216	2.2%
잡수익	215	2.1%
교육비	215	2.1%
Other values (77)	7784	77.8%

Most occurring characters

Value	Count	Frequency (%)
비	5416	11.2%
수	3478	7.2%
료	2060	4.3%
익	2003	4.1%
용	1750	3.6%
기	1279	2.6%
대	1065	2.2%
보	816	1.7%
리	802	1.7%
험	773	1.6%
Other values (110)	29023	59.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48465	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5416	11.2%
수	3478	7.2%
료	2060	4.3%
익	2003	4.1%
용	1750	3.6%
기	1279	2.6%
대	1065	2.2%
보	816	1.7%
리	802	1.7%
험	773	1.6%
Other values (110)	29023	59.9%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48465	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5416	11.2%
수	3478	7.2%
료	2060	4.3%
익	2003	4.1%
용	1750	3.6%
기	1279	2.6%
대	1065	2.2%
보	816	1.7%
리	802	1.7%
험	773	1.6%
Other values (110)	29023	59.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48465	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5416	11.2%
수	3478	7.2%
료	2060	4.3%
익	2003	4.1%
용	1750	3.6%
기	1279	2.6%
대	1065	2.2%
보	816	1.7%
리	802	1.7%
험	773	1.6%
Other values (110)	29023	59.9%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201905	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201905
2nd row	201905
3rd row	201905
4th row	201905
5th row	201905

Common Values

Value	Count	Frequency (%)
201905	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201905	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6997
Distinct (%)	70.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2957268.1

Minimum	-5559860
Maximum	4.1858527 × 10⁸
Zeros	1182
Zeros (%)	11.8%
Negative	14
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-5559860
5-th percentile	0
Q1	78275
median	320000
Q3	1407547.5
95-th percentile	14015565
Maximum	4.1858527 × 10⁸
Range	4.2414513 × 10⁸
Interquartile range (IQR)	1329272.5

Descriptive statistics

Standard deviation	11323770
Coefficient of variation (CV)	3.8291319
Kurtosis	369.84126
Mean	2957268.1
Median Absolute Deviation (MAD)	319260
Skewness	14.891137
Sum	2.9572681 × 10¹⁰
Variance	1.2822776 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1182	11.8%
200000	97	1.0%
100000	66	0.7%
300000	57	0.6%
150000	53	0.5%
250000	40	0.4%
500000	39	0.4%
30000	33	0.3%
400000	32	0.3%
50000	31	0.3%
Other values (6987)	8370	83.7%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-5559860	1	< 0.1%
-2039487	1	< 0.1%
-1298000	1	< 0.1%
-384260	1	< 0.1%
-48520	1	< 0.1%
-43670	2	< 0.1%
-21030	1	< 0.1%
-1035	1	< 0.1%
-70	1	< 0.1%
-30	1	< 0.1%

Value	Count	Frequency (%)
418585270	1	< 0.1%
343049240	1	< 0.1%
279724884	1	< 0.1%
249849105	1	< 0.1%
199340387	1	< 0.1%
175540305	1	< 0.1%
168550584	1	< 0.1%
167452960	1	< 0.1%
162487455	1	< 0.1%
161978290	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.285
금액	0.285	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
21359	상봉프레미어스엠코	A13122002	잡수익	201905	500
11381	서강쌍용예가	A12119006	수선유지비	201905	1874400
36088	청담현대3차	A13510102	입주자대표회의운영비	201905	250000
53088	가락대림아파트	A13880204	사무용품비	201905	20300
22973	신내건영2차아파트	A13185607	상여	201905	0
34378	성내코오롱	A13484102	입주자대표회의운영비	201905	200000
95319	은평뉴타운박석고개1단지	A41279910	기타운영수익	201905	2089000
27453	창동주공19단지	A13290107	소모품비	201905	428950
9169	DMC아이파크	A12013002	통신비	201905	55180
50681	오금대림	A13813008	퇴직급여	201905	1991900

	아파트명	아파트코드	비용명	년월일	금액
37372	수서가람	A13523003	세대난방비	201905	7042560
56066	중계주공5단지	A13922114	수도광열비	201905	4960
64863	번동솔그린	A14206307	소독비	201905	230000
25265	창동건영캐스빌	A13204203	임대료수익	201905	0
45546	반포자이	A13704104	피복비	201905	0
15642	신사한신휴플러스	A12208103	세대수도료	201905	5458710
24714	북한산코오롱하늘채	A13203002	장기수선비	201905	3773970
52451	장미3차	A13872504	잡비용	201905	0
36630	세곡리엔파크3단지	A13519003	연차수당	201905	644200
33555	둔촌현대3차	A13470504	국민연금	201905	116160

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample