gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2325 (23.2%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:58:04.987598
Analysis finished	2024-05-11 05:58:06.657244
Duration	1.67 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2239
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.3154
Min length	2

Characters and Unicode

Total characters	73154
Distinct characters	433
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	135 ?
Unique (%)	1.4%

Sample

1st row	월계주공2단지
2nd row	신정이펜하우스1단지(총세대 기준)
3rd row	삼성래미안공덕4차
4th row	신창세방리버하이빌
5th row	중계무지개아파트

Value	Count	Frequency (%)
아파트	151	1.4%
래미안	43	0.4%
e편한세상	22	0.2%
아이파크	22	0.2%
상계수락파크빌	15	0.1%
마포자이	15	0.1%
고덕	14	0.1%
푸르지오	14	0.1%
경남아너스빌	14	0.1%
북한산	14	0.1%
Other values (2319)	10405	97.0%

Most occurring characters

Value	Count	Frequency (%)
아	2545	3.5%
파	2510	3.4%
트	2324	3.2%
지	1780	2.4%
대	1709	2.3%
동	1665	2.3%
차	1431	2.0%
신	1420	1.9%
단	1383	1.9%
이	1375	1.9%
Other values (423)	55012	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67164	91.8%
Decimal Number	3495	4.8%
Uppercase Letter	858	1.2%
Space Separator	802	1.1%
Lowercase Letter	333	0.5%
Open Punctuation	141	0.2%
Close Punctuation	141	0.2%
Dash Punctuation	126	0.2%
Other Punctuation	87	0.1%
Letter Number	7	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2545	3.8%
파	2510	3.7%
트	2324	3.5%
지	1780	2.7%
대	1709	2.5%
동	1665	2.5%
차	1431	2.1%
신	1420	2.1%
단	1383	2.1%
이	1375	2.0%
Other values (378)	49022	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	123	14.3%
C	119	13.9%
K	109	12.7%
D	81	9.4%
M	81	9.4%
L	63	7.3%
I	52	6.1%
E	40	4.7%
H	39	4.5%
G	36	4.2%
Other values (7)	115	13.4%

Lowercase Letter

Value	Count	Frequency (%)
e	210	63.1%
l	25	7.5%
i	22	6.6%
s	17	5.1%
v	16	4.8%
k	15	4.5%
h	8	2.4%
w	8	2.4%
c	6	1.8%
a	3	0.9%

Decimal Number

Value	Count	Frequency (%)
1	1087	31.1%
2	956	27.4%
3	443	12.7%
4	275	7.9%
5	210	6.0%
6	144	4.1%
7	127	3.6%
8	89	2.5%
9	83	2.4%
0	81	2.3%

Other Punctuation

Value	Count	Frequency (%)
,	67	77.0%
.	20	23.0%

Space Separator

Value	Count	Frequency (%)
	802	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	141	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	141	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	126	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	7	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67164	91.8%
Common	4792	6.6%
Latin	1198	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2545	3.8%
파	2510	3.7%
트	2324	3.5%
지	1780	2.7%
대	1709	2.5%
동	1665	2.5%
차	1431	2.1%
신	1420	2.1%
단	1383	2.1%
이	1375	2.0%
Other values (378)	49022	73.0%

Latin

Value	Count	Frequency (%)
e	210	17.5%
S	123	10.3%
C	119	9.9%
K	109	9.1%
D	81	6.8%
M	81	6.8%
L	63	5.3%
I	52	4.3%
E	40	3.3%
H	39	3.3%
Other values (19)	281	23.5%

Common

Value	Count	Frequency (%)
1	1087	22.7%
2	956	19.9%
	802	16.7%
3	443	9.2%
4	275	5.7%
5	210	4.4%
6	144	3.0%
(	141	2.9%
)	141	2.9%
7	127	2.7%
Other values (6)	466	9.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67164	91.8%
ASCII	5983	8.2%
Number Forms	7	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2545	3.8%
파	2510	3.7%
트	2324	3.5%
지	1780	2.7%
대	1709	2.5%
동	1665	2.5%
차	1431	2.1%
신	1420	2.1%
단	1383	2.1%
이	1375	2.0%
Other values (378)	49022	73.0%

ASCII

Value	Count	Frequency (%)
1	1087	18.2%
2	956	16.0%
	802	13.4%
3	443	7.4%
4	275	4.6%
e	210	3.5%
5	210	3.5%
6	144	2.4%
(	141	2.4%
)	141	2.4%
Other values (34)	1574	26.3%

Number Forms

Value	Count	Frequency (%)
Ⅰ	7	100.0%

아파트코드
Text

Distinct	2244
Distinct (%)	22.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	135 ?
Unique (%)	1.4%

Sample

1st row	A13984814
2nd row	A15870701
3rd row	A12170601
4th row	A14006001
5th row	A13986504

Value	Count	Frequency (%)
a13983810	15	0.1%
a15609305	13	0.1%
a13986504	12	0.1%
a15603203	12	0.1%
a15703204	12	0.1%
a14272313	12	0.1%
a12170601	11	0.1%
a15205301	11	0.1%
a13821004	10	0.1%
a13677401	10	0.1%
Other values (2234)	9882	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18463	20.5%
1	17515	19.5%
A	9993	11.1%
3	8885	9.9%
2	8345	9.3%
5	6207	6.9%
8	5635	6.3%
7	4592	5.1%
4	4090	4.5%
6	3255	3.6%
Other values (2)	3020	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18463	23.1%
1	17515	21.9%
3	8885	11.1%
2	8345	10.4%
5	6207	7.8%
8	5635	7.0%
7	4592	5.7%
4	4090	5.1%
6	3255	4.1%
9	3013	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9993	99.9%
B	7	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18463	23.1%
1	17515	21.9%
3	8885	11.1%
2	8345	10.4%
5	6207	7.8%
8	5635	7.0%
7	4592	5.7%
4	4090	5.1%
6	3255	4.1%
9	3013	3.8%

Latin

Value	Count	Frequency (%)
A	9993	99.9%
B	7	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18463	20.5%
1	17515	19.5%
A	9993	11.1%
3	8885	9.9%
2	8345	9.3%
5	6207	6.9%
8	5635	6.3%
7	4592	5.1%
4	4090	4.5%
6	3255	3.6%
Other values (2)	3020	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	5.92
Min length	2

Characters and Unicode

Total characters	59200
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	기타유형자산감가상각누계액
2nd row	시설보수충당부채
3rd row	관리비미수금
4th row	가지급금
5th row	기타투자자산

Value	Count	Frequency (%)
예수금	340	3.4%
예금	334	3.3%
미처분이익잉여금	328	3.3%
당기순이익	326	3.3%
선급비용	315	3.1%
공동주택적립금	311	3.1%
연차수당충당부채	308	3.1%
장기수선충당부채	306	3.1%
관리비미수금	303	3.0%
퇴직급여충당부채	292	2.9%
Other values (67)	6837	68.4%

Most occurring characters

Value	Count	Frequency (%)
금	4655	7.9%
당	3836	6.5%
수	3222	5.4%
충	3010	5.1%
비	2915	4.9%
부	2888	4.9%
채	2590	4.4%
기	2484	4.2%
선	1918	3.2%
예	1790	3.0%
Other values (97)	29892	50.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59200	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4655	7.9%
당	3836	6.5%
수	3222	5.4%
충	3010	5.1%
비	2915	4.9%
부	2888	4.9%
채	2590	4.4%
기	2484	4.2%
선	1918	3.2%
예	1790	3.0%
Other values (97)	29892	50.5%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59200	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4655	7.9%
당	3836	6.5%
수	3222	5.4%
충	3010	5.1%
비	2915	4.9%
부	2888	4.9%
채	2590	4.4%
기	2484	4.2%
선	1918	3.2%
예	1790	3.0%
Other values (97)	29892	50.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59200	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4655	7.9%
당	3836	6.5%
수	3222	5.4%
충	3010	5.1%
비	2915	4.9%
부	2888	4.9%
채	2590	4.4%
기	2484	4.2%
선	1918	3.2%
예	1790	3.0%
Other values (97)	29892	50.5%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202204	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202204
2nd row	202204
3rd row	202204
4th row	202204
5th row	202204

Common Values

Value	Count	Frequency (%)
202204	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202204	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7341
Distinct (%)	73.4%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	80057681

Minimum	-9.0793549 × 10⁸
Maximum	8.4784997 × 10⁹
Zeros	2325
Zeros (%)	23.2%
Negative	290
Negative (%)	2.9%
Memory size	166.0 KiB

Quantile statistics

Minimum	-9.0793549 × 10⁸
5-th percentile	0
Q1	0
median	3142490
Q3	37870709
95-th percentile	3.9360256 × 10⁸
Maximum	8.4784997 × 10⁹
Range	9.3864352 × 10⁹
Interquartile range (IQR)	37870709

Descriptive statistics

Standard deviation	3.1499409 × 10⁸
Coefficient of variation (CV)	3.9345893
Kurtosis	198.13172
Mean	80057681
Median Absolute Deviation (MAD)	3142490
Skewness	11.427159
Sum	8.0057681 × 10¹¹
Variance	9.9221278 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2325	23.2%
250000	22	0.2%
500000	22	0.2%
300000	17	0.2%
10000000	15	0.1%
2000000	13	0.1%
200000	12	0.1%
20000000	12	0.1%
3000000	10	0.1%
242000	10	0.1%
Other values (7331)	7542	75.4%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-907935489	1	< 0.1%
-311621827	1	< 0.1%
-154519681	1	< 0.1%
-140549450	1	< 0.1%
-133407205	1	< 0.1%
-117108394	1	< 0.1%
-105064837	1	< 0.1%
-102643070	1	< 0.1%
-98397820	1	< 0.1%
-96988750	1	< 0.1%

Value	Count	Frequency (%)
8478499741	1	< 0.1%
7406676518	1	< 0.1%
7318879438	1	< 0.1%
6764052522	1	< 0.1%
6429003861	1	< 0.1%
5552907513	1	< 0.1%
5111190543	1	< 0.1%
4957877933	1	< 0.1%
4651955395	1	< 0.1%
4480501285	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.632
금액	0.632	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
47104	월계주공2단지	A13984814	기타유형자산감가상각누계액	202204	0
70742	신정이펜하우스1단지(총세대 기준)	A15870701	시설보수충당부채	202204	0
12164	삼성래미안공덕4차	A12170601	관리비미수금	202204	33971934
49196	신창세방리버하이빌	A14006001	가지급금	202204	321550
47807	중계무지개아파트	A13986504	기타투자자산	202204	0
31838	대치쌍용2차	A13583402	기타유형자산감가상각누계액	202204	-2248900
65036	우장산에스케이뷰	A15701002	당기순이익	202204	8604586
72716	은평뉴타운제각말5단지제3관리사무소	A41279925	미수관리비예치금	202204	0
40213	래미안송파파인탑	A13817001	미부과관리비	202204	203793754
69809	신정명지해드는터	A15807202	미처분이익잉여금	202204	0

	아파트명	아파트코드	비용명	년월일	금액
43397	상계벽산	A13920506	주차장충당부채	202204	0
56374	신림2차푸르지오	A15101503	미부과관리비	202204	77708080
62575	상도동원베네스트	A15603001	장기수선충당부채	202204	121828177
5689	한남아이파크	A10027071	미지급비용	202204	497310
55250	대림현대2차	A15081602	미지급금	202204	18795881
26160	서울숲리버그린동아	A13385301	예금	202204	140675681
5705	래미안에스티움	A10027073	가지급금	202204	38437772
6396	강남더샵포레스트	A10027446	예수금	202204	4457780
60384	구로중앙하이츠아파트	A15285804	기타충당부채	202204	1887760
3127	백련산 sk뷰 아이파크	A10025310	관리비미수금	202204	54849340

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample