gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	4
Missing cells (%)	< 0.1%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1636 (16.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:51:39.588925
Analysis finished	2024-05-11 06:51:41.341694
Duration	1.75 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2129
Distinct (%)	21.3%
Missing	4
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	28
Median length	21
Mean length	7.3686475
Min length	2

Characters and Unicode

Total characters	73657
Distinct characters	429
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	99 ?
Unique (%)	1.0%

Sample

1st row	삼성동힐스테이트2단지
2nd row	상계현대2차
3rd row	정릉중앙하이츠
4th row	창동주공19단지
5th row	광진트라팰리스

Value	Count	Frequency (%)
아파트	198	1.8%
e편한세상	39	0.4%
래미안	36	0.3%
아이파크	24	0.2%
신반포	20	0.2%
북한산	18	0.2%
sk뷰	18	0.2%
푸르지오	17	0.2%
고덕	16	0.1%
송파	16	0.1%
Other values (2209)	10505	96.3%

Most occurring characters

Value	Count	Frequency (%)
아	2722	3.7%
파	2622	3.6%
트	2476	3.4%
대	1734	2.4%
지	1669	2.3%
이	1511	2.1%
동	1500	2.0%
차	1422	1.9%
신	1329	1.8%
단	1237	1.7%
Other values (419)	55435	75.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67496	91.6%
Decimal Number	3325	4.5%
Space Separator	1014	1.4%
Uppercase Letter	881	1.2%
Lowercase Letter	383	0.5%
Close Punctuation	153	0.2%
Open Punctuation	153	0.2%
Dash Punctuation	136	0.2%
Other Punctuation	108	0.1%
Letter Number	8	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2722	4.0%
파	2622	3.9%
트	2476	3.7%
대	1734	2.6%
지	1669	2.5%
이	1511	2.2%
동	1500	2.2%
차	1422	2.1%
신	1329	2.0%
단	1237	1.8%
Other values (374)	49274	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	140	15.9%
C	112	12.7%
K	105	11.9%
M	77	8.7%
D	77	8.7%
L	68	7.7%
H	62	7.0%
I	46	5.2%
E	42	4.8%
G	30	3.4%
Other values (7)	122	13.8%

Lowercase Letter

Value	Count	Frequency (%)
e	219	57.2%
l	37	9.7%
i	33	8.6%
v	25	6.5%
k	20	5.2%
s	19	5.0%
w	12	3.1%
c	8	2.1%
h	4	1.0%
a	3	0.8%

Decimal Number

Value	Count	Frequency (%)
2	998	30.0%
1	969	29.1%
3	466	14.0%
4	237	7.1%
5	176	5.3%
6	134	4.0%
7	118	3.5%
8	93	2.8%
9	78	2.3%
0	56	1.7%

Other Punctuation

Value	Count	Frequency (%)
,	89	82.4%
.	19	17.6%

Space Separator

Value	Count	Frequency (%)
	1014	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	153	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	153	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	136	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	8	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67496	91.6%
Common	4889	6.6%
Latin	1272	1.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2722	4.0%
파	2622	3.9%
트	2476	3.7%
대	1734	2.6%
지	1669	2.5%
이	1511	2.2%
동	1500	2.2%
차	1422	2.1%
신	1329	2.0%
단	1237	1.8%
Other values (374)	49274	73.0%

Latin

Value	Count	Frequency (%)
e	219	17.2%
S	140	11.0%
C	112	8.8%
K	105	8.3%
M	77	6.1%
D	77	6.1%
L	68	5.3%
H	62	4.9%
I	46	3.6%
E	42	3.3%
Other values (19)	324	25.5%

Common

Value	Count	Frequency (%)
	1014	20.7%
2	998	20.4%
1	969	19.8%
3	466	9.5%
4	237	4.8%
5	176	3.6%
)	153	3.1%
(	153	3.1%
-	136	2.8%
6	134	2.7%
Other values (6)	453	9.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67496	91.6%
ASCII	6153	8.4%
Number Forms	8	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2722	4.0%
파	2622	3.9%
트	2476	3.7%
대	1734	2.6%
지	1669	2.5%
이	1511	2.2%
동	1500	2.2%
차	1422	2.1%
신	1329	2.0%
단	1237	1.8%
Other values (374)	49274	73.0%

ASCII

Value	Count	Frequency (%)
	1014	16.5%
2	998	16.2%
1	969	15.7%
3	466	7.6%
4	237	3.9%
e	219	3.6%
5	176	2.9%
)	153	2.5%
(	153	2.5%
S	140	2.3%
Other values (34)	1628	26.5%

Number Forms

Value	Count	Frequency (%)
Ⅰ	8	100.0%

아파트코드
Text

Distinct	2134
Distinct (%)	21.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	99 ?
Unique (%)	1.0%

Sample

1st row	A13570501
2nd row	A13983709
3rd row	A13684701
4th row	A13290107
5th row	A14319305

Value	Count	Frequency (%)
a13204104	16	0.2%
a13593801	13	0.1%
a13611005	12	0.1%
a13384303	12	0.1%
a13276415	12	0.1%
a15780602	11	0.1%
a14003101	11	0.1%
a13981006	11	0.1%
a13009003	11	0.1%
a13570501	11	0.1%
Other values (2124)	9880	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	19073	21.2%
1	17417	19.4%
A	10000	11.1%
3	8980	10.0%
2	8513	9.5%
5	5961	6.6%
8	5247	5.8%
7	4523	5.0%
4	4057	4.5%
6	3361	3.7%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	19073	23.8%
1	17417	21.8%
3	8980	11.2%
2	8513	10.6%
5	5961	7.5%
8	5247	6.6%
7	4523	5.7%
4	4057	5.1%
6	3361	4.2%
9	2868	3.6%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	19073	23.8%
1	17417	21.8%
3	8980	11.2%
2	8513	10.6%
5	5961	7.5%
8	5247	6.6%
7	4523	5.7%
4	4057	5.1%
6	3361	4.2%
9	2868	3.6%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	19073	21.2%
1	17417	19.4%
A	10000	11.1%
3	8980	10.0%
2	8513	9.5%
5	5961	6.6%
8	5247	5.8%
7	4523	5.0%
4	4057	4.5%
6	3361	3.7%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8457
Min length	2

Characters and Unicode

Total characters	48457
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	사무용품비
2nd row	잡수익
3rd row	교통비
4th row	고용안정사업비용
5th row	교육비

Value	Count	Frequency (%)
급여	240	2.4%
경비비	222	2.2%
통신비	222	2.2%
퇴직급여	220	2.2%
교육비	210	2.1%
수선유지비	210	2.1%
세대전기료	207	2.1%
소독비	207	2.1%
잡수익	207	2.1%
도서인쇄비	206	2.1%
Other values (76)	7849	78.5%

Most occurring characters

Value	Count	Frequency (%)
비	5307	11.0%
수	3627	7.5%
익	2109	4.4%
료	2081	4.3%
용	1600	3.3%
기	1290	2.7%
대	1031	2.1%
리	838	1.7%
보	777	1.6%
험	732	1.5%
Other values (110)	29065	60.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48457	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5307	11.0%
수	3627	7.5%
익	2109	4.4%
료	2081	4.3%
용	1600	3.3%
기	1290	2.7%
대	1031	2.1%
리	838	1.7%
보	777	1.6%
험	732	1.5%
Other values (110)	29065	60.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48457	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5307	11.0%
수	3627	7.5%
익	2109	4.4%
료	2081	4.3%
용	1600	3.3%
기	1290	2.7%
대	1031	2.1%
리	838	1.7%
보	777	1.6%
험	732	1.5%
Other values (110)	29065	60.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48457	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5307	11.0%
수	3627	7.5%
익	2109	4.4%
료	2081	4.3%
용	1600	3.3%
기	1290	2.7%
대	1031	2.1%
리	838	1.7%
보	777	1.6%
험	732	1.5%
Other values (110)	29065	60.0%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202208	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202208
2nd row	202208
3rd row	202208
4th row	202208
5th row	202208

Common Values

Value	Count	Frequency (%)
202208	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202208	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6730
Distinct (%)	67.3%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3570848.1

Minimum	-32526190
Maximum	3.9829037 × 10⁸
Zeros	1636
Zeros (%)	16.4%
Negative	13
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-32526190
5-th percentile	0
Q1	41645
median	264940
Q3	1311227.5
95-th percentile	16698577
Maximum	3.9829037 × 10⁸
Range	4.3081656 × 10⁸
Interquartile range (IQR)	1269582.5

Descriptive statistics

Standard deviation	14939061
Coefficient of variation (CV)	4.1836172
Kurtosis	239.3391
Mean	3570848.1
Median Absolute Deviation (MAD)	264940
Skewness	12.819706
Sum	3.5708481 × 10¹⁰
Variance	2.2317556 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1636	16.4%
62500	91	0.9%
200000	77	0.8%
300000	58	0.6%
150000	49	0.5%
23000	48	0.5%
100000	44	0.4%
400000	37	0.4%
50000	35	0.4%
250000	30	0.3%
Other values (6720)	7895	79.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-32526190	1	< 0.1%
-3014970	1	< 0.1%
-1575000	1	< 0.1%
-1495140	1	< 0.1%
-1102700	1	< 0.1%
-576000	1	< 0.1%
-450000	1	< 0.1%
-164000	1	< 0.1%
-156880	1	< 0.1%
-100000	1	< 0.1%

Value	Count	Frequency (%)
398290368	1	< 0.1%
397223016	1	< 0.1%
382100490	1	< 0.1%
314974422	1	< 0.1%
302170630	1	< 0.1%
294100685	1	< 0.1%
261232360	1	< 0.1%
220344710	1	< 0.1%
217956555	1	< 0.1%
211760820	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.606
금액	0.606	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
46493	삼성동힐스테이트2단지	A13570501	사무용품비	202208	122100
68138	상계현대2차	A13983709	잡수익	202208	4180
53149	정릉중앙하이츠	A13684701	교통비	202208	12000
34878	창동주공19단지	A13290107	고용안정사업비용	202208	0
75178	광진트라팰리스	A14319305	교육비	202208	0
24654	답십리두산	A13003201	연체료수익	202208	94060
71876	후암미주	A14019001	퇴직급여	202208	894970
52308	정릉대우	A13676702	기타운영비용	202208	1069250
19290	공덕2삼성임대	A12170602	주차장수익	202208	1680000
61996	방이코오롱	A13883602	지급수수료	202208	0

	아파트명	아파트코드	비용명	년월일	금액
81507	양평경남2차아너스빌	A15086601	이자수익	202208	2768
48010	일원동 수서아파트	A13593801	국민연금	202208	947970
98084	강서센트레빌4차	A15781201	검침수익	202208	89410
32307	창동주공4단지	A13204104	기타운영비용	202208	0
32185	창동신도브래뉴	A13204002	부과차익	202208	310
34039	방학명품ESA1단지	A13285404	정화조관리비	202208	230000
93551	흑석한강센트레빌2차	A15679109	공동주택지원금수익	202208	0
55688	방배임광1,2차	A13785005	알뜰시장수익	202208	520000
88592	신도림현대	A15288803	국민연금	202208	224710
93600	대방우정	A15681103	교육비	202208	99000

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample