gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1329 (13.3%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:55:57.879466
Analysis finished	2024-05-11 06:55:59.521063
Duration	1.64 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2104
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.215
Min length	2

Characters and Unicode

Total characters	72150
Distinct characters	428
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	1.0%

Sample

1st row	중계금호
2nd row	용산파크자이
3rd row	천호e-편한세상
4th row	방화12단지(중앙)
5th row	자양현대

Value	Count	Frequency (%)
아파트	165	1.5%
래미안	43	0.4%
아이파크	24	0.2%
신반포	22	0.2%
힐스테이트	20	0.2%
신내	18	0.2%
팰리스	14	0.1%
e편한세상	14	0.1%
고덕현대	14	0.1%
신반포한신5지구(12,13,18차	14	0.1%
Other values (2172)	10408	96.8%

Most occurring characters

Value	Count	Frequency (%)
아	2571	3.6%
파	2447	3.4%
트	2290	3.2%
대	1812	2.5%
동	1654	2.3%
지	1611	2.2%
차	1505	2.1%
이	1388	1.9%
신	1346	1.9%
성	1288	1.8%
Other values (418)	54238	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66137	91.7%
Decimal Number	3437	4.8%
Space Separator	847	1.2%
Uppercase Letter	682	0.9%
Lowercase Letter	416	0.6%
Open Punctuation	163	0.2%
Close Punctuation	163	0.2%
Dash Punctuation	151	0.2%
Other Punctuation	148	0.2%
Math Symbol	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2571	3.9%
파	2447	3.7%
트	2290	3.5%
대	1812	2.7%
동	1654	2.5%
지	1611	2.4%
차	1505	2.3%
이	1388	2.1%
신	1346	2.0%
성	1288	1.9%
Other values (372)	48225	72.9%

Uppercase Letter

Value	Count	Frequency (%)
C	110	16.1%
S	103	15.1%
D	83	12.2%
M	83	12.2%
K	72	10.6%
L	43	6.3%
H	42	6.2%
G	29	4.3%
I	27	4.0%
E	23	3.4%
Other values (7)	67	9.8%

Lowercase Letter

Value	Count	Frequency (%)
e	201	48.3%
l	48	11.5%
i	41	9.9%
v	29	7.0%
k	25	6.0%
s	23	5.5%
c	18	4.3%
w	10	2.4%
h	7	1.7%
a	7	1.7%

Decimal Number

Value	Count	Frequency (%)
2	1041	30.3%
1	1014	29.5%
3	451	13.1%
4	269	7.8%
5	195	5.7%
6	150	4.4%
7	89	2.6%
8	89	2.6%
9	83	2.4%
0	56	1.6%

Other Punctuation

Value	Count	Frequency (%)
,	127	85.8%
.	21	14.2%

Space Separator

Value	Count	Frequency (%)
	847	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	163	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	163	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	151	100.0%

Math Symbol

Value	Count	Frequency (%)
~	4	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66137	91.7%
Common	4913	6.8%
Latin	1100	1.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2571	3.9%
파	2447	3.7%
트	2290	3.5%
대	1812	2.7%
동	1654	2.5%
지	1611	2.4%
차	1505	2.3%
이	1388	2.1%
신	1346	2.0%
성	1288	1.9%
Other values (372)	48225	72.9%

Latin

Value	Count	Frequency (%)
e	201	18.3%
C	110	10.0%
S	103	9.4%
D	83	7.5%
M	83	7.5%
K	72	6.5%
l	48	4.4%
L	43	3.9%
H	42	3.8%
i	41	3.7%
Other values (19)	274	24.9%

Common

Value	Count	Frequency (%)
2	1041	21.2%
1	1014	20.6%
	847	17.2%
3	451	9.2%
4	269	5.5%
5	195	4.0%
(	163	3.3%
)	163	3.3%
-	151	3.1%
6	150	3.1%
Other values (7)	469	9.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66137	91.7%
ASCII	6011	8.3%
Number Forms	2	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2571	3.9%
파	2447	3.7%
트	2290	3.5%
대	1812	2.7%
동	1654	2.5%
지	1611	2.4%
차	1505	2.3%
이	1388	2.1%
신	1346	2.0%
성	1288	1.9%
Other values (372)	48225	72.9%

ASCII

Value	Count	Frequency (%)
2	1041	17.3%
1	1014	16.9%
	847	14.1%
3	451	7.5%
4	269	4.5%
e	201	3.3%
5	195	3.2%
(	163	2.7%
)	163	2.7%
-	151	2.5%
Other values (35)	1516	25.2%

Number Forms

Value	Count	Frequency (%)
Ⅰ	2	100.0%

아파트코드
Text

Distinct	2111
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	97 ?
Unique (%)	1.0%

Sample

1st row	A13922904
2nd row	A14075201
3rd row	A13402202
4th row	A15777501
5th row	A14319003

Value	Count	Frequency (%)
a13790726	14	0.1%
a13872504	13	0.1%
a10025245	13	0.1%
a15209203	12	0.1%
a15105008	12	0.1%
a15606002	12	0.1%
a14006001	12	0.1%
a15703301	11	0.1%
a15284101	11	0.1%
a13703027	11	0.1%
Other values (2101)	9879	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18890	21.0%
1	17584	19.5%
A	10000	11.1%
3	8936	9.9%
2	8246	9.2%
5	6178	6.9%
8	5519	6.1%
7	4550	5.1%
4	3794	4.2%
6	3499	3.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18890	23.6%
1	17584	22.0%
3	8936	11.2%
2	8246	10.3%
5	6178	7.7%
8	5519	6.9%
7	4550	5.7%
4	3794	4.7%
6	3499	4.4%
9	2804	3.5%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18890	23.6%
1	17584	22.0%
3	8936	11.2%
2	8246	10.3%
5	6178	7.7%
8	5519	6.9%
7	4550	5.7%
4	3794	4.7%
6	3499	4.4%
9	2804	3.5%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18890	21.0%
1	17584	19.5%
A	10000	11.1%
3	8936	9.9%
2	8246	9.2%
5	6178	6.9%
8	5519	6.1%
7	4550	5.1%
4	3794	4.2%
6	3499	3.9%

비용명
Text

Distinct	87
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.9218
Min length	2

Characters and Unicode

Total characters	49218
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	1 ?
Unique (%)	< 0.1%

Sample

1st row	공동수도료
2nd row	입주자대표회의운영비
3rd row	잡수익
4th row	퇴직급여
5th row	제수당

Value	Count	Frequency (%)
경비비	220	2.2%
소독비	219	2.2%
사무용품비	218	2.2%
수선유지비	210	2.1%
통신비	210	2.1%
도서인쇄비	208	2.1%
연체료수익	208	2.1%
입주자대표회의운영비	206	2.1%
승강기유지비	205	2.1%
이자수익	205	2.1%
Other values (77)	7891	78.9%

Most occurring characters

Value	Count	Frequency (%)
비	5453	11.1%
수	3615	7.3%
료	2076	4.2%
익	2070	4.2%
용	1787	3.6%
기	1301	2.6%
대	1030	2.1%
리	872	1.8%
보	804	1.6%
험	760	1.5%
Other values (110)	29450	59.8%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	49218	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5453	11.1%
수	3615	7.3%
료	2076	4.2%
익	2070	4.2%
용	1787	3.6%
기	1301	2.6%
대	1030	2.1%
리	872	1.8%
보	804	1.6%
험	760	1.5%
Other values (110)	29450	59.8%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	49218	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5453	11.1%
수	3615	7.3%
료	2076	4.2%
익	2070	4.2%
용	1787	3.6%
기	1301	2.6%
대	1030	2.1%
리	872	1.8%
보	804	1.6%
험	760	1.5%
Other values (110)	29450	59.8%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	49218	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5453	11.1%
수	3615	7.3%
료	2076	4.2%
익	2070	4.2%
용	1787	3.6%
기	1301	2.6%
대	1030	2.1%
리	872	1.8%
보	804	1.6%
험	760	1.5%
Other values (110)	29450	59.8%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202009	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202009
2nd row	202009
3rd row	202009
4th row	202009
5th row	202009

Common Values

Value	Count	Frequency (%)
202009	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202009	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6787
Distinct (%)	67.9%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2820248.3

Minimum	-1.5238409 × 10⁸
Maximum	2.6898382 × 10⁸
Zeros	1329
Zeros (%)	13.3%
Negative	15
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-1.5238409 × 10⁸
5-th percentile	0
Q1	53724
median	300000
Q3	1252961.5
95-th percentile	14005270
Maximum	2.6898382 × 10⁸
Range	4.2136791 × 10⁸
Interquartile range (IQR)	1199237.5

Descriptive statistics

Standard deviation	10150224
Coefficient of variation (CV)	3.5990533
Kurtosis	163.72918
Mean	2820248.3
Median Absolute Deviation (MAD)	300000
Skewness	9.4887116
Sum	2.8202483 × 10¹⁰
Variance	1.0302704 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1329	13.3%
100000	83	0.8%
200000	81	0.8%
38000	77	0.8%
300000	60	0.6%
150000	42	0.4%
116000	40	0.4%
250000	36	0.4%
110000	29	0.3%
400000	29	0.3%
Other values (6777)	8194	81.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-152384092	1	< 0.1%
-25368749	1	< 0.1%
-11718200	1	< 0.1%
-8230383	1	< 0.1%
-4886510	1	< 0.1%
-3389300	1	< 0.1%
-683500	1	< 0.1%
-500000	1	< 0.1%
-450000	1	< 0.1%
-275057	1	< 0.1%

Value	Count	Frequency (%)
268983820	1	< 0.1%
251681830	1	< 0.1%
217931740	1	< 0.1%
174712945	1	< 0.1%
164233260	1	< 0.1%
160034000	1	< 0.1%
158103628	1	< 0.1%
131735740	1	< 0.1%
122075710	1	< 0.1%
119486150	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.517
금액	0.517	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
62299	중계금호	A13922904	공동수도료	202009	76320
70223	용산파크자이	A14075201	입주자대표회의운영비	202009	1827390
36912	천호e-편한세상	A13402202	잡수익	202009	14800
95831	방화12단지(중앙)	A15777501	퇴직급여	202009	1439220
72549	자양현대	A14319003	제수당	202009	1068680
9612	강남 한신휴플러스 6단지	A10027912	광고료수익	202009	120000
80142	신림2차푸르지오	A15101503	승강기유지비	202009	1158850
36145	성수우방2차	A13383301	세금과공과	202009	0
16731	메세나폴리스	A12174601	보험료	202009	1578750
89214	상도sh-ville	A15603004	세금과공과	202009	12470

	아파트명	아파트코드	비용명	년월일	금액
14649	홍은현대	A12084504	회계감사비	202009	142300
50786	롯데캐슬갤럭시2차	A13703019	연체료수익	202009	6050
22234	답십리동아	A13003406	정화조관리비	202009	1170790
86898	신도림대림7차e-편한세상	A15288807	회계감사비	202009	82500
92353	상도쌍용	A15683901	세대전기료	202009	19907574
80646	보라매삼성	A15105004	공동수도료	202009	974490
30878	방학동부센트레빌	A13272102	퇴직급여	202009	726964
88987	대방경남아너스빌	A15602001	경비비	202009	4770600
78971	신길우성3차아파트	A15086004	자치활동비	202009	100000
65382	상계주공12단지	A13982202	급여	202009	38068010

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Math Symbol

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample