gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2446 (24.5%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 05:56:37.294456
Analysis finished	2024-05-11 05:56:38.487962
Duration	1.19 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2212
Distinct (%)	22.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.476
Min length	2

Characters and Unicode

Total characters	74760
Distinct characters	437
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	125 ?
Unique (%)	1.2%

Sample

1st row	자양더샵스타시티
2nd row	송천센트레빌
3rd row	래미안길음1차
4th row	돈암코오롱하늘채아파트
5th row	대림우성

Value	Count	Frequency (%)
아파트	180	1.7%
래미안	41	0.4%
e편한세상	23	0.2%
푸르지오	20	0.2%
신반포	18	0.2%
힐스테이트	17	0.2%
경남아너스빌	14	0.1%
래미안밤섬리베뉴	14	0.1%
이편한세상	14	0.1%
북한산	14	0.1%
Other values (2293)	10487	96.7%

Most occurring characters

Value	Count	Frequency (%)
파	2667	3.6%
아	2603	3.5%
트	2469	3.3%
지	1900	2.5%
대	1696	2.3%
동	1621	2.2%
단	1496	2.0%
이	1448	1.9%
차	1432	1.9%
신	1402	1.9%
Other values (427)	56026	74.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	68394	91.5%
Decimal Number	3699	4.9%
Space Separator	916	1.2%
Uppercase Letter	841	1.1%
Lowercase Letter	334	0.4%
Close Punctuation	164	0.2%
Open Punctuation	164	0.2%
Other Punctuation	131	0.2%
Dash Punctuation	113	0.2%
Letter Number	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
파	2667	3.9%
아	2603	3.8%
트	2469	3.6%
지	1900	2.8%
대	1696	2.5%
동	1621	2.4%
단	1496	2.2%
이	1448	2.1%
차	1432	2.1%
신	1402	2.0%
Other values (382)	49660	72.6%

Uppercase Letter

Value	Count	Frequency (%)
S	139	16.5%
C	129	15.3%
K	105	12.5%
D	90	10.7%
M	90	10.7%
H	43	5.1%
E	41	4.9%
I	38	4.5%
L	33	3.9%
A	27	3.2%
Other values (7)	106	12.6%

Lowercase Letter

Value	Count	Frequency (%)
e	196	58.7%
l	34	10.2%
i	24	7.2%
v	20	6.0%
s	20	6.0%
k	15	4.5%
h	9	2.7%
c	8	2.4%
w	6	1.8%
g	1	0.3%

Decimal Number

Value	Count	Frequency (%)
1	1117	30.2%
2	1057	28.6%
3	505	13.7%
4	259	7.0%
5	204	5.5%
6	175	4.7%
8	113	3.1%
7	99	2.7%
9	87	2.4%
0	83	2.2%

Other Punctuation

Value	Count	Frequency (%)
,	89	67.9%
.	42	32.1%

Space Separator

Value	Count	Frequency (%)
	916	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	164	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	164	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	113	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	68394	91.5%
Common	5187	6.9%
Latin	1179	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
파	2667	3.9%
아	2603	3.8%
트	2469	3.6%
지	1900	2.8%
대	1696	2.5%
동	1621	2.4%
단	1496	2.2%
이	1448	2.1%
차	1432	2.1%
신	1402	2.0%
Other values (382)	49660	72.6%

Latin

Value	Count	Frequency (%)
e	196	16.6%
S	139	11.8%
C	129	10.9%
K	105	8.9%
D	90	7.6%
M	90	7.6%
H	43	3.6%
E	41	3.5%
I	38	3.2%
l	34	2.9%
Other values (19)	274	23.2%

Common

Value	Count	Frequency (%)
1	1117	21.5%
2	1057	20.4%
	916	17.7%
3	505	9.7%
4	259	5.0%
5	204	3.9%
6	175	3.4%
)	164	3.2%
(	164	3.2%
-	113	2.2%
Other values (6)	513	9.9%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	68394	91.5%
ASCII	6362	8.5%
Number Forms	4	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
파	2667	3.9%
아	2603	3.8%
트	2469	3.6%
지	1900	2.8%
대	1696	2.5%
동	1621	2.4%
단	1496	2.2%
이	1448	2.1%
차	1432	2.1%
신	1402	2.0%
Other values (382)	49660	72.6%

ASCII

Value	Count	Frequency (%)
1	1117	17.6%
2	1057	16.6%
	916	14.4%
3	505	7.9%
4	259	4.1%
5	204	3.2%
e	196	3.1%
6	175	2.8%
)	164	2.6%
(	164	2.6%
Other values (34)	1605	25.2%

Number Forms

Value	Count	Frequency (%)
Ⅰ	4	100.0%

아파트코드
Text

Distinct	2216
Distinct (%)	22.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	125 ?
Unique (%)	1.2%

Sample

1st row	A14319012
2nd row	A14272313
3rd row	A13611103
4th row	A10027227
5th row	A15081503

Value	Count	Frequency (%)
a12175203	13	0.1%
a13821004	12	0.1%
a13613005	12	0.1%
a41279902	12	0.1%
a13984411	12	0.1%
a13003404	11	0.1%
a11005401	11	0.1%
a15080002	11	0.1%
a13201001	11	0.1%
a12282203	11	0.1%
Other values (2206)	9884	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18432	20.5%
1	17467	19.4%
A	9990	11.1%
3	8673	9.6%
2	8463	9.4%
5	6247	6.9%
8	5540	6.2%
7	4733	5.3%
4	4025	4.5%
6	3340	3.7%
Other values (2)	3090	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18432	23.0%
1	17467	21.8%
3	8673	10.8%
2	8463	10.6%
5	6247	7.8%
8	5540	6.9%
7	4733	5.9%
4	4025	5.0%
6	3340	4.2%
9	3080	3.9%

Uppercase Letter

Value	Count	Frequency (%)
A	9990	99.9%
B	10	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18432	23.0%
1	17467	21.8%
3	8673	10.8%
2	8463	10.6%
5	6247	7.8%
8	5540	6.9%
7	4733	5.9%
4	4025	5.0%
6	3340	4.2%
9	3080	3.9%

Latin

Value	Count	Frequency (%)
A	9990	99.9%
B	10	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18432	20.5%
1	17467	19.4%
A	9990	11.1%
3	8673	9.6%
2	8463	9.4%
5	6247	6.9%
8	5540	6.2%
7	4733	5.3%
4	4025	4.5%
6	3340	3.7%
Other values (2)	3090	3.4%

비용명
Text

Distinct	76
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	10
Mean length	6.0115
Min length	2

Characters and Unicode

Total characters	60115
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	장기수선충당예금
2nd row	선급금
3rd row	선수전기료
4th row	기타유동부채
5th row	당기순이익

Value	Count	Frequency (%)
선급비용	331	3.3%
연차수당충당부채	329	3.3%
장기수선충당부채	314	3.1%
예금	312	3.1%
장기수선충당예금	311	3.1%
당기순이익	305	3.0%
관리비미수금	301	3.0%
미부과관리비	300	3.0%
퇴직급여충당부채	296	3.0%
가수금	290	2.9%
Other values (66)	6911	69.1%

Most occurring characters

Value	Count	Frequency (%)
금	4502	7.5%
당	3969	6.6%
수	3148	5.2%
충	3120	5.2%
비	3047	5.1%
부	3040	5.1%
채	2729	4.5%
기	2638	4.4%
선	1937	3.2%
예	1717	2.9%
Other values (97)	30268	50.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	60115	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4502	7.5%
당	3969	6.6%
수	3148	5.2%
충	3120	5.2%
비	3047	5.1%
부	3040	5.1%
채	2729	4.5%
기	2638	4.4%
선	1937	3.2%
예	1717	2.9%
Other values (97)	30268	50.4%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	60115	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4502	7.5%
당	3969	6.6%
수	3148	5.2%
충	3120	5.2%
비	3047	5.1%
부	3040	5.1%
채	2729	4.5%
기	2638	4.4%
선	1937	3.2%
예	1717	2.9%
Other values (97)	30268	50.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	60115	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4502	7.5%
당	3969	6.6%
수	3148	5.2%
충	3120	5.2%
비	3047	5.1%
부	3040	5.1%
채	2729	4.5%
기	2638	4.4%
선	1937	3.2%
예	1717	2.9%
Other values (97)	30268	50.4%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202311	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202311
2nd row	202311
3rd row	202311
4th row	202311
5th row	202311

Common Values

Value	Count	Frequency (%)
202311	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202311	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7256
Distinct (%)	72.6%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	88797885

Minimum	-3.9409171 × 10⁸
Maximum	8.995747 × 10⁹
Zeros	2446
Zeros (%)	24.5%
Negative	326
Negative (%)	3.3%
Memory size	166.0 KiB

Quantile statistics

Minimum	-3.9409171 × 10⁸
5-th percentile	0
Q1	0
median	3608138.5
Q3	42267833
95-th percentile	4.1742639 × 10⁸
Maximum	8.995747 × 10⁹
Range	9.3898388 × 10⁹
Interquartile range (IQR)	42267833

Descriptive statistics

Standard deviation	3.5265359 × 10⁸
Coefficient of variation (CV)	3.9714188
Kurtosis	180.40305
Mean	88797885
Median Absolute Deviation (MAD)	3608138.5
Skewness	10.994588
Sum	8.8797885 × 10¹¹
Variance	1.2436455 × 10¹⁷
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2446	24.5%
500000	24	0.2%
300000	20	0.2%
250000	17	0.2%
200000	11	0.1%
1000000	9	0.1%
242000	8	0.1%
100000	7	0.1%
2000000	7	0.1%
150000	6	0.1%
Other values (7246)	7445	74.5%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-394091708	1	< 0.1%
-367281481	1	< 0.1%
-352289016	1	< 0.1%
-251753019	1	< 0.1%
-251455294	1	< 0.1%
-210103430	1	< 0.1%
-195908810	1	< 0.1%
-172559270	1	< 0.1%
-157013545	1	< 0.1%
-143720850	1	< 0.1%

Value	Count	Frequency (%)
8995747044	1	< 0.1%
8933443544	1	< 0.1%
7252814199	2	< 0.1%
6965151036	1	< 0.1%
5789484606	1	< 0.1%
5602258778	1	< 0.1%
4928123207	1	< 0.1%
4890372456	1	< 0.1%
4843110091	1	< 0.1%
4589919675	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.470
금액	0.470	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
50991	자양더샵스타시티	A14319012	장기수선충당예금	202311	4021877732
50372	송천센트레빌	A14272313	선급금	202311	722200
34476	래미안길음1차	A13611103	선수전기료	202311	0
6964	돈암코오롱하늘채아파트	A10027227	기타유동부채	202311	0
54592	대림우성	A15081503	당기순이익	202311	72475630
58632	고척LIG리가아파트	A15279402	선수난방비	202311	0
5259	반포써밋	A10026015	선수전기료	202311	186840
3031	반포센트럴자이아파트	A10024913	단기보증금	202311	4203000
30860	우성캐릭터199 아파트	A13527003	장기수선충당예금	202311	1379420600
10611	홍제유원하나	A12009304	기타유형자산	202311	0

	아파트명	아파트코드	비용명	년월일	금액
5705	e편한세상신촌아파트	A10026370	퇴직급여충당부채	202311	215631406
66542	가양9-1	A15781002	예금	202311	205882291
44407	공릉태릉우성	A13980009	주차장충당예금	202311	0
40170	문정래미안	A13820006	현금	202311	334230
47365	중계무지개아파트	A13986504	기타유동부채	202311	-12471260
47835	상계동아불암	A13989701	가수금	202311	829120
7629	상도2차 두산위브트레지움 아파트	A10027633	선수전기료	202311	0
3654	북한산 두산 위브	A10025166	장기수선충당예금	202311	256340249
10546	인왕산벽산아파트	A12009302	선수전기료	202311	202610
66074	화곡초록	A15770801	미수금	202311	241055

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample