gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2344 (23.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:00:53.179169
Analysis finished	2024-05-11 06:00:54.228342
Duration	1.05 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2076
Distinct (%)	20.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.2187
Min length	2

Characters and Unicode

Total characters	72187
Distinct characters	431
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	94 ?
Unique (%)	0.9%

Sample

1st row	고척동아한신
2nd row	중계그린
3rd row	은평지웰테라스
4th row	구로한일유엔아이
5th row	개봉삼호아파트관리사무소

Value	Count	Frequency (%)
아파트	99	0.9%
래미안	26	0.2%
힐스테이트	13	0.1%
래미안월곡	13	0.1%
마포삼성	12	0.1%
목동6단지	12	0.1%
입주자대표회의	12	0.1%
월드컵아이파크1단지	12	0.1%
고덕	12	0.1%
서울숲2차푸르지오임대	12	0.1%
Other values (2138)	10279	97.9%

Most occurring characters

Value	Count	Frequency (%)
아	2208	3.1%
파	2151	3.0%
트	1926	2.7%
지	1881	2.6%
대	1857	2.6%
동	1639	2.3%
차	1614	2.2%
신	1536	2.1%
단	1502	2.1%
성	1377	1.9%
Other values (421)	54496	75.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65964	91.4%
Decimal Number	3970	5.5%
Uppercase Letter	784	1.1%
Space Separator	562	0.8%
Lowercase Letter	345	0.5%
Close Punctuation	145	0.2%
Open Punctuation	145	0.2%
Dash Punctuation	130	0.2%
Other Punctuation	129	0.2%
Letter Number	8	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2208	3.3%
파	2151	3.3%
트	1926	2.9%
지	1881	2.9%
대	1857	2.8%
동	1639	2.5%
차	1614	2.4%
신	1536	2.3%
단	1502	2.3%
성	1377	2.1%
Other values (375)	48273	73.2%

Uppercase Letter

Value	Count	Frequency (%)
S	121	15.4%
K	110	14.0%
C	93	11.9%
D	60	7.7%
M	60	7.7%
L	55	7.0%
I	51	6.5%
E	40	5.1%
H	36	4.6%
G	31	4.0%
Other values (7)	127	16.2%

Lowercase Letter

Value	Count	Frequency (%)
e	180	52.2%
l	40	11.6%
i	35	10.1%
v	24	7.0%
k	12	3.5%
s	12	3.5%
c	12	3.5%
g	9	2.6%
a	9	2.6%
h	6	1.7%

Decimal Number

Value	Count	Frequency (%)
1	1231	31.0%
2	1156	29.1%
3	544	13.7%
4	276	7.0%
5	185	4.7%
6	180	4.5%
7	121	3.0%
0	98	2.5%
9	94	2.4%
8	85	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	104	80.6%
.	25	19.4%

Space Separator

Value	Count	Frequency (%)
	562	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	145	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	145	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	130	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	8	100.0%

Math Symbol

Value	Count	Frequency (%)
~	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65964	91.4%
Common	5086	7.0%
Latin	1137	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2208	3.3%
파	2151	3.3%
트	1926	2.9%
지	1881	2.9%
대	1857	2.8%
동	1639	2.5%
차	1614	2.4%
신	1536	2.3%
단	1502	2.3%
성	1377	2.1%
Other values (375)	48273	73.2%

Latin

Value	Count	Frequency (%)
e	180	15.8%
S	121	10.6%
K	110	9.7%
C	93	8.2%
D	60	5.3%
M	60	5.3%
L	55	4.8%
I	51	4.5%
E	40	3.5%
l	40	3.5%
Other values (19)	327	28.8%

Common

Value	Count	Frequency (%)
1	1231	24.2%
2	1156	22.7%
	562	11.0%
3	544	10.7%
4	276	5.4%
5	185	3.6%
6	180	3.5%
)	145	2.9%
(	145	2.9%
-	130	2.6%
Other values (7)	532	10.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65964	91.4%
ASCII	6215	8.6%
Number Forms	8	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2208	3.3%
파	2151	3.3%
트	1926	2.9%
지	1881	2.9%
대	1857	2.8%
동	1639	2.5%
차	1614	2.4%
신	1536	2.3%
단	1502	2.3%
성	1377	2.1%
Other values (375)	48273	73.2%

ASCII

Value	Count	Frequency (%)
1	1231	19.8%
2	1156	18.6%
	562	9.0%
3	544	8.8%
4	276	4.4%
5	185	3.0%
6	180	2.9%
e	180	2.9%
)	145	2.3%
(	145	2.3%
Other values (35)	1611	25.9%

Number Forms

Value	Count	Frequency (%)
Ⅰ	8	100.0%

아파트코드
Text

Distinct	2082
Distinct (%)	20.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	94 ?
Unique (%)	0.9%

Sample

1st row	A15283706
2nd row	A13986306
3rd row	A10026842
4th row	A15205104
5th row	A15209202

Value	Count	Frequency (%)
a13613007	13	0.1%
a13579506	12	0.1%
a41279905	12	0.1%
a12104005	12	0.1%
a12171101	12	0.1%
a12012202	12	0.1%
a15875103	12	0.1%
a13920804	12	0.1%
a15081002	11	0.1%
a13706001	11	0.1%
Other values (2072)	9881	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18206	20.2%
1	17621	19.6%
A	9987	11.1%
3	8831	9.8%
2	8151	9.1%
5	6299	7.0%
8	5774	6.4%
7	4852	5.4%
4	3781	4.2%
6	3437	3.8%
Other values (2)	3061	3.4%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18206	22.8%
1	17621	22.0%
3	8831	11.0%
2	8151	10.2%
5	6299	7.9%
8	5774	7.2%
7	4852	6.1%
4	3781	4.7%
6	3437	4.3%
9	3048	3.8%

Uppercase Letter

Value	Count	Frequency (%)
A	9987	99.9%
B	13	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18206	22.8%
1	17621	22.0%
3	8831	11.0%
2	8151	10.2%
5	6299	7.9%
8	5774	7.2%
7	4852	6.1%
4	3781	4.7%
6	3437	4.3%
9	3048	3.8%

Latin

Value	Count	Frequency (%)
A	9987	99.9%
B	13	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18206	20.2%
1	17621	19.6%
A	9987	11.1%
3	8831	9.8%
2	8151	9.1%
5	6299	7.0%
8	5774	6.4%
7	4852	5.4%
4	3781	4.2%
6	3437	3.8%
Other values (2)	3061	3.4%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	6.0387
Min length	2

Characters and Unicode

Total characters	60387
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	장기수선충당부채
2nd row	선급금
3rd row	장기수선충당예금
4th row	미지급비용
5th row	선급금

Value	Count	Frequency (%)
예금	328	3.3%
미처분이익잉여금	323	3.2%
선급비용	317	3.2%
퇴직급여충당부채	315	3.1%
장기수선충당예금	314	3.1%
수선유지비충당부채	311	3.1%
당기순이익	309	3.1%
미지급금	308	3.1%
연차수당충당부채	298	3.0%
장기수선충당부채	292	2.9%
Other values (67)	6885	68.8%

Most occurring characters

Value	Count	Frequency (%)
금	4662	7.7%
당	3847	6.4%
수	3266	5.4%
충	3162	5.2%
비	3024	5.0%
부	2979	4.9%
채	2704	4.5%
기	2376	3.9%
선	1978	3.3%
예	1793	3.0%
Other values (97)	30596	50.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	60387	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4662	7.7%
당	3847	6.4%
수	3266	5.4%
충	3162	5.2%
비	3024	5.0%
부	2979	4.9%
채	2704	4.5%
기	2376	3.9%
선	1978	3.3%
예	1793	3.0%
Other values (97)	30596	50.7%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	60387	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4662	7.7%
당	3847	6.4%
수	3266	5.4%
충	3162	5.2%
비	3024	5.0%
부	2979	4.9%
채	2704	4.5%
기	2376	3.9%
선	1978	3.3%
예	1793	3.0%
Other values (97)	30596	50.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	60387	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4662	7.7%
당	3847	6.4%
수	3266	5.4%
충	3162	5.2%
비	3024	5.0%
부	2979	4.9%
채	2704	4.5%
기	2376	3.9%
선	1978	3.3%
예	1793	3.0%
Other values (97)	30596	50.7%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201912	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201912
2nd row	201912
3rd row	201912
4th row	201912
5th row	201912

Common Values

Value	Count	Frequency (%)
201912	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201912	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7307
Distinct (%)	73.1%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	77079389

Minimum	-9.488935 × 10⁸
Maximum	7.8854545 × 10⁹
Zeros	2344
Zeros (%)	23.4%
Negative	336
Negative (%)	3.4%
Memory size	166.0 KiB

Quantile statistics

Minimum	-9.488935 × 10⁸
5-th percentile	0
Q1	0
median	3266224
Q3	37141852
95-th percentile	3.7729593 × 10⁸
Maximum	7.8854545 × 10⁹
Range	8.834348 × 10⁹
Interquartile range (IQR)	37141852

Descriptive statistics

Standard deviation	3.0489981 × 10⁸
Coefficient of variation (CV)	3.9556594
Kurtosis	189.69972
Mean	77079389
Median Absolute Deviation (MAD)	3266224
Skewness	11.378167
Sum	7.7079389 × 10¹¹
Variance	9.2963892 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2344	23.4%
500000	26	0.3%
250000	19	0.2%
200000	16	0.2%
30000000	12	0.1%
484000	11	0.1%
300000	11	0.1%
15000	11	0.1%
1000000	10	0.1%
2000000	10	0.1%
Other values (7297)	7530	75.3%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-948893502	1	< 0.1%
-425620475	1	< 0.1%
-153484580	1	< 0.1%
-147498761	1	< 0.1%
-118687890	1	< 0.1%
-112532600	1	< 0.1%
-89020065	1	< 0.1%
-88705225	1	< 0.1%
-83223130	1	< 0.1%
-80573670	1	< 0.1%

Value	Count	Frequency (%)
7885454519	1	< 0.1%
6855390795	1	< 0.1%
6347940798	1	< 0.1%
6196643966	1	< 0.1%
6109423224	1	< 0.1%
5627160542	1	< 0.1%
5620625369	1	< 0.1%
5347095040	1	< 0.1%
5329912476	1	< 0.1%
4892842102	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.434
금액	0.434	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
52272	고척동아한신	A15283706	장기수선충당부채	201912	261099700
41244	중계그린	A13986306	선급금	201912	9264980
1989	은평지웰테라스	A10026842	장기수선충당예금	201912	32427064
50451	구로한일유엔아이	A15205104	미지급비용	201912	51272960
51113	개봉삼호아파트관리사무소	A15209202	선급금	201912	0
63794	은평뉴타운상림마을7단지	A41279903	선수수도료	201912	39560
18581	쌍문삼익	A13286304	경비비충당부채	201912	117324227
26443	역삼2차아이파크	A13579503	기타충당예금	201912	0
4437	신당푸르지오	A10045001	예금	201912	270964380
44692	현대강변	A14319201	장기수선충당부채	201912	450821732

	아파트명	아파트코드	비용명	년월일	금액
49930	관악국제산장	A15176701	가수금	201912	5215540
3863	래미안첼리투스	A10027908	단기보증금	201912	5450000
18424	쌍문성원	A13286106	예수금	201912	985275
18071	도봉서울가든	A13281201	기타의비유동자산	201912	0
47504	당산쌍용예가클래식	A15072001	단기보증금	201912	7820000
15687	신내건영1차	A13185603	예금	201912	178067125
14665	망우신원	A13123101	가수금	201912	1563172
55783	이수역리가	A15609007	비품	201912	39851030
27127	구현대2	A13589802	수선유지비충당부채	201912	0
7979	창전삼성	A12119007	연차수당충당부채	201912	15617030

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Letter Number

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample