gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15820/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 2135 (21.3%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:01:34.948358
Analysis finished	2024-05-11 06:01:36.664477
Duration	1.72 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2107
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	20
Mean length	7.1726
Min length	2

Characters and Unicode

Total characters	71726
Distinct characters	429
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	96 ?
Unique (%)	1.0%

Sample

1st row	정릉꿈에그린아파트
2nd row	정릉쌍용
3rd row	창전삼성임대
4th row	대치우성1차아파트
5th row	헬리오시티아파트

Value	Count	Frequency (%)
아파트	90	0.9%
래미안	17	0.2%
대치동부센트레빌	14	0.1%
경남아너스빌	14	0.1%
서울숲2차푸르지오임대	13	0.1%
상도삼호	12	0.1%
일원청솔빌리지	12	0.1%
신동아파밀리에	12	0.1%
대림코오롱	12	0.1%
남성두산위브트레지움	12	0.1%
Other values (2159)	10217	98.0%

Most occurring characters

Value	Count	Frequency (%)
아	2191	3.1%
파	2165	3.0%
트	1895	2.6%
지	1887	2.6%
대	1852	2.6%
동	1650	2.3%
차	1570	2.2%
신	1552	2.2%
단	1480	2.1%
성	1386	1.9%
Other values (419)	54098	75.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	65920	91.9%
Decimal Number	3866	5.4%
Uppercase Letter	682	1.0%
Space Separator	459	0.6%
Lowercase Letter	284	0.4%
Dash Punctuation	139	0.2%
Other Punctuation	123	0.2%
Close Punctuation	122	0.2%
Open Punctuation	122	0.2%
Letter Number	9	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2191	3.3%
파	2165	3.3%
트	1895	2.9%
지	1887	2.9%
대	1852	2.8%
동	1650	2.5%
차	1570	2.4%
신	1552	2.4%
단	1480	2.2%
성	1386	2.1%
Other values (374)	48292	73.3%

Uppercase Letter

Value	Count	Frequency (%)
S	116	17.0%
K	100	14.7%
C	91	13.3%
L	51	7.5%
I	40	5.9%
E	39	5.7%
D	39	5.7%
M	39	5.7%
H	37	5.4%
A	31	4.5%
Other values (7)	99	14.5%

Lowercase Letter

Value	Count	Frequency (%)
e	179	63.0%
i	22	7.7%
l	20	7.0%
v	17	6.0%
s	11	3.9%
k	10	3.5%
w	9	3.2%
c	6	2.1%
h	4	1.4%
a	3	1.1%

Decimal Number

Value	Count	Frequency (%)
1	1199	31.0%
2	1168	30.2%
3	504	13.0%
4	252	6.5%
5	215	5.6%
6	150	3.9%
7	115	3.0%
9	95	2.5%
0	86	2.2%
8	82	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	104	84.6%
.	19	15.4%

Space Separator

Value	Count	Frequency (%)
	459	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	139	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	122	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	122	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	9	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	65920	91.9%
Common	4831	6.7%
Latin	975	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2191	3.3%
파	2165	3.3%
트	1895	2.9%
지	1887	2.9%
대	1852	2.8%
동	1650	2.5%
차	1570	2.4%
신	1552	2.4%
단	1480	2.2%
성	1386	2.1%
Other values (374)	48292	73.3%

Latin

Value	Count	Frequency (%)
e	179	18.4%
S	116	11.9%
K	100	10.3%
C	91	9.3%
L	51	5.2%
I	40	4.1%
E	39	4.0%
D	39	4.0%
M	39	4.0%
H	37	3.8%
Other values (19)	244	25.0%

Common

Value	Count	Frequency (%)
1	1199	24.8%
2	1168	24.2%
3	504	10.4%
	459	9.5%
4	252	5.2%
5	215	4.5%
6	150	3.1%
-	139	2.9%
)	122	2.5%
(	122	2.5%
Other values (6)	501	10.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	65920	91.9%
ASCII	5797	8.1%
Number Forms	9	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2191	3.3%
파	2165	3.3%
트	1895	2.9%
지	1887	2.9%
대	1852	2.8%
동	1650	2.5%
차	1570	2.4%
신	1552	2.4%
단	1480	2.2%
성	1386	2.1%
Other values (374)	48292	73.3%

ASCII

Value	Count	Frequency (%)
1	1199	20.7%
2	1168	20.1%
3	504	8.7%
	459	7.9%
4	252	4.3%
5	215	3.7%
e	179	3.1%
6	150	2.6%
-	139	2.4%
)	122	2.1%
Other values (34)	1410	24.3%

Number Forms

Value	Count	Frequency (%)
Ⅰ	9	100.0%

아파트코드
Text

Distinct	2114
Distinct (%)	21.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	96 ?
Unique (%)	1.0%

Sample

1st row	A10028000
2nd row	A13676501
3rd row	A12177802
4th row	A13583403
5th row	A10025850

Value	Count	Frequency (%)
a13528103	14	0.1%
a13523001	12	0.1%
a15678102	12	0.1%
a13204302	12	0.1%
a15081105	12	0.1%
a15677501	12	0.1%
a15792602	12	0.1%
a13002002	12	0.1%
a41279932	11	0.1%
a13817001	11	0.1%
Other values (2104)	9880	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18302	20.3%
1	17875	19.9%
A	9992	11.1%
3	8998	10.0%
2	8088	9.0%
5	6209	6.9%
8	5707	6.3%
7	4730	5.3%
4	3775	4.2%
6	3357	3.7%
Other values (2)	2967	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18302	22.9%
1	17875	22.3%
3	8998	11.2%
2	8088	10.1%
5	6209	7.8%
8	5707	7.1%
7	4730	5.9%
4	3775	4.7%
6	3357	4.2%
9	2959	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9992	99.9%
B	8	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18302	22.9%
1	17875	22.3%
3	8998	11.2%
2	8088	10.1%
5	6209	7.8%
8	5707	7.1%
7	4730	5.9%
4	3775	4.7%
6	3357	4.2%
9	2959	3.7%

Latin

Value	Count	Frequency (%)
A	9992	99.9%
B	8	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18302	20.3%
1	17875	19.9%
A	9992	11.1%
3	8998	10.0%
2	8088	9.0%
5	6209	6.9%
8	5707	6.3%
7	4730	5.3%
4	3775	4.2%
6	3357	3.7%
Other values (2)	2967	3.3%

비용명
Text

Distinct	77
Distinct (%)	0.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	13
Median length	9
Mean length	5.9718
Min length	2

Characters and Unicode

Total characters	59718
Distinct characters	107
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	< 0.1%

Sample

1st row	수선유지비충당부채
2nd row	현금
3rd row	현금
4th row	수선유지비충당부채
5th row	연차수당충당부채

Value	Count	Frequency (%)
예금	333	3.3%
연차수당충당부채	330	3.3%
당기순이익	325	3.2%
관리비미수금	322	3.2%
예수금	317	3.2%
가수금	317	3.2%
공동주택적립금	311	3.1%
현금	311	3.1%
장기수선충당부채	309	3.1%
퇴직급여충당부채	309	3.1%
Other values (67)	6816	68.2%

Most occurring characters

Value	Count	Frequency (%)
금	4736	7.9%
당	3809	6.4%
수	3296	5.5%
충	3087	5.2%
부	2989	5.0%
비	2947	4.9%
채	2696	4.5%
기	2318	3.9%
선	1898	3.2%
예	1768	3.0%
Other values (97)	30174	50.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	59718	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
금	4736	7.9%
당	3809	6.4%
수	3296	5.5%
충	3087	5.2%
부	2989	5.0%
비	2947	4.9%
채	2696	4.5%
기	2318	3.9%
선	1898	3.2%
예	1768	3.0%
Other values (97)	30174	50.5%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	59718	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
금	4736	7.9%
당	3809	6.4%
수	3296	5.5%
충	3087	5.2%
부	2989	5.0%
비	2947	4.9%
채	2696	4.5%
기	2318	3.9%
선	1898	3.2%
예	1768	3.0%
Other values (97)	30174	50.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	59718	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
금	4736	7.9%
당	3809	6.4%
수	3296	5.5%
충	3087	5.2%
부	2989	5.0%
비	2947	4.9%
채	2696	4.5%
기	2318	3.9%
선	1898	3.2%
예	1768	3.0%
Other values (97)	30174	50.5%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201906	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201906
2nd row	201906
3rd row	201906
4th row	201906
5th row	201906

Common Values

Value	Count	Frequency (%)
201906	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201906	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7516
Distinct (%)	75.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	71192390

Minimum	-4.09024 × 10⁹
Maximum	1.4399164 × 10¹⁰
Zeros	2135
Zeros (%)	21.3%
Negative	328
Negative (%)	3.3%
Memory size	166.0 KiB

Quantile statistics

Minimum	-4.09024 × 10⁹
5-th percentile	0
Q1	3030
median	3661355.5
Q3	37447447
95-th percentile	3.3215551 × 10⁸
Maximum	1.4399164 × 10¹⁰
Range	1.8489404 × 10¹⁰
Interquartile range (IQR)	37444417

Descriptive statistics

Standard deviation	3.0898822 × 10⁸
Coefficient of variation (CV)	4.3401861
Kurtosis	589.76283
Mean	71192390
Median Absolute Deviation (MAD)	3661355.5
Skewness	17.458937
Sum	7.119239 × 10¹¹
Variance	9.5473721 × 10¹⁶
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	2135	21.3%
500000	25	0.2%
250000	21	0.2%
100000	15	0.1%
242000	14	0.1%
1000000	13	0.1%
5000000	12	0.1%
20000000	12	0.1%
484000	11	0.1%
750000	11	0.1%
Other values (7506)	7731	77.3%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-4090240000	1	< 0.1%
-286871240	1	< 0.1%
-282000000	1	< 0.1%
-263354520	1	< 0.1%
-219647748	1	< 0.1%
-205582628	1	< 0.1%
-189484870	1	< 0.1%
-161481980	1	< 0.1%
-120029900	1	< 0.1%
-105052459	1	< 0.1%

Value	Count	Frequency (%)
14399164107	1	< 0.1%
8691289026	1	< 0.1%
5407137016	1	< 0.1%
5371910748	1	< 0.1%
5154565699	1	< 0.1%
5102985779	1	< 0.1%
4937806238	1	< 0.1%
4269617823	1	< 0.1%
4244602016	1	< 0.1%
3850764365	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.228
금액	0.228	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
3491	정릉꿈에그린아파트	A10028000	수선유지비충당부채	201906	1498930
30227	정릉쌍용	A13676501	현금	201906	416630
8318	창전삼성임대	A12177802	현금	201906	0
26768	대치우성1차아파트	A13583403	수선유지비충당부채	201906	38935460
532	헬리오시티아파트	A10025850	연차수당충당부채	201906	84938430
17499	창동상아1차	A13204507	미부과관리비	201906	106718550
44050	번동기산그린	A14206305	미수금	201906	0
38639	상계주공3단지	A13971502	상여충당부채	201906	0
7182	마포쌍용황금	A12105001	공동체활성화단체지원적립금	201906	0
8885	도화현대1차	A12181406	기타유형자산	201906	11907400

	아파트명	아파트코드	비용명	년월일	금액
49695	여의도은하	A15089510	관리비예치금	201906	0
56473	래미안트윈파크	A15606007	선급비용	201906	8516408
63645	수명산롯데캐슬	A15809502	연차수당충당부채	201906	3971600
53509	구로우성	A15283809	현금	201906	106415
35035	송파파인타운8단지	A13821006	예금	201906	102708671
29587	길음서희스타힐스	A13613012	선급금	201906	166070
18143	방학동양크레오	A13285503	장기수선충당예금	201906	356989294
8580	상암월드컵파크12단지	A12179505	경비비충당부채	201906	9666008
49507	여의도미성	A15088717	미수금	201906	0
39710	상계불암대림	A13981006	기타유동부채	201906	0

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Dash Punctuation

Close Punctuation

Open Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample