gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 426 (4.3%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 07:00:41.889976
Analysis finished	2024-05-11 07:00:43.781710
Duration	1.89 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2093
Distinct (%)	20.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	22
Median length	19
Mean length	7.0493
Min length	2

Characters and Unicode

Total characters	70493
Distinct characters	431
Distinct categories	11 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	105 ?
Unique (%)	1.1%

Sample

1st row	서초3차e편한세상
2nd row	수서삼익
3rd row	번동주공4단지
4th row	래미안신당하이베르
5th row	송파파인타운9단지

Value	Count	Frequency (%)
아파트	93	0.9%
래미안	32	0.3%
입주자대표회의	21	0.2%
서강gs	15	0.1%
수서삼익	14	0.1%
봉천은천1단지	13	0.1%
잠원신화	13	0.1%
성산시영아파트	13	0.1%
보문파크뷰자이아파트	13	0.1%
포레스트힐시티	12	0.1%
Other values (2146)	10196	97.7%

Most occurring characters

Value	Count	Frequency (%)
아	2091	3.0%
파	1967	2.8%
대	1965	2.8%
트	1847	2.6%
동	1749	2.5%
지	1721	2.4%
신	1598	2.3%
차	1545	2.2%
성	1427	2.0%
단	1371	1.9%
Other values (421)	53212	75.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	64775	91.9%
Decimal Number	3715	5.3%
Uppercase Letter	683	1.0%
Space Separator	469	0.7%
Lowercase Letter	326	0.5%
Open Punctuation	146	0.2%
Close Punctuation	146	0.2%
Dash Punctuation	123	0.2%
Other Punctuation	104	0.1%
Math Symbol	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2091	3.2%
파	1967	3.0%
대	1965	3.0%
트	1847	2.9%
동	1749	2.7%
지	1721	2.7%
신	1598	2.5%
차	1545	2.4%
성	1427	2.2%
단	1371	2.1%
Other values (375)	47494	73.3%

Uppercase Letter

Value	Count	Frequency (%)
S	141	20.6%
K	104	15.2%
C	65	9.5%
L	47	6.9%
G	43	6.3%
H	40	5.9%
E	39	5.7%
I	36	5.3%
D	32	4.7%
M	32	4.7%
Other values (7)	104	15.2%

Lowercase Letter

Value	Count	Frequency (%)
e	178	54.6%
l	38	11.7%
i	34	10.4%
v	24	7.4%
s	12	3.7%
w	11	3.4%
k	8	2.5%
h	7	2.1%
c	6	1.8%
g	4	1.2%

Decimal Number

Value	Count	Frequency (%)
1	1160	31.2%
2	1072	28.9%
3	488	13.1%
4	253	6.8%
5	202	5.4%
6	173	4.7%
7	103	2.8%
9	102	2.7%
8	86	2.3%
0	76	2.0%

Other Punctuation

Value	Count	Frequency (%)
,	88	84.6%
.	16	15.4%

Space Separator

Value	Count	Frequency (%)
	469	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	146	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	146	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	123	100.0%

Math Symbol

Value	Count	Frequency (%)
~	5	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	64775	91.9%
Common	4708	6.7%
Latin	1010	1.4%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2091	3.2%
파	1967	3.0%
대	1965	3.0%
트	1847	2.9%
동	1749	2.7%
지	1721	2.7%
신	1598	2.5%
차	1545	2.4%
성	1427	2.2%
단	1371	2.1%
Other values (375)	47494	73.3%

Latin

Value	Count	Frequency (%)
e	178	17.6%
S	141	14.0%
K	104	10.3%
C	65	6.4%
L	47	4.7%
G	43	4.3%
H	40	4.0%
E	39	3.9%
l	38	3.8%
I	36	3.6%
Other values (19)	279	27.6%

Common

Value	Count	Frequency (%)
1	1160	24.6%
2	1072	22.8%
3	488	10.4%
	469	10.0%
4	253	5.4%
5	202	4.3%
6	173	3.7%
(	146	3.1%
)	146	3.1%
-	123	2.6%
Other values (7)	476	10.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	64775	91.9%
ASCII	5717	8.1%
Number Forms	1	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2091	3.2%
파	1967	3.0%
대	1965	3.0%
트	1847	2.9%
동	1749	2.7%
지	1721	2.7%
신	1598	2.5%
차	1545	2.4%
성	1427	2.2%
단	1371	2.1%
Other values (375)	47494	73.3%

ASCII

Value	Count	Frequency (%)
1	1160	20.3%
2	1072	18.8%
3	488	8.5%
	469	8.2%
4	253	4.4%
5	202	3.5%
e	178	3.1%
6	173	3.0%
(	146	2.6%
)	146	2.6%
Other values (35)	1430	25.0%

Number Forms

Value	Count	Frequency (%)
Ⅰ	1	100.0%

아파트코드
Text

Distinct	2099
Distinct (%)	21.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	12
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	106 ?
Unique (%)	1.1%

Sample

1st row	A13786803
2nd row	A13522003
3rd row	A14206202
4th row	A10078901
5th row	A13821007

Value	Count	Frequency (%)
a12114001	15	0.1%
a13522003	14	0.1%
a15106101	13	0.1%
a12185004	13	0.1%
a13790703	13	0.1%
a10027189	13	0.1%
a13887405	12	0.1%
a12208102	12	0.1%
a13877501	12	0.1%
a15208202	12	0.1%
Other values (2089)	9871	98.7%

Most occurring characters

Value	Count	Frequency (%)
0	18359	20.4%
1	17760	19.7%
A	9994	11.1%
3	9012	10.0%
2	7907	8.8%
5	6175	6.9%
8	5827	6.5%
7	4798	5.3%
4	3758	4.2%
6	3432	3.8%
Other values (2)	2978	3.3%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18359	22.9%
1	17760	22.2%
3	9012	11.3%
2	7907	9.9%
5	6175	7.7%
8	5827	7.3%
7	4798	6.0%
4	3758	4.7%
6	3432	4.3%
9	2972	3.7%

Uppercase Letter

Value	Count	Frequency (%)
A	9994	99.9%
B	6	0.1%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18359	22.9%
1	17760	22.2%
3	9012	11.3%
2	7907	9.9%
5	6175	7.7%
8	5827	7.3%
7	4798	6.0%
4	3758	4.7%
6	3432	4.3%
9	2972	3.7%

Latin

Value	Count	Frequency (%)
A	9994	99.9%
B	6	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18359	20.4%
1	17760	19.7%
A	9994	11.1%
3	9012	10.0%
2	7907	8.8%
5	6175	6.9%
8	5827	6.5%
7	4798	5.3%
4	3758	4.2%
6	3432	3.8%
Other values (2)	2978	3.3%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.7322
Min length	2

Characters and Unicode

Total characters	47322
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	부과차손
2nd row	도서인쇄비
3rd row	세대전기료
4th row	업무추진비
5th row	도서인쇄비

Value	Count	Frequency (%)
경비비	262	2.6%
청소비	251	2.5%
세대전기료	249	2.5%
승강기유지비	247	2.5%
소독비	247	2.5%
제수당	242	2.4%
수선유지비	238	2.4%
급여	238	2.4%
통신비	233	2.3%
연체료수익	230	2.3%
Other values (76)	7563	75.6%

Most occurring characters

Value	Count	Frequency (%)
비	5567	11.8%
수	3538	7.5%
료	2237	4.7%
익	1665	3.5%
용	1559	3.3%
기	1377	2.9%
대	1129	2.4%
리	919	1.9%
보	834	1.8%
험	785	1.7%
Other values (110)	27712	58.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	47322	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5567	11.8%
수	3538	7.5%
료	2237	4.7%
익	1665	3.5%
용	1559	3.3%
기	1377	2.9%
대	1129	2.4%
리	919	1.9%
보	834	1.8%
험	785	1.7%
Other values (110)	27712	58.6%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	47322	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5567	11.8%
수	3538	7.5%
료	2237	4.7%
익	1665	3.5%
용	1559	3.3%
기	1377	2.9%
대	1129	2.4%
리	919	1.9%
보	834	1.8%
험	785	1.7%
Other values (110)	27712	58.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	47322	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5567	11.8%
수	3538	7.5%
료	2237	4.7%
익	1665	3.5%
용	1559	3.3%
기	1377	2.9%
대	1129	2.4%
리	919	1.9%
보	834	1.8%
험	785	1.7%
Other values (110)	27712	58.6%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

201901	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	201901
2nd row	201901
3rd row	201901
4th row	201901
5th row	201901

Common Values

Value	Count	Frequency (%)
201901	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
201901	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	7594
Distinct (%)	75.9%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	4058669.2

Minimum	-10594720
Maximum	6.3761019 × 10⁸
Zeros	426
Zeros (%)	4.3%
Negative	6
Negative (%)	0.1%
Memory size	166.0 KiB

Quantile statistics

Minimum	-10594720
5-th percentile	559.1
Q1	112273.25
median	390445
Q3	1745775
95-th percentile	18306260
Maximum	6.3761019 × 10⁸
Range	6.4820491 × 10⁸
Interquartile range (IQR)	1633501.8

Descriptive statistics

Standard deviation	16499701
Coefficient of variation (CV)	4.0652984
Kurtosis	392.15579
Mean	4058669.2
Median Absolute Deviation (MAD)	352065
Skewness	15.313611
Sum	4.0586692 × 10¹⁰
Variance	2.7224015 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	426	4.3%
200000	107	1.1%
100000	75	0.8%
300000	67	0.7%
78000	52	0.5%
150000	40	0.4%
110000	39	0.4%
400000	38	0.4%
250000	33	0.3%
500000	31	0.3%
Other values (7584)	9092	90.9%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-10594720	1	< 0.1%
-2913440	1	< 0.1%
-700000	1	< 0.1%
-612000	1	< 0.1%
-13900	1	< 0.1%
-7100	1	< 0.1%
0	426	4.3%
1	3	< 0.1%
2	1	< 0.1%
3	1	< 0.1%

Value	Count	Frequency (%)
637610193	1	< 0.1%
480668350	1	< 0.1%
423388692	1	< 0.1%
343506510	1	< 0.1%
280325400	1	< 0.1%
245169650	1	< 0.1%
229951550	1	< 0.1%
213553380	1	< 0.1%
209035870	1	< 0.1%
205956800	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.408
금액	0.408	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
42816	서초3차e편한세상	A13786803	부과차손	201901	1045
32884	수서삼익	A13522003	도서인쇄비	201901	0
57660	번동주공4단지	A14206202	세대전기료	201901	32120003
5586	래미안신당하이베르	A10078901	업무추진비	201901	250000
45967	송파파인타운9단지	A13821007	도서인쇄비	201901	80000
14033	갈현베르빌주상복합아파트	A12271402	급여	201901	5040000
51912	공릉풍림아이원	A13980513	음식물처리비	201901	2695120
64279	문래국화	A15083601	경비비	201901	7402340
10208	마포동원베네스트	A12170401	고용안정사업비용	201901	0
14763	뉴신사신성	A12289401	위탁관리수수료	201901	220000

	아파트명	아파트코드	비용명	년월일	금액
58194	한일유앤아이	A14272303	공동수도료	201901	296650
64571	신길남서울	A15085805	퇴직급여	201901	1061540
38123	래미안길음1차	A13611103	광고료수익	201901	450000
75460	대방우정	A15681103	수선유지비	201901	1463290
33811	도곡개포한신아파트	A13527016	알뜰시장수익	201901	500000
11457	도화현대홈타운	A12181404	회계감사비	201901	-2913440
79156	가양한강타운	A15780604	도서인쇄비	201901	606330
539	마포자이3차아파트	A10026036	경비비	201901	22483090
63953	대림우성	A15081503	퇴직급여	201901	0
62239	신길삼환	A15005705	고용안정사업비용	201901	160330

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Math Symbol

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample