gimi9 Pandas Profiling

Dataset statistics

Number of variables	5
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	488.3 KiB
Average record size in memory	50.0 B

Variable types

Text	3
Categorical	1
Numeric	1

Dataset

Description	파일 다운로드
Author	서울특별시
URL	https://data.seoul.go.kr/dataList/OA-15821/S/1/datasetView.do

Alerts

`년월일` has constant value ""	Constant
`금액` has 1543 (15.4%) zeros	Zeros

Reproduction

Analysis started	2024-05-11 06:54:04.952227
Analysis finished	2024-05-11 06:54:06.713105
Duration	1.76 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

아파트명
Text

Distinct	2121
Distinct (%)	21.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	28
Median length	20
Mean length	7.2512
Min length	2

Characters and Unicode

Total characters	72512
Distinct characters	427
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	109 ?
Unique (%)	1.1%

Sample

1st row	장안현대힐스테이트
2nd row	공릉2단지라이프
3rd row	남가좌현대아파트
4th row	벽산라이브파크
5th row	응암금호

Value	Count	Frequency (%)
아파트	174	1.6%
래미안	33	0.3%
아이파크	28	0.3%
e편한세상	21	0.2%
송파	18	0.2%
힐스테이트	17	0.2%
북한산	16	0.1%
이편한세상	15	0.1%
신도림현대	15	0.1%
독립문극동	14	0.1%
Other values (2193)	10407	96.7%

Most occurring characters

Value	Count	Frequency (%)
아	2567	3.5%
파	2463	3.4%
트	2293	3.2%
대	1866	2.6%
동	1620	2.2%
지	1618	2.2%
차	1425	2.0%
신	1420	2.0%
이	1403	1.9%
성	1307	1.8%
Other values (417)	54530	75.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	66559	91.8%
Decimal Number	3341	4.6%
Space Separator	858	1.2%
Uppercase Letter	784	1.1%
Lowercase Letter	370	0.5%
Open Punctuation	171	0.2%
Close Punctuation	171	0.2%
Other Punctuation	136	0.2%
Dash Punctuation	119	0.2%
Letter Number	3	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2567	3.9%
파	2463	3.7%
트	2293	3.4%
대	1866	2.8%
동	1620	2.4%
지	1618	2.4%
차	1425	2.1%
신	1420	2.1%
이	1403	2.1%
성	1307	2.0%
Other values (372)	48577	73.0%

Uppercase Letter

Value	Count	Frequency (%)
S	116	14.8%
C	115	14.7%
K	90	11.5%
D	77	9.8%
M	77	9.8%
L	61	7.8%
H	55	7.0%
I	37	4.7%
G	30	3.8%
E	27	3.4%
Other values (7)	99	12.6%

Lowercase Letter

Value	Count	Frequency (%)
e	200	54.1%
l	38	10.3%
i	34	9.2%
v	25	6.8%
k	21	5.7%
s	19	5.1%
w	13	3.5%
c	12	3.2%
h	4	1.1%
g	2	0.5%

Decimal Number

Value	Count	Frequency (%)
1	1019	30.5%
2	1004	30.1%
3	444	13.3%
4	215	6.4%
5	188	5.6%
6	142	4.3%
7	99	3.0%
8	90	2.7%
9	73	2.2%
0	67	2.0%

Other Punctuation

Value	Count	Frequency (%)
,	108	79.4%
.	28	20.6%

Space Separator

Value	Count	Frequency (%)
	858	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	171	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	171	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	119	100.0%

Letter Number

Value	Count	Frequency (%)
Ⅰ	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	66559	91.8%
Common	4796	6.6%
Latin	1157	1.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2567	3.9%
파	2463	3.7%
트	2293	3.4%
대	1866	2.8%
동	1620	2.4%
지	1618	2.4%
차	1425	2.1%
신	1420	2.1%
이	1403	2.1%
성	1307	2.0%
Other values (372)	48577	73.0%

Latin

Value	Count	Frequency (%)
e	200	17.3%
S	116	10.0%
C	115	9.9%
K	90	7.8%
D	77	6.7%
M	77	6.7%
L	61	5.3%
H	55	4.8%
l	38	3.3%
I	37	3.2%
Other values (19)	291	25.2%

Common

Value	Count	Frequency (%)
1	1019	21.2%
2	1004	20.9%
	858	17.9%
3	444	9.3%
4	215	4.5%
5	188	3.9%
(	171	3.6%
)	171	3.6%
6	142	3.0%
-	119	2.5%
Other values (6)	465	9.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	66559	91.8%
ASCII	5950	8.2%
Number Forms	3	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2567	3.9%
파	2463	3.7%
트	2293	3.4%
대	1866	2.8%
동	1620	2.4%
지	1618	2.4%
차	1425	2.1%
신	1420	2.1%
이	1403	2.1%
성	1307	2.0%
Other values (372)	48577	73.0%

ASCII

Value	Count	Frequency (%)
1	1019	17.1%
2	1004	16.9%
	858	14.4%
3	444	7.5%
4	215	3.6%
e	200	3.4%
5	188	3.2%
(	171	2.9%
)	171	2.9%
6	142	2.4%
Other values (34)	1538	25.8%

Number Forms

Value	Count	Frequency (%)
Ⅰ	3	100.0%

아파트코드
Text

Distinct	2126
Distinct (%)	21.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	9
Median length	9
Mean length	9
Min length	9

Characters and Unicode

Total characters	90000
Distinct characters	11
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	109 ?
Unique (%)	1.1%

Sample

1st row	A13010004
2nd row	A13980510
3rd row	A12012203
4th row	A14272305
5th row	A12201102

Value	Count	Frequency (%)
a12008003	14	0.1%
a13981405	13	0.1%
a13813002	13	0.1%
a13501006	12	0.1%
a10027632	12	0.1%
a13880806	12	0.1%
a13287801	12	0.1%
a13985107	11	0.1%
a15083601	11	0.1%
a10025770	11	0.1%
Other values (2116)	9879	98.8%

Most occurring characters

Value	Count	Frequency (%)
0	18938	21.0%
1	17503	19.4%
A	10000	11.1%
3	8948	9.9%
2	8351	9.3%
5	6210	6.9%
8	5309	5.9%
7	4646	5.2%
4	3891	4.3%
6	3401	3.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	80000	88.9%
Uppercase Letter	10000	11.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	18938	23.7%
1	17503	21.9%
3	8948	11.2%
2	8351	10.4%
5	6210	7.8%
8	5309	6.6%
7	4646	5.8%
4	3891	4.9%
6	3401	4.3%
9	2803	3.5%

Uppercase Letter

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	80000	88.9%
Latin	10000	11.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	18938	23.7%
1	17503	21.9%
3	8948	11.2%
2	8351	10.4%
5	6210	7.8%
8	5309	6.6%
7	4646	5.8%
4	3891	4.9%
6	3401	4.3%
9	2803	3.5%

Latin

Value	Count	Frequency (%)
A	10000	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	90000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	18938	21.0%
1	17503	19.4%
A	10000	11.1%
3	8948	9.9%
2	8351	9.3%
5	6210	6.9%
8	5309	5.9%
7	4646	5.2%
4	3891	4.3%
6	3401	3.8%

비용명
Text

Distinct	86
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	10
Median length	9
Mean length	4.8695
Min length	2

Characters and Unicode

Total characters	48695
Distinct characters	120
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	산재보험료
2nd row	국민연금
3rd row	기타운영수익
4th row	지급수수료
5th row	교육비

Value	Count	Frequency (%)
급여	225	2.2%
이자수익	223	2.2%
승강기유지비	220	2.2%
제수당	220	2.2%
경비비	219	2.2%
수선유지비	215	2.1%
산재보험료	213	2.1%
세대전기료	213	2.1%
보험료	213	2.1%
퇴직급여	213	2.1%
Other values (76)	7826	78.3%

Most occurring characters

Value	Count	Frequency (%)
비	5337	11.0%
수	3559	7.3%
료	2072	4.3%
익	2040	4.2%
용	1670	3.4%
기	1326	2.7%
대	1045	2.1%
보	816	1.7%
리	812	1.7%
험	773	1.6%
Other values (110)	29245	60.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	48695	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
비	5337	11.0%
수	3559	7.3%
료	2072	4.3%
익	2040	4.2%
용	1670	3.4%
기	1326	2.7%
대	1045	2.1%
보	816	1.7%
리	812	1.7%
험	773	1.6%
Other values (110)	29245	60.1%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	48695	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
비	5337	11.0%
수	3559	7.3%
료	2072	4.3%
익	2040	4.2%
용	1670	3.4%
기	1326	2.7%
대	1045	2.1%
보	816	1.7%
리	812	1.7%
험	773	1.6%
Other values (110)	29245	60.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	48695	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
비	5337	11.0%
수	3559	7.3%
료	2072	4.3%
익	2040	4.2%
용	1670	3.4%
기	1326	2.7%
대	1045	2.1%
보	816	1.7%
리	812	1.7%
험	773	1.6%
Other values (110)	29245	60.1%

년월일
Categorical

CONSTANT

Distinct	1
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

202108	10000

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	202108
2nd row	202108
3rd row	202108
4th row	202108
5th row	202108

Common Values

Value	Count	Frequency (%)
202108	10000	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
202108	10000	100.0%

금액
Real number (ℝ)

ZEROS

Distinct	6648
Distinct (%)	66.5%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	3347634.5

Minimum	-10690910
Maximum	4.0309941 × 10⁸
Zeros	1543
Zeros (%)	15.4%
Negative	17
Negative (%)	0.2%
Memory size	166.0 KiB

Quantile statistics

Minimum	-10690910
5-th percentile	0
Q1	55015
median	290000
Q3	1318037.5
95-th percentile	15843758
Maximum	4.0309941 × 10⁸
Range	4.1379032 × 10⁸
Interquartile range (IQR)	1263022.5

Descriptive statistics

Standard deviation	12969932
Coefficient of variation (CV)	3.8743574
Kurtosis	238.64925
Mean	3347634.5
Median Absolute Deviation (MAD)	290000
Skewness	12.02382
Sum	3.3476345 × 10¹⁰
Variance	1.6821914 × 10¹⁴
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
0	1543	15.4%
62500	101	1.0%
200000	98	1.0%
100000	58	0.6%
300000	58	0.6%
400000	43	0.4%
250000	39	0.4%
150000	36	0.4%
600000	35	0.4%
500000	33	0.3%
Other values (6638)	7956	79.6%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
-10690910	1	< 0.1%
-4000000	1	< 0.1%
-3559280	1	< 0.1%
-973103	1	< 0.1%
-899496	1	< 0.1%
-891990	1	< 0.1%
-500000	1	< 0.1%
-331500	1	< 0.1%
-293101	1	< 0.1%
-210000	1	< 0.1%

Value	Count	Frequency (%)
403099407	1	< 0.1%
384887510	1	< 0.1%
262944193	1	< 0.1%
217920012	1	< 0.1%
204625840	1	< 0.1%
194219160	1	< 0.1%
185065449	1	< 0.1%
181708170	1	< 0.1%
179142345	1	< 0.1%
178249310	1	< 0.1%

금액

금액

Phik (φk)

Heatmap
Table

	비용명	금액
비용명	1.000	0.443
금액	0.443	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	아파트명	아파트코드	비용명	년월일	금액
24288	장안현대힐스테이트	A13010004	산재보험료	202108	232060
64776	공릉2단지라이프	A13980510	국민연금	202108	340370
14702	남가좌현대아파트	A12012203	기타운영수익	202108	3371862
72329	벽산라이브파크	A14272305	지급수수료	202108	6000
20589	응암금호	A12201102	교육비	202108	0
89677	상도더샵2차	A15603009	국민연금	202108	80860
34318	행당대림	A13307204	교통비	202108	35300
55186	우면코오롱	A13790002	장기수선비	202108	5784000
82723	구로우성(1동)	A15205103	소독비	202108	190000
92845	보라매파크빌	A15685503	주차장수익	202108	2184000

	아파트명	아파트코드	비용명	년월일	금액
95334	마곡수명산파크6단지	A15728002	교통비	202108	0
194	디에이치반포라클라스	A10024254	부과차익	202108	0
20513	녹번역센트레빌	A12201005	고용안정사업수익	202108	120000
76040	당산2차삼성	A15004405	고용보험료	202108	91640
11049	강남한신휴플러스 6단지	A10027912	교통비	202108	20000
11129	대림쌍용플래티넘S	A10027935	소독비	202108	108000
9619	역삼자이아파트	A10027474	교육비	202108	0
42153	청담2차현대아파트	A13510202	보험료	202108	420130
33995	마장신성미소지움	A13305003	국민연금	202108	418310
43523	개포2차 현대아파트	A13524006	정화조관리비	202108	529182

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Open Punctuation

Close Punctuation

Dash Punctuation

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Common Values

Length

Common Values (Plot)

Interactions

Correlations

Missing values

Sample