gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	54
Missing cells	87
Missing cells (%)	23.0%
Duplicate rows	4
Duplicate rows (%)	7.4%
Total size in memory	3.1 KiB
Average record size in memory	58.4 B

Variable types

Text	3
Unsupported	4

Dataset

Description	세종, 서울, 과천, 대전, 대구, 인천, 광주, 경남, 제주, 춘천, 고양, 충남, 경북 13개 정부청사의 입주기관별 위치, 연면적, 공무원 및 공무직 등 상시 근무자 현황 관련 데이터(청사별 한 시트로 구성)를 제공합니다.
Author	행정안전부 정부청사관리본부
URL	https://www.data.go.kr/data/3033692/fileData.do

Alerts

Dataset has 4 (7.4%) duplicate rows	Duplicates
`정부세종청사 입주기관 현황` has 50 (92.6%) missing values	Missing
`Unnamed: 1` has 5 (9.3%) missing values	Missing
`Unnamed: 2` has 10 (18.5%) missing values	Missing
`Unnamed: 3` has 1 (1.9%) missing values	Missing
`Unnamed: 4` has 7 (13.0%) missing values	Missing
`Unnamed: 5` has 7 (13.0%) missing values	Missing
`Unnamed: 6` has 7 (13.0%) missing values	Missing
`Unnamed: 3` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 5` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 6` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-21 02:40:19.417570
Analysis finished	2024-04-21 02:40:20.909878
Duration	1.49 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

정부세종청사 입주기관 현황
Text

MISSING

Distinct	4
Distinct (%)	100.0%
Missing	50
Missing (%)	92.6%
Memory size	564.0 B

Length

Max length	18
Median length	7
Mean length	8.75
Min length	3

Characters and Unicode

Total characters	35
Distinct characters	19
Distinct categories	7 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	4 ?
Unique (%)	100.0%

Sample

1st row	기관명(소속기관)
2nd row	37개(중앙22개, 소속15개)
3rd row	1~17동
4th row	중앙동

Value	Count	Frequency (%)
기관명(소속기관	1	20.0%
37개(중앙22개	1	20.0%
소속15개	1	20.0%
1~17동	1	20.0%
중앙동	1	20.0%

Most occurring characters

Value	Count	Frequency (%)
개	3	8.6%
1	3	8.6%
7	2	5.7%
	2	5.7%
2	2	5.7%
앙	2	5.7%
중	2	5.7%
관	2	5.7%
기	2	5.7%
)	2	5.7%
Other values (9)	13	37.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	18	51.4%
Decimal Number	9	25.7%
Space Separator	2	5.7%
Close Punctuation	2	5.7%
Open Punctuation	2	5.7%
Other Punctuation	1	2.9%
Math Symbol	1	2.9%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
개	3	16.7%
앙	2	11.1%
중	2	11.1%
관	2	11.1%
기	2	11.1%
속	2	11.1%
소	2	11.1%
동	2	11.1%
명	1	5.6%

Decimal Number

Value	Count	Frequency (%)
1	3	33.3%
7	2	22.2%
2	2	22.2%
3	1	11.1%
5	1	11.1%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	2	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	2	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	1	100.0%

Math Symbol

Value	Count	Frequency (%)
~	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	18	51.4%
Common	17	48.6%

Most frequent character per script

Common

Value	Count	Frequency (%)
1	3	17.6%
7	2	11.8%
	2	11.8%
2	2	11.8%
)	2	11.8%
(	2	11.8%
3	1	5.9%
,	1	5.9%
5	1	5.9%
~	1	5.9%

Hangul

Value	Count	Frequency (%)
개	3	16.7%
앙	2	11.1%
중	2	11.1%
관	2	11.1%
기	2	11.1%
속	2	11.1%
소	2	11.1%
동	2	11.1%
명	1	5.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	18	51.4%
ASCII	17	48.6%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
개	3	16.7%
앙	2	11.1%
중	2	11.1%
관	2	11.1%
기	2	11.1%
속	2	11.1%
소	2	11.1%
동	2	11.1%
명	1	5.6%

ASCII

Value	Count	Frequency (%)
1	3	17.6%
7	2	11.8%
	2	11.8%
2	2	11.8%
)	2	11.8%
(	2	11.8%
3	1	5.9%
,	1	5.9%
5	1	5.9%
~	1	5.9%

Unnamed: 1
Text

MISSING

Distinct	45
Distinct (%)	91.8%
Missing	5
Missing (%)	9.3%
Memory size	564.0 B

Length

Max length	18
Median length	16
Mean length	7.1632653
Min length	3

Characters and Unicode

Total characters	351
Distinct characters	121
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	41 ?
Unique (%)	83.7%

Sample

1st row	34개(중앙20개, 소속13개)
2nd row	국무조정실
3rd row	(조세심판원)
4th row	(국제개발협력본부)
5th row	국무총리비서실

Value	Count	Frequency (%)
소계	4	7.3%
공용면적	2	3.6%
배정면적	2	3.6%
기타	2	3.6%
지원시설	2	3.6%
정부청사관리본부)4동	1	1.8%
인사혁신처	1	1.8%
무역위원회	1	1.8%
전기위원회	1	1.8%
교육부	1	1.8%
Other values (38)	38	69.1%

Most occurring characters

Value	Count	Frequency (%)
부	20	5.7%
)	18	5.1%
(	18	5.1%
원	15	4.3%
정	12	3.4%
	10	2.8%
회	9	2.6%
소	9	2.6%
위	9	2.6%
국	8	2.3%
Other values (111)	223	63.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	288	82.1%
Close Punctuation	18	5.1%
Open Punctuation	18	5.1%
Space Separator	10	2.8%
Decimal Number	10	2.8%
Other Punctuation	3	0.9%
Uppercase Letter	3	0.9%
Other Number	1	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
부	20	6.9%
원	15	5.2%
정	12	4.2%
회	9	3.1%
소	9	3.1%
위	9	3.1%
국	8	2.8%
개	7	2.4%
사	6	2.1%
청	6	2.1%
Other values (97)	187	64.9%

Decimal Number

Value	Count	Frequency (%)
2	3	30.0%
4	3	30.0%
3	2	20.0%
0	1	10.0%
1	1	10.0%

Uppercase Letter

Value	Count	Frequency (%)
K	1	33.3%
T	1	33.3%
V	1	33.3%

Other Punctuation

Value	Count	Frequency (%)
,	2	66.7%
/	1	33.3%

Close Punctuation

Value	Count	Frequency (%)
)	18	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	18	100.0%

Space Separator

Value	Count	Frequency (%)
	10	100.0%

Other Number

Value	Count	Frequency (%)
②	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	288	82.1%
Common	60	17.1%
Latin	3	0.9%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
부	20	6.9%
원	15	5.2%
정	12	4.2%
회	9	3.1%
소	9	3.1%
위	9	3.1%
국	8	2.8%
개	7	2.4%
사	6	2.1%
청	6	2.1%
Other values (97)	187	64.9%

Common

Value	Count	Frequency (%)
)	18	30.0%
(	18	30.0%
	10	16.7%
2	3	5.0%
4	3	5.0%
3	2	3.3%
,	2	3.3%
/	1	1.7%
0	1	1.7%
1	1	1.7%

Latin

Value	Count	Frequency (%)
K	1	33.3%
T	1	33.3%
V	1	33.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	288	82.1%
ASCII	62	17.7%
Enclosed Alphanum	1	0.3%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
부	20	6.9%
원	15	5.2%
정	12	4.2%
회	9	3.1%
소	9	3.1%
위	9	3.1%
국	8	2.8%
개	7	2.4%
사	6	2.1%
청	6	2.1%
Other values (97)	187	64.9%

ASCII

Value	Count	Frequency (%)
)	18	29.0%
(	18	29.0%
	10	16.1%
2	3	4.8%
4	3	4.8%
3	2	3.2%
,	2	3.2%
/	1	1.6%
K	1	1.6%
T	1	1.6%
Other values (3)	3	4.8%

Enclosed Alphanum

Value	Count	Frequency (%)
②	1	100.0%

Unnamed: 2
Text

MISSING

Distinct	41
Distinct (%)	93.2%
Missing	10
Missing (%)	18.5%
Memory size	564.0 B

Length

Max length	27
Median length	18
Mean length	11.863636
Min length	2

Characters and Unicode

Total characters	522
Distinct characters	54
Distinct categories	8 ?
Distinct scripts	4 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	38 ?
Unique (%)	86.4%

Sample

1st row	위치
2nd row	1동(1,2,3), 2동(4), 8동(7)
3rd row	4동(3)
4th row	1동(4)
5th row	1동(4)

Value	Count	Frequency (%)
12동(4	3	4.3%
4동(3	3	4.3%
공용회의실	2	2.9%
식당	2	2.9%
등	2	2.9%
11동(4	2	2.9%
1동(4	2	2.9%
민원동(4	2	2.9%
강당	2	2.9%
13동(5	2	2.9%
Other values (47)	48	68.6%

Most occurring characters

Value	Count	Frequency (%)
)	59	11.3%
(	59	11.3%
동	58	11.1%
1	54	10.3%
,	50	9.6%
4	32	6.1%
3	31	5.9%
	26	5.0%
~	21	4.0%
2	18	3.4%
Other values (44)	114	21.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	184	35.2%
Other Letter	115	22.0%
Close Punctuation	59	11.3%
Open Punctuation	59	11.3%
Other Punctuation	50	9.6%
Space Separator	26	5.0%
Math Symbol	21	4.0%
Uppercase Letter	8	1.5%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
동	58	50.4%
당	4	3.5%
민	4	3.5%
원	4	3.5%
무	3	2.6%
의	3	2.6%
업	3	2.6%
공	2	1.7%
용	2	1.7%
등	2	1.7%
Other values (26)	30	26.1%

Decimal Number

Value	Count	Frequency (%)
1	54	29.3%
4	32	17.4%
3	31	16.8%
2	18	9.8%
7	16	8.7%
5	13	7.1%
6	12	6.5%
8	4	2.2%
9	2	1.1%
0	2	1.1%

Uppercase Letter

Value	Count	Frequency (%)
B	5	62.5%
C	2	25.0%
S	1	12.5%

Close Punctuation

Value	Count	Frequency (%)
)	59	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	59	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	50	100.0%

Space Separator

Value	Count	Frequency (%)
	26	100.0%

Math Symbol

Value	Count	Frequency (%)
~	21	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	399	76.4%
Hangul	114	21.8%
Latin	8	1.5%
Han	1	0.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
동	58	50.9%
당	4	3.5%
민	4	3.5%
원	4	3.5%
무	3	2.6%
의	3	2.6%
업	3	2.6%
공	2	1.8%
용	2	1.8%
등	2	1.8%
Other values (25)	29	25.4%

Common

Value	Count	Frequency (%)
)	59	14.8%
(	59	14.8%
1	54	13.5%
,	50	12.5%
4	32	8.0%
3	31	7.8%
	26	6.5%
~	21	5.3%
2	18	4.5%
7	16	4.0%
Other values (5)	33	8.3%

Latin

Value	Count	Frequency (%)
B	5	62.5%
C	2	25.0%
S	1	12.5%

Han

Value	Count	Frequency (%)
舊	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	407	78.0%
Hangul	114	21.8%
CJK	1	0.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
)	59	14.5%
(	59	14.5%
1	54	13.3%
,	50	12.3%
4	32	7.9%
3	31	7.6%
	26	6.4%
~	21	5.2%
2	18	4.4%
7	16	3.9%
Other values (8)	41	10.1%

Hangul

Value	Count	Frequency (%)
동	58	50.9%
당	4	3.5%
민	4	3.5%
원	4	3.5%
무	3	2.6%
의	3	2.6%
업	3	2.6%
공	2	1.8%
용	2	1.8%
등	2	1.8%
Other values (25)	29	25.4%

CJK

Value	Count	Frequency (%)
舊	1	100.0%

Unnamed: 3
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	1
Missing (%)	1.9%
Memory size	564.0 B

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	7
Missing (%)	13.0%
Memory size	564.0 B

Unnamed: 5
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	7
Missing (%)	13.0%
Memory size	564.0 B

Unnamed: 6
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	7
Missing (%)	13.0%
Memory size	564.0 B

Phik (φk)

Heatmap
Table

	정부세종청사 입주기관 현황	Unnamed: 1	Unnamed: 2
정부세종청사 입주기관 현황	1.000	0.000	NaN
Unnamed: 1	0.000	1.000	1.000
Unnamed: 2	NaN	1.000	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	정부세종청사 입주기관 현황	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6
0	기관명(소속기관)	<NA>	위치	면적	정원	정원외	현원
1	<NA>	<NA>	<NA>	NaN	(공무원)	(파견,공무직등)	(실 근무인원)
2	37개(중앙22개, 소속15개)	<NA>	<NA>	848857	15262	4005	19464
3	1~17동	34개(중앙20개, 소속13개)	<NA>	714367	12367	3313	15929
4	<NA>	국무조정실	1동(1,2,3), 2동(4), 8동(7)	8244	254	402	695
5	<NA>	(조세심판원)	4동(3)	2851	121	12	131
6	<NA>	(국제개발협력본부)	1동(4)	462	28	12	37
7	<NA>	국무총리비서실	1동(4)	3095	97	40	104
8	<NA>	공정거래위원회	2동(1,3,4), 12동(4)	9268	489	55	538
9	<NA>	과학기술정보통신부	4동(3~6)	15254	826	55	889

	정부세종청사 입주기관 현황	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6
44	<NA>	기타 소계	<NA>	494663	-	-	-
45	중앙동	②4개(중앙2개, 소속2개)	<NA>	134490	2895	692	3535
46	<NA>	기획재정부	업무동(4~9), 민원동(4)	18950	1083	130	1188
47	<NA>	(복권위원회)	민원동(4)	297	26	-	23
48	<NA>	행정안전부	업무동(1~4,10~14), 민원동(2,3)	22990	1686	144	1829
49	<NA>	(정부청사관리본부)중앙동	업무동(2), 민원동(2)	198	100	418	495
50	<NA>	배정면적 소계	<NA>	42435	2895	692	3535
51	<NA>	지원시설	공용회의실, 강당, 식당 등	11123	NaN	NaN	NaN
52	<NA>	공용면적	<NA>	80932	NaN	NaN	NaN
53	<NA>	기타 소계	<NA>	92055	-	-	-

Most frequently occurring

	정부세종청사 입주기관 현황	Unnamed: 1	Unnamed: 2	# duplicates
0	<NA>	공용면적	<NA>	2
1	<NA>	기타 소계	<NA>	2
2	<NA>	배정면적 소계	<NA>	2
3	<NA>	지원시설	공용회의실, 강당, 식당 등	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Space Separator

Close Punctuation

Open Punctuation

Other Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Common

Hangul

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Other Punctuation

Close Punctuation

Open Punctuation

Space Separator

Other Number

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Enclosed Alphanum

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Close Punctuation

Open Punctuation

Other Punctuation

Space Separator

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

CJK

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring