gimi9 Pandas Profiling

Dataset statistics

Number of variables	6
Number of observations	681
Missing cells	621
Missing cells (%)	15.2%
Duplicate rows	25
Duplicate rows (%)	3.7%
Total size in memory	32.7 KiB
Average record size in memory	49.2 B

Variable types

Text	4
Categorical	2

Dataset

Description	2020년 12월 31일 기준으로 해외에 진출한 우리나라 공공 및 민간 기관의 유형, 공공기관 코드 등의 정보를 제공합니다.
Author	외교부
URL	https://www.data.go.kr/data/15076565/fileData.do

Alerts

`기준년도` has constant value ""	Constant
Dataset has 25 (3.7%) duplicate rows	Duplicates
`공공기관진출내용` has 617 (90.6%) missing values	Missing

Reproduction

Analysis started	2023-12-12 05:31:48.472695
Analysis finished	2023-12-12 05:31:49.378628
Duration	0.91 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

국가
Text

Distinct	95
Distinct (%)	14.0%
Missing	0
Missing (%)	0.0%
Memory size	5.4 KiB

Length

Max length	8
Median length	7
Mean length	3.4581498
Min length	2

Characters and Unicode

Total characters	2355
Distinct characters	125
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	16 ?
Unique (%)	2.3%

Sample

1st row	가봉
2nd row	가봉
3rd row	가봉
4th row	가봉
5th row	과테말라

Value	Count	Frequency (%)
칠레	24	3.5%
인도네시아	22	3.2%
프랑스	21	3.1%
파나마	20	2.9%
스페인	20	2.9%
요르단	19	2.8%
몽골	18	2.6%
멕시코	17	2.5%
캐나다	16	2.3%
벨기에	16	2.3%
Other values (85)	488	71.7%

Most occurring characters

Value	Count	Frequency (%)
아	148	6.3%
이	105	4.5%
스	101	4.3%
리	83	3.5%
르	69	2.9%
라	66	2.8%
시	62	2.6%
나	59	2.5%
인	52	2.2%
네	48	2.0%
Other values (115)	1562	66.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2355	100.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	148	6.3%
이	105	4.5%
스	101	4.3%
리	83	3.5%
르	69	2.9%
라	66	2.8%
시	62	2.6%
나	59	2.5%
인	52	2.2%
네	48	2.0%
Other values (115)	1562	66.3%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2355	100.0%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	148	6.3%
이	105	4.5%
스	101	4.3%
리	83	3.5%
르	69	2.9%
라	66	2.8%
시	62	2.6%
나	59	2.5%
인	52	2.2%
네	48	2.0%
Other values (115)	1562	66.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2355	100.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	148	6.3%
이	105	4.5%
스	101	4.3%
리	83	3.5%
르	69	2.9%
라	66	2.8%
시	62	2.6%
나	59	2.5%
인	52	2.2%
네	48	2.0%
Other values (115)	1562	66.3%

국가코드(ISO 2자리 코드)
Text

Distinct	95
Distinct (%)	14.0%
Missing	0
Missing (%)	0.0%
Memory size	5.4 KiB

Length

Max length	2
Median length	2
Mean length	2
Min length	2

Characters and Unicode

Total characters	1362
Distinct characters	26
Distinct categories	1 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	16 ?
Unique (%)	2.3%

Sample

1st row	GA
2nd row	GA
3rd row	GA
4th row	GA
5th row	GT

Value	Count	Frequency (%)
cl	24	3.5%
id	22	3.2%
fr	21	3.1%
pa	20	2.9%
es	20	2.9%
jo	19	2.8%
mn	18	2.6%
mx	17	2.5%
ca	16	2.3%
be	16	2.3%
Other values (85)	488	71.7%

Most occurring characters

Value	Count	Frequency (%)
E	122	9.0%
A	110	8.1%
P	87	6.4%
N	83	6.1%
R	77	5.7%
I	74	5.4%
S	72	5.3%
M	65	4.8%
C	64	4.7%
T	61	4.5%
Other values (16)	547	40.2%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	1362	100.0%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
E	122	9.0%
A	110	8.1%
P	87	6.4%
N	83	6.1%
R	77	5.7%
I	74	5.4%
S	72	5.3%
M	65	4.8%
C	64	4.7%
T	61	4.5%
Other values (16)	547	40.2%

Most occurring scripts

Value	Count	Frequency (%)
Latin	1362	100.0%

Most frequent character per script

Latin

Value	Count	Frequency (%)
E	122	9.0%
A	110	8.1%
P	87	6.4%
N	83	6.1%
R	77	5.7%
I	74	5.4%
S	72	5.3%
M	65	4.8%
C	64	4.7%
T	61	4.5%
Other values (16)	547	40.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1362	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
E	122	9.0%
A	110	8.1%
P	87	6.4%
N	83	6.1%
R	77	5.7%
I	74	5.4%
S	72	5.3%
M	65	4.8%
C	64	4.7%
T	61	4.5%
Other values (16)	547	40.2%

공공기관유형
Categorical

Distinct	3
Distinct (%)	0.4%
Missing	0
Missing (%)	0.0%
Memory size	5.4 KiB

일반기관	431
정부투자기관	129
정부기관	121

Length

Max length	6
Median length	4
Mean length	4.3788546
Min length	4

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	일반기관
2nd row	일반기관
3rd row	정부기관
4th row	정부기관
5th row	일반기관

Common Values

Value	Count	Frequency (%)
일반기관	431	63.3%
정부투자기관	129	18.9%
정부기관	121	17.8%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
일반기관	431	63.3%
정부투자기관	129	18.9%
정부기관	121	17.8%

공공기관명
Text

Distinct	310
Distinct (%)	45.8%
Missing	4
Missing (%)	0.6%
Memory size	5.4 KiB

Length

Max length	28
Median length	22
Mean length	5.1875923
Min length	2

Characters and Unicode

Total characters	3512
Distinct characters	304
Distinct categories	10 ?
Distinct scripts	4 ?
Distinct blocks	4 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	241 ?
Unique (%)	35.6%

Sample

1st row	KT
2nd row	KTencore
3rd row	FTC
4th row	대사관
5th row	KOICA

Value	Count	Frequency (%)
대사관	70	8.8%
kotra	48	6.0%
삼성전자	34	4.3%
lg전자	30	3.8%
삼성	13	1.6%
koica	12	1.5%
현대자동차	11	1.4%
대우	10	1.3%
업체	10	1.3%
한국관광공사	10	1.3%
Other values (342)	550	68.9%

Most occurring characters

Value	Count	Frequency (%)
대	171	4.9%
사	163	4.6%
	123	3.5%
관	108	3.1%
자	102	2.9%
한	101	2.9%
K	88	2.5%
전	87	2.5%
공	85	2.4%
O	78	2.2%
Other values (294)	2406	68.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2604	74.1%
Uppercase Letter	588	16.7%
Space Separator	123	3.5%
Decimal Number	72	2.1%
Lowercase Letter	66	1.9%
Close Punctuation	24	0.7%
Open Punctuation	24	0.7%
Other Punctuation	8	0.2%
Dash Punctuation	2	0.1%
Other Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
대	171	6.6%
사	163	6.3%
관	108	4.1%
자	102	3.9%
한	101	3.9%
전	87	3.3%
공	85	3.3%
성	77	3.0%
국	70	2.7%
삼	62	2.4%
Other values (240)	1578	60.6%

Uppercase Letter

Value	Count	Frequency (%)
K	88	15.0%
O	78	13.3%
A	70	11.9%
T	65	11.1%
G	56	9.5%
R	52	8.8%
L	50	8.5%
S	35	6.0%
C	25	4.3%
I	20	3.4%
Other values (11)	49	8.3%

Lowercase Letter

Value	Count	Frequency (%)
e	13	19.7%
o	8	12.1%
r	8	12.1%
n	8	12.1%
a	7	10.6%
t	6	9.1%
c	5	7.6%
d	2	3.0%
s	2	3.0%
l	2	3.0%
Other values (5)	5	7.6%

Decimal Number

Value	Count	Frequency (%)
0	25	34.7%
1	14	19.4%
2	10	13.9%
3	6	8.3%
5	4	5.6%
4	4	5.6%
7	3	4.2%
9	3	4.2%
6	2	2.8%
8	1	1.4%

Other Punctuation

Value	Count	Frequency (%)
,	5	62.5%
&	2	25.0%
＇	1	12.5%

Space Separator

Value	Count	Frequency (%)
	123	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	24	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	24	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	2	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2599	74.0%
Latin	654	18.6%
Common	253	7.2%
Han	6	0.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
대	171	6.6%
사	163	6.3%
관	108	4.2%
자	102	3.9%
한	101	3.9%
전	87	3.3%
공	85	3.3%
성	77	3.0%
국	70	2.7%
삼	62	2.4%
Other values (235)	1573	60.5%

Latin

Value	Count	Frequency (%)
K	88	13.5%
O	78	11.9%
A	70	10.7%
T	65	9.9%
G	56	8.6%
R	52	8.0%
L	50	7.6%
S	35	5.4%
C	25	3.8%
I	20	3.1%
Other values (26)	115	17.6%

Common

Value	Count	Frequency (%)
	123	48.6%
0	25	9.9%
)	24	9.5%
(	24	9.5%
1	14	5.5%
2	10	4.0%
3	6	2.4%
,	5	2.0%
5	4	1.6%
4	4	1.6%
Other values (7)	14	5.5%

Han

Value	Count	Frequency (%)
心	1	16.7%
韓	1	16.7%
國	1	16.7%
貿	1	16.7%
易	1	16.7%
中	1	16.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2598	74.0%
ASCII	906	25.8%
CJK	6	0.2%
None	2	0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
대	171	6.6%
사	163	6.3%
관	108	4.2%
자	102	3.9%
한	101	3.9%
전	87	3.3%
공	85	3.3%
성	77	3.0%
국	70	2.7%
삼	62	2.4%
Other values (234)	1572	60.5%

ASCII

Value	Count	Frequency (%)
	123	13.6%
K	88	9.7%
O	78	8.6%
A	70	7.7%
T	65	7.2%
G	56	6.2%
R	52	5.7%
L	50	5.5%
S	35	3.9%
0	25	2.8%
Other values (42)	264	29.1%

CJK

Value	Count	Frequency (%)
心	1	16.7%
韓	1	16.7%
國	1	16.7%
貿	1	16.7%
易	1	16.7%
中	1	16.7%

None

Value	Count	Frequency (%)
＇	1	50.0%
㈜	1	50.0%

공공기관진출내용
Text

MISSING

Distinct	57
Distinct (%)	89.1%
Missing	617
Missing (%)	90.6%
Memory size	5.4 KiB

Length

Max length	115
Median length	35
Mean length	16.09375
Min length	2

Characters and Unicode

Total characters	1030
Distinct characters	253
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	53 ?
Unique (%)	82.8%

Sample

1st row	약 170개 업체 진출 (주로 섬유, 봉제업)
2nd row	대부분 섬유, 봉제업체
3rd row	도매 및 소매업, 건설공사업, 제조업
4th row	Lagos 소재
5th row	섬유 ·의류 업체 및 협력업체 진출

Value	Count	Frequency (%)
주로	7	2.9%
	6	2.5%
및	4	1.7%
섬유	4	1.7%
가전3사	3	1.2%
의류	3	1.2%
등	3	1.2%
진출	3	1.2%
kotra	3	1.2%
철수	3	1.2%
Other values (187)	202	83.8%

Most occurring characters

Value	Count	Frequency (%)
	177	17.2%
,	67	6.5%
사	24	2.3%
업	24	2.3%
로	16	1.6%
0	13	1.3%
설	12	1.2%
건	12	1.2%
1	12	1.2%
스	12	1.2%
Other values (243)	661	64.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	662	64.3%
Space Separator	177	17.2%
Other Punctuation	83	8.1%
Decimal Number	65	6.3%
Uppercase Letter	18	1.7%
Lowercase Letter	8	0.8%
Close Punctuation	6	0.6%
Open Punctuation	6	0.6%
Dash Punctuation	4	0.4%
Currency Symbol	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	24	3.6%
업	24	3.6%
로	16	2.4%
설	12	1.8%
건	12	1.8%
스	12	1.8%
개	11	1.7%
진	11	1.7%
체	11	1.7%
이	10	1.5%
Other values (207)	519	78.4%

Decimal Number

Value	Count	Frequency (%)
0	13	20.0%
1	12	18.5%
2	8	12.3%
7	6	9.2%
4	6	9.2%
3	6	9.2%
5	5	7.7%
9	5	7.7%
6	2	3.1%
8	2	3.1%

Uppercase Letter

Value	Count	Frequency (%)
O	3	16.7%
K	3	16.7%
M	2	11.1%
A	2	11.1%
R	2	11.1%
T	2	11.1%
G	1	5.6%
C	1	5.6%
U	1	5.6%
L	1	5.6%

Lowercase Letter

Value	Count	Frequency (%)
a	2	25.0%
o	2	25.0%
r	1	12.5%
t	1	12.5%
s	1	12.5%
g	1	12.5%

Other Punctuation

Value	Count	Frequency (%)
,	67	80.7%
'	6	7.2%
:	5	6.0%
·	3	3.6%
.	2	2.4%

Space Separator

Value	Count	Frequency (%)
	177	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	6	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	6	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	4	100.0%

Currency Symbol

Value	Count	Frequency (%)
$	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	662	64.3%
Common	342	33.2%
Latin	26	2.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	24	3.6%
업	24	3.6%
로	16	2.4%
설	12	1.8%
건	12	1.8%
스	12	1.8%
개	11	1.7%
진	11	1.7%
체	11	1.7%
이	10	1.5%
Other values (207)	519	78.4%

Common

Value	Count	Frequency (%)
	177	51.8%
,	67	19.6%
0	13	3.8%
1	12	3.5%
2	8	2.3%
)	6	1.8%
7	6	1.8%
4	6	1.8%
(	6	1.8%
'	6	1.8%
Other values (10)	35	10.2%

Latin

Value	Count	Frequency (%)
O	3	11.5%
K	3	11.5%
a	2	7.7%
o	2	7.7%
M	2	7.7%
A	2	7.7%
R	2	7.7%
T	2	7.7%
G	1	3.8%
C	1	3.8%
Other values (6)	6	23.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	662	64.3%
ASCII	365	35.4%
None	3	0.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	177	48.5%
,	67	18.4%
0	13	3.6%
1	12	3.3%
2	8	2.2%
)	6	1.6%
7	6	1.6%
4	6	1.6%
(	6	1.6%
'	6	1.6%
Other values (25)	58	15.9%

Hangul

Value	Count	Frequency (%)
사	24	3.6%
업	24	3.6%
로	16	2.4%
설	12	1.8%
건	12	1.8%
스	12	1.8%
개	11	1.7%
진	11	1.7%
체	11	1.7%
이	10	1.5%
Other values (207)	519	78.4%

None

Value	Count	Frequency (%)
·	3	100.0%

기준년도
Categorical

CONSTANT

Distinct	1
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	5.4 KiB

2020	681

Length

Max length	4
Median length	4
Mean length	4
Min length	4

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	2020
2nd row	2020
3rd row	2020
4th row	2020
5th row	2020

Common Values

Value	Count	Frequency (%)
2020	681	100.0%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
2020	681	100.0%

Phik (φk)

Heatmap
Table

	국가	국가코드(ISO 2자리 코드)	공공기관유형	공공기관진출내용
국가	1.000	1.000	0.657	1.000
국가코드(ISO 2자리 코드)	1.000	1.000	0.657	1.000
공공기관유형	0.657	0.657	1.000	0.933
공공기관진출내용	1.000	1.000	0.933	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	국가	국가코드(ISO 2자리 코드)	공공기관유형	공공기관명	공공기관진출내용	기준년도
0	가봉	GA	일반기관	KT	<NA>	2020
1	가봉	GA	일반기관	KTencore	<NA>	2020
2	가봉	GA	정부기관	FTC	<NA>	2020
3	가봉	GA	정부기관	대사관	<NA>	2020
4	과테말라	GT	일반기관	<NA>	약 170개 업체 진출 (주로 섬유, 봉제업)	2020
5	과테말라	GT	정부기관	KOICA	<NA>	2020
6	과테말라	GT	일반기관	100여개 업체	대부분 섬유, 봉제업체	2020
7	과테말라	GT	정부투자기관	KOTRA	<NA>	2020
8	과테말라	GT	정부기관	대사관	<NA>	2020
9	나이지리아	NG	일반기관	24개사	도매 및 소매업, 건설공사업, 제조업	2020

	국가	국가코드(ISO 2자리 코드)	공공기관유형	공공기관명	공공기관진출내용	기준년도
671	헝가리	HU	일반기관	삼성SID	<NA>	2020
672	헝가리	HU	일반기관	한국타이어	<NA>	2020
673	호주	AU	정부투자기관	KOTRA	시드니, 멜버른	2020
674	호주	AU	정부투자기관	관광공사	<NA>	2020
675	호주	AU	정부기관	대사관	<NA>	2020
676	호주	AU	정부투자기관	대한광물자원공사	<NA>	2020
677	호주	AU	정부투자기관	외환은행	<NA>	2020
678	호주	AU	정부기관	주멜번분관	<NA>	2020
679	호주	AU	정부기관	주시드니총영사관	<NA>	2020
680	호주	AU	정부투자기관	한국전력공사	<NA>	2020

Most frequently occurring

	국가	국가코드(ISO 2자리 코드)	공공기관유형	공공기관명	공공기관진출내용	기준년도	# duplicates
0	네팔	NP	일반기관	유신	<NA>	2020	2
1	모로코	MA	일반기관	LG	<NA>	2020	2
2	모로코	MA	일반기관	대우건설	<NA>	2020	2
3	모로코	MA	일반기관	삼성전자	<NA>	2020	2
4	모로코	MA	일반기관	현대자동차	<NA>	2020	2
5	베네수엘라	VE	일반기관	현대건설	<NA>	2020	2
6	브라질	BR	일반기관	LG전자	<NA>	2020	2
7	브라질	BR	일반기관	삼성전자	<NA>	2020	2
8	브라질	BR	일반기관	현대자동차	<NA>	2020	2
9	아르헨티나	AR	일반기관	LG전자	<NA>	2020	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Most occurring scripts

Most frequent character per script

Hangul

Most occurring blocks

Most frequent character per block

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Most occurring scripts

Most frequent character per script

Latin

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Other Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

Hangul

ASCII

CJK

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Lowercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Currency Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Common Values

Length

Common Values (Plot)

Correlations

Missing values

Sample

Duplicate rows