gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	504
Missing cells	1
Missing cells (%)	< 0.1%
Duplicate rows	7
Duplicate rows (%)	1.4%
Total size in memory	15.9 KiB
Average record size in memory	32.3 B

Variable types

Text	4

Dataset

Description	한국남동발전의 연구개발 용어집입니다. 연구개발 시 사용하는 한글용어에 따른 영문용어와 영어 약자, 그리고 용어의 의미 데이터를 포함하고 있습니다.
URL	https://www.data.go.kr/data/15092393/fileData.do

Alerts

Dataset has 7 (1.4%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 21:26:39.070526
Analysis finished	2023-12-12 21:26:39.971076
Duration	0.9 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

한글용어
Text

Distinct	490
Distinct (%)	97.2%
Missing	0
Missing (%)	0.0%
Memory size	4.1 KiB

Length

Max length	6
Median length	2
Mean length	2.1309524
Min length	1

Characters and Unicode

Total characters	1074
Distinct characters	279
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	478 ?
Unique (%)	94.8%

Sample

1st row	타당
2nd row	유사
3rd row	비밀
4th row	외부
5th row	배경

Value	Count	Frequency (%)
완성	3	0.6%
옵션	3	0.6%
발송	2	0.4%
직위	2	0.4%
일	2	0.4%
사업부	2	0.4%
사업	2	0.4%
시험	2	0.4%
수첩	2	0.4%
담당자	2	0.4%
Other values (480)	482	95.6%

Most occurring characters

Value	Count	Frequency (%)
사	22	2.0%
수	21	2.0%
자	21	2.0%
시	17	1.6%
기	16	1.5%
정	16	1.5%
부	15	1.4%
지	15	1.4%
인	15	1.4%
직	14	1.3%
Other values (269)	902	84.0%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1046	97.4%
Lowercase Letter	20	1.9%
Decimal Number	5	0.5%
Uppercase Letter	3	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
사	22	2.1%
수	21	2.0%
자	21	2.0%
시	17	1.6%
기	16	1.5%
정	16	1.5%
부	15	1.4%
지	15	1.4%
인	15	1.4%
직	14	1.3%
Other values (258)	874	83.6%

Decimal Number

Value	Count	Frequency (%)
1	1	20.0%
3	1	20.0%
4	1	20.0%
5	1	20.0%
2	1	20.0%

Lowercase Letter

Value	Count	Frequency (%)
t	10	50.0%
e	5	25.0%
s	5	25.0%

Uppercase Letter

Value	Count	Frequency (%)
L	1	33.3%
R	1	33.3%
U	1	33.3%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1046	97.4%
Latin	23	2.1%
Common	5	0.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
사	22	2.1%
수	21	2.0%
자	21	2.0%
시	17	1.6%
기	16	1.5%
정	16	1.5%
부	15	1.4%
지	15	1.4%
인	15	1.4%
직	14	1.3%
Other values (258)	874	83.6%

Latin

Value	Count	Frequency (%)
t	10	43.5%
e	5	21.7%
s	5	21.7%
L	1	4.3%
R	1	4.3%
U	1	4.3%

Common

Value	Count	Frequency (%)
1	1	20.0%
3	1	20.0%
4	1	20.0%
5	1	20.0%
2	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1046	97.4%
ASCII	28	2.6%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
사	22	2.1%
수	21	2.0%
자	21	2.0%
시	17	1.6%
기	16	1.5%
정	16	1.5%
부	15	1.4%
지	15	1.4%
인	15	1.4%
직	14	1.3%
Other values (258)	874	83.6%

ASCII

Value	Count	Frequency (%)
t	10	35.7%
e	5	17.9%
s	5	17.9%
1	1	3.6%
L	1	3.6%
R	1	3.6%
U	1	3.6%
3	1	3.6%
4	1	3.6%
5	1	3.6%

영문용어
Text

Distinct	422
Distinct (%)	83.7%
Missing	0
Missing (%)	0.0%
Memory size	4.1 KiB

Length

Max length	32
Median length	23
Mean length	7.7222222
Min length	2

Characters and Unicode

Total characters	3892
Distinct characters	37
Distinct categories	6 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	358 ?
Unique (%)	71.0%

Sample

1st row	adequate
2nd row	resemblance
3rd row	security
4th row	outer
5th row	background

Value	Count	Frequency (%)
business	8	1.4%
number	8	1.4%
job	7	1.2%
type	6	1.0%
name	6	1.0%
a	6	1.0%
of	5	0.9%
item	5	0.9%
company	4	0.7%
person	4	0.7%
Other values (419)	525	89.9%

Most occurring characters

Value	Count	Frequency (%)
e	493	12.7%
t	355	9.1%
n	306	7.9%
a	289	7.4%
o	278	7.1%
i	277	7.1%
r	274	7.0%
s	236	6.1%
c	179	4.6%
p	141	3.6%
Other values (27)	1064	27.3%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	3771	96.9%
Space Separator	111	2.9%
Decimal Number	5	0.1%
Open Punctuation	2	0.1%
Close Punctuation	2	0.1%
Dash Punctuation	1	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
e	493	13.1%
t	355	9.4%
n	306	8.1%
a	289	7.7%
o	278	7.4%
i	277	7.3%
r	274	7.3%
s	236	6.3%
c	179	4.7%
p	141	3.7%
Other values (16)	943	25.0%

Decimal Number

Value	Count	Frequency (%)
5	1	20.0%
3	1	20.0%
4	1	20.0%
1	1	20.0%
2	1	20.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	50.0%
[	1	50.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	50.0%
]	1	50.0%

Space Separator

Value	Count	Frequency (%)
	111	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	3771	96.9%
Common	121	3.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
e	493	13.1%
t	355	9.4%
n	306	8.1%
a	289	7.7%
o	278	7.4%
i	277	7.3%
r	274	7.3%
s	236	6.3%
c	179	4.7%
p	141	3.7%
Other values (16)	943	25.0%

Common

Value	Count	Frequency (%)
	111	91.7%
5	1	0.8%
3	1	0.8%
4	1	0.8%
1	1	0.8%
2	1	0.8%
-	1	0.8%
(	1	0.8%
)	1	0.8%
[	1	0.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	3892	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
e	493	12.7%
t	355	9.1%
n	306	7.9%
a	289	7.4%
o	278	7.1%
i	277	7.1%
r	274	7.0%
s	236	6.1%
c	179	4.6%
p	141	3.6%
Other values (27)	1064	27.3%

영어약자
Text

Distinct	411
Distinct (%)	81.7%
Missing	1
Missing (%)	0.2%
Memory size	4.1 KiB

Length

Max length	12
Median length	11
Mean length	4.5626243
Min length	2

Characters and Unicode

Total characters	2295
Distinct characters	32
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	340 ?
Unique (%)	67.6%

Sample

1st row	adequate
2nd row	rese
3rd row	scr
4th row	outer
5th row	bg

Value	Count	Frequency (%)
cmp	4	0.8%
req	4	0.8%
nm	4	0.8%
item	4	0.8%
type	4	0.8%
exec	3	0.6%
biz	3	0.6%
send	3	0.6%
cost	3	0.6%
status	3	0.6%
Other values (401)	468	93.0%

Most occurring characters

Value	Count	Frequency (%)
e	255	11.1%
t	228	9.9%
r	180	7.8%
a	148	6.4%
s	147	6.4%
o	142	6.2%
n	136	5.9%
p	127	5.5%
c	125	5.4%
i	123	5.4%
Other values (22)	684	29.8%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	2280	99.3%
Space Separator	10	0.4%
Decimal Number	5	0.2%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
e	255	11.2%
t	228	10.0%
r	180	7.9%
a	148	6.5%
s	147	6.4%
o	142	6.2%
n	136	6.0%
p	127	5.6%
c	125	5.5%
i	123	5.4%
Other values (16)	669	29.3%

Decimal Number

Value	Count	Frequency (%)
5	1	20.0%
3	1	20.0%
4	1	20.0%
1	1	20.0%
2	1	20.0%

Space Separator

Value	Count	Frequency (%)
	10	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	2280	99.3%
Common	15	0.7%

Most frequent character per script

Latin

Value	Count	Frequency (%)
e	255	11.2%
t	228	10.0%
r	180	7.9%
a	148	6.5%
s	147	6.4%
o	142	6.2%
n	136	6.0%
p	127	5.6%
c	125	5.5%
i	123	5.4%
Other values (16)	669	29.3%

Common

Value	Count	Frequency (%)
	10	66.7%
5	1	6.7%
3	1	6.7%
4	1	6.7%
1	1	6.7%
2	1	6.7%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	2295	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
e	255	11.1%
t	228	9.9%
r	180	7.8%
a	148	6.4%
s	147	6.4%
o	142	6.2%
n	136	5.9%
p	127	5.5%
c	125	5.4%
i	123	5.4%
Other values (22)	684	29.8%

용어의미
Text

Distinct	484
Distinct (%)	96.0%
Missing	0
Missing (%)	0.0%
Memory size	4.1 KiB

Length

Max length	129
Median length	48
Mean length	15.392857
Min length	1

Characters and Unicode

Total characters	7758
Distinct characters	530
Distinct categories	11 ?
Distinct scripts	4 ?
Distinct blocks	5 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	467 ?
Unique (%)	92.7%

Sample

1st row	적당한,충분한
2nd row	서로 비슷한 것
3rd row	남이 알아서는 안되는 일
4th row	바깥부분, 사외
5th row	배경

Value	Count	Frequency (%)
또는	34	1.6%
어떤	32	1.5%
따위를	25	1.2%
일	24	1.2%
일정한	21	1.0%
그	19	0.9%
따라	19	0.9%
일을	15	0.7%
있는	14	0.7%
사람	11	0.5%
Other values (1397)	1862	89.7%

Most occurring characters

Value	Count	Frequency (%)
	1576	20.3%
,	175	2.3%
는	160	2.1%
이	151	1.9%
하	148	1.9%
나	145	1.9%
의	127	1.6%
사	122	1.6%
을	111	1.4%
일	105	1.4%
Other values (520)	4938	63.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	5630	72.6%
Space Separator	1576	20.3%
Other Punctuation	307	4.0%
Lowercase Letter	84	1.1%
Open Punctuation	57	0.7%
Close Punctuation	57	0.7%
Final Punctuation	15	0.2%
Initial Punctuation	15	0.2%
Decimal Number	8	0.1%
Math Symbol	7	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
는	160	2.8%
이	151	2.7%
하	148	2.6%
나	145	2.6%
의	127	2.3%
사	122	2.2%
을	111	2.0%
일	105	1.9%
에	93	1.7%
기	87	1.5%
Other values (482)	4381	77.8%

Lowercase Letter

Value	Count	Frequency (%)
e	19	22.6%
t	17	20.2%
s	8	9.5%
i	7	8.3%
x	7	8.3%
n	6	7.1%
o	4	4.8%
a	4	4.8%
r	3	3.6%
m	3	3.6%
Other values (4)	6	7.1%

Other Punctuation

Value	Count	Frequency (%)
,	175	57.0%
.	86	28.0%
;	31	10.1%
·	14	4.6%
？	1	0.3%

Decimal Number

Value	Count	Frequency (%)
1	2	25.0%
3	2	25.0%
4	2	25.0%
5	1	12.5%
2	1	12.5%

Open Punctuation

Value	Count	Frequency (%)
(	47	82.5%
[	7	12.3%
《	2	3.5%
【	1	1.8%

Close Punctuation

Value	Count	Frequency (%)
)	47	82.5%
]	7	12.3%
》	2	3.5%
】	1	1.8%

Uppercase Letter

Value	Count	Frequency (%)
R	1	50.0%
V	1	50.0%

Space Separator

Value	Count	Frequency (%)
	1576	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	15	100.0%

Initial Punctuation

Value	Count	Frequency (%)
‘	15	100.0%

Math Symbol

Value	Count	Frequency (%)
~	7	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	5607	72.3%
Common	2042	26.3%
Latin	86	1.1%
Han	23	0.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
는	160	2.9%
이	151	2.7%
하	148	2.6%
나	145	2.6%
의	127	2.3%
사	122	2.2%
을	111	2.0%
일	105	1.9%
에	93	1.7%
기	87	1.6%
Other values (462)	4358	77.7%

Common

Value	Count	Frequency (%)
	1576	77.2%
,	175	8.6%
.	86	4.2%
(	47	2.3%
)	47	2.3%
;	31	1.5%
’	15	0.7%
‘	15	0.7%
·	14	0.7%
~	7	0.3%
Other values (12)	29	1.4%

Han

Value	Count	Frequency (%)
局	2	8.7%
本	2	8.7%
署	2	8.7%
納	1	4.3%
嘉	1	4.3%
系	1	4.3%
案	1	4.3%
風	1	4.3%
素	1	4.3%
描	1	4.3%
Other values (10)	10	43.5%

Latin

Value	Count	Frequency (%)
e	19	22.1%
t	17	19.8%
s	8	9.3%
i	7	8.1%
x	7	8.1%
n	6	7.0%
o	4	4.7%
a	4	4.7%
r	3	3.5%
m	3	3.5%
Other values (6)	8	9.3%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	5607	72.3%
ASCII	2077	26.8%
Punctuation	30	0.4%
CJK	23	0.3%
None	21	0.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	1576	75.9%
,	175	8.4%
.	86	4.1%
(	47	2.3%
)	47	2.3%
;	31	1.5%
e	19	0.9%
t	17	0.8%
s	8	0.4%
~	7	0.3%
Other values (20)	64	3.1%

Hangul

Value	Count	Frequency (%)
는	160	2.9%
이	151	2.7%
하	148	2.6%
나	145	2.6%
의	127	2.3%
사	122	2.2%
을	111	2.0%
일	105	1.9%
에	93	1.7%
기	87	1.6%
Other values (462)	4358	77.7%

Punctuation

Value	Count	Frequency (%)
’	15	50.0%
‘	15	50.0%

None

Value	Count	Frequency (%)
·	14	66.7%
《	2	9.5%
》	2	9.5%
？	1	4.8%
】	1	4.8%
【	1	4.8%

CJK

Value	Count	Frequency (%)
局	2	8.7%
本	2	8.7%
署	2	8.7%
納	1	4.3%
嘉	1	4.3%
系	1	4.3%
案	1	4.3%
風	1	4.3%
素	1	4.3%
描	1	4.3%
Other values (10)	10	43.5%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	한글용어	영문용어	영어약자	용어의미
0	타당	adequate	adequate	적당한,충분한
1	유사	resemblance	rese	서로 비슷한 것
2	비밀	security	scr	남이 알아서는 안되는 일
3	외부	outer	outer	바깥부분, 사외
4	배경	background	bg	배경
5	국가	country	country	나라,국각
6	협의	discuss	discuss	여러 사람이 모여 서로 의논함
7	희망	wish	wish	앞일에 대하여 어떤 기대를 가지고 바람
8	기관	organ	org	특별한 학술 기예를 장려하는 관직. 기정, 기좌, 기사 따위를 이른다
9	사용자	user	user	사용자

	한글용어	영문용어	영어약자	용어의미
494	반송	return	return	보낸 물건이나 우편물이 되돌아 옴
495	수용	reception	recet	거두어들여 씀
496	내용	content	cont	어떤 일의 줄거리가 되는 것
497	부적합	incongruent	incr	부조화, 모순, 부적합
498	적합	fitness	fit	꼭 들어맞음
499	결재	approval	apprv	상관이 부하가 제출한 의안을 헤아려 승인함
500	기술	technique	tech	어떤 일을 정확하고 능률적으로 해내는 솜씨
501	기술자	engineer	engr	기술에 관한 전문적인 지식과 기능을 가지고 있는 사람
502	요약	summary	summary	말이나 글의 요점을 잡아서 간추림
503	요인	factor	factor	발생원인

Most frequently occurring

	한글용어	영문용어	영어약자	용어의미	# duplicates
4	옵션	option	opt	각종 기기에서 표준 장치 이외에 구입자의 기호에 따라 별도로 선택하여 부착할 수 있는 장치나 부품	3
5	완성	completion	cmpt	완전히 다 이룸(완성, 완료)	3
0	발송	sending	send	보내다	2
1	사업부	business division	bizdiv	사업부, 사업구분	2
2	수첩	note	note	어떤 내용을 기억해 두기 위하여 적음	2
3	시험	test	test	재능이나 실력 따위를 일정한 절차에 따라 검사하고 평가하는 일	2
6	직위	job position	jobpost	직무에 따라 규정되는 사회적·행정적 위치	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Lowercase Letter

Uppercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Decimal Number

Open Punctuation

Close Punctuation

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Decimal Number

Space Separator

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Other Punctuation

Decimal Number

Open Punctuation

Close Punctuation

Uppercase Letter

Space Separator

Final Punctuation

Initial Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Common

Han

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Punctuation

None

CJK

Missing values

Sample

Duplicate rows

Most frequently occurring