gimi9 Pandas Profiling

Dataset statistics

Number of variables	6
Number of observations	273
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	12.9 KiB
Average record size in memory	48.5 B

Variable types

Text	4
Categorical	1
Boolean	1

Dataset

Description	(주)한국가스기술공사 연구관리 시스템에 사용되는 기관표준단어 목록으로 단어명 약어 영문명 단어유형 금칙어 정의 등의 항목을 제공합니다
URL	https://www.data.go.kr/data/15103149/fileData.do

Alerts

금칙어여부 has constant value "" Constant

Reproduction

Analysis started	2023-12-11 22:49:08.141450
Analysis finished	2023-12-11 22:49:08.544761
Duration	0.4 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

단어명
Text

Distinct	252
Distinct (%)	92.3%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

Length

Max length	8
Median length	2
Mean length	2.5567766
Min length	1

Characters and Unicode

Total characters	698
Distinct characters	212
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	234 ?
Unique (%)	85.7%

Sample

1st row	전문기관평가
2nd row	평가위원회구분
3rd row	기술
4th row	기술적
5th row	부/팀

Value	Count	Frequency (%)
과제	3	1.1%
기술	3	1.1%
기관	3	1.1%
코드	2	0.7%
결과	2	0.7%
기타	2	0.7%
참여	2	0.7%
영문	2	0.7%
여부	2	0.7%
예산	2	0.7%
Other values (242)	252	91.6%

Most occurring characters

Value	Count	Frequency (%)
기	22	3.2%
이	14	2.0%
자	13	1.9%
과	12	1.7%
연	12	1.7%
사	12	1.7%
일	11	1.6%
구	10	1.4%
시	10	1.4%
부	10	1.4%
Other values (202)	572	81.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	678	97.1%
Uppercase Letter	16	2.3%
Other Punctuation	2	0.3%
Space Separator	2	0.3%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	22	3.2%
이	14	2.1%
자	13	1.9%
과	12	1.8%
연	12	1.8%
사	12	1.8%
일	11	1.6%
구	10	1.5%
시	10	1.5%
부	10	1.5%
Other values (191)	552	81.4%

Uppercase Letter

Value	Count	Frequency (%)
I	4	25.0%
S	4	25.0%
N	2	12.5%
C	1	6.2%
L	1	6.2%
R	1	6.2%
U	1	6.2%
D	1	6.2%
B	1	6.2%

Other Punctuation

Value	Count	Frequency (%)
/	2	100.0%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	678	97.1%
Latin	16	2.3%
Common	4	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	22	3.2%
이	14	2.1%
자	13	1.9%
과	12	1.8%
연	12	1.8%
사	12	1.8%
일	11	1.6%
구	10	1.5%
시	10	1.5%
부	10	1.5%
Other values (191)	552	81.4%

Latin

Value	Count	Frequency (%)
I	4	25.0%
S	4	25.0%
N	2	12.5%
C	1	6.2%
L	1	6.2%
R	1	6.2%
U	1	6.2%
D	1	6.2%
B	1	6.2%

Common

Value	Count	Frequency (%)
/	2	50.0%
	2	50.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	678	97.1%
ASCII	20	2.9%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
기	22	3.2%
이	14	2.1%
자	13	1.9%
과	12	1.8%
연	12	1.8%
사	12	1.8%
일	11	1.6%
구	10	1.5%
시	10	1.5%
부	10	1.5%
Other values (191)	552	81.4%

ASCII

Value	Count	Frequency (%)
I	4	20.0%
S	4	20.0%
/	2	10.0%
	2	10.0%
N	2	10.0%
C	1	5.0%
L	1	5.0%
R	1	5.0%
U	1	5.0%
D	1	5.0%

약어
Text

Distinct	251
Distinct (%)	91.9%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

Length

Max length	8
Median length	6
Mean length	4.2087912
Min length	2

Characters and Unicode

Total characters	1149
Distinct characters	27
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	229 ?
Unique (%)	83.9%

Sample

1st row	ENGNEVL
2nd row	CMIT
3rd row	TCH
4th row	TCHNLGY
5th row	TEAM

Value	Count	Frequency (%)
cntc	2	0.7%
schlshp	2	0.7%
id	2	0.7%
de	2	0.7%
rst	2	0.7%
pssrp	2	0.7%
en	2	0.7%
rsch	2	0.7%
nation	2	0.7%
grad	2	0.7%
Other values (241)	253	92.7%

Most occurring characters

Value	Count	Frequency (%)
T	127	11.1%
R	120	10.4%
N	96	8.4%
C	88	7.7%
S	87	7.6%
E	83	7.2%
P	79	6.9%
A	59	5.1%
M	50	4.4%
D	44	3.8%
Other values (17)	316	27.5%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	1148	99.9%
Connector Punctuation	1	0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
T	127	11.1%
R	120	10.5%
N	96	8.4%
C	88	7.7%
S	87	7.6%
E	83	7.2%
P	79	6.9%
A	59	5.1%
M	50	4.4%
D	44	3.8%
Other values (16)	315	27.4%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	1148	99.9%
Common	1	0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
T	127	11.1%
R	120	10.5%
N	96	8.4%
C	88	7.7%
S	87	7.6%
E	83	7.2%
P	79	6.9%
A	59	5.1%
M	50	4.4%
D	44	3.8%
Other values (16)	315	27.4%

Common

Value	Count	Frequency (%)
_	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1149	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
T	127	11.1%
R	120	10.4%
N	96	8.4%
C	88	7.7%
S	87	7.6%
E	83	7.2%
P	79	6.9%
A	59	5.1%
M	50	4.4%
D	44	3.8%
Other values (17)	316	27.5%

영문명
Text

Distinct	242
Distinct (%)	88.6%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

Length

Max length	31
Median length	27
Mean length	9.8424908
Min length	2

Characters and Unicode

Total characters	2687
Distinct characters	30
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	215 ?
Unique (%)	78.8%

Sample

1st row	ENGNEVL
2nd row	CMIT
3rd row	TECHNOLOGY OF INSTITUDE
4th row	TECHNOLOGY
5th row	TEAM

Value	Count	Frequency (%)
number	8	2.1%
research	8	2.1%
participation	7	1.9%
date	7	1.9%
amount	5	1.3%
practical	4	1.1%
plan	4	1.1%
of	4	1.1%
result	4	1.1%
registration	4	1.1%
Other values (246)	322	85.4%

Most occurring characters

Value	Count	Frequency (%)
E	311	11.6%
T	245	9.1%
N	224	8.3%
A	213	7.9%
I	210	7.8%
R	207	7.7%
O	203	7.6%
C	136	5.1%
S	132	4.9%
	104	3.9%
Other values (20)	702	26.1%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	2569	95.6%
Space Separator	104	3.9%
Open Punctuation	5	0.2%
Close Punctuation	5	0.2%
Connector Punctuation	4	0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
E	311	12.1%
T	245	9.5%
N	224	8.7%
A	213	8.3%
I	210	8.2%
R	207	8.1%
O	203	7.9%
C	136	5.3%
S	132	5.1%
P	104	4.0%
Other values (16)	584	22.7%

Space Separator

Value	Count	Frequency (%)
	104	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	5	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	5	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	2569	95.6%
Common	118	4.4%

Most frequent character per script

Latin

Value	Count	Frequency (%)
E	311	12.1%
T	245	9.5%
N	224	8.7%
A	213	8.3%
I	210	8.2%
R	207	8.1%
O	203	7.9%
C	136	5.3%
S	132	5.1%
P	104	4.0%
Other values (16)	584	22.7%

Common

Value	Count	Frequency (%)
	104	88.1%
(	5	4.2%
)	5	4.2%
_	4	3.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	2687	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
E	311	11.6%
T	245	9.1%
N	224	8.3%
A	213	7.9%
I	210	7.8%
R	207	7.7%
O	203	7.6%
C	136	5.1%
S	132	4.9%
	104	3.9%
Other values (20)	702	26.1%

단어유형
Categorical

Distinct	2
Distinct (%)	0.7%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

수식어	218
분류어	55

Length

Max length	3
Median length	3
Mean length	3
Min length	3

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	수식어
2nd row	분류어
3rd row	수식어
4th row	수식어
5th row	수식어

Common Values

Value	Count	Frequency (%)
수식어	218	79.9%
분류어	55	20.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
수식어	218	79.9%
분류어	55	20.1%

금칙어여부
Boolean

CONSTANT

Distinct	1
Distinct (%)	0.4%
Missing	0
Missing (%)	0.0%
Memory size	405.0 B

False	273

Common Values (Table)
Common Values (Plot)

Value	Count	Frequency (%)
False	273	100.0%

정의
Text

Distinct	252
Distinct (%)	92.3%
Missing	0
Missing (%)	0.0%
Memory size	2.3 KiB

Length

Max length	19
Median length	2
Mean length	2.6043956
Min length	1

Characters and Unicode

Total characters	711
Distinct characters	214
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	234 ?
Unique (%)	85.7%

Sample

1st row	특정 일에 대한 전문가 집단의 심사
2nd row	평가위원회구분
3rd row	기술
4th row	기술적
5th row	부/팀

Value	Count	Frequency (%)
과제	3	1.1%
기술	3	1.1%
기관	3	1.1%
코드	2	0.7%
결과	2	0.7%
요약	2	0.7%
기타	2	0.7%
영문	2	0.7%
여부	2	0.7%
예산	2	0.7%
Other values (247)	257	91.8%

Most occurring characters

Value	Count	Frequency (%)
기	21	3.0%
이	14	2.0%
자	13	1.8%
사	13	1.8%
과	12	1.7%
일	12	1.7%
연	12	1.7%
부	10	1.4%
시	10	1.4%
구	10	1.4%
Other values (204)	584	82.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	686	96.5%
Uppercase Letter	15	2.1%
Space Separator	7	1.0%
Other Punctuation	2	0.3%
Lowercase Letter	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	21	3.1%
이	14	2.0%
자	13	1.9%
사	13	1.9%
과	12	1.7%
일	12	1.7%
연	12	1.7%
부	10	1.5%
시	10	1.5%
구	10	1.5%
Other values (193)	559	81.5%

Uppercase Letter

Value	Count	Frequency (%)
S	4	26.7%
I	4	26.7%
N	2	13.3%
C	1	6.7%
R	1	6.7%
U	1	6.7%
L	1	6.7%
B	1	6.7%

Space Separator

Value	Count	Frequency (%)
	7	100.0%

Other Punctuation

Value	Count	Frequency (%)
/	2	100.0%

Lowercase Letter

Value	Count	Frequency (%)
d	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	686	96.5%
Latin	16	2.3%
Common	9	1.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	21	3.1%
이	14	2.0%
자	13	1.9%
사	13	1.9%
과	12	1.7%
일	12	1.7%
연	12	1.7%
부	10	1.5%
시	10	1.5%
구	10	1.5%
Other values (193)	559	81.5%

Latin

Value	Count	Frequency (%)
S	4	25.0%
I	4	25.0%
N	2	12.5%
C	1	6.2%
R	1	6.2%
d	1	6.2%
U	1	6.2%
L	1	6.2%
B	1	6.2%

Common

Value	Count	Frequency (%)
	7	77.8%
/	2	22.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	686	96.5%
ASCII	25	3.5%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
기	21	3.1%
이	14	2.0%
자	13	1.9%
사	13	1.9%
과	12	1.7%
일	12	1.7%
연	12	1.7%
부	10	1.5%
시	10	1.5%
구	10	1.5%
Other values (193)	559	81.5%

ASCII

Value	Count	Frequency (%)
	7	28.0%
S	4	16.0%
I	4	16.0%
N	2	8.0%
/	2	8.0%
C	1	4.0%
R	1	4.0%
d	1	4.0%
U	1	4.0%
L	1	4.0%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	단어명	약어	영문명	단어유형	금칙어여부	정의
0	전문기관평가	ENGNEVL	ENGNEVL	수식어	N	특정 일에 대한 전문가 집단의 심사
1	평가위원회구분	CMIT	CMIT	분류어	N	평가위원회구분
2	기술	TCH	TECHNOLOGY OF INSTITUDE	수식어	N	기술
3	기술적	TCHNLGY	TECHNOLOGY	수식어	N	기술적
4	부/팀	TEAM	TEAM	수식어	N	부/팀
5	기술	TECH	TECHNOLOGICAL OF CLASSIFICATION	수식어	N	기술
6	전화	TEL	TELEPHONE	수식어	N	전화
7	논문	THESIS	THESIS	수식어	N	논문
8	시간	TM	TIME	수식어	N	시간
9	총	TOT	TOTAL	수식어	N	총

	단어명	약어	영문명	단어유형	금칙어여부	정의
263	상태	STTUS	STATUS	수식어	N	상태
264	현황	STTUS	STATUS	수식어	N	현황
265	결과 요약	SUMRY	SUMMARY	분류어	N	결과 요약
266	요약	SUMRY	SUMMARY	수식어	N	요약
267	소프트웨어	SW	SOFTWARE	수식어	N	소프트웨어
268	테이블	TABLE	TABLE	수식어	N	테이블
269	과제	TAS	TASK	수식어	N	과제
270	기술	TC	TECHNICAL	수식어	N	기술
271	기술료	TC	TECHNICAL	수식어	N	기술료
272	과학기술분류	TCCL	TECHNICAL CLASSIFICATION	수식어	N	과학기술분류

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Space Separator

Open Punctuation

Close Punctuation

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Space Separator

Other Punctuation

Lowercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Missing values

Sample