Overview

Dataset statistics

Number of variables4
Number of observations1025
Missing cells0
Missing cells (%)0.0%
Duplicate rows36
Duplicate rows (%)3.5%
Total size in memory32.2 KiB
Average record size in memory32.1 B

Variable types

Text2
DateTime1
Categorical1

Dataset

Description농림식품기술기획평가원_농림수산식품 바이오 R&D 출원특허 정보 특허명, 출원/등록인, 출원/등록일, 출원/등록국가 등 관련 항목 포함
Author농림식품기술기획평가원
URLhttps://www.data.go.kr/data/15053203/fileData.do

Alerts

Dataset has 36 (3.5%) duplicate rowsDuplicates
출원등록국가 is highly imbalanced (84.0%)Imbalance

Reproduction

Analysis started2023-12-12 02:21:38.760222
Analysis finished2023-12-12 02:21:39.411800
Duration0.65 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

Distinct912
Distinct (%)89.0%
Missing0
Missing (%)0.0%
Memory size8.1 KiB
2023-12-12T11:21:39.632616image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length253
Median length101
Mean length41.021463
Min length3

Characters and Unicode

Total characters42047
Distinct characters719
Distinct categories11 ?
Distinct scripts5 ?
Distinct blocks5 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique829 ?
Unique (%)80.9%

Sample

1st row섬기린초에서 분리된 화합물을 유효성분으로 함유하는 천연 항균제
2nd row신규한 돼지 인플루엔자 바이러스 A H1N1 및 그의 용도
3rd row울금 추출물, 및 스테비아 추출물 또는 스테비오사이드의 혼합물을 유효성분으로 포함하는 흰점 증후군 바이러스에 대한 내성 증강용 사료 첨가제 조성물 및 이를 포함하는 사료 조성물
4th row트라우스토키트리드 미세조류의 형질전환체
5th row어성초 추출물을 유효성분으로 포함하는 지방간 예방 또는 치료용 조성물
ValueCountFrequency (%)
619
 
6.5%
조성물 290
 
3.0%
이용한 193
 
2.0%
포함하는 174
 
1.8%
방법 142
 
1.5%
제조방법 142
 
1.5%
이의 141
 
1.5%
이를 137
 
1.4%
함유하는 130
 
1.4%
또는 124
 
1.3%
Other values (2859) 7425
78.0%
2023-12-12T11:21:40.182942image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
8496
 
20.2%
1043
 
2.5%
821
 
2.0%
778
 
1.9%
711
 
1.7%
683
 
1.6%
652
 
1.6%
651
 
1.5%
630
 
1.5%
621
 
1.5%
Other values (709) 26961
64.1%

Most occurring categories

ValueCountFrequency (%)
Other Letter 27780
66.1%
Space Separator 8496
 
20.2%
Lowercase Letter 2654
 
6.3%
Uppercase Letter 2331
 
5.5%
Decimal Number 373
 
0.9%
Dash Punctuation 198
 
0.5%
Other Punctuation 171
 
0.4%
Open Punctuation 21
 
< 0.1%
Close Punctuation 21
 
< 0.1%
Connector Punctuation 1
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
1043
 
3.8%
821
 
3.0%
778
 
2.8%
711
 
2.6%
683
 
2.5%
652
 
2.3%
651
 
2.3%
630
 
2.3%
621
 
2.2%
572
 
2.1%
Other values (573) 20618
74.2%
Uppercase Letter
ValueCountFrequency (%)
E 185
 
7.9%
O 177
 
7.6%
A 162
 
6.9%
N 157
 
6.7%
I 139
 
6.0%
C 136
 
5.8%
T 135
 
5.8%
R 125
 
5.4%
P 119
 
5.1%
S 110
 
4.7%
Other values (41) 886
38.0%
Lowercase Letter
ValueCountFrequency (%)
e 281
 
10.6%
n 216
 
8.1%
i 215
 
8.1%
o 214
 
8.1%
t 210
 
7.9%
a 188
 
7.1%
r 183
 
6.9%
s 168
 
6.3%
c 115
 
4.3%
p 102
 
3.8%
Other values (38) 762
28.7%
Decimal Number
ValueCountFrequency (%)
1 65
17.4%
2 50
13.4%
3 48
12.9%
0 40
10.7%
4 35
9.4%
7 34
9.1%
5 28
7.5%
6 21
 
5.6%
9 16
 
4.3%
8
 
2.1%
Other values (8) 28
7.5%
Other Punctuation
ValueCountFrequency (%)
, 145
84.8%
' 8
 
4.7%
. 7
 
4.1%
/ 7
 
4.1%
: 2
 
1.2%
; 1
 
0.6%
· 1
 
0.6%
Dash Punctuation
ValueCountFrequency (%)
- 170
85.9%
17
 
8.6%
11
 
5.6%
Open Punctuation
ValueCountFrequency (%)
( 19
90.5%
1
 
4.8%
{ 1
 
4.8%
Close Punctuation
ValueCountFrequency (%)
) 19
90.5%
1
 
4.8%
} 1
 
4.8%
Space Separator
ValueCountFrequency (%)
8496
100.0%
Connector Punctuation
ValueCountFrequency (%)
_ 1
100.0%
Format
ValueCountFrequency (%)
­ 1
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 27780
66.1%
Common 9282
 
22.1%
Latin 4981
 
11.8%
Greek 3
 
< 0.1%
Cyrillic 1
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
1043
 
3.8%
821
 
3.0%
778
 
2.8%
711
 
2.6%
683
 
2.5%
652
 
2.3%
651
 
2.3%
630
 
2.3%
621
 
2.2%
572
 
2.1%
Other values (573) 20618
74.2%
Latin
ValueCountFrequency (%)
e 281
 
5.6%
n 216
 
4.3%
i 215
 
4.3%
o 214
 
4.3%
t 210
 
4.2%
a 188
 
3.8%
E 185
 
3.7%
r 183
 
3.7%
O 177
 
3.6%
s 168
 
3.4%
Other values (85) 2944
59.1%
Common
ValueCountFrequency (%)
8496
91.5%
- 170
 
1.8%
, 145
 
1.6%
1 65
 
0.7%
2 50
 
0.5%
3 48
 
0.5%
0 40
 
0.4%
4 35
 
0.4%
7 34
 
0.4%
5 28
 
0.3%
Other values (27) 171
 
1.8%
Greek
ValueCountFrequency (%)
β 1
33.3%
γ 1
33.3%
ε 1
33.3%
Cyrillic
ValueCountFrequency (%)
А 1
100.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 27780
66.1%
ASCII 13836
32.9%
None 413
 
1.0%
Punctuation 17
 
< 0.1%
Cyrillic 1
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
8496
61.4%
e 281
 
2.0%
n 216
 
1.6%
i 215
 
1.6%
o 214
 
1.5%
t 210
 
1.5%
a 188
 
1.4%
E 185
 
1.3%
r 183
 
1.3%
O 177
 
1.3%
Other values (64) 3471
25.1%
Hangul
ValueCountFrequency (%)
1043
 
3.8%
821
 
3.0%
778
 
2.8%
711
 
2.6%
683
 
2.5%
652
 
2.3%
651
 
2.3%
630
 
2.3%
621
 
2.2%
572
 
2.1%
Other values (573) 20618
74.2%
None
ValueCountFrequency (%)
28
 
6.8%
24
 
5.8%
19
 
4.6%
18
 
4.4%
17
 
4.1%
16
 
3.9%
14
 
3.4%
14
 
3.4%
13
 
3.1%
13
 
3.1%
Other values (50) 237
57.4%
Punctuation
ValueCountFrequency (%)
17
100.0%
Cyrillic
ValueCountFrequency (%)
А 1
100.0%
Distinct260
Distinct (%)25.4%
Missing0
Missing (%)0.0%
Memory size8.1 KiB
2023-12-12T11:21:40.405197image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length51
Median length48
Mean length10.32878
Min length3

Characters and Unicode

Total characters10587
Distinct characters286
Distinct categories11 ?
Distinct scripts3 ?
Distinct blocks4 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique136 ?
Unique (%)13.3%

Sample

1st row에스앤텍
2nd row녹십자수의약품(주)
3rd row한국생명공학연구원
4th row한국생명공학연구원
5th row건국대학교(충주)
ValueCountFrequency (%)
산학협력단 117
 
9.7%
농촌진흥청 79
 
6.6%
대한민국(농촌진흥청장 62
 
5.2%
건국대학교산학협력단 53
 
4.4%
한국생명공학연구원 44
 
3.7%
건국대학교 42
 
3.5%
전남대학교산학협력단 30
 
2.5%
대한민국 27
 
2.2%
서울대학교산학협력단 25
 
2.1%
한국식품연구원 23
 
1.9%
Other values (273) 700
58.2%
2023-12-12T11:21:40.852502image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
1170
 
11.1%
685
 
6.5%
583
 
5.5%
557
 
5.3%
540
 
5.1%
527
 
5.0%
526
 
5.0%
375
 
3.5%
250
 
2.4%
214
 
2.0%
Other values (276) 5160
48.7%

Most occurring categories

ValueCountFrequency (%)
Other Letter 9799
92.6%
Close Punctuation 189
 
1.8%
Open Punctuation 189
 
1.8%
Space Separator 177
 
1.7%
Math Symbol 63
 
0.6%
Lowercase Letter 57
 
0.5%
Other Punctuation 49
 
0.5%
Decimal Number 26
 
0.2%
Uppercase Letter 21
 
0.2%
Other Symbol 11
 
0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
1170
 
11.9%
685
 
7.0%
583
 
5.9%
557
 
5.7%
540
 
5.5%
527
 
5.4%
526
 
5.4%
375
 
3.8%
250
 
2.6%
214
 
2.2%
Other values (227) 4372
44.6%
Lowercase Letter
ValueCountFrequency (%)
e 9
15.8%
o 8
14.0%
i 5
8.8%
s 4
7.0%
c 4
7.0%
n 4
7.0%
t 4
7.0%
a 4
7.0%
r 4
7.0%
h 2
 
3.5%
Other values (7) 9
15.8%
Uppercase Letter
ValueCountFrequency (%)
B 3
14.3%
C 2
9.5%
I 2
9.5%
K 2
9.5%
T 2
9.5%
S 2
9.5%
M 2
9.5%
F 2
9.5%
N 1
 
4.8%
U 1
 
4.8%
Other values (2) 2
9.5%
Decimal Number
ValueCountFrequency (%)
0 6
23.1%
1 5
19.2%
2 4
15.4%
3 3
11.5%
9 3
11.5%
4 2
 
7.7%
7 1
 
3.8%
8 1
 
3.8%
5 1
 
3.8%
Other Punctuation
ValueCountFrequency (%)
; 28
57.1%
, 15
30.6%
: 3
 
6.1%
& 2
 
4.1%
. 1
 
2.0%
Close Punctuation
ValueCountFrequency (%)
) 189
100.0%
Open Punctuation
ValueCountFrequency (%)
( 189
100.0%
Space Separator
ValueCountFrequency (%)
177
100.0%
Math Symbol
ValueCountFrequency (%)
| 63
100.0%
Other Symbol
ValueCountFrequency (%)
11
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 6
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 9810
92.7%
Common 699
 
6.6%
Latin 78
 
0.7%

Most frequent character per script

Hangul
ValueCountFrequency (%)
1170
 
11.9%
685
 
7.0%
583
 
5.9%
557
 
5.7%
540
 
5.5%
527
 
5.4%
526
 
5.4%
375
 
3.8%
250
 
2.5%
214
 
2.2%
Other values (228) 4383
44.7%
Latin
ValueCountFrequency (%)
e 9
 
11.5%
o 8
 
10.3%
i 5
 
6.4%
s 4
 
5.1%
c 4
 
5.1%
n 4
 
5.1%
t 4
 
5.1%
a 4
 
5.1%
r 4
 
5.1%
B 3
 
3.8%
Other values (19) 29
37.2%
Common
ValueCountFrequency (%)
) 189
27.0%
( 189
27.0%
177
25.3%
| 63
 
9.0%
; 28
 
4.0%
, 15
 
2.1%
0 6
 
0.9%
- 6
 
0.9%
1 5
 
0.7%
2 4
 
0.6%
Other values (9) 17
 
2.4%

Most occurring blocks

ValueCountFrequency (%)
Hangul 9798
92.5%
ASCII 777
 
7.3%
None 11
 
0.1%
Compat Jamo 1
 
< 0.1%

Most frequent character per block

Hangul
ValueCountFrequency (%)
1170
 
11.9%
685
 
7.0%
583
 
6.0%
557
 
5.7%
540
 
5.5%
527
 
5.4%
526
 
5.4%
375
 
3.8%
250
 
2.6%
214
 
2.2%
Other values (226) 4371
44.6%
ASCII
ValueCountFrequency (%)
) 189
24.3%
( 189
24.3%
177
22.8%
| 63
 
8.1%
; 28
 
3.6%
, 15
 
1.9%
e 9
 
1.2%
o 8
 
1.0%
0 6
 
0.8%
- 6
 
0.8%
Other values (38) 87
11.2%
None
ValueCountFrequency (%)
11
100.0%
Compat Jamo
ValueCountFrequency (%)
1
100.0%
Distinct509
Distinct (%)49.7%
Missing0
Missing (%)0.0%
Memory size8.1 KiB
Minimum2009-03-13 00:00:00
Maximum2013-12-23 00:00:00
2023-12-12T11:21:41.008030image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
2023-12-12T11:21:41.194774image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram with fixed size bins (bins=50)

출원등록국가
Categorical

IMBALANCE 

Distinct10
Distinct (%)1.0%
Missing0
Missing (%)0.0%
Memory size8.1 KiB
대한민국
950 
국제
 
39
미국
 
16
중국
 
9
오스트레일리아
 
3
Other values (5)
 
8

Length

Max length7
Median length4
Mean length3.875122
Min length2

Unique

Unique3 ?
Unique (%)0.3%

Sample

1st row대한민국
2nd row대한민국
3rd row대한민국
4th row대한민국
5th row대한민국

Common Values

ValueCountFrequency (%)
대한민국 950
92.7%
국제 39
 
3.8%
미국 16
 
1.6%
중국 9
 
0.9%
오스트레일리아 3
 
0.3%
일본 3
 
0.3%
유럽연합 2
 
0.2%
캐나다 1
 
0.1%
러시아 1
 
0.1%
베트남 1
 
0.1%

Length

2023-12-12T11:21:41.382428image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-12T11:21:41.516732image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
대한민국 950
92.7%
국제 39
 
3.8%
미국 16
 
1.6%
중국 9
 
0.9%
오스트레일리아 3
 
0.3%
일본 3
 
0.3%
유럽연합 2
 
0.2%
캐나다 1
 
0.1%
러시아 1
 
0.1%
베트남 1
 
0.1%

Missing values

2023-12-12T11:21:39.294462image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2023-12-12T11:21:39.374218image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

특허명출원등록인출원등록일출원등록국가
0섬기린초에서 분리된 화합물을 유효성분으로 함유하는 천연 항균제에스앤텍2013-12-23대한민국
1신규한 돼지 인플루엔자 바이러스 A H1N1 및 그의 용도녹십자수의약품(주)2013-12-20대한민국
2울금 추출물, 및 스테비아 추출물 또는 스테비오사이드의 혼합물을 유효성분으로 포함하는 흰점 증후군 바이러스에 대한 내성 증강용 사료 첨가제 조성물 및 이를 포함하는 사료 조성물한국생명공학연구원2013-12-19대한민국
3트라우스토키트리드 미세조류의 형질전환체한국생명공학연구원2013-12-10대한민국
4어성초 추출물을 유효성분으로 포함하는 지방간 예방 또는 치료용 조성물건국대학교(충주)2013-12-09대한민국
5돼지 인플루엔자 바이러스 감염의 예방 또는 치료방법녹십자수의약품(주)2013-12-03대한민국
6큰 느타리버섯을 재배한 배지에서 추출한 추출물을 유효성분으로 포함하는 염료 탈색제한경대학교산학협력단2013-11-22대한민국
7진세노사이드 F2의 함량이 증가된 발효 홍삼의 제조방법 및 상기 방법으로 제조된 발효 홍삼 추출물경희대학교산학협력단2013-11-22대한민국
8신종균 크리세오박테리움 THG-C4-1 및 이를 이용한 지페노사이드 17 생산 방법경희대학교산학협력단2013-11-20대한민국
9사철쑥 유래 스코파론 함유 추출물을 유효성분으로 포함하는 골다공증 예방 또는 치료용 조성물주식회사케이스템셀2013-11-13대한민국
특허명출원등록인출원등록일출원등록국가
1015식물 스트레스 저항성을 증가시키는 OsRDCP1유전자및 상기 유전자가 도입된 형질전환 식물체연세대학교산학협력단2009-04-29대한민국
1016산삼에서 발현된 특이 유전자 p-rpoC1 및 이를 이용한 산삼의 감별방법상지대학교산학협력단2009-04-24대한민국
1017산삼에서 발현된 특이 유전자 pGAPDH-w 및 이를 이용한 산삼의 감별방법상지대학교산학협력단2009-04-24대한민국
1018압출성형 및 초고압처리에 의한 고품질의 옥수수겨 추출물 제조방법학교법인선목학원,(주)사임당화장품2009-04-23대한민국
1019배양액 및 동물 복제를 위한 체외 배양 방법(주)미래생명공학연구소2009-04-22대한민국
1020소 수정란의 성 감별 방법(주)미래생명공학연구소2009-04-22대한민국
1021동물 배아의 보존 방법(주)미래생명공학연구소2009-04-22대한민국
1022안정화된 옥수수겨 추출물의 나노리포좀을 함유하는 화장료조성물(주)사임당화장품2009-03-27대한민국
1023압출성형 및 초고압처리에 의한 옥수수겨로부터 폴리아민컨쥬케이트의 추출 및 고품질의 정제분말 제조방법학교법인선목학원,(주)사임당화장품2009-03-19대한민국
1024식물의 안토시아닌 합성 증대조절제고려대학교산학협력단2009-03-13대한민국

Duplicate rows

Most frequently occurring

특허명출원등록인출원등록일출원등록국가# duplicates
25유채 품종 특이적 마커, 프라이머 및 이의 용도강원대학교산학협력단2012-10-23대한민국5
18식물의 콜드 또는 프리징 저항성을 증가시키는 유전자 및 형질전환 식물체이화여자대학교산학협력단2012-07-02대한민국4
22신규한 항생활성 화합물 및 그 화합물을 포함하는 항생 조성물대한민국(농촌진흥청장)|건국대학교산학협력단2012-03-13대한민국4
13방선균 추출물을 포함하는 잔토모나스속 병원균에 대한 억제용 조성물건국대학교산학협력단|대한민국(농촌진흥청장)|명지대학교산학협력단2012-11-20대한민국3
20신규한 항생활성 화합물 및 그 화합물을 포함하는 항생 조성물건국대학교산학협력단|대한민국(농촌진흥청장)2012-03-13대한민국3
0Bglap 유전자를 이용한 지방유래 중간엽 줄기세포를 골아세포로 분화시키는 방법강원대학교산학협력단2012-10-11대한민국2
1PPAR 활성을 지닌 자생 불레기말 추출물을 함유하는 조성물고려대학교산학협력단2010-03-30대한민국2
2PPAR 활성을 지닌 자생 청각 추출물을 함유하는 조성물고려대학교산학협력단2010-03-30대한민국2
3SDS용액을 이용한 바이오 스캐폴드의 제조방법강원대학교산학협력단2012-10-11대한민국2
4공기전파가 가능한 신규한 H9N2형 저병원성 조류인플루엔자 바이러스 균주 및 그로부터 유래된 백신건국대학교 산학협력단2011-05-30대한민국2