Overview

Dataset statistics

Number of variables4
Number of observations866
Missing cells0
Missing cells (%)0.0%
Duplicate rows34
Duplicate rows (%)3.9%
Total size in memory28.0 KiB
Average record size in memory33.2 B

Variable types

Text2
Categorical2

Dataset

Description농림식품 연구개발 과제를 통해 창출된 성과 정보를 공공데이터로 제공 특허명,출원/등록인,출원등록년도,출원/등록국가 등 항목으로 구성
Author농림식품기술기획평가원
URLhttps://www.data.go.kr/data/15053187/fileData.do

Alerts

Dataset has 34 (3.9%) duplicate rowsDuplicates
출원등록국가 is highly imbalanced (84.0%)Imbalance

Reproduction

Analysis started2023-12-11 22:53:59.779302
Analysis finished2023-12-11 22:54:00.480282
Duration0.7 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

Distinct761
Distinct (%)87.9%
Missing0
Missing (%)0.0%
Memory size6.9 KiB
2023-12-12T07:54:00.685717image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length150
Median length65
Mean length31.836028
Min length3

Characters and Unicode

Total characters27570
Distinct characters711
Distinct categories12 ?
Distinct scripts6 ?
Distinct blocks7 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique682 ?
Unique (%)78.8%

Sample

1st row땅콩수확기의 선별체 수평유지장치
2nd row무인항공 방제용 멀티콥터 시스템
3rd row캡시컴 안늄의 종내집단을 이용한 SSR마커 및 유전자 연관지도
4th row고추의 고밀도 유전자 연관지도
5th row밀 신품종 '트랜스' 품종보호권 등록
ValueCountFrequency (%)
456
 
6.9%
이용한 178
 
2.7%
용도 132
 
2.0%
방법 125
 
1.9%
이의 125
 
1.9%
이를 114
 
1.7%
유전자 99
 
1.5%
조성물 91
 
1.4%
위한 67
 
1.0%
제조방법 63
 
0.9%
Other values (2294) 5182
78.1%
2023-12-12T07:54:01.122205image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
5768
 
20.9%
762
 
2.8%
579
 
2.1%
526
 
1.9%
460
 
1.7%
421
 
1.5%
420
 
1.5%
415
 
1.5%
389
 
1.4%
360
 
1.3%
Other values (701) 17470
63.4%

Most occurring categories

ValueCountFrequency (%)
Other Letter 18991
68.9%
Space Separator 5768
 
20.9%
Uppercase Letter 1363
 
4.9%
Lowercase Letter 973
 
3.5%
Decimal Number 236
 
0.9%
Other Punctuation 92
 
0.3%
Dash Punctuation 61
 
0.2%
Close Punctuation 41
 
0.1%
Open Punctuation 41
 
0.1%
Format 2
 
< 0.1%
Other values (2) 2
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
762
 
4.0%
579
 
3.0%
526
 
2.8%
460
 
2.4%
421
 
2.2%
420
 
2.2%
415
 
2.2%
389
 
2.0%
360
 
1.9%
356
 
1.9%
Other values (580) 14303
75.3%
Uppercase Letter
ValueCountFrequency (%)
N 98
 
7.2%
A 91
 
6.7%
S 82
 
6.0%
O 79
 
5.8%
E 68
 
5.0%
T 61
 
4.5%
R 59
 
4.3%
P 59
 
4.3%
L 54
 
4.0%
I 53
 
3.9%
Other values (40) 659
48.3%
Lowercase Letter
ValueCountFrequency (%)
e 96
 
9.9%
i 95
 
9.8%
a 74
 
7.6%
n 70
 
7.2%
o 69
 
7.1%
s 68
 
7.0%
t 68
 
7.0%
r 65
 
6.7%
u 43
 
4.4%
c 42
 
4.3%
Other values (29) 283
29.1%
Decimal Number
ValueCountFrequency (%)
1 62
26.3%
0 26
11.0%
2 23
 
9.7%
3 23
 
9.7%
5 17
 
7.2%
6 15
 
6.4%
7 13
 
5.5%
4 13
 
5.5%
9 12
 
5.1%
8 8
 
3.4%
Other values (7) 24
 
10.2%
Other Punctuation
ValueCountFrequency (%)
, 66
71.7%
. 14
 
15.2%
' 6
 
6.5%
/ 3
 
3.3%
: 2
 
2.2%
· 1
 
1.1%
Dash Punctuation
ValueCountFrequency (%)
- 57
93.4%
2
 
3.3%
2
 
3.3%
Space Separator
ValueCountFrequency (%)
5768
100.0%
Close Punctuation
ValueCountFrequency (%)
) 41
100.0%
Open Punctuation
ValueCountFrequency (%)
( 41
100.0%
Format
ValueCountFrequency (%)
­ 2
100.0%
Letter Number
ValueCountFrequency (%)
1
100.0%
Modifier Symbol
ValueCountFrequency (%)
` 1
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 18967
68.8%
Common 6242
 
22.6%
Latin 2333
 
8.5%
Han 16
 
0.1%
Katakana 8
 
< 0.1%
Greek 4
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
762
 
4.0%
579
 
3.1%
526
 
2.8%
460
 
2.4%
421
 
2.2%
420
 
2.2%
415
 
2.2%
389
 
2.1%
360
 
1.9%
356
 
1.9%
Other values (568) 14279
75.3%
Latin
ValueCountFrequency (%)
N 98
 
4.2%
e 96
 
4.1%
i 95
 
4.1%
A 91
 
3.9%
S 82
 
3.5%
O 79
 
3.4%
a 74
 
3.2%
n 70
 
3.0%
o 69
 
3.0%
E 68
 
2.9%
Other values (78) 1511
64.8%
Common
ValueCountFrequency (%)
5768
92.4%
, 66
 
1.1%
1 62
 
1.0%
- 57
 
0.9%
) 41
 
0.7%
( 41
 
0.7%
0 26
 
0.4%
2 23
 
0.4%
3 23
 
0.4%
5 17
 
0.3%
Other values (21) 118
 
1.9%
Han
ValueCountFrequency (%)
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
Katakana
ValueCountFrequency (%)
2
25.0%
2
25.0%
2
25.0%
2
25.0%
Greek
ValueCountFrequency (%)
Ν 2
50.0%
Ο 2
50.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 18967
68.8%
ASCII 8211
29.8%
None 365
 
1.3%
CJK 16
 
0.1%
Katakana 8
 
< 0.1%
Punctuation 2
 
< 0.1%
Number Forms 1
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
5768
70.2%
N 98
 
1.2%
e 96
 
1.2%
i 95
 
1.2%
A 91
 
1.1%
S 82
 
1.0%
O 79
 
1.0%
a 74
 
0.9%
n 70
 
0.9%
o 69
 
0.8%
Other values (60) 1689
 
20.6%
Hangul
ValueCountFrequency (%)
762
 
4.0%
579
 
3.1%
526
 
2.8%
460
 
2.4%
421
 
2.2%
420
 
2.2%
415
 
2.2%
389
 
2.1%
360
 
1.9%
356
 
1.9%
Other values (568) 14279
75.3%
None
ValueCountFrequency (%)
41
 
11.2%
37
 
10.1%
27
 
7.4%
26
 
7.1%
25
 
6.8%
21
 
5.8%
20
 
5.5%
20
 
5.5%
20
 
5.5%
18
 
4.9%
Other values (39) 110
30.1%
Punctuation
ValueCountFrequency (%)
2
100.0%
Katakana
ValueCountFrequency (%)
2
25.0%
2
25.0%
2
25.0%
2
25.0%
CJK
ValueCountFrequency (%)
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
Number Forms
ValueCountFrequency (%)
1
100.0%
Distinct209
Distinct (%)24.1%
Missing0
Missing (%)0.0%
Memory size6.9 KiB
2023-12-12T07:54:01.331168image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length33
Median length27
Mean length9.1212471
Min length3

Characters and Unicode

Total characters7899
Distinct characters235
Distinct categories10 ?
Distinct scripts3 ?
Distinct blocks3 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique97 ?
Unique (%)11.2%

Sample

1st row동양물산기업
2nd row한국항공대학교산학협력단
3rd row(주)에프앤피
4th row(주)에프앤피
5th row고려대학교산학협력단
ValueCountFrequency (%)
농촌진흥청 116
 
12.1%
산학협력단 55
 
5.7%
한국생명공학연구원 54
 
5.6%
대한민국(농촌진흥청장 49
 
5.1%
대한민국 28
 
2.9%
서울대학교산학협력단 24
 
2.5%
한국생명공학연구원;농촌진흥청 24
 
2.5%
국립수산과학원 23
 
2.4%
대한민국(국립수산과학원 21
 
2.2%
제노마인(주 17
 
1.8%
Other values (210) 548
57.1%
2023-12-12T07:54:01.746969image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
696
 
8.8%
407
 
5.2%
361
 
4.6%
338
 
4.3%
281
 
3.6%
271
 
3.4%
267
 
3.4%
264
 
3.3%
262
 
3.3%
234
 
3.0%
Other values (225) 4518
57.2%

Most occurring categories

ValueCountFrequency (%)
Other Letter 7264
92.0%
Close Punctuation 204
 
2.6%
Open Punctuation 203
 
2.6%
Space Separator 93
 
1.2%
Other Punctuation 62
 
0.8%
Lowercase Letter 29
 
0.4%
Uppercase Letter 16
 
0.2%
Math Symbol 14
 
0.2%
Other Symbol 8
 
0.1%
Decimal Number 6
 
0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
696
 
9.6%
407
 
5.6%
361
 
5.0%
338
 
4.7%
281
 
3.9%
271
 
3.7%
267
 
3.7%
264
 
3.6%
262
 
3.6%
234
 
3.2%
Other values (192) 3883
53.5%
Lowercase Letter
ValueCountFrequency (%)
n 4
13.8%
o 3
10.3%
c 3
10.3%
e 3
10.3%
d 2
6.9%
r 2
6.9%
u 2
6.9%
l 2
6.9%
t 2
6.9%
i 2
6.9%
Other values (3) 4
13.8%
Uppercase Letter
ValueCountFrequency (%)
L 3
18.8%
D 2
12.5%
E 2
12.5%
A 2
12.5%
C 2
12.5%
H 1
 
6.2%
G 1
 
6.2%
I 1
 
6.2%
J 1
 
6.2%
Y 1
 
6.2%
Other Punctuation
ValueCountFrequency (%)
; 50
80.6%
: 5
 
8.1%
, 4
 
6.5%
. 3
 
4.8%
Close Punctuation
ValueCountFrequency (%)
) 204
100.0%
Open Punctuation
ValueCountFrequency (%)
( 203
100.0%
Space Separator
ValueCountFrequency (%)
93
100.0%
Math Symbol
ValueCountFrequency (%)
| 14
100.0%
Other Symbol
ValueCountFrequency (%)
8
100.0%
Decimal Number
ValueCountFrequency (%)
1 6
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 7272
92.1%
Common 582
 
7.4%
Latin 45
 
0.6%

Most frequent character per script

Hangul
ValueCountFrequency (%)
696
 
9.6%
407
 
5.6%
361
 
5.0%
338
 
4.6%
281
 
3.9%
271
 
3.7%
267
 
3.7%
264
 
3.6%
262
 
3.6%
234
 
3.2%
Other values (193) 3891
53.5%
Latin
ValueCountFrequency (%)
n 4
 
8.9%
L 3
 
6.7%
o 3
 
6.7%
c 3
 
6.7%
e 3
 
6.7%
d 2
 
4.4%
D 2
 
4.4%
E 2
 
4.4%
A 2
 
4.4%
C 2
 
4.4%
Other values (13) 19
42.2%
Common
ValueCountFrequency (%)
) 204
35.1%
( 203
34.9%
93
16.0%
; 50
 
8.6%
| 14
 
2.4%
1 6
 
1.0%
: 5
 
0.9%
, 4
 
0.7%
. 3
 
0.5%

Most occurring blocks

ValueCountFrequency (%)
Hangul 7264
92.0%
ASCII 627
 
7.9%
None 8
 
0.1%

Most frequent character per block

Hangul
ValueCountFrequency (%)
696
 
9.6%
407
 
5.6%
361
 
5.0%
338
 
4.7%
281
 
3.9%
271
 
3.7%
267
 
3.7%
264
 
3.6%
262
 
3.6%
234
 
3.2%
Other values (192) 3883
53.5%
ASCII
ValueCountFrequency (%)
) 204
32.5%
( 203
32.4%
93
14.8%
; 50
 
8.0%
| 14
 
2.2%
1 6
 
1.0%
: 5
 
0.8%
n 4
 
0.6%
, 4
 
0.6%
L 3
 
0.5%
Other values (22) 41
 
6.5%
None
ValueCountFrequency (%)
8
100.0%
Distinct5
Distinct (%)0.6%
Missing0
Missing (%)0.0%
Memory size6.9 KiB
2012
308 
2011
272 
2010
175 
2009
57 
2013
54 

Length

Max length4
Median length4
Mean length4
Min length4

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row2013
2nd row2013
3rd row2013
4th row2013
5th row2013

Common Values

ValueCountFrequency (%)
2012 308
35.6%
2011 272
31.4%
2010 175
20.2%
2009 57
 
6.6%
2013 54
 
6.2%

Length

2023-12-12T07:54:01.895714image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-12T07:54:01.998453image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
2012 308
35.6%
2011 272
31.4%
2010 175
20.2%
2009 57
 
6.6%
2013 54
 
6.2%

출원등록국가
Categorical

IMBALANCE 

Distinct7
Distinct (%)0.8%
Missing0
Missing (%)0.0%
Memory size6.9 KiB
대한민국
816 
중국
 
15
일본
 
13
미국
 
11
국제
 
6
Other values (2)
 
5

Length

Max length4
Median length4
Mean length3.8937644
Min length2

Unique

Unique1 ?
Unique (%)0.1%

Sample

1st row대한민국
2nd row대한민국
3rd row대한민국
4th row대한민국
5th row대한민국

Common Values

ValueCountFrequency (%)
대한민국 816
94.2%
중국 15
 
1.7%
일본 13
 
1.5%
미국 11
 
1.3%
국제 6
 
0.7%
유럽연합 4
 
0.5%
영국 1
 
0.1%

Length

2023-12-12T07:54:02.119098image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-12T07:54:02.230077image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
대한민국 816
94.2%
중국 15
 
1.7%
일본 13
 
1.5%
미국 11
 
1.3%
국제 6
 
0.7%
유럽연합 4
 
0.5%
영국 1
 
0.1%

Correlations

2023-12-12T07:54:02.607547image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
출원등록년도출원등록국가
출원등록년도1.0000.036
출원등록국가0.0361.000
2023-12-12T07:54:02.700894image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
출원등록년도출원등록국가
출원등록년도1.0000.023
출원등록국가0.0231.000
2023-12-12T07:54:02.788093image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
출원등록년도출원등록국가
출원등록년도1.0000.023
출원등록국가0.0231.000

Missing values

2023-12-12T07:54:00.368227image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2023-12-12T07:54:00.444978image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

특허명출원등록인출원등록년도출원등록국가
0땅콩수확기의 선별체 수평유지장치동양물산기업2013대한민국
1무인항공 방제용 멀티콥터 시스템한국항공대학교산학협력단2013대한민국
2캡시컴 안늄의 종내집단을 이용한 SSR마커 및 유전자 연관지도(주)에프앤피2013대한민국
3고추의 고밀도 유전자 연관지도(주)에프앤피2013대한민국
4밀 신품종 '트랜스' 품종보호권 등록고려대학교산학협력단2013대한민국
5토양 메타게놈 유래의 식물병 저항성 관련 유전자 및 이의 용도한국생명공학연구원2013미국
6피엔비-지1(주)고추와육종2013대한민국
7피엔비-지3(주)고추와육종2013대한민국
8우수한 기능성을 갖는 농업용코팅조성물, 이의 제조방법 및 이를 함유하는 농업용 코팅필름미림화학공업(주)2013대한민국
9유산균을 이용하여 스테비오사이드로부터 루부소사이드를 생산하는 방법한국생명공학연구원2013대한민국
특허명출원등록인출원등록년도출원등록국가
856오이 유래의 저온 스트레스 내성 유도 카이네이스 유전자의 프로모터 및 상기 프로모터를 이용한 형질전환 식물전남대학교산학협력단2009대한민국
857알루미늄을 이용한 다겹 차광 보온 커튼㈜부전2009대한민국
858아밀라아제 유전자 침묵에 의한 재조합 단백질 증산 방법전북대학교산학협력단2009대한민국
859시스테인 프로테이나아제 유전자 발현의 억제에 의한 재조합 단백질 증산 방법전북대학교산학협력단2009대한민국
860고추역병 방제 및 고추생육촉진용 길항 미생물 조합 조성물영남대학교산학협력단2009대한민국
861자동 해충 인지 및 방제 시스템 및 방법부산대학교산학협력단2009대한민국
862저층수를 이용한 적조 피해 방지 장치국립수산과학원2009대한민국
863반궤도식 작업차경북대학교산학협력단2009대한민국
864어장조성용 생분해성 로프망 및 그 제조방법국립수산과학원2009대한민국
865자포니카 쌀의 식미평가용 마커 및 그의 용도서울대학교산학협력단2009대한민국

Duplicate rows

Most frequently occurring

특허명출원등록인출원등록년도출원등록국가# duplicates
0KingNupchi Halibut대한민국(국립수산과학원)2012중국4
1KingNupchi Halibut 영문표장대한민국(국립수산과학원)2012중국4
11농업용 작업차량의 배출가스 후처리장치의 취부구조대동공업2010대한민국4
12농용 작업차량의 엔진제어유닛 취부구조대동공업주식회사2011대한민국4
10농업용 작업차대동공업주식회사2011대한민국3
20식물의 노화 지연 기능 및 생산성 증대 기능을 갖는 ATPG7 단백질과 그 유전자 및 이들의 용도제노마인(주)2011대한민국3
21식물의 노화 지연 기능 및 생산성 증대 기능을 갖는 ATPG8 단백질과 그 유전자 및 이들의 용도제노마인(주)2011대한민국3
30항염증 효과를 갖는 잠분 추출물 및 이를 포함하는 피부 외용제 조성물경희대학교산학협력단|대한민국(관리부서:농촌진흥청장)2012대한민국3
33PMMoV 저항성 고추 품종을 선별하기 위한 프라이머 세트, 방법 및 키트서울대학교산학협력단2010대한민국3
2MYROTHECIUM SP. P10­008의 배양액을 포함하는 살선충용 조성물 및 이의 이용방법대한민국(농촌진흥청장)2012대한민국2