Dataset statistics
Number of variables | 3 |
---|---|
Number of observations | 116 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 3.0 KiB |
Average record size in memory | 26.1 B |
Variable types
Categorical | 1 |
---|---|
Text | 2 |
Dataset
Description | 한국지능정보사회진흥원(NIA)에서 제공하는 인공지능 학습용 데이터 구축 현황 자료(연도, 분야, 주요내용 등) 입니다. |
---|---|
Author | 한국지능정보사회진흥원 |
URL | https://www.data.go.kr/data/15039915/fileData.do |
주요내용 has unique values | Unique |
Reproduction
Analysis started | 2024-03-11 03:29:28.478076 |
---|---|
Analysis finished | 2024-03-11 03:29:29.119895 |
Duration | 0.64 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
연도
Categorical
Distinct | 4 |
---|---|
Distinct (%) | 3.4% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 1.0 KiB |
2020 | |
---|---|
2019 | |
2018 | 6 |
2017 | 4 |
Length
Max length | 4 |
---|---|
Median length | 4 |
Mean length | 4 |
Min length | 4 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 2017 |
---|---|
2nd row | 2017 |
3rd row | 2017 |
4th row | 2017 |
5th row | 2018 |
Common Values
Value | Count | Frequency (%) |
2020 | 92 | |
2019 | 14 | 12.1% |
2018 | 6 | 5.2% |
2017 | 4 | 3.4% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
2020 | 92 | |
2019 | 14 | 12.1% |
2018 | 6 | 5.2% |
2017 | 4 | 3.4% |
분야
Text
Distinct | 114 |
---|---|
Distinct (%) | 98.3% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 1.0 KiB |
Value | Count | Frequency (%) |
ai데이터 | 33 | 10.3% |
이미지 | 25 | 7.8% |
영상 | 15 | 4.7% |
및 | 14 | 4.4% |
데이터 | 9 | 2.8% |
한국인 | 5 | 1.6% |
말뭉치 | 5 | 1.6% |
한국어 | 4 | 1.2% |
번역 | 3 | 0.9% |
객체 | 3 | 0.9% |
Other values (188) | 205 |
Most occurring characters
Value | Count | Frequency (%) |
206 | 16.9% | |
이 | 77 | 6.3% |
터 | 44 | 3.6% |
데 | 43 | 3.5% |
상 | 39 | 3.2% |
A | 35 | 2.9% |
지 | 33 | 2.7% |
I | 33 | 2.7% |
미 | 26 | 2.1% |
영 | 26 | 2.1% |
Other values (231) | 658 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 895 | |
Space Separator | 206 | 16.9% |
Uppercase Letter | 91 | 7.5% |
Lowercase Letter | 15 | 1.2% |
Other Punctuation | 5 | 0.4% |
Decimal Number | 4 | 0.3% |
Dash Punctuation | 2 | 0.2% |
Close Punctuation | 1 | 0.1% |
Open Punctuation | 1 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
이 | 77 | 8.6% |
터 | 44 | 4.9% |
데 | 43 | 4.8% |
상 | 39 | 4.4% |
지 | 33 | 3.7% |
미 | 26 | 2.9% |
영 | 26 | 2.9% |
및 | 14 | 1.6% |
동 | 13 | 1.5% |
자 | 13 | 1.5% |
Other values (199) | 567 |
Uppercase Letter
Value | Count | Frequency (%) |
A | 35 | |
I | 33 | |
C | 5 | 5.5% |
V | 4 | 4.4% |
D | 4 | 4.4% |
R | 3 | 3.3% |
T | 2 | 2.2% |
L | 1 | 1.1% |
F | 1 | 1.1% |
K | 1 | 1.1% |
Other values (2) | 2 | 2.2% |
Lowercase Letter
Value | Count | Frequency (%) |
i | 3 | |
h | 2 | |
d | 1 | 6.7% |
e | 1 | 6.7% |
f | 1 | 6.7% |
t | 1 | 6.7% |
g | 1 | 6.7% |
l | 1 | 6.7% |
n | 1 | 6.7% |
o | 1 | 6.7% |
Other values (2) | 2 |
Decimal Number
Value | Count | Frequency (%) |
3 | 3 | |
2 | 1 | 25.0% |
Other Punctuation
Value | Count | Frequency (%) |
, | 3 | |
· | 2 |
Space Separator
Value | Count | Frequency (%) |
206 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 2 |
Close Punctuation
Value | Count | Frequency (%) |
) | 1 |
Open Punctuation
Value | Count | Frequency (%) |
( | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 895 | |
Common | 219 | 18.0% |
Latin | 106 | 8.7% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
이 | 77 | 8.6% |
터 | 44 | 4.9% |
데 | 43 | 4.8% |
상 | 39 | 4.4% |
지 | 33 | 3.7% |
미 | 26 | 2.9% |
영 | 26 | 2.9% |
및 | 14 | 1.6% |
동 | 13 | 1.5% |
자 | 13 | 1.5% |
Other values (199) | 567 |
Latin
Value | Count | Frequency (%) |
A | 35 | |
I | 33 | |
C | 5 | 4.7% |
V | 4 | 3.8% |
D | 4 | 3.8% |
R | 3 | 2.8% |
i | 3 | 2.8% |
h | 2 | 1.9% |
T | 2 | 1.9% |
d | 1 | 0.9% |
Other values (14) | 14 | 13.2% |
Common
Value | Count | Frequency (%) |
206 | ||
3 | 3 | 1.4% |
, | 3 | 1.4% |
- | 2 | 0.9% |
· | 2 | 0.9% |
) | 1 | 0.5% |
( | 1 | 0.5% |
2 | 1 | 0.5% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 895 | |
ASCII | 323 | 26.5% |
None | 2 | 0.2% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
206 | ||
A | 35 | 10.8% |
I | 33 | 10.2% |
C | 5 | 1.5% |
V | 4 | 1.2% |
D | 4 | 1.2% |
R | 3 | 0.9% |
3 | 3 | 0.9% |
, | 3 | 0.9% |
i | 3 | 0.9% |
Other values (21) | 24 | 7.4% |
Hangul
Value | Count | Frequency (%) |
이 | 77 | 8.6% |
터 | 44 | 4.9% |
데 | 43 | 4.8% |
상 | 39 | 4.4% |
지 | 33 | 3.7% |
미 | 26 | 2.9% |
영 | 26 | 2.9% |
및 | 14 | 1.6% |
동 | 13 | 1.5% |
자 | 13 | 1.5% |
Other values (199) | 567 |
None
Value | Count | Frequency (%) |
· | 2 |
주요내용
Text
UNIQUE
 
Distinct | 116 |
---|---|
Distinct (%) | 100.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 1.0 KiB |
Length
Max length | 220 |
---|---|
Median length | 90.5 |
Mean length | 69.413793 |
Min length | 16 |
Characters and Unicode
Total characters | 8052 |
---|---|
Distinct characters | 449 |
Distinct categories | 9 ? |
Distinct scripts | 3 ? |
Distinct blocks | 3 ? |
Unique
Unique | 116 ? |
---|---|
Unique (%) | 100.0% |
Sample
1st row | o 국가법령 중 교통사고, 층간소음, 창업 인허가 분야의 관련 법령, 조문, 판례, 법률용어 데이터 11만건 |
---|---|
2nd row | o 국내 출원·등록된 전기·전자분야의 특허정보, 심사정보, 특허전문기술용어 데이터 100만건 |
3rd row | o 한국어 위키백과에서 활용도가 높은 일반상식 데이터 15만건 |
4th row | o 한국인 안면 이미지 600만장(200명) 및 한국음식 이미지 데이터 15만장(150종) |
5th row | o 안저 이미지에 주요 질환(녹내장, 황반변성, 당뇨망막증 등)의 전문의 검사소견을 결합한 데이터셋 3천장 |
Value | Count | Frequency (%) |
o | 116 | 5.9% |
데이터 | 101 | 5.2% |
및 | 57 | 2.9% |
위한 | 43 | 2.2% |
영상 | 33 | 1.7% |
이미지 | 32 | 1.6% |
ai | 26 | 1.3% |
학습용 | 18 | 0.9% |
등 | 16 | 0.8% |
인공지능 | 15 | 0.8% |
Other values (1014) | 1497 |
Most occurring characters
Value | Count | Frequency (%) |
1849 | 23.0% | |
이 | 238 | 3.0% |
, | 167 | 2.1% |
터 | 150 | 1.9% |
한 | 148 | 1.8% |
데 | 145 | 1.8% |
o | 131 | 1.6% |
상 | 124 | 1.5% |
의 | 115 | 1.4% |
지 | 102 | 1.3% |
Other values (439) | 4883 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 5143 | |
Space Separator | 1849 | 23.0% |
Lowercase Letter | 264 | 3.3% |
Uppercase Letter | 233 | 2.9% |
Decimal Number | 218 | 2.7% |
Other Punctuation | 200 | 2.5% |
Close Punctuation | 66 | 0.8% |
Open Punctuation | 66 | 0.8% |
Dash Punctuation | 13 | 0.2% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
이 | 238 | 4.6% |
터 | 150 | 2.9% |
한 | 148 | 2.9% |
데 | 145 | 2.8% |
상 | 124 | 2.4% |
의 | 115 | 2.2% |
지 | 102 | 2.0% |
을 | 85 | 1.7% |
인 | 80 | 1.6% |
영 | 76 | 1.5% |
Other values (379) | 3880 |
Uppercase Letter
Value | Count | Frequency (%) |
A | 54 | |
I | 51 | |
C | 30 | |
T | 18 | 7.7% |
D | 15 | 6.4% |
S | 10 | 4.3% |
R | 9 | 3.9% |
B | 7 | 3.0% |
V | 7 | 3.0% |
P | 4 | 1.7% |
Other values (12) | 28 |
Lowercase Letter
Value | Count | Frequency (%) |
o | 131 | |
e | 17 | 6.4% |
i | 13 | 4.9% |
a | 12 | 4.5% |
t | 11 | 4.2% |
n | 10 | 3.8% |
p | 9 | 3.4% |
m | 7 | 2.7% |
c | 7 | 2.7% |
r | 7 | 2.7% |
Other values (11) | 40 | 15.2% |
Decimal Number
Value | Count | Frequency (%) |
0 | 75 | |
1 | 30 | 13.8% |
5 | 22 | 10.1% |
2 | 22 | 10.1% |
3 | 19 | 8.7% |
4 | 15 | 6.9% |
6 | 12 | 5.5% |
7 | 11 | 5.0% |
8 | 8 | 3.7% |
9 | 4 | 1.8% |
Other Punctuation
Value | Count | Frequency (%) |
, | 167 | |
/ | 18 | 9.0% |
· | 15 | 7.5% |
Space Separator
Value | Count | Frequency (%) |
1849 |
Close Punctuation
Value | Count | Frequency (%) |
) | 66 |
Open Punctuation
Value | Count | Frequency (%) |
( | 66 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 13 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 5143 | |
Common | 2412 | |
Latin | 497 | 6.2% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
이 | 238 | 4.6% |
터 | 150 | 2.9% |
한 | 148 | 2.9% |
데 | 145 | 2.8% |
상 | 124 | 2.4% |
의 | 115 | 2.2% |
지 | 102 | 2.0% |
을 | 85 | 1.7% |
인 | 80 | 1.6% |
영 | 76 | 1.5% |
Other values (379) | 3880 |
Latin
Value | Count | Frequency (%) |
o | 131 | |
A | 54 | 10.9% |
I | 51 | 10.3% |
C | 30 | 6.0% |
T | 18 | 3.6% |
e | 17 | 3.4% |
D | 15 | 3.0% |
i | 13 | 2.6% |
a | 12 | 2.4% |
t | 11 | 2.2% |
Other values (33) | 145 |
Common
Value | Count | Frequency (%) |
1849 | ||
, | 167 | 6.9% |
0 | 75 | 3.1% |
) | 66 | 2.7% |
( | 66 | 2.7% |
1 | 30 | 1.2% |
5 | 22 | 0.9% |
2 | 22 | 0.9% |
3 | 19 | 0.8% |
/ | 18 | 0.7% |
Other values (7) | 78 | 3.2% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 5143 | |
ASCII | 2894 | |
None | 15 | 0.2% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
1849 | ||
, | 167 | 5.8% |
o | 131 | 4.5% |
0 | 75 | 2.6% |
) | 66 | 2.3% |
( | 66 | 2.3% |
A | 54 | 1.9% |
I | 51 | 1.8% |
1 | 30 | 1.0% |
C | 30 | 1.0% |
Other values (49) | 375 | 13.0% |
Hangul
Value | Count | Frequency (%) |
이 | 238 | 4.6% |
터 | 150 | 2.9% |
한 | 148 | 2.9% |
데 | 145 | 2.8% |
상 | 124 | 2.4% |
의 | 115 | 2.2% |
지 | 102 | 2.0% |
을 | 85 | 1.7% |
인 | 80 | 1.6% |
영 | 76 | 1.5% |
Other values (379) | 3880 |
None
Value | Count | Frequency (%) |
· | 15 |
연도 | 분야 | 주요내용 | |
---|---|---|---|
0 | 2017 | 법률 | o 국가법령 중 교통사고, 층간소음, 창업 인허가 분야의 관련 법령, 조문, 판례, 법률용어 데이터 11만건 |
1 | 2017 | 특허 | o 국내 출원·등록된 전기·전자분야의 특허정보, 심사정보, 특허전문기술용어 데이터 100만건 |
2 | 2017 | 일반상식 | o 한국어 위키백과에서 활용도가 높은 일반상식 데이터 15만건 |
3 | 2017 | 이미지 | o 한국인 안면 이미지 600만장(200명) 및 한국음식 이미지 데이터 15만장(150종) |
4 | 2018 | 헬스케어 | o 안저 이미지에 주요 질환(녹내장, 황반변성, 당뇨망막증 등)의 전문의 검사소견을 결합한 데이터셋 3천장 |
5 | 2018 | 관 광 | o 주요 관광특구내 식당, 시설의 이미지에 각종 다국어(한,영,중,일) 정보(명칭, 위치, 메뉴, 관광정보 등)를 결합한 데이터셋 150만건 |
6 | 2018 | 농 업 | o 국내 농작물의 영농정보, 상담정보, 지원사업정보 등을 가공한 데이터 및 농작물 병충해 이미지 데이터 5만건 |
7 | 2018 | 특 허 | o 전기·전자, 기계 화학 분야의 출원, 등록된 특허 청구항 정보, 특허전문기술용어 데이터 70만건 |
8 | 2018 | 법 령 | o 이혼, 한부모가족, 학교폭력, 퇴직금개 분야 법령정보(법령, 판례, 사례, 용어 등) 데이터 10만건 |
9 | 2018 | 이미지 | o 한국인 안면이미지(200명) 구축 및 국산차량(100종)에 대한 이미지 데이터 615여만장 |
연도 | 분야 | 주요내용 | |
---|---|---|---|
106 | 2020 | 의료진 및 환자 음성 | o 의사, 간호사 등 의료진 직군별, 직능별 음성 데이터 구축하고, 환자의 연령별,성별, 증상별 음성데이터 |
107 | 2020 | 자궁경부암 진단 영상 | o 영상/ 이미지 데이터(PACS) 및 임상전문의의 진단정보 등의 총 약 70,000건의 자궁경부암 관련 영상 이미지 데이터를 인공지능 학습이 가능하도록 라벨링하여 인공지능 학습 기반의 의료영상진단 데이터 |
108 | 2020 | 패션상품 및 착용 영상 | o 온라인 패션상품의 스튜디오 영상의 자동 생성을 위한 AI데이터 |
109 | 2020 | 고해상도 Lightfield 이미지 | o 영상처리 및 이해 기술개발과 4D Interactive 입체 기술개발을 위해 고해상도 Lightfield 카메라로부터 취득되는 고해상도 Lightfield(LF) 데이터 |
110 | 2020 | 상표 이미지 및 상표 텍스트 | o 상표 출원 전 선등록상표에 대한 사전조사에서 상표권 침해를 해소하기 위한 상표 이미지/텍스트 AI 데이터 |
111 | 2020 | 한국인 지방 및 근육량 | o 건강한 한국인의 전신 CT영상에서 근육량과 지방량을 측정하여 성별 및 연령별 정상 또는 비정상 상태를 판별하는 AI기술 개발을 위한 의료영상 데이터 |
112 | 2020 | 초해상화 이미지 | o 초해상화(Super Resolution) 이미지 AI 데이터 |
113 | 2020 | 한국인 두피 상태 이미지 | o 전문 진단기로 촬영한 두피 이미지 데이터 |
114 | 2020 | 전력 설비 에너지 품질 | o 에너지 AI Solution 개발 확산을 목표로 스마트 그리드, 스마트 팩토리용 AI데이터 |
115 | 2020 | 버스 승객 승하차 영상 | o 버스 내 설치된 카메라에서 촬영된 승객 영상 데이터 |