Overview

Dataset statistics

Number of variables3
Number of observations116
Missing cells0
Missing cells (%)0.0%
Duplicate rows0
Duplicate rows (%)0.0%
Total size in memory3.0 KiB
Average record size in memory26.1 B

Variable types

Categorical1
Text2

Dataset

Description한국지능정보사회진흥원(NIA)에서 제공하는 인공지능 학습용 데이터 구축 현황 자료(연도, 분야, 주요내용 등) 입니다.
Author한국지능정보사회진흥원
URLhttps://www.data.go.kr/data/15039915/fileData.do

Alerts

주요내용 has unique valuesUnique

Reproduction

Analysis started2024-03-11 03:29:28.478076
Analysis finished2024-03-11 03:29:29.119895
Duration0.64 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

연도
Categorical

Distinct4
Distinct (%)3.4%
Missing0
Missing (%)0.0%
Memory size1.0 KiB
2020
92 
2019
14 
2018
 
6
2017
 
4

Length

Max length4
Median length4
Mean length4
Min length4

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row2017
2nd row2017
3rd row2017
4th row2017
5th row2018

Common Values

ValueCountFrequency (%)
2020 92
79.3%
2019 14
 
12.1%
2018 6
 
5.2%
2017 4
 
3.4%

Length

2024-03-11T12:29:29.179018image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2024-03-11T12:29:29.287711image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
2020 92
79.3%
2019 14
 
12.1%
2018 6
 
5.2%
2017 4
 
3.4%

분야
Text

Distinct114
Distinct (%)98.3%
Missing0
Missing (%)0.0%
Memory size1.0 KiB
2024-03-11T12:29:29.537902image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length26
Median length16
Mean length10.517241
Min length2

Characters and Unicode

Total characters1220
Distinct characters241
Distinct categories9 ?
Distinct scripts3 ?
Distinct blocks3 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique112 ?
Unique (%)96.6%

Sample

1st row법률
2nd row특허
3rd row일반상식
4th row이미지
5th row헬스케어
ValueCountFrequency (%)
ai데이터 33
 
10.3%
이미지 25
 
7.8%
영상 15
 
4.7%
14
 
4.4%
데이터 9
 
2.8%
한국인 5
 
1.6%
말뭉치 5
 
1.6%
한국어 4
 
1.2%
번역 3
 
0.9%
객체 3
 
0.9%
Other values (188) 205
63.9%
2024-03-11T12:29:29.905369image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
206
 
16.9%
77
 
6.3%
44
 
3.6%
43
 
3.5%
39
 
3.2%
A 35
 
2.9%
33
 
2.7%
I 33
 
2.7%
26
 
2.1%
26
 
2.1%
Other values (231) 658
53.9%

Most occurring categories

ValueCountFrequency (%)
Other Letter 895
73.4%
Space Separator 206
 
16.9%
Uppercase Letter 91
 
7.5%
Lowercase Letter 15
 
1.2%
Other Punctuation 5
 
0.4%
Decimal Number 4
 
0.3%
Dash Punctuation 2
 
0.2%
Close Punctuation 1
 
0.1%
Open Punctuation 1
 
0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
77
 
8.6%
44
 
4.9%
43
 
4.8%
39
 
4.4%
33
 
3.7%
26
 
2.9%
26
 
2.9%
14
 
1.6%
13
 
1.5%
13
 
1.5%
Other values (199) 567
63.4%
Uppercase Letter
ValueCountFrequency (%)
A 35
38.5%
I 33
36.3%
C 5
 
5.5%
V 4
 
4.4%
D 4
 
4.4%
R 3
 
3.3%
T 2
 
2.2%
L 1
 
1.1%
F 1
 
1.1%
K 1
 
1.1%
Other values (2) 2
 
2.2%
Lowercase Letter
ValueCountFrequency (%)
i 3
20.0%
h 2
13.3%
d 1
 
6.7%
e 1
 
6.7%
f 1
 
6.7%
t 1
 
6.7%
g 1
 
6.7%
l 1
 
6.7%
n 1
 
6.7%
o 1
 
6.7%
Other values (2) 2
13.3%
Decimal Number
ValueCountFrequency (%)
3 3
75.0%
2 1
 
25.0%
Other Punctuation
ValueCountFrequency (%)
, 3
60.0%
· 2
40.0%
Space Separator
ValueCountFrequency (%)
206
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 2
100.0%
Close Punctuation
ValueCountFrequency (%)
) 1
100.0%
Open Punctuation
ValueCountFrequency (%)
( 1
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 895
73.4%
Common 219
 
18.0%
Latin 106
 
8.7%

Most frequent character per script

Hangul
ValueCountFrequency (%)
77
 
8.6%
44
 
4.9%
43
 
4.8%
39
 
4.4%
33
 
3.7%
26
 
2.9%
26
 
2.9%
14
 
1.6%
13
 
1.5%
13
 
1.5%
Other values (199) 567
63.4%
Latin
ValueCountFrequency (%)
A 35
33.0%
I 33
31.1%
C 5
 
4.7%
V 4
 
3.8%
D 4
 
3.8%
R 3
 
2.8%
i 3
 
2.8%
h 2
 
1.9%
T 2
 
1.9%
d 1
 
0.9%
Other values (14) 14
 
13.2%
Common
ValueCountFrequency (%)
206
94.1%
3 3
 
1.4%
, 3
 
1.4%
- 2
 
0.9%
· 2
 
0.9%
) 1
 
0.5%
( 1
 
0.5%
2 1
 
0.5%

Most occurring blocks

ValueCountFrequency (%)
Hangul 895
73.4%
ASCII 323
 
26.5%
None 2
 
0.2%

Most frequent character per block

ASCII
ValueCountFrequency (%)
206
63.8%
A 35
 
10.8%
I 33
 
10.2%
C 5
 
1.5%
V 4
 
1.2%
D 4
 
1.2%
R 3
 
0.9%
3 3
 
0.9%
, 3
 
0.9%
i 3
 
0.9%
Other values (21) 24
 
7.4%
Hangul
ValueCountFrequency (%)
77
 
8.6%
44
 
4.9%
43
 
4.8%
39
 
4.4%
33
 
3.7%
26
 
2.9%
26
 
2.9%
14
 
1.6%
13
 
1.5%
13
 
1.5%
Other values (199) 567
63.4%
None
ValueCountFrequency (%)
· 2
100.0%

주요내용
Text

UNIQUE 

Distinct116
Distinct (%)100.0%
Missing0
Missing (%)0.0%
Memory size1.0 KiB
2024-03-11T12:29:30.158206image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length220
Median length90.5
Mean length69.413793
Min length16

Characters and Unicode

Total characters8052
Distinct characters449
Distinct categories9 ?
Distinct scripts3 ?
Distinct blocks3 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique116 ?
Unique (%)100.0%

Sample

1st rowo 국가법령 중 교통사고, 층간소음, 창업 인허가 분야의 관련 법령, 조문, 판례, 법률용어 데이터 11만건
2nd rowo 국내 출원·등록된 전기·전자분야의 특허정보, 심사정보, 특허전문기술용어 데이터 100만건
3rd rowo 한국어 위키백과에서 활용도가 높은 일반상식 데이터 15만건
4th rowo 한국인 안면 이미지 600만장(200명) 및 한국음식 이미지 데이터 15만장(150종)
5th rowo 안저 이미지에 주요 질환(녹내장, 황반변성, 당뇨망막증 등)의 전문의 검사소견을 결합한 데이터셋 3천장
ValueCountFrequency (%)
o 116
 
5.9%
데이터 101
 
5.2%
57
 
2.9%
위한 43
 
2.2%
영상 33
 
1.7%
이미지 32
 
1.6%
ai 26
 
1.3%
학습용 18
 
0.9%
16
 
0.8%
인공지능 15
 
0.8%
Other values (1014) 1497
76.6%
2024-03-11T12:29:30.582289image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
1849
 
23.0%
238
 
3.0%
, 167
 
2.1%
150
 
1.9%
148
 
1.8%
145
 
1.8%
o 131
 
1.6%
124
 
1.5%
115
 
1.4%
102
 
1.3%
Other values (439) 4883
60.6%

Most occurring categories

ValueCountFrequency (%)
Other Letter 5143
63.9%
Space Separator 1849
 
23.0%
Lowercase Letter 264
 
3.3%
Uppercase Letter 233
 
2.9%
Decimal Number 218
 
2.7%
Other Punctuation 200
 
2.5%
Close Punctuation 66
 
0.8%
Open Punctuation 66
 
0.8%
Dash Punctuation 13
 
0.2%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
238
 
4.6%
150
 
2.9%
148
 
2.9%
145
 
2.8%
124
 
2.4%
115
 
2.2%
102
 
2.0%
85
 
1.7%
80
 
1.6%
76
 
1.5%
Other values (379) 3880
75.4%
Uppercase Letter
ValueCountFrequency (%)
A 54
23.2%
I 51
21.9%
C 30
12.9%
T 18
 
7.7%
D 15
 
6.4%
S 10
 
4.3%
R 9
 
3.9%
B 7
 
3.0%
V 7
 
3.0%
P 4
 
1.7%
Other values (12) 28
12.0%
Lowercase Letter
ValueCountFrequency (%)
o 131
49.6%
e 17
 
6.4%
i 13
 
4.9%
a 12
 
4.5%
t 11
 
4.2%
n 10
 
3.8%
p 9
 
3.4%
m 7
 
2.7%
c 7
 
2.7%
r 7
 
2.7%
Other values (11) 40
 
15.2%
Decimal Number
ValueCountFrequency (%)
0 75
34.4%
1 30
 
13.8%
5 22
 
10.1%
2 22
 
10.1%
3 19
 
8.7%
4 15
 
6.9%
6 12
 
5.5%
7 11
 
5.0%
8 8
 
3.7%
9 4
 
1.8%
Other Punctuation
ValueCountFrequency (%)
, 167
83.5%
/ 18
 
9.0%
· 15
 
7.5%
Space Separator
ValueCountFrequency (%)
1849
100.0%
Close Punctuation
ValueCountFrequency (%)
) 66
100.0%
Open Punctuation
ValueCountFrequency (%)
( 66
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 13
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 5143
63.9%
Common 2412
30.0%
Latin 497
 
6.2%

Most frequent character per script

Hangul
ValueCountFrequency (%)
238
 
4.6%
150
 
2.9%
148
 
2.9%
145
 
2.8%
124
 
2.4%
115
 
2.2%
102
 
2.0%
85
 
1.7%
80
 
1.6%
76
 
1.5%
Other values (379) 3880
75.4%
Latin
ValueCountFrequency (%)
o 131
26.4%
A 54
 
10.9%
I 51
 
10.3%
C 30
 
6.0%
T 18
 
3.6%
e 17
 
3.4%
D 15
 
3.0%
i 13
 
2.6%
a 12
 
2.4%
t 11
 
2.2%
Other values (33) 145
29.2%
Common
ValueCountFrequency (%)
1849
76.7%
, 167
 
6.9%
0 75
 
3.1%
) 66
 
2.7%
( 66
 
2.7%
1 30
 
1.2%
5 22
 
0.9%
2 22
 
0.9%
3 19
 
0.8%
/ 18
 
0.7%
Other values (7) 78
 
3.2%

Most occurring blocks

ValueCountFrequency (%)
Hangul 5143
63.9%
ASCII 2894
35.9%
None 15
 
0.2%

Most frequent character per block

ASCII
ValueCountFrequency (%)
1849
63.9%
, 167
 
5.8%
o 131
 
4.5%
0 75
 
2.6%
) 66
 
2.3%
( 66
 
2.3%
A 54
 
1.9%
I 51
 
1.8%
1 30
 
1.0%
C 30
 
1.0%
Other values (49) 375
 
13.0%
Hangul
ValueCountFrequency (%)
238
 
4.6%
150
 
2.9%
148
 
2.9%
145
 
2.8%
124
 
2.4%
115
 
2.2%
102
 
2.0%
85
 
1.7%
80
 
1.6%
76
 
1.5%
Other values (379) 3880
75.4%
None
ValueCountFrequency (%)
· 15
100.0%

Missing values

2024-03-11T12:29:29.036265image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2024-03-11T12:29:29.094006image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

연도분야주요내용
02017법률o 국가법령 중 교통사고, 층간소음, 창업 인허가 분야의 관련 법령, 조문, 판례, 법률용어 데이터 11만건
12017특허o 국내 출원·등록된 전기·전자분야의 특허정보, 심사정보, 특허전문기술용어 데이터 100만건
22017일반상식o 한국어 위키백과에서 활용도가 높은 일반상식 데이터 15만건
32017이미지o 한국인 안면 이미지 600만장(200명) 및 한국음식 이미지 데이터 15만장(150종)
42018헬스케어o 안저 이미지에 주요 질환(녹내장, 황반변성, 당뇨망막증 등)의 전문의 검사소견을 결합한 데이터셋 3천장
52018관 광o 주요 관광특구내 식당, 시설의 이미지에 각종 다국어(한,영,중,일) 정보(명칭, 위치, 메뉴, 관광정보 등)를 결합한 데이터셋 150만건
62018농 업o 국내 농작물의 영농정보, 상담정보, 지원사업정보 등을 가공한 데이터 및 농작물 병충해 이미지 데이터 5만건
72018특 허o 전기·전자, 기계 화학 분야의 출원, 등록된 특허 청구항 정보, 특허전문기술용어 데이터 70만건
82018법 령o 이혼, 한부모가족, 학교폭력, 퇴직금개 분야 법령정보(법령, 판례, 사례, 용어 등) 데이터 10만건
92018이미지o 한국인 안면이미지(200명) 구축 및 국산차량(100종)에 대한 이미지 데이터 615여만장
연도분야주요내용
1062020의료진 및 환자 음성o 의사, 간호사 등 의료진 직군별, 직능별 음성 데이터 구축하고, 환자의 연령별,성별, 증상별 음성데이터
1072020자궁경부암 진단 영상o 영상/ 이미지 데이터(PACS) 및 임상전문의의 진단정보 등의 총 약 70,000건의 자궁경부암 관련 영상 이미지 데이터를 인공지능 학습이 가능하도록 라벨링하여 인공지능 학습 기반의 의료영상진단 데이터
1082020패션상품 및 착용 영상o 온라인 패션상품의 스튜디오 영상의 자동 생성을 위한 AI데이터
1092020고해상도 Lightfield 이미지o 영상처리 및 이해 기술개발과 4D Interactive 입체 기술개발을 위해 고해상도 Lightfield 카메라로부터 취득되는 고해상도 Lightfield(LF) 데이터
1102020상표 이미지 및 상표 텍스트o 상표 출원 전 선등록상표에 대한 사전조사에서 상표권 침해를 해소하기 위한 상표 이미지/텍스트 AI 데이터
1112020한국인 지방 및 근육량o 건강한 한국인의 전신 CT영상에서 근육량과 지방량을 측정하여 성별 및 연령별 정상 또는 비정상 상태를 판별하는 AI기술 개발을 위한 의료영상 데이터
1122020초해상화 이미지o 초해상화(Super Resolution) 이미지 AI 데이터
1132020한국인 두피 상태 이미지o 전문 진단기로 촬영한 두피 이미지 데이터
1142020전력 설비 에너지 품질o 에너지 AI Solution 개발 확산을 목표로 스마트 그리드, 스마트 팩토리용 AI데이터
1152020버스 승객 승하차 영상o 버스 내 설치된 카메라에서 촬영된 승객 영상 데이터