Dataset statistics
Number of variables | 3 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 374 |
Duplicate rows (%) | 3.7% |
Total size in memory | 312.5 KiB |
Average record size in memory | 32.0 B |
Variable types
Text | 2 |
---|---|
Categorical | 1 |
Dataset
Description | KnowTBT포털 회원의 관심품목에 대한 정보에 대한 데이터로 *대분류-소분류로 구분하여 제공 *ID는 비식별화됨 제공합니다. |
---|---|
URL | https://www.data.go.kr/data/15068829/fileData.do |
Dataset has 374 (3.7%) duplicate rows | Duplicates |
Reproduction
Analysis started | 2023-12-12 04:32:51.922567 |
---|---|
Analysis finished | 2023-12-12 04:32:52.332976 |
Duration | 0.41 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
중분류명
Text
Distinct | 65 |
---|---|
Distinct (%) | 0.7% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
및 | 2070 | 10.8% |
소재 | 718 | 3.7% |
제품 | 588 | 3.1% |
전자파 | 419 | 2.2% |
가전기기 | 392 | 2.0% |
환경기술 | 385 | 2.0% |
환경자원 | 385 | 2.0% |
유무선통신 | 366 | 1.9% |
비금속 | 363 | 1.9% |
금속 | 363 | 1.9% |
Other values (89) | 13133 |
Most occurring characters
Value | Count | Frequency (%) |
9750 | 13.4% | |
기 | 4886 | 6.7% |
, | 3276 | 4.5% |
품 | 2512 | 3.5% |
및 | 2070 | 2.9% |
제 | 1605 | 2.2% |
자 | 1485 | 2.0% |
물 | 1290 | 1.8% |
재 | 1235 | 1.7% |
스 | 1225 | 1.7% |
Other values (135) | 43240 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 58770 | |
Space Separator | 9750 | 13.4% |
Other Punctuation | 3578 | 4.9% |
Open Punctuation | 215 | 0.3% |
Close Punctuation | 215 | 0.3% |
Uppercase Letter | 41 | 0.1% |
Lowercase Letter | 5 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
기 | 4886 | 8.3% |
품 | 2512 | 4.3% |
및 | 2070 | 3.5% |
제 | 1605 | 2.7% |
자 | 1485 | 2.5% |
물 | 1290 | 2.2% |
재 | 1235 | 2.1% |
스 | 1225 | 2.1% |
업 | 1190 | 2.0% |
원 | 1186 | 2.0% |
Other values (120) | 40086 |
Uppercase Letter
Value | Count | Frequency (%) |
E | 15 | |
H | 6 | 14.6% |
W | 5 | 12.2% |
R | 5 | 12.2% |
S | 5 | 12.2% |
G | 2 | 4.9% |
C | 1 | 2.4% |
O | 1 | 2.4% |
V | 1 | 2.4% |
Other Punctuation
Value | Count | Frequency (%) |
, | 3276 | |
/ | 302 | 8.4% |
Space Separator
Value | Count | Frequency (%) |
9750 |
Open Punctuation
Value | Count | Frequency (%) |
( | 215 |
Close Punctuation
Value | Count | Frequency (%) |
) | 215 |
Lowercase Letter
Value | Count | Frequency (%) |
o | 5 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 58770 | |
Common | 13758 | 19.0% |
Latin | 46 | 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
기 | 4886 | 8.3% |
품 | 2512 | 4.3% |
및 | 2070 | 3.5% |
제 | 1605 | 2.7% |
자 | 1485 | 2.5% |
물 | 1290 | 2.2% |
재 | 1235 | 2.1% |
스 | 1225 | 2.1% |
업 | 1190 | 2.0% |
원 | 1186 | 2.0% |
Other values (120) | 40086 |
Latin
Value | Count | Frequency (%) |
E | 15 | |
H | 6 | 13.0% |
W | 5 | 10.9% |
R | 5 | 10.9% |
S | 5 | 10.9% |
o | 5 | 10.9% |
G | 2 | 4.3% |
C | 1 | 2.2% |
O | 1 | 2.2% |
V | 1 | 2.2% |
Common
Value | Count | Frequency (%) |
9750 | ||
, | 3276 | 23.8% |
/ | 302 | 2.2% |
( | 215 | 1.6% |
) | 215 | 1.6% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 58770 | |
ASCII | 13804 | 19.0% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
9750 | ||
, | 3276 | 23.7% |
/ | 302 | 2.2% |
( | 215 | 1.6% |
) | 215 | 1.6% |
E | 15 | 0.1% |
H | 6 | < 0.1% |
W | 5 | < 0.1% |
R | 5 | < 0.1% |
S | 5 | < 0.1% |
Other values (5) | 10 | 0.1% |
Hangul
Value | Count | Frequency (%) |
기 | 4886 | 8.3% |
품 | 2512 | 4.3% |
및 | 2070 | 3.5% |
제 | 1605 | 2.7% |
자 | 1485 | 2.5% |
물 | 1290 | 2.2% |
재 | 1235 | 2.1% |
스 | 1225 | 2.1% |
업 | 1190 | 2.0% |
원 | 1186 | 2.0% |
Other values (120) | 40086 |
대분류명
Categorical
Distinct | 13 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
기계 | |
---|---|
화학세라믹 | |
바이오환경 | |
소재나노 | |
에너지 | |
Other values (8) |
Length
Max length | 5 |
---|---|
Median length | 4 |
Mean length | 3.891 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 정보디지털 |
---|---|
2nd row | 화학세라믹 |
3rd row | 정보디지털 |
4th row | 생활용품 |
5th row | 화학세라믹 |
Common Values
Value | Count | Frequency (%) |
기계 | 1178 | |
화학세라믹 | 1076 | |
바이오환경 | 964 | |
소재나노 | 949 | |
에너지 | 948 | |
정보디지털 | 937 | |
전기전자 | 878 | |
생활용품 | 689 | |
건설 | 688 | |
교통/안전 | 617 | |
Other values (3) | 1076 |
Length
Value | Count | Frequency (%) |
기계 | 1178 | |
화학세라믹 | 1076 | |
바이오환경 | 964 | |
소재나노 | 949 | |
에너지 | 948 | |
정보디지털 | 937 | |
전기전자 | 878 | |
생활용품 | 689 | |
건설 | 688 | |
교통/안전 | 617 | |
Other values (3) | 1076 |
등록자ID
Text
Distinct | 3347 |
---|---|
Distinct (%) | 33.5% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
k | 131 | 1.3% |
s | 117 | 1.2% |
j | 88 | 0.9% |
h | 57 | 0.6% |
p | 52 | 0.5% |
d | 42 | 0.4% |
c | 38 | 0.4% |
e | 37 | 0.4% |
l | 37 | 0.4% |
m | 37 | 0.4% |
Other values (3311) | 9364 |
Most occurring characters
Value | Count | Frequency (%) |
* | 40000 | |
0 | 1948 | 2.6% |
k | 1871 | 2.5% |
s | 1837 | 2.5% |
1 | 1756 | 2.4% |
n | 1724 | 2.3% |
e | 1481 | 2.0% |
a | 1421 | 1.9% |
2 | 1385 | 1.9% |
o | 1313 | 1.8% |
Other values (55) | 19551 |
Most occurring categories
Value | Count | Frequency (%) |
Other Punctuation | 40189 | |
Lowercase Letter | 22771 | |
Decimal Number | 11038 | 14.9% |
Uppercase Letter | 281 | 0.4% |
Connector Punctuation | 6 | < 0.1% |
Dash Punctuation | 2 | < 0.1% |
Most frequent character per category
Lowercase Letter
Value | Count | Frequency (%) |
k | 1871 | 8.2% |
s | 1837 | 8.1% |
n | 1724 | 7.6% |
e | 1481 | 6.5% |
a | 1421 | 6.2% |
o | 1313 | 5.8% |
h | 1091 | 4.8% |
g | 1047 | 4.6% |
j | 1027 | 4.5% |
i | 1005 | 4.4% |
Other values (16) | 8954 |
Uppercase Letter
Value | Count | Frequency (%) |
C | 26 | 9.3% |
K | 25 | 8.9% |
G | 23 | 8.2% |
O | 19 | 6.8% |
L | 19 | 6.8% |
S | 15 | 5.3% |
A | 15 | 5.3% |
W | 14 | 5.0% |
D | 13 | 4.6% |
F | 13 | 4.6% |
Other values (14) | 99 |
Decimal Number
Value | Count | Frequency (%) |
0 | 1948 | |
1 | 1756 | |
2 | 1385 | |
7 | 1243 | |
9 | 897 | |
3 | 863 | |
5 | 760 | 6.9% |
8 | 751 | 6.8% |
4 | 733 | 6.6% |
6 | 702 | 6.4% |
Other Punctuation
Value | Count | Frequency (%) |
* | 40000 | |
. | 128 | 0.3% |
@ | 61 | 0.2% |
Connector Punctuation
Value | Count | Frequency (%) |
_ | 6 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 2 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 51235 | |
Latin | 23052 |
Most frequent character per script
Latin
Value | Count | Frequency (%) |
k | 1871 | 8.1% |
s | 1837 | 8.0% |
n | 1724 | 7.5% |
e | 1481 | 6.4% |
a | 1421 | 6.2% |
o | 1313 | 5.7% |
h | 1091 | 4.7% |
g | 1047 | 4.5% |
j | 1027 | 4.5% |
i | 1005 | 4.4% |
Other values (40) | 9235 |
Common
Value | Count | Frequency (%) |
* | 40000 | |
0 | 1948 | 3.8% |
1 | 1756 | 3.4% |
2 | 1385 | 2.7% |
7 | 1243 | 2.4% |
9 | 897 | 1.8% |
3 | 863 | 1.7% |
5 | 760 | 1.5% |
8 | 751 | 1.5% |
4 | 733 | 1.4% |
Other values (5) | 899 | 1.8% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 74287 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
* | 40000 | |
0 | 1948 | 2.6% |
k | 1871 | 2.5% |
s | 1837 | 2.5% |
1 | 1756 | 2.4% |
n | 1724 | 2.3% |
e | 1481 | 2.0% |
a | 1421 | 1.9% |
2 | 1385 | 1.9% |
o | 1313 | 1.8% |
Other values (55) | 19551 |
중분류명 | 대분류명 | |
---|---|---|
중분류명 | 1.000 | 1.000 |
대분류명 | 1.000 | 1.000 |
중분류명 | 대분류명 | 등록자ID | |
---|---|---|---|
35512 | 컴퓨터시스템 | 정보디지털 | L****care |
50624 | 플라스틱 소재 및 제품 | 화학세라믹 | s****k77 |
37152 | 정보기반, 정보보안 | 정보디지털 | l****1969 |
12766 | 섬유소재 및 제품 | 생활용품 | e****a |
9359 | 석유화학제품 | 화학세라믹 | d****9 |
28791 | 기계요소부품(나사, 볼트 등) | 소재나노 | k****@komma.org |
15772 | 가스기기 및 가스용기 | 에너지 | g****09 |
27422 | 피혁 및 신발류 | 생활용품 | j**** |
46970 | 생물자원, 천영물 원재료 | 바이오환경 | r****2001 |
53160 | 자동차 | 교통/안전 | s**** |
중분류명 | 대분류명 | 등록자ID | |
---|---|---|---|
25739 | 정보기반, 정보보안 | 정보디지털 | j****ox |
32196 | 컴퓨터시스템 | 정보디지털 | k****ki |
20872 | 자동차 | 교통/안전 | h****gjoon |
17063 | 기계요소부품(나사, 볼트 등) | 소재나노 | h****su |
59371 | 건축환경 | 건설 | w****e |
35141 | 자동차 | 교통/안전 | l****0153 |
22944 | 금속, 비금속 소재 | 소재나노 | j****635 |
9534 | 자동차 | 교통/안전 | d****sk |
52657 | 석유화학제품 | 화학세라믹 | s****77 |
55747 | 수산물 | 농수산품 | t****2 |
Most frequently occurring
중분류명 | 대분류명 | 등록자ID | # duplicates | |
---|---|---|---|---|
334 | 플라스틱 소재 및 제품 | 화학세라믹 | s**** | 10 |
56 | 공작기계 | 기계 | s**** | 7 |
70 | 금속, 비금속 소재 | 소재나노 | s**** | 7 |
244 | 일반 | 건설 | s**** | 7 |
372 | 환경자원, 환경기술 | 바이오환경 | s**** | 7 |
35 | 건축환경 | 건설 | k**** | 6 |
163 | 생물자원, 천영물 원재료 | 바이오환경 | k**** | 6 |
188 | 승강기 및 부품 | 기계 | k**** | 6 |
272 | 전자파 | 전기전자 | k**** | 6 |
10 | 가스기기 및 가스용기 | 에너지 | s**** | 5 |