Dataset statistics
Number of variables | 14 |
---|---|
Number of observations | 10000 |
Missing cells | 24049 |
Missing cells (%) | 17.2% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 1.2 MiB |
Average record size in memory | 124.0 B |
Variable types
Numeric | 3 |
---|---|
Text | 9 |
Categorical | 1 |
DateTime | 1 |
Dataset
Description | 고대부터 현대까지 한국 역사의 주요 자료를 제공하는 웹 사이트인 한국사데이터베이스(http://db.history.go.kr)에서 서비스중인 한국역사용어를 수집, 분류하여 시소러스 검색 사전을 구축·제공하여 방대한 정보를 보다 용이하게 검색할 수 있도록 돕는 시소러스 DB |
---|---|
Author | 교육부 국사편찬위원회 |
URL | https://www.data.go.kr/data/3039423/fileData.do |
term_kind is highly imbalanced (94.7%) | Imbalance |
term_remark has 7846 (78.5%) missing values | Missing |
term_attr has 9952 (99.5%) missing values | Missing |
term_year has 175 (1.8%) missing values | Missing |
term_times has 289 (2.9%) missing values | Missing |
term_desc has 131 (1.3%) missing values | Missing |
term_reference has 5511 (55.1%) missing values | Missing |
term_id has unique values | Unique |
term_user has 2360 (23.6%) zeros | Zeros |
Reproduction
Analysis started | 2023-12-12 13:03:15.098277 |
---|---|
Analysis finished | 2023-12-12 13:03:21.747741 |
Duration | 6.65 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
term_id
Real number (ℝ)
UNIQUE
 
Distinct | 10000 |
---|---|
Distinct (%) | 100.0% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 13062767 |
Minimum | 1 |
---|---|
Maximum | 52430056 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 1 |
---|---|
5-th percentile | 3595.85 |
Q1 | 15014.25 |
median | 6296781 |
Q3 | 23073634 |
95-th percentile | 39857069 |
Maximum | 52430056 |
Range | 52430055 |
Interquartile range (IQR) | 23058620 |
Descriptive statistics
Standard deviation | 15143195 |
---|---|
Coefficient of variation (CV) | 1.159264 |
Kurtosis | -0.83719477 |
Mean | 13062767 |
Median Absolute Deviation (MAD) | 6290441.5 |
Skewness | 0.78306527 |
Sum | 1.3062767 × 1011 |
Variance | 2.2931635 × 1014 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
10489860 | 1 | < 0.1% |
6297830 | 1 | < 0.1% |
2106001 | 1 | < 0.1% |
14680392 | 1 | < 0.1% |
10491122 | 1 | < 0.1% |
2106004 | 1 | < 0.1% |
10082 | 1 | < 0.1% |
39857914 | 1 | < 0.1% |
880 | 1 | < 0.1% |
12591737 | 1 | < 0.1% |
Other values (9990) | 9990 |
Value | Count | Frequency (%) |
1 | 1 | |
7 | 1 | |
10 | 1 | |
20 | 1 | |
30 | 1 | |
36 | 1 | |
48 | 1 | |
49 | 1 | |
70 | 1 | |
183 | 1 |
Value | Count | Frequency (%) |
52430056 | 1 | |
52430035 | 1 | |
52429891 | 1 | |
52429732 | 1 | |
52429649 | 1 | |
48245807 | 1 | |
48245805 | 1 | |
48245149 | 1 | |
48245117 | 1 | |
48245057 | 1 |
topterm_id
Real number (ℝ)
Distinct | 17 |
---|---|
Distinct (%) | 0.2% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 342.1283 |
Minimum | 1 |
---|---|
Maximum | 665 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 1 |
---|---|
5-th percentile | 8 |
Q1 | 49 |
median | 333 |
Q3 | 631 |
95-th percentile | 665 |
Maximum | 665 |
Range | 664 |
Interquartile range (IQR) | 582 |
Descriptive statistics
Standard deviation | 259.71796 |
---|---|
Coefficient of variation (CV) | 0.75912447 |
Kurtosis | -1.5782601 |
Mean | 342.1283 |
Median Absolute Deviation (MAD) | 298 |
Skewness | -0.073113456 |
Sum | 3421283 |
Variance | 67453.421 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
8 | 1941 | |
662 | 805 | 8.1% |
439 | 764 | 7.6% |
665 | 705 | 7.0% |
333 | 674 | 6.7% |
631 | 658 | 6.6% |
199 | 636 | 6.4% |
86 | 541 | 5.4% |
49 | 535 | 5.3% |
407 | 503 | 5.0% |
Other values (7) | 2238 |
Value | Count | Frequency (%) |
1 | 319 | 3.2% |
8 | 1941 | |
49 | 535 | 5.3% |
86 | 541 | 5.4% |
199 | 636 | 6.4% |
283 | 227 | 2.3% |
310 | 175 | 1.8% |
333 | 674 | 6.7% |
407 | 503 | 5.0% |
439 | 764 | 7.6% |
Value | Count | Frequency (%) |
665 | 705 | |
664 | 438 | |
663 | 258 | 2.6% |
662 | 805 | |
631 | 658 | |
574 | 339 | |
518 | 482 | |
439 | 764 | |
407 | 503 | |
333 | 674 |
term_name
Text
Distinct | 9688 |
---|---|
Distinct (%) | 96.9% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
교동 | 8 | 0.1% |
구암집 | 5 | < 0.1% |
9품 | 5 | < 0.1% |
대불정여래밀인수증요의제보살만행수능엄경 | 4 | < 0.1% |
영흥 | 4 | < 0.1% |
정1품 | 4 | < 0.1% |
2품 | 4 | < 0.1% |
정4품 | 3 | < 0.1% |
양현고 | 3 | < 0.1% |
종5품 | 3 | < 0.1% |
Other values (9685) | 9964 |
Most occurring characters
Value | Count | Frequency (%) |
사 | 1496 | 3.5% |
학 | 835 | 2.0% |
대 | 787 | 1.8% |
교 | 785 | 1.8% |
회 | 770 | 1.8% |
동 | 617 | 1.4% |
도 | 560 | 1.3% |
조 | 558 | 1.3% |
전 | 555 | 1.3% |
정 | 529 | 1.2% |
Other values (638) | 35257 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 42195 | |
Decimal Number | 444 | 1.0% |
Other Punctuation | 84 | 0.2% |
Uppercase Letter | 13 | < 0.1% |
Space Separator | 7 | < 0.1% |
Close Punctuation | 3 | < 0.1% |
Open Punctuation | 3 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
사 | 1496 | 3.5% |
학 | 835 | 2.0% |
대 | 787 | 1.9% |
교 | 785 | 1.9% |
회 | 770 | 1.8% |
동 | 617 | 1.5% |
도 | 560 | 1.3% |
조 | 558 | 1.3% |
전 | 555 | 1.3% |
정 | 529 | 1.3% |
Other values (613) | 34703 |
Decimal Number
Value | Count | Frequency (%) |
3 | 105 | |
1 | 65 | |
4 | 56 | |
5 | 43 | |
2 | 42 | 9.5% |
6 | 41 | 9.2% |
9 | 32 | 7.2% |
8 | 25 | 5.6% |
7 | 21 | 4.7% |
0 | 14 | 3.2% |
Uppercase Letter
Value | Count | Frequency (%) |
K | 4 | |
N | 2 | |
L | 1 | 7.7% |
A | 1 | 7.7% |
C | 1 | 7.7% |
S | 1 | 7.7% |
B | 1 | 7.7% |
P | 1 | 7.7% |
H | 1 | 7.7% |
Other Punctuation
Value | Count | Frequency (%) |
· | 82 | |
‧ | 1 | 1.2% |
% | 1 | 1.2% |
Space Separator
Value | Count | Frequency (%) |
7 |
Close Punctuation
Value | Count | Frequency (%) |
) | 3 |
Open Punctuation
Value | Count | Frequency (%) |
( | 3 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 42195 | |
Common | 541 | 1.3% |
Latin | 13 | < 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
사 | 1496 | 3.5% |
학 | 835 | 2.0% |
대 | 787 | 1.9% |
교 | 785 | 1.9% |
회 | 770 | 1.8% |
동 | 617 | 1.5% |
도 | 560 | 1.3% |
조 | 558 | 1.3% |
전 | 555 | 1.3% |
정 | 529 | 1.3% |
Other values (613) | 34703 |
Common
Value | Count | Frequency (%) |
3 | 105 | |
· | 82 | |
1 | 65 | |
4 | 56 | |
5 | 43 | |
2 | 42 | 7.8% |
6 | 41 | 7.6% |
9 | 32 | 5.9% |
8 | 25 | 4.6% |
7 | 21 | 3.9% |
Other values (6) | 29 | 5.4% |
Latin
Value | Count | Frequency (%) |
K | 4 | |
N | 2 | |
L | 1 | 7.7% |
A | 1 | 7.7% |
C | 1 | 7.7% |
S | 1 | 7.7% |
B | 1 | 7.7% |
P | 1 | 7.7% |
H | 1 | 7.7% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 42195 | |
ASCII | 471 | 1.1% |
None | 82 | 0.2% |
Punctuation | 1 | < 0.1% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
사 | 1496 | 3.5% |
학 | 835 | 2.0% |
대 | 787 | 1.9% |
교 | 785 | 1.9% |
회 | 770 | 1.8% |
동 | 617 | 1.5% |
도 | 560 | 1.3% |
조 | 558 | 1.3% |
전 | 555 | 1.3% |
정 | 529 | 1.3% |
Other values (613) | 34703 |
ASCII
Value | Count | Frequency (%) |
3 | 105 | |
1 | 65 | |
4 | 56 | |
5 | 43 | |
2 | 42 | 8.9% |
6 | 41 | 8.7% |
9 | 32 | 6.8% |
8 | 25 | 5.3% |
7 | 21 | 4.5% |
0 | 14 | 3.0% |
Other values (13) | 27 | 5.7% |
None
Value | Count | Frequency (%) |
· | 82 |
Punctuation
Value | Count | Frequency (%) |
‧ | 1 |
term_kind
Categorical
IMBALANCE
 
Distinct | 3 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
2 | |
---|---|
1 | 98 |
0 | 3 |
Length
Max length | 1 |
---|---|
Median length | 1 |
Mean length | 1 |
Min length | 1 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 2 |
---|---|
2nd row | 2 |
3rd row | 2 |
4th row | 2 |
5th row | 2 |
Common Values
Value | Count | Frequency (%) |
2 | 9899 | |
1 | 98 | 1.0% |
0 | 3 | < 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
2 | 9899 | |
1 | 98 | 1.0% |
0 | 3 | < 0.1% |
term_ch
Text
Distinct | 9699 |
---|---|
Distinct (%) | 97.7% |
Missing | 74 |
Missing (%) | 0.7% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
校洞 | 8 | 0.1% |
九品 | 5 | 0.1% |
龜巖集 | 5 | 0.1% |
正一品 | 4 | < 0.1% |
大佛頂如來密因修證了義諸菩薩萬行首楞嚴經 | 4 | < 0.1% |
二品 | 4 | < 0.1% |
永興 | 4 | < 0.1% |
從三品 | 3 | < 0.1% |
正四品 | 3 | < 0.1% |
正三品 | 3 | < 0.1% |
Other values (9710) | 9882 |
Most occurring characters
Value | Count | Frequency (%) |
學 | 804 | 1.9% |
會 | 726 | 1.7% |
大 | 587 | 1.4% |
校 | 527 | 1.2% |
國 | 447 | 1.1% |
山 | 325 | 0.8% |
寺 | 319 | 0.8% |
韓 | 288 | 0.7% |
文 | 238 | 0.6% |
民 | 222 | 0.5% |
Other values (3115) | 38013 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 42077 | |
Lowercase Letter | 180 | 0.4% |
Decimal Number | 67 | 0.2% |
Uppercase Letter | 66 | 0.2% |
Other Punctuation | 51 | 0.1% |
Space Separator | 47 | 0.1% |
Open Punctuation | 4 | < 0.1% |
Close Punctuation | 3 | < 0.1% |
Dash Punctuation | 1 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
學 | 804 | 1.9% |
會 | 726 | 1.7% |
大 | 587 | 1.4% |
校 | 527 | 1.3% |
國 | 447 | 1.1% |
山 | 325 | 0.8% |
寺 | 319 | 0.8% |
韓 | 288 | 0.7% |
文 | 238 | 0.6% |
民 | 222 | 0.5% |
Other values (3054) | 37594 |
Lowercase Letter
Value | Count | Frequency (%) |
a | 24 | |
e | 20 | |
n | 18 | |
o | 15 | 8.3% |
r | 14 | 7.8% |
l | 12 | 6.7% |
i | 12 | 6.7% |
t | 11 | 6.1% |
d | 7 | 3.9% |
s | 7 | 3.9% |
Other values (12) | 40 |
Uppercase Letter
Value | Count | Frequency (%) |
C | 8 | |
K | 7 | |
A | 7 | |
H | 6 | 9.1% |
S | 5 | 7.6% |
M | 4 | 6.1% |
N | 4 | 6.1% |
G | 3 | 4.5% |
P | 3 | 4.5% |
U | 3 | 4.5% |
Other values (10) | 16 |
Decimal Number
Value | Count | Frequency (%) |
3 | 11 | |
1 | 10 | |
9 | 10 | |
2 | 8 | |
8 | 7 | |
4 | 6 | |
7 | 5 | |
0 | 5 | |
5 | 3 | 4.5% |
6 | 2 | 3.0% |
Other Punctuation
Value | Count | Frequency (%) |
· | 44 | |
. | 4 | 7.8% |
, | 2 | 3.9% |
% | 1 | 2.0% |
Open Punctuation
Value | Count | Frequency (%) |
[ | 3 | |
( | 1 | 25.0% |
Space Separator
Value | Count | Frequency (%) |
47 |
Close Punctuation
Value | Count | Frequency (%) |
] | 3 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Han | 40840 | |
Hangul | 1236 | 2.9% |
Latin | 246 | 0.6% |
Common | 173 | 0.4% |
Hiragana | 1 | < 0.1% |
Most frequent character per script
Han
Value | Count | Frequency (%) |
學 | 804 | 2.0% |
會 | 726 | 1.8% |
大 | 587 | 1.4% |
校 | 527 | 1.3% |
國 | 447 | 1.1% |
山 | 325 | 0.8% |
寺 | 319 | 0.8% |
韓 | 288 | 0.7% |
文 | 238 | 0.6% |
民 | 222 | 0.5% |
Other values (2694) | 36357 |
Hangul
Value | Count | Frequency (%) |
의 | 66 | 5.3% |
이 | 46 | 3.7% |
리 | 43 | 3.5% |
기 | 29 | 2.3% |
아 | 27 | 2.2% |
무 | 25 | 2.0% |
및 | 18 | 1.5% |
서 | 17 | 1.4% |
울 | 16 | 1.3% |
와 | 14 | 1.1% |
Other values (349) | 935 |
Latin
Value | Count | Frequency (%) |
a | 24 | 9.8% |
e | 20 | 8.1% |
n | 18 | 7.3% |
o | 15 | 6.1% |
r | 14 | 5.7% |
l | 12 | 4.9% |
i | 12 | 4.9% |
t | 11 | 4.5% |
C | 8 | 3.3% |
K | 7 | 2.8% |
Other values (32) | 105 |
Common
Value | Count | Frequency (%) |
47 | ||
· | 44 | |
3 | 11 | 6.4% |
1 | 10 | 5.8% |
9 | 10 | 5.8% |
2 | 8 | 4.6% |
8 | 7 | 4.0% |
4 | 6 | 3.5% |
7 | 5 | 2.9% |
0 | 5 | 2.9% |
Other values (9) | 20 |
Hiragana
Value | Count | Frequency (%) |
い | 1 |
Most occurring blocks
Value | Count | Frequency (%) |
CJK | 40111 | |
Hangul | 1236 | 2.9% |
CJK Compat Ideographs | 728 | 1.7% |
ASCII | 375 | 0.9% |
None | 44 | 0.1% |
CJK Ext A | 1 | < 0.1% |
Hiragana | 1 | < 0.1% |
Most frequent character per block
CJK
Value | Count | Frequency (%) |
學 | 804 | 2.0% |
會 | 726 | 1.8% |
大 | 587 | 1.5% |
校 | 527 | 1.3% |
國 | 447 | 1.1% |
山 | 325 | 0.8% |
寺 | 319 | 0.8% |
韓 | 288 | 0.7% |
文 | 238 | 0.6% |
民 | 222 | 0.6% |
Other values (2587) | 35628 |
CJK Compat Ideographs
Value | Count | Frequency (%) |
金 | 121 | 16.6% |
勞 | 54 | 7.4% |
年 | 52 | 7.1% |
女 | 38 | 5.2% |
李 | 35 | 4.8% |
聯 | 29 | 4.0% |
龍 | 27 | 3.7% |
六 | 27 | 3.7% |
靈 | 19 | 2.6% |
亂 | 19 | 2.6% |
Other values (96) | 307 |
Hangul
Value | Count | Frequency (%) |
의 | 66 | 5.3% |
이 | 46 | 3.7% |
리 | 43 | 3.5% |
기 | 29 | 2.3% |
아 | 27 | 2.2% |
무 | 25 | 2.0% |
및 | 18 | 1.5% |
서 | 17 | 1.4% |
울 | 16 | 1.3% |
와 | 14 | 1.1% |
Other values (349) | 935 |
ASCII
Value | Count | Frequency (%) |
47 | 12.5% | |
a | 24 | 6.4% |
e | 20 | 5.3% |
n | 18 | 4.8% |
o | 15 | 4.0% |
r | 14 | 3.7% |
l | 12 | 3.2% |
i | 12 | 3.2% |
t | 11 | 2.9% |
3 | 11 | 2.9% |
Other values (50) | 191 |
None
Value | Count | Frequency (%) |
· | 44 |
CJK Ext A
Value | Count | Frequency (%) |
䴥 | 1 |
Hiragana
Value | Count | Frequency (%) |
い | 1 |
term_remark
Text
MISSING
 
Distinct | 436 |
---|---|
Distinct (%) | 20.2% |
Missing | 7846 |
Missing (%) | 78.5% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
고려 | 101 | 10.3% |
조선 | 87 | 8.9% |
인명 | 35 | 3.6% |
북한 | 20 | 2.0% |
신라 | 18 | 1.8% |
지명 | 18 | 1.8% |
잡지 | 11 | 1.1% |
서명 | 11 | 1.1% |
발해 | 10 | 1.0% |
대한제국기 | 9 | 0.9% |
Other values (426) | 657 |
Most occurring characters
Value | Count | Frequency (%) |
1185 | ||
조 | 155 | 4.0% |
선 | 146 | 3.8% |
고 | 135 | 3.5% |
려 | 128 | 3.3% |
1 | 108 | 2.8% |
9 | 83 | 2.1% |
명 | 73 | 1.9% |
한 | 47 | 1.2% |
0 | 44 | 1.1% |
Other values (234) | 1759 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 2283 | |
Space Separator | 1185 | |
Decimal Number | 390 | 10.1% |
Other Punctuation | 5 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
조 | 155 | 6.8% |
선 | 146 | 6.4% |
고 | 135 | 5.9% |
려 | 128 | 5.6% |
명 | 73 | 3.2% |
한 | 47 | 2.1% |
제 | 41 | 1.8% |
기 | 38 | 1.7% |
서 | 37 | 1.6% |
인 | 37 | 1.6% |
Other values (222) | 1446 |
Decimal Number
Value | Count | Frequency (%) |
1 | 108 | |
9 | 83 | |
0 | 44 | |
8 | 37 | 9.5% |
5 | 30 | 7.7% |
2 | 26 | 6.7% |
6 | 21 | 5.4% |
4 | 17 | 4.4% |
7 | 17 | 4.4% |
3 | 7 | 1.8% |
Space Separator
Value | Count | Frequency (%) |
1185 |
Other Punctuation
Value | Count | Frequency (%) |
· | 5 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 2283 | |
Common | 1580 |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
조 | 155 | 6.8% |
선 | 146 | 6.4% |
고 | 135 | 5.9% |
려 | 128 | 5.6% |
명 | 73 | 3.2% |
한 | 47 | 2.1% |
제 | 41 | 1.8% |
기 | 38 | 1.7% |
서 | 37 | 1.6% |
인 | 37 | 1.6% |
Other values (222) | 1446 |
Common
Value | Count | Frequency (%) |
1185 | ||
1 | 108 | 6.8% |
9 | 83 | 5.3% |
0 | 44 | 2.8% |
8 | 37 | 2.3% |
5 | 30 | 1.9% |
2 | 26 | 1.6% |
6 | 21 | 1.3% |
4 | 17 | 1.1% |
7 | 17 | 1.1% |
Other values (2) | 12 | 0.8% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 2283 | |
ASCII | 1575 | |
None | 5 | 0.1% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
1185 | ||
1 | 108 | 6.9% |
9 | 83 | 5.3% |
0 | 44 | 2.8% |
8 | 37 | 2.3% |
5 | 30 | 1.9% |
2 | 26 | 1.7% |
6 | 21 | 1.3% |
4 | 17 | 1.1% |
7 | 17 | 1.1% |
Hangul
Value | Count | Frequency (%) |
조 | 155 | 6.8% |
선 | 146 | 6.4% |
고 | 135 | 5.9% |
려 | 128 | 5.6% |
명 | 73 | 3.2% |
한 | 47 | 2.1% |
제 | 41 | 1.8% |
기 | 38 | 1.7% |
서 | 37 | 1.6% |
인 | 37 | 1.6% |
Other values (222) | 1446 |
None
Value | Count | Frequency (%) |
· | 5 |
term_attr
Text
MISSING
 
Distinct | 42 |
---|---|
Distinct (%) | 87.5% |
Missing | 9952 |
Missing (%) | 99.5% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
05.01 | 2 | 4.2% |
03 | 2 | 4.2% |
08.02 | 2 | 4.2% |
01.02 | 2 | 4.2% |
07.01 | 2 | 4.2% |
08.01 | 2 | 4.2% |
06.03 | 1 | 2.1% |
10 | 1 | 2.1% |
01.03.04 | 1 | 2.1% |
04.04 | 1 | 2.1% |
Other values (32) | 32 |
Most occurring characters
Value | Count | Frequency (%) |
0 | 96 | |
. | 50 | |
1 | 34 | 13.8% |
3 | 12 | 4.9% |
2 | 12 | 4.9% |
4 | 12 | 4.9% |
5 | 8 | 3.3% |
8 | 7 | 2.8% |
7 | 5 | 2.0% |
9 | 5 | 2.0% |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 196 | |
Other Punctuation | 50 | 20.3% |
Most frequent character per category
Decimal Number
Value | Count | Frequency (%) |
0 | 96 | |
1 | 34 | 17.3% |
3 | 12 | 6.1% |
2 | 12 | 6.1% |
4 | 12 | 6.1% |
5 | 8 | 4.1% |
8 | 7 | 3.6% |
7 | 5 | 2.6% |
9 | 5 | 2.6% |
6 | 5 | 2.6% |
Other Punctuation
Value | Count | Frequency (%) |
. | 50 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 246 |
Most frequent character per script
Common
Value | Count | Frequency (%) |
0 | 96 | |
. | 50 | |
1 | 34 | 13.8% |
3 | 12 | 4.9% |
2 | 12 | 4.9% |
4 | 12 | 4.9% |
5 | 8 | 3.3% |
8 | 7 | 2.8% |
7 | 5 | 2.0% |
9 | 5 | 2.0% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 246 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
0 | 96 | |
. | 50 | |
1 | 34 | 13.8% |
3 | 12 | 4.9% |
2 | 12 | 4.9% |
4 | 12 | 4.9% |
5 | 8 | 3.3% |
8 | 7 | 2.8% |
7 | 5 | 2.0% |
9 | 5 | 2.0% |
term_year
Text
MISSING
 
Distinct | 2740 |
---|---|
Distinct (%) | 27.9% |
Missing | 175 |
Missing (%) | 1.8% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
4313 | ||
1919 | 74 | 0.7% |
1907 | 67 | 0.7% |
1909 | 64 | 0.6% |
1945 | 62 | 0.6% |
1946 | 46 | 0.5% |
1908 | 42 | 0.4% |
1920 | 41 | 0.4% |
1894 | 40 | 0.4% |
1921 | 40 | 0.4% |
Other values (2407) | 5214 |
Most occurring characters
Value | Count | Frequency (%) |
? | 9651 | |
1 | 8594 | |
- | 7530 | |
9 | 5569 | |
8 | 2460 | 5.1% |
6 | 2122 | 4.4% |
4 | 2048 | 4.2% |
5 | 1944 | 4.0% |
3 | 1940 | 4.0% |
0 | 1924 | 4.0% |
Other values (62) | 4639 |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 30197 | |
Other Punctuation | 9970 | 20.6% |
Dash Punctuation | 7530 | 15.6% |
Space Separator | 261 | 0.5% |
Other Letter | 258 | 0.5% |
Uppercase Letter | 104 | 0.2% |
Open Punctuation | 45 | 0.1% |
Close Punctuation | 45 | 0.1% |
Math Symbol | 11 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
간 | 37 | |
조 | 29 | |
선 | 23 | 8.9% |
초 | 21 | 8.1% |
기 | 19 | 7.4% |
대 | 17 | 6.6% |
중 | 14 | 5.4% |
후 | 12 | 4.7% |
년 | 11 | 4.3% |
현 | 5 | 1.9% |
Other values (38) | 70 |
Decimal Number
Value | Count | Frequency (%) |
1 | 8594 | |
9 | 5569 | |
8 | 2460 | 8.1% |
6 | 2122 | 7.0% |
4 | 2048 | 6.8% |
5 | 1944 | 6.4% |
3 | 1940 | 6.4% |
0 | 1924 | 6.4% |
2 | 1886 | 6.2% |
7 | 1710 | 5.7% |
Uppercase Letter
Value | Count | Frequency (%) |
B | 46 | |
C | 42 | |
D | 6 | 5.8% |
A | 6 | 5.8% |
P | 4 | 3.8% |
Other Punctuation
Value | Count | Frequency (%) |
? | 9651 | |
, | 216 | 2.2% |
. | 101 | 1.0% |
· | 2 | < 0.1% |
Dash Punctuation
Value | Count | Frequency (%) |
- | 7530 |
Space Separator
Value | Count | Frequency (%) |
261 |
Open Punctuation
Value | Count | Frequency (%) |
( | 45 |
Close Punctuation
Value | Count | Frequency (%) |
) | 45 |
Math Symbol
Value | Count | Frequency (%) |
∼ | 11 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 48059 | |
Hangul | 258 | 0.5% |
Latin | 104 | 0.2% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
간 | 37 | |
조 | 29 | |
선 | 23 | 8.9% |
초 | 21 | 8.1% |
기 | 19 | 7.4% |
대 | 17 | 6.6% |
중 | 14 | 5.4% |
후 | 12 | 4.7% |
년 | 11 | 4.3% |
현 | 5 | 1.9% |
Other values (38) | 70 |
Common
Value | Count | Frequency (%) |
? | 9651 | |
1 | 8594 | |
- | 7530 | |
9 | 5569 | |
8 | 2460 | 5.1% |
6 | 2122 | 4.4% |
4 | 2048 | 4.3% |
5 | 1944 | 4.0% |
3 | 1940 | 4.0% |
0 | 1924 | 4.0% |
Other values (9) | 4277 |
Latin
Value | Count | Frequency (%) |
B | 46 | |
C | 42 | |
D | 6 | 5.8% |
A | 6 | 5.8% |
P | 4 | 3.8% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 48150 | |
Hangul | 258 | 0.5% |
Math Operators | 11 | < 0.1% |
None | 2 | < 0.1% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
? | 9651 | |
1 | 8594 | |
- | 7530 | |
9 | 5569 | |
8 | 2460 | 5.1% |
6 | 2122 | 4.4% |
4 | 2048 | 4.3% |
5 | 1944 | 4.0% |
3 | 1940 | 4.0% |
0 | 1924 | 4.0% |
Other values (12) | 4368 |
Hangul
Value | Count | Frequency (%) |
간 | 37 | |
조 | 29 | |
선 | 23 | 8.9% |
초 | 21 | 8.1% |
기 | 19 | 7.4% |
대 | 17 | 6.6% |
중 | 14 | 5.4% |
후 | 12 | 4.7% |
년 | 11 | 4.3% |
현 | 5 | 1.9% |
Other values (38) | 70 |
Math Operators
Value | Count | Frequency (%) |
∼ | 11 |
None
Value | Count | Frequency (%) |
· | 2 |
term_times
Text
MISSING
 
Distinct | 67 |
---|---|
Distinct (%) | 0.7% |
Missing | 289 |
Missing (%) | 2.9% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
조선시대 | 1498 | |
현대 | 1222 | |
일제시기 | 1038 | |
조선후기 | 971 | |
통시대 | 860 | |
고려시대 | 566 | 5.8% |
삼국시대 | 485 | 5.0% |
근대 | 480 | 4.9% |
조선전기 | 416 | 4.3% |
고려후기 | 378 | 3.9% |
Other values (53) | 1800 |
Most occurring characters
Value | Count | Frequency (%) |
대 | 6927 | |
시 | 5595 | |
기 | 3569 | |
선 | 3332 | |
조 | 3252 | |
고 | 1791 | 4.9% |
려 | 1538 | 4.2% |
현 | 1412 | 3.8% |
후 | 1402 | 3.8% |
제 | 1161 | 3.2% |
Other values (27) | 6876 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 36205 | |
Dash Punctuation | 642 | 1.7% |
Space Separator | 5 | < 0.1% |
Other Punctuation | 1 | < 0.1% |
Open Punctuation | 1 | < 0.1% |
Close Punctuation | 1 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
대 | 6927 | |
시 | 5595 | |
기 | 3569 | |
선 | 3332 | |
조 | 3252 | |
고 | 1791 | 4.9% |
려 | 1538 | 4.2% |
현 | 1412 | 3.9% |
후 | 1402 | 3.9% |
제 | 1161 | 3.2% |
Other values (22) | 6226 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 642 |
Space Separator
Value | Count | Frequency (%) |
5 |
Other Punctuation
Value | Count | Frequency (%) |
, | 1 |
Open Punctuation
Value | Count | Frequency (%) |
( | 1 |
Close Punctuation
Value | Count | Frequency (%) |
) | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 36205 | |
Common | 650 | 1.8% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
대 | 6927 | |
시 | 5595 | |
기 | 3569 | |
선 | 3332 | |
조 | 3252 | |
고 | 1791 | 4.9% |
려 | 1538 | 4.2% |
현 | 1412 | 3.9% |
후 | 1402 | 3.9% |
제 | 1161 | 3.2% |
Other values (22) | 6226 |
Common
Value | Count | Frequency (%) |
- | 642 | |
5 | 0.8% | |
, | 1 | 0.2% |
( | 1 | 0.2% |
) | 1 | 0.2% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 36205 | |
ASCII | 650 | 1.8% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
대 | 6927 | |
시 | 5595 | |
기 | 3569 | |
선 | 3332 | |
조 | 3252 | |
고 | 1791 | 4.9% |
려 | 1538 | 4.2% |
현 | 1412 | 3.9% |
후 | 1402 | 3.9% |
제 | 1161 | 3.2% |
Other values (22) | 6226 |
ASCII
Value | Count | Frequency (%) |
- | 642 | |
5 | 0.8% | |
, | 1 | 0.2% |
( | 1 | 0.2% |
) | 1 | 0.2% |
term_lk
Text
Distinct | 285 |
---|---|
Distinct (%) | 2.9% |
Missing | 71 |
Missing (%) | 0.7% |
Memory size | 156.2 KiB |
Length
Max length | 61 |
---|---|
Median length | 46 |
Mean length | 11.672072 |
Min length | 2 |
Characters and Unicode
Total characters | 115892 |
---|---|
Distinct characters | 203 |
Distinct categories | 8 ? |
Distinct scripts | 3 ? |
Distinct blocks | 3 ? |
Unique
Unique | 40 ? |
---|---|
Unique (%) | 0.4% |
Sample
1st row | 문화재 |
---|---|
2nd row | 정치·행정·법제>행정>중앙행정기구 |
3rd row | 정치·행정·법제>인사 |
4th row | 정치·행정·법제>행정>중앙행정기구 |
5th row | 외교·국제관계>북한>정치·행정·법제(북한) |
Value | Count | Frequency (%) |
정치·행정·법제>인사 | 974 | 9.8% |
인명 | 765 | 7.7% |
문화재 | 705 | 7.1% |
서명 | 428 | 4.3% |
정치·행정·법제>행정>중앙행정기구 | 414 | 4.2% |
지명 | 241 | 2.4% |
역사일반 | 222 | 2.2% |
문화·예술>미술 | 211 | 2.1% |
경제·산업>경제단체·기구>회사·기업 | 168 | 1.7% |
교육>근대교육기관>초등교육기관 | 162 | 1.6% |
Other values (277) | 5681 |
Most occurring characters
Value | Count | Frequency (%) |
· | 11989 | 10.3% |
> | 11714 | 10.1% |
정 | 6315 | 5.4% |
사 | 4789 | 4.1% |
교 | 4285 | 3.7% |
제 | 4013 | 3.5% |
행 | 3330 | 2.9% |
기 | 2848 | 2.5% |
법 | 2532 | 2.2% |
치 | 2414 | 2.1% |
Other values (193) | 61663 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 90851 | |
Other Punctuation | 11989 | 10.3% |
Math Symbol | 11714 | 10.1% |
Open Punctuation | 558 | 0.5% |
Close Punctuation | 558 | 0.5% |
Uppercase Letter | 120 | 0.1% |
Connector Punctuation | 60 | 0.1% |
Space Separator | 42 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
정 | 6315 | 7.0% |
사 | 4789 | 5.3% |
교 | 4285 | 4.7% |
제 | 4013 | 4.4% |
행 | 3330 | 3.7% |
기 | 2848 | 3.1% |
법 | 2532 | 2.8% |
치 | 2414 | 2.7% |
관 | 2075 | 2.3% |
술 | 1946 | 2.1% |
Other values (184) | 56304 |
Uppercase Letter
Value | Count | Frequency (%) |
L | 60 | |
U | 30 | |
N | 30 |
Other Punctuation
Value | Count | Frequency (%) |
· | 11989 |
Math Symbol
Value | Count | Frequency (%) |
> | 11714 |
Open Punctuation
Value | Count | Frequency (%) |
( | 558 |
Close Punctuation
Value | Count | Frequency (%) |
) | 558 |
Connector Punctuation
Value | Count | Frequency (%) |
_ | 60 |
Space Separator
Value | Count | Frequency (%) |
42 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 90851 | |
Common | 24921 | 21.5% |
Latin | 120 | 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
정 | 6315 | 7.0% |
사 | 4789 | 5.3% |
교 | 4285 | 4.7% |
제 | 4013 | 4.4% |
행 | 3330 | 3.7% |
기 | 2848 | 3.1% |
법 | 2532 | 2.8% |
치 | 2414 | 2.7% |
관 | 2075 | 2.3% |
술 | 1946 | 2.1% |
Other values (184) | 56304 |
Common
Value | Count | Frequency (%) |
· | 11989 | |
> | 11714 | |
( | 558 | 2.2% |
) | 558 | 2.2% |
_ | 60 | 0.2% |
42 | 0.2% |
Latin
Value | Count | Frequency (%) |
L | 60 | |
U | 30 | |
N | 30 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 90851 | |
ASCII | 13052 | 11.3% |
None | 11989 | 10.3% |
Most frequent character per block
None
Value | Count | Frequency (%) |
· | 11989 |
ASCII
Value | Count | Frequency (%) |
> | 11714 | |
( | 558 | 4.3% |
) | 558 | 4.3% |
_ | 60 | 0.5% |
L | 60 | 0.5% |
42 | 0.3% | |
U | 30 | 0.2% |
N | 30 | 0.2% |
Hangul
Value | Count | Frequency (%) |
정 | 6315 | 7.0% |
사 | 4789 | 5.3% |
교 | 4285 | 4.7% |
제 | 4013 | 4.4% |
행 | 3330 | 3.7% |
기 | 2848 | 3.1% |
법 | 2532 | 2.8% |
치 | 2414 | 2.7% |
관 | 2075 | 2.3% |
술 | 1946 | 2.1% |
Other values (184) | 56304 |
term_desc
Text
MISSING
 
Distinct | 9644 |
---|---|
Distinct (%) | 97.7% |
Missing | 131 |
Missing (%) | 1.3% |
Memory size | 156.2 KiB |
Length
Max length | 281 |
---|---|
Median length | 169 |
Mean length | 47.065457 |
Min length | 1 |
Characters and Unicode
Total characters | 464489 |
---|---|
Distinct characters | 3517 |
Distinct categories | 16 ? |
Distinct scripts | 5 ? |
Distinct blocks | 13 ? |
Unique
Unique | 9515 ? |
---|---|
Unique (%) | 96.4% |
Sample
1st row | 고구려가 수도 평양성의 북성을 쌓을 때 처음 세운 북문으로 1954년 다시 복구한 평양직할시 중구역(中區域) 금수산(錦繡山)에 있는 성문. |
---|---|
2nd row | 1899년 8월 29일 경상남도 창원(昌原)에 개설한 전신(電信) 업무 행정기관. |
3rd row | 조선시대 선공감(繕工監)에서 토목 영선을 감독하던 종9품의 임시직. |
4th row | 1946년 미군정청 개편에 따라 설치된 기구. |
5th row | 1977년 김일성의 연설을 통해 알려진 것으로 북한주민들이 법규범과 규정대로 생활하도록 법무생활을 지도감독하는 기관. |
Value | Count | Frequency (%) |
조선시대 | 1029 | 1.1% |
때 | 617 | 0.7% |
하나 | 611 | 0.7% |
있음 | 571 | 0.6% |
있는 | 446 | 0.5% |
고려시대 | 421 | 0.4% |
중국 | 420 | 0.4% |
위해 | 411 | 0.4% |
관직 | 306 | 0.3% |
설립한 | 298 | 0.3% |
Other values (37545) | 88859 |
Most occurring characters
Value | Count | Frequency (%) |
84335 | 18.2% | |
. | 12638 | 2.7% |
) | 12078 | 2.6% |
( | 12077 | 2.6% |
의 | 9333 | 2.0% |
에 | 8114 | 1.7% |
1 | 7001 | 1.5% |
대 | 5366 | 1.2% |
시 | 5023 | 1.1% |
하 | 5021 | 1.1% |
Other values (3507) | 303503 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 311419 | |
Space Separator | 84335 | 18.2% |
Decimal Number | 25179 | 5.4% |
Other Punctuation | 16746 | 3.6% |
Close Punctuation | 12172 | 2.6% |
Open Punctuation | 12170 | 2.6% |
Control | 716 | 0.2% |
Math Symbol | 612 | 0.1% |
Lowercase Letter | 492 | 0.1% |
Dash Punctuation | 407 | 0.1% |
Other values (6) | 241 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
의 | 9333 | 3.0% |
에 | 8114 | 2.6% |
대 | 5366 | 1.7% |
시 | 5023 | 1.6% |
하 | 5021 | 1.6% |
한 | 4763 | 1.5% |
조 | 4585 | 1.5% |
년 | 4560 | 1.5% |
기 | 4395 | 1.4% |
로 | 4357 | 1.4% |
Other values (3404) | 255902 |
Lowercase Letter
Value | Count | Frequency (%) |
e | 53 | |
a | 51 | |
r | 47 | |
n | 45 | |
o | 44 | |
l | 37 | 7.5% |
i | 33 | 6.7% |
t | 27 | 5.5% |
m | 26 | 5.3% |
s | 25 | 5.1% |
Other values (13) | 104 |
Uppercase Letter
Value | Count | Frequency (%) |
C | 26 | |
B | 21 | 10.6% |
A | 19 | 9.5% |
M | 16 | 8.0% |
S | 12 | 6.0% |
H | 11 | 5.5% |
P | 11 | 5.5% |
J | 11 | 5.5% |
E | 9 | 4.5% |
F | 9 | 4.5% |
Other values (12) | 54 |
Other Punctuation
Value | Count | Frequency (%) |
. | 12638 | |
, | 2007 | 12.0% |
· | 1966 | 11.7% |
: | 59 | 0.4% |
' | 56 | 0.3% |
" | 10 | 0.1% |
: | 3 | < 0.1% |
/ | 2 | < 0.1% |
% | 1 | < 0.1% |
․ | 1 | < 0.1% |
Other values (3) | 3 | < 0.1% |
Decimal Number
Value | Count | Frequency (%) |
1 | 7001 | |
9 | 4237 | |
2 | 2289 | 9.1% |
3 | 1885 | 7.5% |
8 | 1729 | 6.9% |
0 | 1693 | 6.7% |
4 | 1669 | 6.6% |
5 | 1656 | 6.6% |
6 | 1656 | 6.6% |
7 | 1364 | 5.4% |
Math Symbol
Value | Count | Frequency (%) |
≫ | 260 | |
≪ | 260 | |
∼ | 28 | 4.6% |
> | 21 | 3.4% |
< | 21 | 3.4% |
~ | 12 | 2.0% |
> | 5 | 0.8% |
< | 5 | 0.8% |
Close Punctuation
Value | Count | Frequency (%) |
) | 12078 | |
] | 79 | 0.6% |
」 | 7 | 0.1% |
』 | 5 | < 0.1% |
〉 | 1 | < 0.1% |
》 | 1 | < 0.1% |
〕 | 1 | < 0.1% |
Open Punctuation
Value | Count | Frequency (%) |
( | 12077 | |
[ | 79 | 0.6% |
「 | 6 | < 0.1% |
『 | 5 | < 0.1% |
〈 | 1 | < 0.1% |
《 | 1 | < 0.1% |
〔 | 1 | < 0.1% |
Other Symbol
Value | Count | Frequency (%) |
㎝ | 8 | |
㎞ | 8 | |
㎢ | 8 | |
◇ | 1 | 3.8% |
° | 1 | 3.8% |
Control
Value | Count | Frequency (%) |
358 | ||
358 |
Space Separator
Value | Count | Frequency (%) |
84335 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 407 |
Final Punctuation
Value | Count | Frequency (%) |
’ | 7 |
Initial Punctuation
Value | Count | Frequency (%) |
‘ | 7 |
Letter Number
Value | Count | Frequency (%) |
Ⅷ | 1 |
Currency Symbol
Value | Count | Frequency (%) |
$ | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 282879 | |
Common | 152378 | |
Han | 28539 | 6.1% |
Latin | 692 | 0.1% |
Hiragana | 1 | < 0.1% |
Most frequent character per script
Han
Value | Count | Frequency (%) |
山 | 261 | 0.9% |
府 | 252 | 0.9% |
大 | 251 | 0.9% |
學 | 244 | 0.9% |
宗 | 242 | 0.8% |
文 | 233 | 0.8% |
道 | 223 | 0.8% |
金 | 217 | 0.8% |
官 | 211 | 0.7% |
州 | 199 | 0.7% |
Other values (2342) | 26206 |
Hangul
Value | Count | Frequency (%) |
의 | 9333 | 3.3% |
에 | 8114 | 2.9% |
대 | 5366 | 1.9% |
시 | 5023 | 1.8% |
하 | 5021 | 1.8% |
한 | 4763 | 1.7% |
조 | 4585 | 1.6% |
년 | 4560 | 1.6% |
기 | 4395 | 1.6% |
로 | 4357 | 1.5% |
Other values (1051) | 227362 |
Common
Value | Count | Frequency (%) |
84335 | ||
. | 12638 | 8.3% |
) | 12078 | 7.9% |
( | 12077 | 7.9% |
1 | 7001 | 4.6% |
9 | 4237 | 2.8% |
2 | 2289 | 1.5% |
, | 2007 | 1.3% |
· | 1966 | 1.3% |
3 | 1885 | 1.2% |
Other values (47) | 11865 | 7.8% |
Latin
Value | Count | Frequency (%) |
e | 53 | 7.7% |
a | 51 | 7.4% |
r | 47 | 6.8% |
n | 45 | 6.5% |
o | 44 | 6.4% |
l | 37 | 5.3% |
i | 33 | 4.8% |
t | 27 | 3.9% |
C | 26 | 3.8% |
m | 26 | 3.8% |
Other values (36) | 303 |
Hiragana
Value | Count | Frequency (%) |
の | 1 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 282848 | |
ASCII | 150470 | |
CJK | 27934 | 6.0% |
None | 2010 | 0.4% |
CJK Compat Ideographs | 604 | 0.1% |
Math Operators | 548 | 0.1% |
Compat Jamo | 31 | < 0.1% |
CJK Compat | 24 | < 0.1% |
Punctuation | 16 | < 0.1% |
Number Forms | 1 | < 0.1% |
Other values (3) | 3 | < 0.1% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
84335 | ||
. | 12638 | 8.4% |
) | 12078 | 8.0% |
( | 12077 | 8.0% |
1 | 7001 | 4.7% |
9 | 4237 | 2.8% |
2 | 2289 | 1.5% |
, | 2007 | 1.3% |
3 | 1885 | 1.3% |
8 | 1729 | 1.1% |
Other values (65) | 10194 | 6.8% |
Hangul
Value | Count | Frequency (%) |
의 | 9333 | 3.3% |
에 | 8114 | 2.9% |
대 | 5366 | 1.9% |
시 | 5023 | 1.8% |
하 | 5021 | 1.8% |
한 | 4763 | 1.7% |
조 | 4585 | 1.6% |
년 | 4560 | 1.6% |
기 | 4395 | 1.6% |
로 | 4357 | 1.5% |
Other values (1032) | 227331 |
None
Value | Count | Frequency (%) |
· | 1966 | |
」 | 7 | 0.3% |
「 | 6 | 0.3% |
> | 5 | 0.2% |
< | 5 | 0.2% |
『 | 5 | 0.2% |
』 | 5 | 0.2% |
: | 3 | 0.1% |
〈 | 1 | < 0.1% |
〉 | 1 | < 0.1% |
Other values (6) | 6 | 0.3% |
CJK
Value | Count | Frequency (%) |
山 | 261 | 0.9% |
府 | 252 | 0.9% |
大 | 251 | 0.9% |
學 | 244 | 0.9% |
宗 | 242 | 0.9% |
文 | 233 | 0.8% |
道 | 223 | 0.8% |
金 | 217 | 0.8% |
官 | 211 | 0.8% |
州 | 199 | 0.7% |
Other values (2231) | 25601 |
Math Operators
Value | Count | Frequency (%) |
≫ | 260 | |
≪ | 260 | |
∼ | 28 | 5.1% |
CJK Compat Ideographs
Value | Count | Frequency (%) |
金 | 99 | 16.4% |
李 | 76 | 12.6% |
龍 | 20 | 3.3% |
劉 | 16 | 2.6% |
禮 | 15 | 2.5% |
六 | 14 | 2.3% |
羅 | 14 | 2.3% |
樂 | 13 | 2.2% |
陵 | 12 | 2.0% |
樂 | 12 | 2.0% |
Other values (100) | 313 |
CJK Compat
Value | Count | Frequency (%) |
㎝ | 8 | |
㎞ | 8 | |
㎢ | 8 |
Punctuation
Value | Count | Frequency (%) |
’ | 7 | |
‘ | 7 | |
․ | 1 | 6.2% |
… | 1 | 6.2% |
Compat Jamo
Value | Count | Frequency (%) |
ㆍ | 7 | |
ㄱ | 3 | 9.7% |
ㅎ | 2 | 6.5% |
ㅈ | 2 | 6.5% |
ㅅ | 2 | 6.5% |
ㄷ | 2 | 6.5% |
ㆁ | 1 | 3.2% |
ㆆ | 1 | 3.2% |
ㅿ | 1 | 3.2% |
ㅱ | 1 | 3.2% |
Other values (9) | 9 |
Number Forms
Value | Count | Frequency (%) |
Ⅷ | 1 |
CJK Ext A
Value | Count | Frequency (%) |
㻫 | 1 |
Geometric Shapes
Value | Count | Frequency (%) |
◇ | 1 |
Hiragana
Value | Count | Frequency (%) |
の | 1 |
term_user
Real number (ℝ)
ZEROS
 
Distinct | 24 |
---|---|
Distinct (%) | 0.2% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 8.5955 |
Minimum | 0 |
---|---|
Maximum | 25 |
Zeros | 2360 |
Zeros (%) | 23.6% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 0 |
Q1 | 2 |
median | 8 |
Q3 | 14 |
95-th percentile | 19 |
Maximum | 25 |
Range | 25 |
Interquartile range (IQR) | 12 |
Descriptive statistics
Standard deviation | 6.598563 |
---|---|
Coefficient of variation (CV) | 0.76767646 |
Kurtosis | -0.77238142 |
Mean | 8.5955 |
Median Absolute Deviation (MAD) | 6 |
Skewness | 0.29334879 |
Sum | 85955 |
Variance | 43.541034 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
0 | 2360 | |
10 | 1731 | |
8 | 1304 | |
14 | 547 | 5.5% |
17 | 514 | 5.1% |
19 | 396 | 4.0% |
18 | 379 | 3.8% |
23 | 359 | 3.6% |
6 | 352 | 3.5% |
5 | 345 | 3.5% |
Other values (14) | 1713 |
Value | Count | Frequency (%) |
0 | 2360 | |
1 | 47 | 0.5% |
2 | 148 | 1.5% |
3 | 217 | 2.2% |
4 | 94 | 0.9% |
5 | 345 | 3.5% |
6 | 352 | 3.5% |
7 | 302 | 3.0% |
8 | 1304 | |
9 | 131 | 1.3% |
Value | Count | Frequency (%) |
25 | 11 | 0.1% |
23 | 359 | |
22 | 2 | < 0.1% |
21 | 21 | 0.2% |
20 | 5 | 0.1% |
19 | 396 | |
18 | 379 | |
17 | 514 | |
16 | 334 | |
14 | 547 |
term_created
Date
Distinct | 8470 |
---|---|
Distinct (%) | 84.7% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Minimum | 2002-09-30 22:42:00 |
---|---|
Maximum | 2008-02-14 14:34:49 |
term_reference
Text
MISSING
 
Distinct | 206 |
---|---|
Distinct (%) | 4.6% |
Missing | 5511 |
Missing (%) | 55.1% |
Memory size | 156.2 KiB |
Length
Max length | 37 |
---|---|
Median length | 31 |
Mean length | 9.7119626 |
Min length | 3 |
Characters and Unicode
Total characters | 43597 |
---|---|
Distinct characters | 319 |
Distinct categories | 9 ? |
Distinct scripts | 4 ? |
Distinct blocks | 5 ? |
Unique
Unique | 96 ? |
---|---|
Unique (%) | 2.1% |
Sample
1st row | 파스칼세계대백과사전 |
---|---|
2nd row | 한국문화사대계3 |
3rd row | 두산세계대백과사전 |
4th row | 북한용어 400선집 |
5th row | 한국민족문화대백과사전 |
Value | Count | Frequency (%) |
한국민족문화대백과사전 | 1868 | |
두산세계대백과사전 | 338 | 6.6% |
두산동아백과사전 | 241 | 4.7% |
한국역대제도용어사전 | 139 | 2.7% |
한국마정사 | 115 | 2.2% |
학회총람 | 108 | 2.1% |
두산동아대백과사전 | 105 | 2.0% |
한국사신론 | 95 | 1.9% |
두산세계대백과 | 85 | 1.7% |
한국독립운동사사전 | 80 | 1.6% |
Other values (242) | 1959 |
Most occurring characters
Value | Count | Frequency (%) |
사 | 3617 | 8.3% |
전 | 3236 | 7.4% |
대 | 2775 | 6.4% |
과 | 2757 | 6.3% |
백 | 2748 | 6.3% |
국 | 2702 | 6.2% |
한 | 2686 | 6.2% |
문 | 2059 | 4.7% |
화 | 2050 | 4.7% |
민 | 1890 | 4.3% |
Other values (309) | 17077 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 40685 | |
Decimal Number | 1250 | 2.9% |
Space Separator | 651 | 1.5% |
Open Punctuation | 292 | 0.7% |
Close Punctuation | 292 | 0.7% |
Other Punctuation | 283 | 0.6% |
Lowercase Letter | 115 | 0.3% |
Math Symbol | 20 | < 0.1% |
Dash Punctuation | 9 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
사 | 3617 | 8.9% |
전 | 3236 | 8.0% |
대 | 2775 | 6.8% |
과 | 2757 | 6.8% |
백 | 2748 | 6.8% |
국 | 2702 | 6.6% |
한 | 2686 | 6.6% |
문 | 2059 | 5.1% |
화 | 2050 | 5.0% |
민 | 1890 | 4.6% |
Other values (272) | 14165 |
Lowercase Letter
Value | Count | Frequency (%) |
w | 18 | |
o | 13 | |
e | 12 | |
u | 12 | |
m | 12 | |
k | 12 | |
r | 11 | |
s | 6 | 5.2% |
g | 5 | 4.3% |
a | 5 | 4.3% |
Other values (6) | 9 |
Decimal Number
Value | Count | Frequency (%) |
1 | 384 | |
0 | 277 | |
9 | 217 | |
4 | 93 | 7.4% |
8 | 88 | 7.0% |
3 | 68 | 5.4% |
5 | 57 | 4.6% |
2 | 29 | 2.3% |
7 | 26 | 2.1% |
6 | 11 | 0.9% |
Other Punctuation
Value | Count | Frequency (%) |
, | 254 | |
. | 18 | 6.4% |
· | 8 | 2.8% |
/ | 2 | 0.7% |
: | 1 | 0.4% |
Math Symbol
Value | Count | Frequency (%) |
> | 10 | |
< | 10 |
Space Separator
Value | Count | Frequency (%) |
651 |
Open Punctuation
Value | Count | Frequency (%) |
( | 292 |
Close Punctuation
Value | Count | Frequency (%) |
) | 292 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 9 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 40088 | |
Common | 2797 | 6.4% |
Han | 597 | 1.4% |
Latin | 115 | 0.3% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
사 | 3617 | 9.0% |
전 | 3236 | 8.1% |
대 | 2775 | 6.9% |
과 | 2757 | 6.9% |
백 | 2748 | 6.9% |
국 | 2702 | 6.7% |
한 | 2686 | 6.7% |
문 | 2059 | 5.1% |
화 | 2050 | 5.1% |
민 | 1890 | 4.7% |
Other values (204) | 13568 |
Han
Value | Count | Frequency (%) |
山 | 63 | 10.6% |
口 | 63 | 10.6% |
精 | 63 | 10.6% |
動 | 24 | 4.0% |
韓 | 23 | 3.9% |
史 | 21 | 3.5% |
國 | 20 | 3.4% |
共 | 19 | 3.2% |
學 | 19 | 3.2% |
主 | 19 | 3.2% |
Other values (58) | 263 |
Common
Value | Count | Frequency (%) |
651 | ||
1 | 384 | |
( | 292 | |
) | 292 | |
0 | 277 | |
, | 254 | 9.1% |
9 | 217 | 7.8% |
4 | 93 | 3.3% |
8 | 88 | 3.1% |
3 | 68 | 2.4% |
Other values (11) | 181 | 6.5% |
Latin
Value | Count | Frequency (%) |
w | 18 | |
o | 13 | |
e | 12 | |
u | 12 | |
m | 12 | |
k | 12 | |
r | 11 | |
s | 6 | 5.2% |
g | 5 | 4.3% |
a | 5 | 4.3% |
Other values (6) | 9 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 40088 | |
ASCII | 2904 | 6.7% |
CJK | 596 | 1.4% |
None | 8 | < 0.1% |
CJK Compat Ideographs | 1 | < 0.1% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
사 | 3617 | 9.0% |
전 | 3236 | 8.1% |
대 | 2775 | 6.9% |
과 | 2757 | 6.9% |
백 | 2748 | 6.9% |
국 | 2702 | 6.7% |
한 | 2686 | 6.7% |
문 | 2059 | 5.1% |
화 | 2050 | 5.1% |
민 | 1890 | 4.7% |
Other values (204) | 13568 |
ASCII
Value | Count | Frequency (%) |
651 | ||
1 | 384 | |
( | 292 | |
) | 292 | |
0 | 277 | |
, | 254 | 8.7% |
9 | 217 | 7.5% |
4 | 93 | 3.2% |
8 | 88 | 3.0% |
3 | 68 | 2.3% |
Other values (26) | 288 |
CJK
Value | Count | Frequency (%) |
山 | 63 | 10.6% |
口 | 63 | 10.6% |
精 | 63 | 10.6% |
動 | 24 | 4.0% |
韓 | 23 | 3.9% |
史 | 21 | 3.5% |
國 | 20 | 3.4% |
共 | 19 | 3.2% |
學 | 19 | 3.2% |
主 | 19 | 3.2% |
Other values (57) | 262 |
None
Value | Count | Frequency (%) |
· | 8 |
CJK Compat Ideographs
Value | Count | Frequency (%) |
女 | 1 |
term_id | topterm_id | term_kind | term_attr | term_times | term_user | |
---|---|---|---|---|---|---|
term_id | 1.000 | 0.347 | 0.085 | 1.000 | 0.565 | 0.915 |
topterm_id | 0.347 | 1.000 | 0.101 | NaN | 0.655 | 0.510 |
term_kind | 0.085 | 0.101 | 1.000 | NaN | 0.000 | 0.162 |
term_attr | 1.000 | NaN | NaN | 1.000 | NaN | 1.000 |
term_times | 0.565 | 0.655 | 0.000 | NaN | 1.000 | 0.494 |
term_user | 0.915 | 0.510 | 0.162 | 1.000 | 0.494 | 1.000 |
term_id | topterm_id | term_user | term_kind | |
---|---|---|---|---|
term_id | 1.000 | 0.101 | 0.279 | 0.051 |
topterm_id | 0.101 | 1.000 | -0.359 | 0.064 |
term_user | 0.279 | -0.359 | 1.000 | 0.097 |
term_kind | 0.051 | 0.064 | 0.097 | 1.000 |
term_id | topterm_id | term_name | term_kind | term_ch | term_remark | term_attr | term_year | term_times | term_lk | term_desc | term_user | term_created | term_reference | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
6079 | 10489860 | 665 | 현무문 | 2 | 玄武門 | <NA> | <NA> | ? | 삼국시대 | 문화재 | 고구려가 수도 평양성의 북성을 쌓을 때 처음 세운 북문으로 1954년 다시 복구한 평양직할시 중구역(中區域) 금수산(錦繡山)에 있는 성문. | 0 | 2004-07-10 10:15:16 | 파스칼세계대백과사전 |
6185 | 14681354 | 8 | 창원전보사 | 2 | 昌原電報司 | <NA> | <NA> | 1899 | 근대 | 정치·행정·법제>행정>중앙행정기구 | 1899년 8월 29일 경상남도 창원(昌原)에 개설한 전신(電信) 업무 행정기관. | 7 | 2004-07-12 17:07:57 | 한국문화사대계3 |
22299 | 35657996 | 8 | 가감역관 | 2 | 假監役官 | <NA> | <NA> | ?-? | 조선후기 | 정치·행정·법제>인사 | 조선시대 선공감(繕工監)에서 토목 영선을 감독하던 종9품의 임시직. | 10 | 2003-10-02 16:50:48 | 두산세계대백과사전 |
18288 | 11220 | 8 | 공보부 | 2 | 公報部 | <NA> | <NA> | 1946-1948 | 현대 | 정치·행정·법제>행정>중앙행정기구 | 1946년 미군정청 개편에 따라 설치된 기구. | 10 | 2003-09-24 19:04:31 | <NA> |
4436 | 23070356 | 86 | 사회주의법무생활지도위원회 | 2 | 社會主義法務生活指導委員會 | <NA> | <NA> | 1977-? | 현대 | 외교·국제관계>북한>정치·행정·법제(북한) | 1977년 김일성의 연설을 통해 알려진 것으로 북한주민들이 법규범과 규정대로 생활하도록 법무생활을 지도감독하는 기관. | 11 | 2004-06-30 09:46:35 | 북한용어 400선집 |
4023 | 8391237 | 574 | 가삼 | 2 | 家蔘 | <NA> | <NA> | ?-? | 통시대 | 학술·과학기술>의학·약학 | 밭에 씨를 뿌려 거둔 인삼. | 8 | 2004-06-29 13:23:59 | <NA> |
33183 | 3005 | 439 | 단가 | 2 | 短歌 | 판소리 | <NA> | ?-? | 근세-현대 | 문화·예술>음악 | 판소리를 부르기 전에 목청을 가다듬기 위하여 부르는 짧은 노래. | 8 | 2002-09-30 22:42:00 | 한국민족문화대백과사전 |
25986 | 21669 | 662 | 권유 | 2 | 權裕 | <NA> | 1745-1804 | 조선후기 | 인명 | 조선 영조-순조 때의 문신으로 본관은 안동(安東). 순조와 순원왕후(純元王后)의 국혼을 반대하는 소를 올린 일로 대역부도죄로 죽임을 당함. | 0 | 2002-09-30 22:44:00 | 한국민족문화대백과사전 | |
18856 | 23072505 | 574 | 전북대사학회 | 2 | 全北大史學會 | <NA> | <NA> | 1976-? | 현대 | 학술·과학기술>학술기구·단체 | 1976년 역사연구를 기본 목적으로 전북대학교에 설립한 학회. | 11 | 2004-07-26 15:26:02 | 학회총람 |
23524 | 17752 | 631 | 봉명학원 | 2 | 鳳鳴學院 | <NA> | <NA> | 1907 | 근대 | 교육>근대교육기관>초등교육기관 | 1907년 윤최명(尹最明) 등이 평안북도 박천군(博川郡) 가산면 동문동에 설립한 사립교육기관. | 16 | 2003-06-10 16:49:58 | <NA> |
term_id | topterm_id | term_name | term_kind | term_ch | term_remark | term_attr | term_year | term_times | term_lk | term_desc | term_user | term_created | term_reference | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
10666 | 37762349 | 665 | 유점사부도군 | 2 | 楡岾寺浮屠群 | <NA> | <NA> | ? | 조선후기 | 문화재 | 조선후기에 제작된 유점사(楡岾寺) 경내에 세워져 있는 10여 기의 석조 부도와 비석의 무리. 강원도 고성군 소재. | 0 | 2004-11-10 01:10:00 | 북한문화재해설집1 |
9993 | 1605 | 8 | 계공랑 | 2 | 啓功郞 | <NA> | <NA> | 1392-1894 | 조선시대 | 정치·행정·법제>인사 | 조선시대 문산계(文散階) 종7품의 품계. | 10 | 2003-08-06 17:52:13 | <NA> |
22613 | 15767 | 8 | 영집자 | 2 | 永執者 | <NA> | <NA> | ?-? | 조선시대 | 정치·행정·법제>사법>범죄 | 전호(佃戶)가 남의 토지를 아울러 경작하게 된 것을 기화로 삼아 그 토지를 영구히 점유하는 것. | 18 | 2003-06-03 11:50:14 | <NA> |
37161 | 37755718 | 662 | 조완기 | 2 | 趙完基 | <NA> | <NA> | 1570-1592 | 조선전기 | 인명 | 1592년(선조 25) 임진왜란 때 옥천(沃川)에서 의병을 일으킨 아버지 조헌을 따라 종군한 의병으로 현종 때 지평(持平)이에 추증. 경기도 김포 출생. | 18 | 2003-08-21 16:49:43 | <NA> |
31383 | 16797584 | 662 | 환인 | 2 | 桓因 | <NA> | <NA> | ? | 고대 | 인명 | 단군신화(檀君神話)에 나오는 신적인 존재. 환웅(桓雄)의 아버지이며 단군의 할아버지인 천제(天帝)로, 환웅에게 천부인(天符印) 3개를 주어 세상을 다스리게 함, 환인의 이름은 불전(佛典)에서 따온 제석신(帝釋神)의 이름으로 원래는 '하늘', '하느님'이라는 한글의 근원이 되는 어떤 어형의 음사(音寫)로 봄. | 8 | 2003-09-16 13:18:57 | <NA> |
29719 | 4200017 | 665 | 삼군부총무당 | 2 | 三軍府總武堂 | <NA> | <NA> | 1868 | 조선후기 | 문화재 | 1868년(고종 5) 삼군부의 무략(武略)을 총괄하던 청사. 현 정부종합청사 자리에 세워졌다가, 1930년에 서울시 성북구 돈암동 삼선공원 옮김. | 0 | 2004-05-21 15:48:44 | 한국민족문화대백과사전 |
20484 | 6457 | 439 | 와당 | 2 | 瓦當 | <NA> | <NA> | ?-? | 통시대 | 문화·예술>미술 | 추녀 끝에 덮는 기와로 기와 한쪽 끝에 둥글게 모양을 낸 부분. | 8 | 2002-11-13 11:27:24 | 한국민족문화대백과사전 |
34256 | 16579 | 665 | 속리의정2품송 | 2 | 俗離의正二品松 | <NA> | <NA> | ? | 근세-현대 | 문화재 | 1962년 천연기념물 제103호로 지정된 속리산의 소나무. | 0 | 2002-10-22 09:44:33 | 두산세계대백과사전 |
38592 | 44042351 | 199 | 곰배괭이 | 2 | 곰배괭이 | <NA> | <NA> | ?-? | 통시대 | 경제·산업>농업>농기구 | 흙을 파거나 씨를 뿌리기 위해 골을 켤 때, 덩어리진 흙을 부수거나 땅을 고를 때 쓰는 농기구. | 8 | 2003-10-25 12:04:01 | 한국민족문화대백과사전 |
38254 | 39853982 | 574 | 조선박물교원회 | 2 | 朝鮮博物敎員會 | <NA> | <NA> | 1935-1940 | 일제시기 | 학술·과학기술>학술기구·단체 | 일제시기에 생물교사들이 박물(博物)에 관해 연구하고자 설립한 학술단체. 1940년 조선박물교원연구회로 명칭을 바꾸었고, 8·15광복 후 조선생물학회와 통합. | 19 | 2003-09-16 13:59:03 | <NA> |