Dataset statistics
Number of variables | 3 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 192 |
Duplicate rows (%) | 1.9% |
Total size in memory | 312.5 KiB |
Average record size in memory | 32.0 B |
Variable types
Text | 2 |
---|---|
Categorical | 1 |
Dataset
Description | KnowTBT포털 회원의 관심국가에 대한 정보를 제공함, 우선 대륙별-국가이름 정보를 제공하되, 회원의 ID는 비식별화하였습니다. |
---|---|
URL | https://www.data.go.kr/data/15068826/fileData.do |
Dataset has 192 (1.9%) duplicate rows | Duplicates |
Reproduction
Analysis started | 2023-12-12 08:11:58.135795 |
---|---|
Analysis finished | 2023-12-12 08:11:58.578149 |
Duration | 0.44 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
회원아이디
Text
Distinct | 892 |
---|---|
Distinct (%) | 8.9% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
k | 152 | 1.5% |
t | 86 | 0.9% |
j | 72 | 0.7% |
y****s | 65 | 0.7% |
m | 65 | 0.7% |
s | 59 | 0.6% |
p****s | 56 | 0.6% |
j****635 | 56 | 0.6% |
h | 54 | 0.5% |
r | 53 | 0.5% |
Other values (878) | 9282 |
Most occurring characters
Value | Count | Frequency (%) |
* | 40000 | |
s | 2055 | 2.8% |
0 | 1791 | 2.4% |
e | 1777 | 2.4% |
n | 1676 | 2.3% |
a | 1499 | 2.0% |
k | 1489 | 2.0% |
1 | 1435 | 1.9% |
2 | 1358 | 1.8% |
r | 1254 | 1.7% |
Other values (47) | 19319 |
Most occurring categories
Value | Count | Frequency (%) |
Other Punctuation | 40326 | |
Lowercase Letter | 22782 | |
Decimal Number | 10258 | 13.9% |
Uppercase Letter | 284 | 0.4% |
Dash Punctuation | 3 | < 0.1% |
Most frequent character per category
Lowercase Letter
Value | Count | Frequency (%) |
s | 2055 | 9.0% |
e | 1777 | 7.8% |
n | 1676 | 7.4% |
a | 1499 | 6.6% |
k | 1489 | 6.5% |
r | 1254 | 5.5% |
o | 1164 | 5.1% |
g | 1115 | 4.9% |
j | 1102 | 4.8% |
i | 1079 | 4.7% |
Other values (16) | 8572 |
Uppercase Letter
Value | Count | Frequency (%) |
D | 61 | |
K | 50 | |
G | 35 | |
O | 28 | |
F | 22 | 7.7% |
A | 22 | 7.7% |
S | 14 | 4.9% |
T | 13 | 4.6% |
L | 11 | 3.9% |
E | 7 | 2.5% |
Other values (7) | 21 | 7.4% |
Decimal Number
Value | Count | Frequency (%) |
0 | 1791 | |
1 | 1435 | |
2 | 1358 | |
9 | 1170 | |
7 | 952 | |
8 | 923 | |
3 | 717 | |
4 | 687 | 6.7% |
5 | 651 | 6.3% |
6 | 574 | 5.6% |
Other Punctuation
Value | Count | Frequency (%) |
* | 40000 | |
. | 211 | 0.5% |
@ | 115 | 0.3% |
Dash Punctuation
Value | Count | Frequency (%) |
- | 3 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 50587 | |
Latin | 23066 |
Most frequent character per script
Latin
Value | Count | Frequency (%) |
s | 2055 | 8.9% |
e | 1777 | 7.7% |
n | 1676 | 7.3% |
a | 1499 | 6.5% |
k | 1489 | 6.5% |
r | 1254 | 5.4% |
o | 1164 | 5.0% |
g | 1115 | 4.8% |
j | 1102 | 4.8% |
i | 1079 | 4.7% |
Other values (33) | 8856 |
Common
Value | Count | Frequency (%) |
* | 40000 | |
0 | 1791 | 3.5% |
1 | 1435 | 2.8% |
2 | 1358 | 2.7% |
9 | 1170 | 2.3% |
7 | 952 | 1.9% |
8 | 923 | 1.8% |
3 | 717 | 1.4% |
4 | 687 | 1.4% |
5 | 651 | 1.3% |
Other values (4) | 903 | 1.8% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 73653 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
* | 40000 | |
s | 2055 | 2.8% |
0 | 1791 | 2.4% |
e | 1777 | 2.4% |
n | 1676 | 2.3% |
a | 1499 | 2.0% |
k | 1489 | 2.0% |
1 | 1435 | 1.9% |
2 | 1358 | 1.8% |
r | 1254 | 1.7% |
Other values (47) | 19319 |
대륙이름
Categorical
Distinct | 8 |
---|---|
Distinct (%) | 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
유럽 | |
---|---|
아시아 | |
중남미 | |
아프리카 | |
중동 | |
Other values (3) |
Length
Max length | 5 |
---|---|
Median length | 4 |
Mean length | 2.7035 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 아시아 |
---|---|
2nd row | 유럽 |
3rd row | 오세아니아 |
4th row | 중남미 |
5th row | 아시아 |
Common Values
Value | Count | Frequency (%) |
유럽 | 3492 | |
아시아 | 2222 | |
중남미 | 1616 | |
아프리카 | 1058 | 10.6% |
중동 | 854 | 8.5% |
북미 | 393 | 3.9% |
오세아니아 | 358 | 3.6% |
전세계 | 7 | 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
유럽 | 3492 | |
아시아 | 2222 | |
중남미 | 1616 | |
아프리카 | 1058 | 10.6% |
중동 | 854 | 8.5% |
북미 | 393 | 3.9% |
오세아니아 | 358 | 3.6% |
전세계 | 7 | 0.1% |
국가이름
Text
Distinct | 237 |
---|---|
Distinct (%) | 2.4% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
미국 | 223 | 2.2% |
중국 | 207 | 2.0% |
일본 | 157 | 1.5% |
독일 | 147 | 1.4% |
한국 | 145 | 1.4% |
영국 | 144 | 1.4% |
캐나다 | 136 | 1.3% |
인도 | 132 | 1.3% |
프랑스 | 122 | 1.2% |
사우디아라비아 | 117 | 1.1% |
Other values (237) | 8675 |
Most occurring characters
Value | Count | Frequency (%) |
아 | 2814 | 7.5% |
스 | 1569 | 4.2% |
리 | 1297 | 3.4% |
이 | 1153 | 3.1% |
르 | 1083 | 2.9% |
국 | 1014 | 2.7% |
라 | 917 | 2.4% |
니 | 902 | 2.4% |
나 | 817 | 2.2% |
트 | 757 | 2.0% |
Other values (210) | 25280 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 37345 | |
Space Separator | 205 | 0.5% |
Dash Punctuation | 53 | 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
아 | 2814 | 7.5% |
스 | 1569 | 4.2% |
리 | 1297 | 3.5% |
이 | 1153 | 3.1% |
르 | 1083 | 2.9% |
국 | 1014 | 2.7% |
라 | 917 | 2.5% |
니 | 902 | 2.4% |
나 | 817 | 2.2% |
트 | 757 | 2.0% |
Other values (208) | 25022 |
Space Separator
Value | Count | Frequency (%) |
205 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 53 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 37345 | |
Common | 258 | 0.7% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
아 | 2814 | 7.5% |
스 | 1569 | 4.2% |
리 | 1297 | 3.5% |
이 | 1153 | 3.1% |
르 | 1083 | 2.9% |
국 | 1014 | 2.7% |
라 | 917 | 2.5% |
니 | 902 | 2.4% |
나 | 817 | 2.2% |
트 | 757 | 2.0% |
Other values (208) | 25022 |
Common
Value | Count | Frequency (%) |
205 | ||
- | 53 | 20.5% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 37345 | |
ASCII | 258 | 0.7% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
아 | 2814 | 7.5% |
스 | 1569 | 4.2% |
리 | 1297 | 3.5% |
이 | 1153 | 3.1% |
르 | 1083 | 2.9% |
국 | 1014 | 2.7% |
라 | 917 | 2.5% |
니 | 902 | 2.4% |
나 | 817 | 2.2% |
트 | 757 | 2.0% |
Other values (208) | 25022 |
ASCII
Value | Count | Frequency (%) |
205 | ||
- | 53 | 20.5% |
회원아이디 | 대륙이름 | 국가이름 | |
---|---|---|---|
9450 | f****n | 아시아 | 일본 |
22079 | k****gs2 | 유럽 | 스웨덴 |
27551 | n****w | 오세아니아 | 마우리티우스 |
8467 | e****do | 중남미 | 과테말라 |
18178 | j****k82 | 아시아 | 인도 |
35223 | s****w | 유럽 | 헝가리 |
11690 | g****er | 유럽 | 네덜란드 |
36128 | s**** | 유럽 | 프랑스 |
32562 | r**** | 중동 | 사우디아라비아 |
16717 | j****b | 아시아 | 태국 |
회원아이디 | 대륙이름 | 국가이름 | |
---|---|---|---|
28758 | o****7 | 중동 | 사우디아라비아 |
8547 | e****n9021 | 유럽 | 폴란드 |
15898 | i****@kaeri.re.kr | 중남미 | 아르헨티나 |
29151 | o****598 | 오세아니아 | 뉴질랜드 |
5150 | c****r | 유럽 | 벨기에 |
23666 | l****39 | 유럽 | 아일랜드 |
35182 | s****w | 중동 | 요르단 |
5351 | c****eed | 아시아 | 베트남 |
37755 | s****k | 유럽 | 마케도니아 공화국 |
22012 | k****1 | 중동 | 쿠웨이트 |
Most frequently occurring
회원아이디 | 대륙이름 | 국가이름 | # duplicates | |
---|---|---|---|---|
12 | e****6 | 아프리카 | 감비아 | 7 |
13 | e****6 | 유럽 | 건지 | 7 |
17 | e****6 | 중남미 | 가이아나 | 6 |
137 | s**** | 아시아 | 중국 | 5 |
11 | e****6 | 북미 | 괌 | 4 |
35 | j**** | 중남미 | 브라질 | 4 |
50 | k**** | 아시아 | 말레이시아 | 4 |
57 | k**** | 아시아 | 일본 | 4 |
66 | k**** | 유럽 | 라트비아 | 4 |
71 | k**** | 유럽 | 스위스 | 4 |