Dataset statistics
Number of variables | 10 |
---|---|
Number of observations | 150 |
Missing cells | 1195 |
Missing cells (%) | 79.7% |
Duplicate rows | 3 |
Duplicate rows (%) | 2.0% |
Total size in memory | 12.6 KiB |
Average record size in memory | 85.9 B |
Variable types
Text | 4 |
---|---|
Categorical | 1 |
Numeric | 1 |
Unsupported | 4 |
Dataset
Description | 샘플 데이터 |
---|---|
Author | MBN |
URL | https://kdx.kr/data/view/26950 |
Dataset has 3 (2.0%) duplicate rows | Duplicates |
STD_YEAR is highly overall correlated with MDA_CGR_NM | High correlation |
MDA_CGR_NM is highly overall correlated with STD_YEAR | High correlation |
MDA_CGR_NM is highly imbalanced (75.8%) | Imbalance |
MBN_MDA_SP_CD has 51 (34.0%) missing values | Missing |
MDA_ART_ESSN_NO has 134 (89.3%) missing values | Missing |
STD_YEAR has 130 (86.7%) missing values | Missing |
ART_SJ_CN has 140 (93.3%) missing values | Missing |
ART_CN has 140 (93.3%) missing values | Missing |
ATCH_IMG_NM has 150 (100.0%) missing values | Missing |
JRNL_NM has 150 (100.0%) missing values | Missing |
WRT_DATE has 150 (100.0%) missing values | Missing |
Unnamed: 9 has 150 (100.0%) missing values | Missing |
ATCH_IMG_NM is an unsupported type, check if it needs cleaning or further analysis | Unsupported |
JRNL_NM is an unsupported type, check if it needs cleaning or further analysis | Unsupported |
WRT_DATE is an unsupported type, check if it needs cleaning or further analysis | Unsupported |
Unnamed: 9 is an unsupported type, check if it needs cleaning or further analysis | Unsupported |
Reproduction
Analysis started | 2023-12-11 21:23:53.540884 |
---|---|
Analysis finished | 2023-12-11 21:23:55.829447 |
Duration | 2.29 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
MBN_MDA_SP_CD
Text
MISSING
 
Distinct | 85 |
---|---|
Distinct (%) | 85.9% |
Missing | 51 |
Missing (%) | 34.0% |
Memory size | 1.3 KiB |
Length
Max length | 442 |
---|---|
Median length | 116 |
Mean length | 76.30303 |
Min length | 3 |
Characters and Unicode
Total characters | 7554 |
---|---|
Distinct characters | 600 |
Distinct categories | 14 ? |
Distinct scripts | 3 ? |
Distinct blocks | 8 ? |
Unique
Unique | 80 ? |
---|---|
Unique (%) | 80.8% |
Sample
1st row | MBN |
---|---|
2nd row | 원로 연극평론가 구히서(본명 구희서) 선생이 31일 별세했습니다. 향년 80세입니다. |
3rd row | 고인은 수년 전 건강이 악화해 자택에서 투병했으며, 오늘 새벽 3시쯤 서울대병원에서 영면에 들었습니다. |
4th row | 고인은 서울에서 태어나 경기여고와 이화여자대학교 사학과를 졸업하고 문화재관리국, 문화재연구소 등지에서 근무하다 1970년부터 1994년까지 한국일보와 일간스포츠에서 연극 전문기자로 활동했습니다. 퇴직 후인 1994∼1998년에는 한국연극평론가협회 회장을 지냈습니다. |
5th row | 고인은 여석기, 한상철, 이태주, 이상일 평론가와 함께 한국연극평론가협회의 전신인 서울연극평론가그룹을 이끈 것으로 유명합니다. 서울연극평론가그룹은 공연예술계에서 평론가 집단을 형성한 최초 사례입니다. |
Value | Count | Frequency (%) |
22 | 1.8% | |
mbn | 16 | 1.3% |
대한 | 6 | 0.5% |
있는 | 5 | 0.4% |
수 | 5 | 0.4% |
조정석은 | 5 | 0.4% |
고인은 | 4 | 0.3% |
있습니다 | 4 | 0.3% |
송 | 4 | 0.3% |
함께 | 4 | 0.3% |
Other values (979) | 1163 |
Most occurring characters
Value | Count | Frequency (%) |
1214 | 16.1% | |
b | 217 | 2.9% |
n | 217 | 2.9% |
& | 216 | 2.9% |
; | 213 | 2.8% |
p | 213 | 2.8% |
s | 213 | 2.8% |
다 | 131 | 1.7% |
이 | 129 | 1.7% |
. | 115 | 1.5% |
Other values (590) | 4676 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 4310 | |
Space Separator | 1214 | 16.1% |
Lowercase Letter | 905 | 12.0% |
Other Punctuation | 706 | 9.3% |
Uppercase Letter | 122 | 1.6% |
Decimal Number | 109 | 1.4% |
Dash Punctuation | 101 | 1.3% |
Open Punctuation | 22 | 0.3% |
Close Punctuation | 22 | 0.3% |
Math Symbol | 15 | 0.2% |
Other values (4) | 28 | 0.4% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
다 | 131 | 3.0% |
이 | 129 | 3.0% |
을 | 91 | 2.1% |
에 | 89 | 2.1% |
는 | 86 | 2.0% |
니 | 75 | 1.7% |
은 | 74 | 1.7% |
고 | 68 | 1.6% |
로 | 61 | 1.4% |
서 | 59 | 1.4% |
Other values (518) | 3447 |
Lowercase Letter
Value | Count | Frequency (%) |
b | 217 | |
n | 217 | |
p | 213 | |
s | 213 | |
k | 8 | 0.9% |
m | 8 | 0.9% |
c | 6 | 0.7% |
r | 6 | 0.7% |
o | 6 | 0.7% |
l | 2 | 0.2% |
Other values (7) | 9 | 1.0% |
Uppercase Letter
Value | Count | Frequency (%) |
M | 23 | |
B | 21 | |
N | 20 | |
S | 14 | |
O | 12 | |
P | 11 | |
C | 4 | 3.3% |
H | 4 | 3.3% |
T | 4 | 3.3% |
V | 2 | 1.6% |
Other values (6) | 7 | 5.7% |
Other Punctuation
Value | Count | Frequency (%) |
& | 216 | |
; | 213 | |
. | 115 | |
' | 68 | 9.6% |
" | 42 | 5.9% |
, | 36 | 5.1% |
: | 7 | 1.0% |
! | 4 | 0.6% |
? | 2 | 0.3% |
@ | 2 | 0.3% |
Decimal Number
Value | Count | Frequency (%) |
1 | 40 | |
9 | 20 | |
3 | 12 | 11.0% |
2 | 11 | 10.1% |
0 | 9 | 8.3% |
4 | 5 | 4.6% |
8 | 4 | 3.7% |
5 | 3 | 2.8% |
6 | 3 | 2.8% |
7 | 2 | 1.8% |
Math Symbol
Value | Count | Frequency (%) |
> | 6 | |
< | 6 | |
~ | 2 | 13.3% |
∼ | 1 | 6.7% |
Open Punctuation
Value | Count | Frequency (%) |
[ | 11 | |
( | 9 | |
【 | 2 | 9.1% |
Close Punctuation
Value | Count | Frequency (%) |
] | 11 | |
) | 9 | |
】 | 2 | 9.1% |
Other Symbol
Value | Count | Frequency (%) |
ⓒ | 3 | |
▶ | 2 | |
☎ | 1 | 16.7% |
Space Separator
Value | Count | Frequency (%) |
1214 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 101 |
Connector Punctuation
Value | Count | Frequency (%) |
_ | 8 |
Final Punctuation
Value | Count | Frequency (%) |
” | 7 |
Initial Punctuation
Value | Count | Frequency (%) |
“ | 7 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 4310 | |
Common | 2217 | |
Latin | 1027 | 13.6% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
다 | 131 | 3.0% |
이 | 129 | 3.0% |
을 | 91 | 2.1% |
에 | 89 | 2.1% |
는 | 86 | 2.0% |
니 | 75 | 1.7% |
은 | 74 | 1.7% |
고 | 68 | 1.6% |
로 | 61 | 1.4% |
서 | 59 | 1.4% |
Other values (518) | 3447 |
Common
Value | Count | Frequency (%) |
1214 | ||
& | 216 | 9.7% |
; | 213 | 9.6% |
. | 115 | 5.2% |
- | 101 | 4.6% |
' | 68 | 3.1% |
" | 42 | 1.9% |
1 | 40 | 1.8% |
, | 36 | 1.6% |
9 | 20 | 0.9% |
Other values (29) | 152 | 6.9% |
Latin
Value | Count | Frequency (%) |
b | 217 | |
n | 217 | |
p | 213 | |
s | 213 | |
M | 23 | 2.2% |
B | 21 | 2.0% |
N | 20 | 1.9% |
S | 14 | 1.4% |
O | 12 | 1.2% |
P | 11 | 1.1% |
Other values (23) | 66 | 6.4% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 4310 | |
ASCII | 3219 | |
Punctuation | 14 | 0.2% |
None | 4 | 0.1% |
Enclosed Alphanum | 3 | < 0.1% |
Geometric Shapes | 2 | < 0.1% |
Math Operators | 1 | < 0.1% |
Misc Symbols | 1 | < 0.1% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
1214 | ||
b | 217 | 6.7% |
n | 217 | 6.7% |
& | 216 | 6.7% |
; | 213 | 6.6% |
p | 213 | 6.6% |
s | 213 | 6.6% |
. | 115 | 3.6% |
- | 101 | 3.1% |
' | 68 | 2.1% |
Other values (54) | 432 | 13.4% |
Hangul
Value | Count | Frequency (%) |
다 | 131 | 3.0% |
이 | 129 | 3.0% |
을 | 91 | 2.1% |
에 | 89 | 2.1% |
는 | 86 | 2.0% |
니 | 75 | 1.7% |
은 | 74 | 1.7% |
고 | 68 | 1.6% |
로 | 61 | 1.4% |
서 | 59 | 1.4% |
Other values (518) | 3447 |
Punctuation
Value | Count | Frequency (%) |
” | 7 | |
“ | 7 |
Enclosed Alphanum
Value | Count | Frequency (%) |
ⓒ | 3 |
None
Value | Count | Frequency (%) |
】 | 2 | |
【 | 2 |
Geometric Shapes
Value | Count | Frequency (%) |
▶ | 2 |
Math Operators
Value | Count | Frequency (%) |
∼ | 1 |
Misc Symbols
Value | Count | Frequency (%) |
☎ | 1 |
MDA_ART_ESSN_NO
Text
MISSING
 
Distinct | 16 |
---|---|
Distinct (%) | 100.0% |
Missing | 134 |
Missing (%) | 89.3% |
Memory size | 1.3 KiB |
Length
Max length | 297 |
---|---|
Median length | 7 |
Mean length | 47.3125 |
Min length | 7 |
Characters and Unicode
Total characters | 757 |
---|---|
Distinct characters | 34 |
Distinct categories | 3 ? |
Distinct scripts | 2 ? |
Distinct blocks | 1 ? |
Unique
Unique | 16 ? |
---|---|
Unique (%) | 100.0% |
Sample
1st row | 4023243 |
---|---|
2nd row | http://img.mbn.co.kr/filewww/news/2020/01/01/15778451315e0c018b9f1e7.jpg,,,,,,,,, |
3rd row | 4023334 |
4th row | http://img.mbn.co.kr/filewww/news/2020/01/01/15778574355e0c319b1b12a.jpg,,,,,,,,, |
5th row | 4023389 |
Value | Count | Frequency (%) |
4023243 | 1 | 6.2% |
http://img.mbn.co.kr/filewww/news/2020/01/01/15778451315e0c018b9f1e7.jpg | 1 | 6.2% |
4023334 | 1 | 6.2% |
http://img.mbn.co.kr/filewww/news/2020/01/01/15778574355e0c319b1b12a.jpg | 1 | 6.2% |
4023389 | 1 | 6.2% |
http://img.mbn.co.kr/filewww/news/other/2020/01/01/002002012102.png | 1 | 6.2% |
4023448 | 1 | 6.2% |
4023460 | 1 | 6.2% |
4023529 | 1 | 6.2% |
4023531 | 1 | 6.2% |
Other values (6) | 6 |
Most occurring characters
Value | Count | Frequency (%) |
/ | 75 | 9.9% |
0 | 71 | 9.4% |
2 | 61 | 8.1% |
, | 54 | 7.1% |
. | 36 | 4.8% |
w | 36 | 4.8% |
3 | 32 | 4.2% |
1 | 30 | 4.0% |
e | 30 | 4.0% |
5 | 25 | 3.3% |
Other values (24) | 307 |
Most occurring categories
Value | Count | Frequency (%) |
Lowercase Letter | 300 | |
Decimal Number | 283 | |
Other Punctuation | 174 |
Most frequent character per category
Lowercase Letter
Value | Count | Frequency (%) |
w | 36 | 12.0% |
e | 30 | 10.0% |
t | 21 | 7.0% |
n | 19 | 6.3% |
g | 18 | 6.0% |
m | 18 | 6.0% |
i | 18 | 6.0% |
p | 18 | 6.0% |
b | 15 | 5.0% |
f | 13 | 4.3% |
Other values (10) | 94 |
Decimal Number
Value | Count | Frequency (%) |
0 | 71 | |
2 | 61 | |
3 | 32 | |
1 | 30 | |
5 | 25 | 8.8% |
4 | 19 | 6.7% |
7 | 15 | 5.3% |
9 | 13 | 4.6% |
8 | 10 | 3.5% |
6 | 7 | 2.5% |
Other Punctuation
Value | Count | Frequency (%) |
/ | 75 | |
, | 54 | |
. | 36 | |
: | 9 | 5.2% |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 457 | |
Latin | 300 |
Most frequent character per script
Latin
Value | Count | Frequency (%) |
w | 36 | 12.0% |
e | 30 | 10.0% |
t | 21 | 7.0% |
n | 19 | 6.3% |
g | 18 | 6.0% |
m | 18 | 6.0% |
i | 18 | 6.0% |
p | 18 | 6.0% |
b | 15 | 5.0% |
f | 13 | 4.3% |
Other values (10) | 94 |
Common
Value | Count | Frequency (%) |
/ | 75 | |
0 | 71 | |
2 | 61 | |
, | 54 | |
. | 36 | |
3 | 32 | |
1 | 30 | 6.6% |
5 | 25 | 5.5% |
4 | 19 | 4.2% |
7 | 15 | 3.3% |
Other values (4) | 39 |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 757 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
/ | 75 | 9.9% |
0 | 71 | 9.4% |
2 | 61 | 8.1% |
, | 54 | 7.1% |
. | 36 | 4.8% |
w | 36 | 4.8% |
3 | 32 | 4.2% |
1 | 30 | 4.0% |
e | 30 | 4.0% |
5 | 25 | 3.3% |
Other values (24) | 307 |
MDA_CGR_NM
Categorical
HIGH CORRELATION
  IMBALANCE
 
Distinct | 6 |
---|---|
Distinct (%) | 4.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 1.3 KiB |
<NA> | |
---|---|
mbn00007 | 10 |
김정은 | 2 |
서주희 인턴 | 1 |
이동훈 | 1 |
Length
Max length | 8 |
---|---|
Median length | 4 |
Mean length | 4.2533333 |
Min length | 3 |
Unique
Unique | 3 ? |
---|---|
Unique (%) | 2.0% |
Sample
1st row | <NA> |
---|---|
2nd row | mbn00007 |
3rd row | <NA> |
4th row | <NA> |
5th row | <NA> |
Common Values
Value | Count | Frequency (%) |
<NA> | 135 | |
mbn00007 | 10 | 6.7% |
김정은 | 2 | 1.3% |
서주희 인턴 | 1 | 0.7% |
이동훈 | 1 | 0.7% |
이기종 | 1 | 0.7% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
na | 135 | |
mbn00007 | 10 | 6.6% |
김정은 | 2 | 1.3% |
서주희 | 1 | 0.7% |
인턴 | 1 | 0.7% |
이동훈 | 1 | 0.7% |
이기종 | 1 | 0.7% |
STD_YEAR
Real number (ℝ)
HIGH CORRELATION
  MISSING
 
Distinct | 10 |
---|---|
Distinct (%) | 50.0% |
Missing | 130 |
Missing (%) | 86.7% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 1.0100051 × 1013 |
Minimum | 2020 |
---|---|
Maximum | 2.0200102 × 1013 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 1.4 KiB |
Quantile statistics
Minimum | 2020 |
---|---|
5-th percentile | 2020 |
Q1 | 2020 |
median | 1.0100051 × 1013 |
Q3 | 2.0200101 × 1013 |
95-th percentile | 2.0200102 × 1013 |
Maximum | 2.0200102 × 1013 |
Range | 2.0200102 × 1013 |
Interquartile range (IQR) | 2.0200101 × 1013 |
Descriptive statistics
Standard deviation | 1.0362433 × 1013 |
---|---|
Coefficient of variation (CV) | 1.0259784 |
Kurtosis | -2.2352941 |
Mean | 1.0100051 × 1013 |
Median Absolute Deviation (MAD) | 1.0100051 × 1013 |
Skewness | 3.6215387 × 10-15 |
Sum | 2.0200102 × 1014 |
Variance | 1.0738003 × 1026 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
2020 | 10 | 6.7% |
20200101193035 | 2 | 1.3% |
20200101112455 | 1 | 0.7% |
20200101145423 | 1 | 0.7% |
20200101161204 | 1 | 0.7% |
20200102080135 | 1 | 0.7% |
20200102080235 | 1 | 0.7% |
20200102090335 | 1 | 0.7% |
20200102094144 | 1 | 0.7% |
20200102094236 | 1 | 0.7% |
(Missing) | 130 |
Value | Count | Frequency (%) |
2020 | 10 | |
20200101112455 | 1 | 0.7% |
20200101145423 | 1 | 0.7% |
20200101161204 | 1 | 0.7% |
20200101193035 | 2 | 1.3% |
20200102080135 | 1 | 0.7% |
20200102080235 | 1 | 0.7% |
20200102090335 | 1 | 0.7% |
20200102094144 | 1 | 0.7% |
20200102094236 | 1 | 0.7% |
Value | Count | Frequency (%) |
20200102094236 | 1 | 0.7% |
20200102094144 | 1 | 0.7% |
20200102090335 | 1 | 0.7% |
20200102080235 | 1 | 0.7% |
20200102080135 | 1 | 0.7% |
20200101193035 | 2 | 1.3% |
20200101161204 | 1 | 0.7% |
20200101145423 | 1 | 0.7% |
20200101112455 | 1 | 0.7% |
2020 | 10 |
ART_SJ_CN
Text
MISSING
 
Distinct | 10 |
---|---|
Distinct (%) | 100.0% |
Missing | 140 |
Missing (%) | 93.3% |
Memory size | 1.3 KiB |
Length
Max length | 47 |
---|---|
Median length | 32.5 |
Mean length | 28.9 |
Min length | 18 |
Characters and Unicode
Total characters | 289 |
---|---|
Distinct characters | 144 |
Distinct categories | 6 ? |
Distinct scripts | 3 ? |
Distinct blocks | 5 ? |
Unique
Unique | 10 ? |
---|---|
Unique (%) | 100.0% |
Sample
1st row | 원로 연극평론가 구히서 선생 별세 |
---|---|
2nd row | '사노라면' 쏘가리 부부의 동상이몽..."남편 보면 속이 터져" |
3rd row | 조정석, 수상 소감 중 아내 거미에게 "사랑해" |
4th row | 짐승 탈을 쓴 배우들…새해 흥행 공식은 '동물' |
5th row | 국민MC 송해 입원에 응원 댓글 이어져…"단순 감기몸살" |
Value | Count | Frequency (%) |
송해 | 2 | 3.3% |
원로 | 1 | 1.7% |
댓글 | 1 | 1.7% |
감기몸살 | 1 | 1.7% |
트와이스 | 1 | 1.7% |
나연 | 1 | 1.7% |
스토커 | 1 | 1.7% |
기내 | 1 | 1.7% |
소란…jyp | 1 | 1.7% |
최고강도 | 1 | 1.7% |
Other values (49) | 49 |
Most occurring characters
Value | Count | Frequency (%) |
50 | 17.3% | |
" | 10 | 3.5% |
' | 8 | 2.8% |
이 | 6 | 2.1% |
원 | 5 | 1.7% |
, | 4 | 1.4% |
에 | 4 | 1.4% |
해 | 4 | 1.4% |
… | 4 | 1.4% |
스 | 4 | 1.4% |
Other values (134) | 190 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 183 | |
Space Separator | 50 | 17.3% |
Other Punctuation | 38 | 13.1% |
Lowercase Letter | 12 | 4.2% |
Uppercase Letter | 5 | 1.7% |
Other Symbol | 1 | 0.3% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
이 | 6 | 3.3% |
원 | 5 | 2.7% |
에 | 4 | 2.2% |
해 | 4 | 2.2% |
스 | 4 | 2.2% |
우 | 3 | 1.6% |
부 | 3 | 1.6% |
감 | 3 | 1.6% |
사 | 3 | 1.6% |
기 | 3 | 1.6% |
Other values (114) | 145 |
Other Punctuation
Value | Count | Frequency (%) |
" | 10 | |
' | 8 | |
, | 4 | 10.5% |
… | 4 | 10.5% |
. | 3 | 7.9% |
; | 3 | 7.9% |
& | 3 | 7.9% |
? | 2 | 5.3% |
· | 1 | 2.6% |
Uppercase Letter
Value | Count | Frequency (%) |
M | 1 | |
C | 1 | |
P | 1 | |
Y | 1 | |
J | 1 |
Lowercase Letter
Value | Count | Frequency (%) |
b | 3 | |
p | 3 | |
s | 3 | |
n | 3 |
Space Separator
Value | Count | Frequency (%) |
50 |
Other Symbol
Value | Count | Frequency (%) |
♥ | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 183 | |
Common | 89 | |
Latin | 17 | 5.9% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
이 | 6 | 3.3% |
원 | 5 | 2.7% |
에 | 4 | 2.2% |
해 | 4 | 2.2% |
스 | 4 | 2.2% |
우 | 3 | 1.6% |
부 | 3 | 1.6% |
감 | 3 | 1.6% |
사 | 3 | 1.6% |
기 | 3 | 1.6% |
Other values (114) | 145 |
Common
Value | Count | Frequency (%) |
50 | ||
" | 10 | 11.2% |
' | 8 | 9.0% |
, | 4 | 4.5% |
… | 4 | 4.5% |
. | 3 | 3.4% |
; | 3 | 3.4% |
& | 3 | 3.4% |
? | 2 | 2.2% |
♥ | 1 | 1.1% |
Latin
Value | Count | Frequency (%) |
b | 3 | |
p | 3 | |
s | 3 | |
n | 3 | |
M | 1 | 5.9% |
C | 1 | 5.9% |
P | 1 | 5.9% |
Y | 1 | 5.9% |
J | 1 | 5.9% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 183 | |
ASCII | 100 | |
Punctuation | 4 | 1.4% |
Misc Symbols | 1 | 0.3% |
None | 1 | 0.3% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
50 | ||
" | 10 | 10.0% |
' | 8 | 8.0% |
, | 4 | 4.0% |
. | 3 | 3.0% |
b | 3 | 3.0% |
; | 3 | 3.0% |
p | 3 | 3.0% |
s | 3 | 3.0% |
& | 3 | 3.0% |
Other values (7) | 10 | 10.0% |
Hangul
Value | Count | Frequency (%) |
이 | 6 | 3.3% |
원 | 5 | 2.7% |
에 | 4 | 2.2% |
해 | 4 | 2.2% |
스 | 4 | 2.2% |
우 | 3 | 1.6% |
부 | 3 | 1.6% |
감 | 3 | 1.6% |
사 | 3 | 1.6% |
기 | 3 | 1.6% |
Other values (114) | 145 |
Punctuation
Value | Count | Frequency (%) |
… | 4 |
Misc Symbols
Value | Count | Frequency (%) |
♥ | 1 |
None
Value | Count | Frequency (%) |
· | 1 |
ART_CN
Text
MISSING
 
Distinct | 8 |
---|---|
Distinct (%) | 80.0% |
Missing | 140 |
Missing (%) | 93.3% |
Memory size | 1.3 KiB |
Length
Max length | 183 |
---|---|
Median length | 81 |
Mean length | 63.8 |
Min length | 8 |
Characters and Unicode
Total characters | 638 |
---|---|
Distinct characters | 167 |
Distinct categories | 11 ? |
Distinct scripts | 3 ? |
Distinct blocks | 3 ? |
Unique
Unique | 6 ? |
---|---|
Unique (%) | 60.0% |
Sample
1st row | <!------------ PHOTO_POS_0 ------------> |
---|---|
2nd row | <!------------ PHOTO_POS_0 ------------> |
3rd row | <!------------ PHOTO_POS_0 ------------> 배우 조정석이 '2019 SBS 연기대상'에서 아내 거미를 언급했다. |
4th row | 【 앵커멘트 】 |
5th row | 【 앵커멘트 】 |
Value | Count | Frequency (%) |
10 | 13.2% | |
photo_pos_0 | 5 | 6.6% |
【 | 2 | 2.6% |
앵커멘트 | 2 | 2.6% |
】 | 2 | 2.6% |
교황이 | 1 | 1.3% |
끌어당긴 | 1 | 1.3% |
움켜쥐고 | 1 | 1.3% |
손을 | 1 | 1.3% |
자신의 | 1 | 1.3% |
Other values (50) | 50 |
Most occurring characters
Value | Count | Frequency (%) |
- | 120 | 18.8% |
67 | 10.5% | |
p | 18 | 2.8% |
& | 18 | 2.8% |
n | 18 | 2.8% |
b | 18 | 2.8% |
s | 18 | 2.8% |
; | 18 | 2.8% |
O | 15 | 2.4% |
P | 10 | 1.6% |
Other values (157) | 318 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 225 | |
Dash Punctuation | 120 | |
Lowercase Letter | 72 | 11.3% |
Space Separator | 67 | 10.5% |
Other Punctuation | 54 | 8.5% |
Uppercase Letter | 47 | 7.4% |
Decimal Number | 21 | 3.3% |
Connector Punctuation | 10 | 1.6% |
Math Symbol | 10 | 1.6% |
Open Punctuation | 6 | 0.9% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
이 | 9 | 4.0% |
다 | 8 | 3.6% |
에 | 7 | 3.1% |
을 | 5 | 2.2% |
했 | 4 | 1.8% |
우 | 4 | 1.8% |
스 | 4 | 1.8% |
연 | 4 | 1.8% |
나 | 4 | 1.8% |
한 | 4 | 1.8% |
Other values (122) | 172 |
Uppercase Letter
Value | Count | Frequency (%) |
O | 15 | |
P | 10 | |
S | 7 | |
T | 5 | 10.6% |
H | 5 | 10.6% |
B | 2 | 4.3% |
N | 1 | 2.1% |
M | 1 | 2.1% |
X | 1 | 2.1% |
Decimal Number
Value | Count | Frequency (%) |
0 | 8 | |
2 | 5 | |
9 | 2 | 9.5% |
1 | 2 | 9.5% |
8 | 1 | 4.8% |
6 | 1 | 4.8% |
5 | 1 | 4.8% |
4 | 1 | 4.8% |
Other Punctuation
Value | Count | Frequency (%) |
& | 18 | |
; | 18 | |
' | 7 | 13.0% |
. | 6 | 11.1% |
! | 5 | 9.3% |
Lowercase Letter
Value | Count | Frequency (%) |
p | 18 | |
n | 18 | |
b | 18 | |
s | 18 |
Math Symbol
Value | Count | Frequency (%) |
< | 5 | |
> | 5 |
Open Punctuation
Value | Count | Frequency (%) |
( | 4 | |
【 | 2 |
Close Punctuation
Value | Count | Frequency (%) |
) | 4 | |
】 | 2 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 120 |
Space Separator
Value | Count | Frequency (%) |
67 |
Connector Punctuation
Value | Count | Frequency (%) |
_ | 10 |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 294 | |
Hangul | 225 | |
Latin | 119 |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
이 | 9 | 4.0% |
다 | 8 | 3.6% |
에 | 7 | 3.1% |
을 | 5 | 2.2% |
했 | 4 | 1.8% |
우 | 4 | 1.8% |
스 | 4 | 1.8% |
연 | 4 | 1.8% |
나 | 4 | 1.8% |
한 | 4 | 1.8% |
Other values (122) | 172 |
Common
Value | Count | Frequency (%) |
- | 120 | |
67 | ||
& | 18 | 6.1% |
; | 18 | 6.1% |
_ | 10 | 3.4% |
0 | 8 | 2.7% |
' | 7 | 2.4% |
. | 6 | 2.0% |
! | 5 | 1.7% |
2 | 5 | 1.7% |
Other values (12) | 30 | 10.2% |
Latin
Value | Count | Frequency (%) |
p | 18 | |
n | 18 | |
b | 18 | |
s | 18 | |
O | 15 | |
P | 10 | |
S | 7 | 5.9% |
T | 5 | 4.2% |
H | 5 | 4.2% |
B | 2 | 1.7% |
Other values (3) | 3 | 2.5% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 409 | |
Hangul | 225 | |
None | 4 | 0.6% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
- | 120 | |
67 | ||
p | 18 | 4.4% |
& | 18 | 4.4% |
n | 18 | 4.4% |
b | 18 | 4.4% |
s | 18 | 4.4% |
; | 18 | 4.4% |
O | 15 | 3.7% |
P | 10 | 2.4% |
Other values (23) | 89 |
Hangul
Value | Count | Frequency (%) |
이 | 9 | 4.0% |
다 | 8 | 3.6% |
에 | 7 | 3.1% |
을 | 5 | 2.2% |
했 | 4 | 1.8% |
우 | 4 | 1.8% |
스 | 4 | 1.8% |
연 | 4 | 1.8% |
나 | 4 | 1.8% |
한 | 4 | 1.8% |
Other values (122) | 172 |
None
Value | Count | Frequency (%) |
【 | 2 | |
】 | 2 |
ATCH_IMG_NM
Unsupported
MISSING
  REJECTED
  UNSUPPORTED
 
Missing | 150 |
---|---|
Missing (%) | 100.0% |
Memory size | 1.4 KiB |
JRNL_NM
Unsupported
MISSING
  REJECTED
  UNSUPPORTED
 
Missing | 150 |
---|---|
Missing (%) | 100.0% |
Memory size | 1.4 KiB |
WRT_DATE
Unsupported
MISSING
  REJECTED
  UNSUPPORTED
 
Missing | 150 |
---|---|
Missing (%) | 100.0% |
Memory size | 1.4 KiB |
Unnamed: 9
Unsupported
MISSING
  REJECTED
  UNSUPPORTED
 
Missing | 150 |
---|---|
Missing (%) | 100.0% |
Memory size | 1.4 KiB |
MBN_MDA_SP_CD | MDA_ART_ESSN_NO | MDA_CGR_NM | STD_YEAR | ART_SJ_CN | ART_CN | |
---|---|---|---|---|---|---|
MBN_MDA_SP_CD | 1.000 | 1.000 | 1.000 | NaN | NaN | NaN |
MDA_ART_ESSN_NO | 1.000 | 1.000 | 1.000 | NaN | 1.000 | 1.000 |
MDA_CGR_NM | 1.000 | 1.000 | 1.000 | NaN | NaN | NaN |
STD_YEAR | NaN | NaN | NaN | 1.000 | NaN | NaN |
ART_SJ_CN | NaN | 1.000 | NaN | NaN | 1.000 | 1.000 |
ART_CN | NaN | 1.000 | NaN | NaN | 1.000 | 1.000 |
STD_YEAR | MDA_CGR_NM | |
---|---|---|
STD_YEAR | 1.000 | 0.877 |
MDA_CGR_NM | 0.877 | 1.000 |
MBN_MDA_SP_CD | MDA_ART_ESSN_NO | MDA_CGR_NM | STD_YEAR | ART_SJ_CN | ART_CN | ATCH_IMG_NM | JRNL_NM | WRT_DATE | Unnamed: 9 | |
---|---|---|---|---|---|---|---|---|---|---|
0 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
1 | MBN | 4023243 | mbn00007 | 2020 | 원로 연극평론가 구히서 선생 별세 | <!------------ PHOTO_POS_0 ------------> | <NA> | <NA> | <NA> | <NA> |
2 | 원로 연극평론가 구히서(본명 구희서) 선생이 31일 별세했습니다. 향년 80세입니다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
3 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
4 | 고인은 수년 전 건강이 악화해 자택에서 투병했으며, 오늘 새벽 3시쯤 서울대병원에서 영면에 들었습니다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
5 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
6 | 고인은 서울에서 태어나 경기여고와 이화여자대학교 사학과를 졸업하고 문화재관리국, 문화재연구소 등지에서 근무하다 1970년부터 1994년까지 한국일보와 일간스포츠에서 연극 전문기자로 활동했습니다. 퇴직 후인 1994∼1998년에는 한국연극평론가협회 회장을 지냈습니다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
7 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
8 | 고인은 여석기, 한상철, 이태주, 이상일 평론가와 함께 한국연극평론가협회의 전신인 서울연극평론가그룹을 이끈 것으로 유명합니다. 서울연극평론가그룹은 공연예술계에서 평론가 집단을 형성한 최초 사례입니다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
9 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
MBN_MDA_SP_CD | MDA_ART_ESSN_NO | MDA_CGR_NM | STD_YEAR | ART_SJ_CN | ART_CN | ATCH_IMG_NM | JRNL_NM | WRT_DATE | Unnamed: 9 | |
---|---|---|---|---|---|---|---|---|---|---|
140 | MBN | 4023626 | mbn00007 | 2020 | 엑스원 한승우·에이핑크 정은지 열애? 양측 부인 | <!------------ PHOTO_POS_0 ------------> 엑스원 한승우(25)와 에이핑크 정은지(26) 양측이 열애 의혹을 부인했다. | <NA> | <NA> | <NA> | <NA> |
141 | 한승우와 정은지 소속사 플레이엠엔터테인먼트 관계자는 1일 "현재 온라인상에 언급되고 있는 내용은 사실무근"이라고 전했다. 이어 "두 사람은 같은 회사 선후배일 뿐 더 이상의 억측은 자제해달라"고 당부했다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
142 | 앞서 온라인 커뮤니티와 SNS를 중심으로 한승우와 정은지로 보이는 두 남녀를 포착한 사진이 빠르게 퍼졌다. 마스크로 얼굴을 가렸지만 언뜻 봐도 한승우와 정은지였다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
143 | 이를 게시한 누리꾼은 "한승우와 정은지가 12월 13일 오후 6시 하남시 스타필드에서 포착됐다. 1월 1일이 곧 지나가는데 왜 디스패치는 아직 발표를 안 하느냐. 답답해서 대신 하나 올린다"고 했다. 팬들은 사진의 진위 여부와 더불어 열애 의혹에 대한 소속사의 입장 발표를 기다렸다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
144 | 한승우는 그룹 시크릿으로 활동한 배우 한선화의 남동생으로, 그룹 빅톤의 멤버로 데뷔했다. 한승우는 Mnet '프로듀스X101'을 통해 프로젝트 그룹 엑스원의 멤버로 발탁됐으나, 현재 엑스원은 제작진의 문자 투표 조작 논란 이후 잠정적으로 활동을 중단했다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
145 | 정은지는 에이핑크 소속 멤버이자 연기돌로 활동하고 있다. 오는 2월 1일~2일 양일간 여섯 번째 단독 콘서트를 개최하고 팬들을 만날 계획이다. | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
146 | [디지털뉴스국 김정은 인턴기자] | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
147 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
148 | [ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]<br> | http://img.mbn.co.kr/filewww/news/other/2020/01/02/022439020929.jpg,,,,,,,,, | 김정은 | 20200102094236 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
149 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> |
Most frequently occurring
MBN_MDA_SP_CD | MDA_ART_ESSN_NO | MDA_CGR_NM | STD_YEAR | ART_SJ_CN | ART_CN | # duplicates | |
---|---|---|---|---|---|---|---|
2 | <NA> | <NA> | <NA> | <NA> | <NA> | <NA> | 51 |
0 | [디지털뉴스국 김정은 인턴기자] | <NA> | <NA> | <NA> | <NA> | <NA> | 2 |
1 | 【 기자 】 | <NA> | <NA> | <NA> | <NA> | <NA> | 2 |