Overview

Dataset statistics

Number of variables14
Number of observations5823
Missing cells5811
Missing cells (%)7.1%
Duplicate rows0
Duplicate rows (%)0.0%
Total size in memory637.0 KiB
Average record size in memory112.0 B

Variable types

Text6
Categorical8

Dataset

Description뉴스데이터베이스 "BIGKinds" 기반 분석 자료, 기사 메타정보
Author한국언론진흥재단
URLhttps://www.data.go.kr/data/15072744/fileData.do

Alerts

일자 is highly overall correlated with 사건/사고 분류2High correlation
언론사 is highly overall correlated with 사건/사고 분류2High correlation
소스 is highly overall correlated with 사건/사고 분류2High correlation
통합 분류1 is highly overall correlated with 사건/사고 분류2High correlation
통합 분류2 is highly overall correlated with 사건/사고 분류2High correlation
통합 분류3 is highly overall correlated with 사건/사고 분류2High correlation
사건/사고 분류1 is highly overall correlated with 사건/사고 분류2High correlation
사건/사고 분류2 is highly overall correlated with 일자 and 6 other fieldsHigh correlation
사건/사고 분류1 is highly imbalanced (83.8%)Imbalance
사건/사고 분류2 is highly imbalanced (95.7%)Imbalance
사건/사고 분류3 has 5811 (99.8%) missing valuesMissing

Reproduction

Analysis started2023-12-12 09:42:53.049900
Analysis finished2023-12-12 09:42:56.601478
Duration3.55 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

주소
Text

Distinct2320
Distinct (%)39.8%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
2023-12-12T18:42:56.821575image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length82
Median length82
Mean length82
Min length82

Characters and Unicode

Total characters477486
Distinct characters34
Distinct categories5 ?
Distinct scripts2 ?
Distinct blocks1 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique986 ?
Unique (%)16.9%

Sample

1st rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.20171201201333001
2nd rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.20171201201333001
3rd rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.20171201201333001
4th rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.20171201201333001
5th rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.20171201201333001
ValueCountFrequency (%)
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01200201.20171213181117001 19
 
0.3%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01200201.20171215131542001 19
 
0.3%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01200201.20171205154042001 16
 
0.3%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=07100501.20171215133420002 16
 
0.3%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01100301.20171216170327001 14
 
0.2%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01200201.20171227145308001 14
 
0.2%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01200201.20171214191538001 13
 
0.2%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01200101.20171219211423003 13
 
0.2%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=02100701.20171219101139001 13
 
0.2%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01400701.20171212010153001 13
 
0.2%
Other values (2310) 5673
97.4%
2023-12-12T18:42:57.240946image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
0 47593
 
10.0%
1 41527
 
8.7%
w 40761
 
8.5%
e 29115
 
6.1%
. 29115
 
6.1%
2 23321
 
4.9%
s 23292
 
4.9%
n 23292
 
4.9%
i 23292
 
4.9%
/ 23292
 
4.9%
Other values (24) 172886
36.2%

Most occurring categories

ValueCountFrequency (%)
Lowercase Letter 244566
51.2%
Decimal Number 145575
30.5%
Other Punctuation 64053
 
13.4%
Uppercase Letter 17469
 
3.7%
Math Symbol 5823
 
1.2%

Most frequent character per category

Lowercase Letter
ValueCountFrequency (%)
w 40761
16.7%
e 29115
11.9%
s 23292
9.5%
n 23292
9.5%
i 23292
9.5%
t 17469
7.1%
d 17469
7.1%
o 11646
 
4.8%
r 11646
 
4.8%
k 11646
 
4.8%
Other values (6) 34938
14.3%
Decimal Number
ValueCountFrequency (%)
0 47593
32.7%
1 41527
28.5%
2 23321
16.0%
7 8955
 
6.2%
3 5751
 
4.0%
5 5607
 
3.9%
4 4844
 
3.3%
8 3044
 
2.1%
6 2913
 
2.0%
9 2020
 
1.4%
Other Punctuation
ValueCountFrequency (%)
. 29115
45.5%
/ 23292
36.4%
? 5823
 
9.1%
: 5823
 
9.1%
Uppercase Letter
ValueCountFrequency (%)
I 5823
33.3%
D 5823
33.3%
V 5823
33.3%
Math Symbol
ValueCountFrequency (%)
= 5823
100.0%

Most occurring scripts

ValueCountFrequency (%)
Latin 262035
54.9%
Common 215451
45.1%

Most frequent character per script

Latin
ValueCountFrequency (%)
w 40761
15.6%
e 29115
11.1%
s 23292
8.9%
n 23292
8.9%
i 23292
8.9%
t 17469
 
6.7%
d 17469
 
6.7%
o 11646
 
4.4%
r 11646
 
4.4%
k 11646
 
4.4%
Other values (9) 52407
20.0%
Common
ValueCountFrequency (%)
0 47593
22.1%
1 41527
19.3%
. 29115
13.5%
2 23321
10.8%
/ 23292
10.8%
7 8955
 
4.2%
= 5823
 
2.7%
? 5823
 
2.7%
: 5823
 
2.7%
3 5751
 
2.7%
Other values (5) 18428
 
8.6%

Most occurring blocks

ValueCountFrequency (%)
ASCII 477486
100.0%

Most frequent character per block

ASCII
ValueCountFrequency (%)
0 47593
 
10.0%
1 41527
 
8.7%
w 40761
 
8.5%
e 29115
 
6.1%
. 29115
 
6.1%
2 23321
 
4.9%
s 23292
 
4.9%
n 23292
 
4.9%
i 23292
 
4.9%
/ 23292
 
4.9%
Other values (24) 172886
36.2%

일자
Categorical

HIGH CORRELATION 

Distinct31
Distinct (%)0.5%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
2017-12-13
526 
2017-12-14
421 
2017-12-19
 
350
2017-12-28
 
341
2017-12-20
 
338
Other values (26)
3847 

Length

Max length10
Median length10
Mean length10
Min length10

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row2017-12-01
2nd row2017-12-01
3rd row2017-12-01
4th row2017-12-01
5th row2017-12-01

Common Values

ValueCountFrequency (%)
2017-12-13 526
 
9.0%
2017-12-14 421
 
7.2%
2017-12-19 350
 
6.0%
2017-12-28 341
 
5.9%
2017-12-20 338
 
5.8%
2017-12-15 331
 
5.7%
2017-12-01 299
 
5.1%
2017-12-21 258
 
4.4%
2017-12-27 244
 
4.2%
2017-12-29 232
 
4.0%
Other values (21) 2483
42.6%

Length

2023-12-12T18:42:57.392814image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
2017-12-13 526
 
9.0%
2017-12-14 421
 
7.2%
2017-12-19 350
 
6.0%
2017-12-28 341
 
5.9%
2017-12-20 338
 
5.8%
2017-12-15 331
 
5.7%
2017-12-01 299
 
5.1%
2017-12-21 258
 
4.4%
2017-12-27 244
 
4.2%
2017-12-29 232
 
4.0%
Other values (21) 2483
42.6%

언론사
Categorical

HIGH CORRELATION 

Distinct47
Distinct (%)0.8%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
경인일보
 
397
서울신문
 
382
서울경제
 
377
머니투데이
 
298
아시아경제
 
280
Other values (42)
4089 

Length

Max length6
Median length4
Mean length4.244204
Min length3

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row경남신문
2nd row경남신문
3rd row경남신문
4th row경남신문
5th row경남신문

Common Values

ValueCountFrequency (%)
경인일보 397
 
6.8%
서울신문 382
 
6.6%
서울경제 377
 
6.5%
머니투데이 298
 
5.1%
아시아경제 280
 
4.8%
세계일보 276
 
4.7%
헤럴드경제 269
 
4.6%
매일경제 243
 
4.2%
국민일보 240
 
4.1%
경향신문 240
 
4.1%
Other values (37) 2821
48.4%

Length

2023-12-12T18:42:57.537929image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
경인일보 397
 
6.8%
서울신문 382
 
6.6%
서울경제 377
 
6.5%
머니투데이 298
 
5.1%
아시아경제 280
 
4.8%
세계일보 276
 
4.7%
헤럴드경제 269
 
4.6%
매일경제 243
 
4.2%
국민일보 240
 
4.1%
경향신문 240
 
4.1%
Other values (37) 2821
48.4%

제목
Text

Distinct2263
Distinct (%)38.9%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
2023-12-12T18:42:57.992171image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length70
Median length52
Mean length30.669071
Min length8

Characters and Unicode

Total characters178586
Distinct characters1039
Distinct categories16 ?
Distinct scripts4 ?
Distinct blocks10 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique942 ?
Unique (%)16.2%

Sample

1st row문 대통령 “중소기업을 우리경제 중심에 두겠다”
2nd row문 대통령 “중소기업을 우리경제 중심에 두겠다”
3rd row문 대통령 “중소기업을 우리경제 중심에 두겠다”
4th row문 대통령 “중소기업을 우리경제 중심에 두겠다”
5th row문 대통령 “중소기업을 우리경제 중심에 두겠다”
ValueCountFrequency (%)
대통령 1416
 
3.1%
898
 
2.0%
479
 
1.0%
트럼프 468
 
1.0%
文대통령 429
 
0.9%
문재인 366
 
0.8%
틸러슨 333
 
0.7%
김성태 293
 
0.6%
280
 
0.6%
한국당 247
 
0.5%
Other values (7297) 40645
88.6%
2023-12-12T18:42:58.694448image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
40080
 
22.4%
" 4398
 
2.5%
3879
 
2.2%
, 2286
 
1.3%
2276
 
1.3%
2216
 
1.2%
2113
 
1.2%
2096
 
1.2%
2060
 
1.2%
1922
 
1.1%
Other values (1029) 115260
64.5%

Most occurring categories

ValueCountFrequency (%)
Other Letter 119338
66.8%
Space Separator 40080
 
22.4%
Other Punctuation 8639
 
4.8%
Initial Punctuation 2813
 
1.6%
Final Punctuation 2794
 
1.6%
Decimal Number 1903
 
1.1%
Uppercase Letter 1467
 
0.8%
Open Punctuation 468
 
0.3%
Close Punctuation 468
 
0.3%
Math Symbol 189
 
0.1%
Other values (6) 427
 
0.2%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
3879
 
3.3%
2276
 
1.9%
2216
 
1.9%
2060
 
1.7%
1922
 
1.6%
1892
 
1.6%
1511
 
1.3%
1337
 
1.1%
1326
 
1.1%
1317
 
1.1%
Other values (950) 99602
83.5%
Uppercase Letter
ValueCountFrequency (%)
A 328
22.4%
E 223
15.2%
U 219
14.9%
T 87
 
5.9%
F 77
 
5.2%
S 65
 
4.4%
C 64
 
4.4%
B 62
 
4.2%
M 51
 
3.5%
J 50
 
3.4%
Other values (14) 241
16.4%
Lowercase Letter
ValueCountFrequency (%)
s 66
44.0%
v 65
43.3%
i 4
 
2.7%
a 2
 
1.3%
p 2
 
1.3%
y 2
 
1.3%
f 2
 
1.3%
e 2
 
1.3%
d 1
 
0.7%
w 1
 
0.7%
Other values (3) 3
 
2.0%
Decimal Number
ValueCountFrequency (%)
1 439
23.1%
2 413
21.7%
3 229
12.0%
8 207
10.9%
0 196
10.3%
4 144
 
7.6%
5 96
 
5.0%
9 80
 
4.2%
6 58
 
3.0%
7 41
 
2.2%
Other Punctuation
ValueCountFrequency (%)
" 4398
50.9%
, 2286
26.5%
' 1070
 
12.4%
. 690
 
8.0%
? 133
 
1.5%
% 37
 
0.4%
& 14
 
0.2%
! 7
 
0.1%
/ 4
 
< 0.1%
Math Symbol
ValueCountFrequency (%)
< 59
31.2%
> 59
31.2%
27
14.3%
~ 20
 
10.6%
+ 17
 
9.0%
4
 
2.1%
= 3
 
1.6%
Other Number
ValueCountFrequency (%)
5
62.5%
2
 
25.0%
1
 
12.5%
Initial Punctuation
ValueCountFrequency (%)
2113
75.1%
700
 
24.9%
Final Punctuation
ValueCountFrequency (%)
2096
75.0%
698
 
25.0%
Open Punctuation
ValueCountFrequency (%)
[ 389
83.1%
( 79
 
16.9%
Close Punctuation
ValueCountFrequency (%)
] 389
83.1%
) 79
 
16.9%
Space Separator
ValueCountFrequency (%)
40080
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 157
100.0%
Modifier Symbol
ValueCountFrequency (%)
` 107
100.0%
Other Symbol
ValueCountFrequency (%)
3
100.0%
Format
ValueCountFrequency (%)
­ 2
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 115865
64.9%
Common 57631
32.3%
Han 3473
 
1.9%
Latin 1617
 
0.9%

Most frequent character per script

Hangul
ValueCountFrequency (%)
3879
 
3.3%
2276
 
2.0%
2216
 
1.9%
2060
 
1.8%
1922
 
1.7%
1892
 
1.6%
1511
 
1.3%
1337
 
1.2%
1326
 
1.1%
1317
 
1.1%
Other values (857) 96129
83.0%
Han
ValueCountFrequency (%)
1034
29.8%
589
17.0%
491
14.1%
369
 
10.6%
161
 
4.6%
158
 
4.5%
141
 
4.1%
104
 
3.0%
44
 
1.3%
26
 
0.7%
Other values (83) 356
 
10.3%
Common
ValueCountFrequency (%)
40080
69.5%
" 4398
 
7.6%
, 2286
 
4.0%
2113
 
3.7%
2096
 
3.6%
' 1070
 
1.9%
700
 
1.2%
698
 
1.2%
. 690
 
1.2%
1 439
 
0.8%
Other values (32) 3061
 
5.3%
Latin
ValueCountFrequency (%)
A 328
20.3%
E 223
13.8%
U 219
13.5%
T 87
 
5.4%
F 77
 
4.8%
s 66
 
4.1%
S 65
 
4.0%
v 65
 
4.0%
C 64
 
4.0%
B 62
 
3.8%
Other values (27) 361
22.3%

Most occurring blocks

ValueCountFrequency (%)
Hangul 115798
64.8%
ASCII 53597
30.0%
Punctuation 5607
 
3.1%
CJK 3460
 
1.9%
Compat Jamo 67
 
< 0.1%
Arrows 31
 
< 0.1%
CJK Compat Ideographs 13
 
< 0.1%
Enclosed Alphanum 8
 
< 0.1%
CJK Compat 3
 
< 0.1%
None 2
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
40080
74.8%
" 4398
 
8.2%
, 2286
 
4.3%
' 1070
 
2.0%
. 690
 
1.3%
1 439
 
0.8%
2 413
 
0.8%
[ 389
 
0.7%
] 389
 
0.7%
A 328
 
0.6%
Other values (58) 3115
 
5.8%
Hangul
ValueCountFrequency (%)
3879
 
3.3%
2276
 
2.0%
2216
 
1.9%
2060
 
1.8%
1922
 
1.7%
1892
 
1.6%
1511
 
1.3%
1337
 
1.2%
1326
 
1.1%
1317
 
1.1%
Other values (856) 96062
83.0%
Punctuation
ValueCountFrequency (%)
2113
37.7%
2096
37.4%
700
 
12.5%
698
 
12.4%
CJK
ValueCountFrequency (%)
1034
29.9%
589
17.0%
491
14.2%
369
 
10.7%
161
 
4.7%
158
 
4.6%
141
 
4.1%
104
 
3.0%
44
 
1.3%
26
 
0.8%
Other values (82) 343
 
9.9%
Compat Jamo
ValueCountFrequency (%)
67
100.0%
Arrows
ValueCountFrequency (%)
27
87.1%
4
 
12.9%
CJK Compat Ideographs
ValueCountFrequency (%)
13
100.0%
Enclosed Alphanum
ValueCountFrequency (%)
5
62.5%
2
 
25.0%
1
 
12.5%
CJK Compat
ValueCountFrequency (%)
3
100.0%
None
ValueCountFrequency (%)
­ 2
100.0%

소스
Categorical

HIGH CORRELATION 

Distinct28
Distinct (%)0.5%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
문재인 대통령
2741 
김성태 자유한국당 원내대표
864 
우원식 더불어민주당 원내대표
712 
트럼프 대통령
575 
틸러슨 장관
509 
Other values (23)
422 

Length

Max length17
Median length7
Mean length9.2934913
Min length6

Unique

Unique1 ?
Unique (%)< 0.1%

Sample

1st row문재인 대통령
2nd row문재인 대통령
3rd row문재인 대통령
4th row문재인 대통령
5th row문재인 대통령

Common Values

ValueCountFrequency (%)
문재인 대통령 2741
47.1%
김성태 자유한국당 원내대표 864
 
14.8%
우원식 더불어민주당 원내대표 712
 
12.2%
트럼프 대통령 575
 
9.9%
틸러슨 장관 509
 
8.7%
도널드 트럼프 미국 대통령 115
 
2.0%
틸러슨 미국 국무장관 65
 
1.1%
틸러슨 국무장관 40
 
0.7%
틸러슨 미 국무장관 36
 
0.6%
틸러슨 미국 국무부 장관 29
 
0.5%
Other values (18) 137
 
2.4%

Length

2023-12-12T18:42:58.882388image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
대통령 3490
25.2%
문재인 2750
19.9%
원내대표 1583
11.4%
김성태 871
 
6.3%
자유한국당 871
 
6.3%
틸러슨 750
 
5.4%
트럼프 740
 
5.3%
우원식 712
 
5.1%
더불어민주당 712
 
5.1%
장관 583
 
4.2%
Other values (13) 779
 
5.6%

통합 분류1
Categorical

HIGH CORRELATION 

Distinct33
Distinct (%)0.6%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
정치>외교
1565 
정치>청와대
1367 
정치>국회_정당
883 
정치>북한
602 
정치>행정_자치
358 
Other values (28)
1048 

Length

Max length13
Median length10
Mean length6.1275975
Min length5

Unique

Unique6 ?
Unique (%)0.1%

Sample

1st row경제>국제경제
2nd row경제>국제경제
3rd row경제>국제경제
4th row경제>국제경제
5th row경제>국제경제

Common Values

ValueCountFrequency (%)
정치>외교 1565
26.9%
정치>청와대 1367
23.5%
정치>국회_정당 883
15.2%
정치>북한 602
 
10.3%
정치>행정_자치 358
 
6.1%
국제>중국 312
 
5.4%
국제>미국_북미 133
 
2.3%
정치>정치일반 128
 
2.2%
국제>국제일반 112
 
1.9%
국제>일본 76
 
1.3%
Other values (23) 287
 
4.9%

Length

2023-12-12T18:42:59.044863image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
정치>외교 1565
26.9%
정치>청와대 1367
23.5%
정치>국회_정당 883
15.2%
정치>북한 602
 
10.3%
정치>행정_자치 358
 
6.1%
국제>중국 312
 
5.4%
국제>미국_북미 133
 
2.3%
정치>정치일반 128
 
2.2%
국제>국제일반 112
 
1.9%
국제>일본 76
 
1.3%
Other values (23) 287
 
4.9%

통합 분류2
Categorical

HIGH CORRELATION 

Distinct39
Distinct (%)0.7%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
정치>외교
1818 
정치>청와대
968 
정치>행정_자치
888 
<NA>
465 
정치>북한
389 
Other values (34)
1295 

Length

Max length13
Median length10
Mean length5.9970805
Min length4

Unique

Unique3 ?
Unique (%)0.1%

Sample

1st row경제>산업_기업
2nd row경제>산업_기업
3rd row경제>산업_기업
4th row경제>산업_기업
5th row경제>산업_기업

Common Values

ValueCountFrequency (%)
정치>외교 1818
31.2%
정치>청와대 968
16.6%
정치>행정_자치 888
15.2%
<NA> 465
 
8.0%
정치>북한 389
 
6.7%
정치>국회_정당 371
 
6.4%
국제>중국 207
 
3.6%
국제>국제일반 136
 
2.3%
정치>정치일반 95
 
1.6%
국제>미국_북미 88
 
1.5%
Other values (29) 398
 
6.8%

Length

2023-12-12T18:42:59.175175image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
정치>외교 1818
31.2%
정치>청와대 968
16.6%
정치>행정_자치 888
15.2%
na 465
 
8.0%
정치>북한 389
 
6.7%
정치>국회_정당 371
 
6.4%
국제>중국 207
 
3.6%
국제>국제일반 136
 
2.3%
정치>정치일반 95
 
1.6%
국제>미국_북미 88
 
1.5%
Other values (29) 398
 
6.8%

통합 분류3
Categorical

HIGH CORRELATION 

Distinct34
Distinct (%)0.6%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
<NA>
3045 
정치>행정_자치
587 
정치>청와대
528 
정치>외교
432 
정치>북한
 
293
Other values (29)
938 

Length

Max length13
Median length4
Mean length5.1336081
Min length4

Unique

Unique3 ?
Unique (%)0.1%

Sample

1st row정치>정치일반
2nd row정치>정치일반
3rd row정치>정치일반
4th row정치>정치일반
5th row정치>정치일반

Common Values

ValueCountFrequency (%)
<NA> 3045
52.3%
정치>행정_자치 587
 
10.1%
정치>청와대 528
 
9.1%
정치>외교 432
 
7.4%
정치>북한 293
 
5.0%
국제>국제일반 160
 
2.7%
국제>일본 109
 
1.9%
정치>국회_정당 108
 
1.9%
국제>중국 105
 
1.8%
국제>미국_북미 95
 
1.6%
Other values (24) 361
 
6.2%

Length

2023-12-12T18:42:59.296481image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 3045
52.3%
정치>행정_자치 587
 
10.1%
정치>청와대 528
 
9.1%
정치>외교 432
 
7.4%
정치>북한 293
 
5.0%
국제>국제일반 160
 
2.7%
국제>일본 109
 
1.9%
정치>국회_정당 108
 
1.9%
국제>중국 105
 
1.8%
국제>미국_북미 95
 
1.6%
Other values (24) 361
 
6.2%

사건/사고 분류1
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct25
Distinct (%)0.4%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
<NA>
5278 
사고>산업사고>화재
 
179
범죄>기업범죄>거래제한
 
77
사고>교통사고>항공사고
 
50
범죄>범죄일반>폭행
 
48
Other values (20)
 
191

Length

Max length12
Median length4
Mean length4.6306028
Min length4

Unique

Unique2 ?
Unique (%)< 0.1%

Sample

1st row<NA>
2nd row<NA>
3rd row<NA>
4th row<NA>
5th row<NA>

Common Values

ValueCountFrequency (%)
<NA> 5278
90.6%
사고>산업사고>화재 179
 
3.1%
범죄>기업범죄>거래제한 77
 
1.3%
사고>교통사고>항공사고 50
 
0.9%
범죄>범죄일반>폭행 48
 
0.8%
사회>사회갈등>시위 47
 
0.8%
사회>사회갈등>테러행위 36
 
0.6%
사고>교통사고>해상사고 24
 
0.4%
재해>자연재해>지진 19
 
0.3%
범죄>범죄일반>절도 16
 
0.3%
Other values (15) 49
 
0.8%

Length

2023-12-12T18:42:59.422983image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 5278
90.6%
사고>산업사고>화재 179
 
3.1%
범죄>기업범죄>거래제한 77
 
1.3%
사고>교통사고>항공사고 50
 
0.9%
범죄>범죄일반>폭행 48
 
0.8%
사회>사회갈등>시위 47
 
0.8%
사회>사회갈등>테러행위 36
 
0.6%
사고>교통사고>해상사고 24
 
0.4%
재해>자연재해>지진 19
 
0.3%
범죄>범죄일반>절도 16
 
0.3%
Other values (15) 49
 
0.8%

사건/사고 분류2
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct17
Distinct (%)0.3%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
<NA>
5720 
사고>교통사고>해상사고
 
52
재해>자연재해>지진
 
15
사고>산업사고>화재
 
10
범죄>범죄일반>방화
 
5
Other values (12)
 
21

Length

Max length13
Median length4
Mean length4.1265671
Min length4

Unique

Unique7 ?
Unique (%)0.1%

Sample

1st row<NA>
2nd row<NA>
3rd row<NA>
4th row<NA>
5th row<NA>

Common Values

ValueCountFrequency (%)
<NA> 5720
98.2%
사고>교통사고>해상사고 52
 
0.9%
재해>자연재해>지진 15
 
0.3%
사고>산업사고>화재 10
 
0.2%
범죄>범죄일반>방화 5
 
0.1%
사회>사회갈등>시위 4
 
0.1%
사고>산업사고>원자력사고 3
 
0.1%
범죄>성범죄>성추행 3
 
0.1%
범죄>범죄일반>절도 2
 
< 0.1%
사고>산업사고>폭발 2
 
< 0.1%
Other values (7) 7
 
0.1%

Length

2023-12-12T18:42:59.575458image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 5720
98.2%
사고>교통사고>해상사고 52
 
0.9%
재해>자연재해>지진 15
 
0.3%
사고>산업사고>화재 10
 
0.2%
범죄>범죄일반>방화 5
 
0.1%
사회>사회갈등>시위 4
 
0.1%
사고>산업사고>원자력사고 3
 
0.1%
범죄>성범죄>성추행 3
 
0.1%
사고>산업사고>폭발 2
 
< 0.1%
범죄>범죄일반>절도 2
 
< 0.1%
Other values (7) 7
 
0.1%

사건/사고 분류3
Text

MISSING 

Distinct6
Distinct (%)50.0%
Missing5811
Missing (%)99.8%
Memory size45.6 KiB
2023-12-12T18:42:59.739397image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length12
Median length10
Mean length10.833333
Min length10

Characters and Unicode

Total characters130
Distinct characters30
Distinct categories2 ?
Distinct scripts2 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique3 ?
Unique (%)25.0%

Sample

1st row범죄>범죄일반>폭행
2nd row사고>교통사고>노상사고
3rd row사고>산업사고>화재
4th row범죄>범죄일반>폭행
5th row범죄>범죄일반>살인
ValueCountFrequency (%)
사회>사회갈등>테러행위 4
33.3%
사고>산업사고>화재 3
25.0%
범죄>범죄일반>폭행 2
16.7%
사고>교통사고>노상사고 1
 
8.3%
범죄>범죄일반>살인 1
 
8.3%
재해>자연재해>홍수 1
 
8.3%
2023-12-12T18:43:00.044673image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
> 24
18.5%
17
13.1%
9
 
6.9%
8
 
6.2%
6
 
4.6%
6
 
4.6%
6
 
4.6%
5
 
3.8%
4
 
3.1%
4
 
3.1%
Other values (20) 41
31.5%

Most occurring categories

ValueCountFrequency (%)
Other Letter 106
81.5%
Math Symbol 24
 
18.5%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
17
16.0%
9
 
8.5%
8
 
7.5%
6
 
5.7%
6
 
5.7%
6
 
5.7%
5
 
4.7%
4
 
3.8%
4
 
3.8%
4
 
3.8%
Other values (19) 37
34.9%
Math Symbol
ValueCountFrequency (%)
> 24
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 106
81.5%
Common 24
 
18.5%

Most frequent character per script

Hangul
ValueCountFrequency (%)
17
16.0%
9
 
8.5%
8
 
7.5%
6
 
5.7%
6
 
5.7%
6
 
5.7%
5
 
4.7%
4
 
3.8%
4
 
3.8%
4
 
3.8%
Other values (19) 37
34.9%
Common
ValueCountFrequency (%)
> 24
100.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 106
81.5%
ASCII 24
 
18.5%

Most frequent character per block

ASCII
ValueCountFrequency (%)
> 24
100.0%
Hangul
ValueCountFrequency (%)
17
16.0%
9
 
8.5%
8
 
7.5%
6
 
5.7%
6
 
5.7%
6
 
5.7%
5
 
4.7%
4
 
3.8%
4
 
3.8%
4
 
3.8%
Other values (19) 37
34.9%
Distinct4512
Distinct (%)77.5%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
2023-12-12T18:43:00.410370image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length226
Median length123
Mean length49.106818
Min length15

Characters and Unicode

Total characters285949
Distinct characters1061
Distinct categories14 ?
Distinct scripts4 ?
Distinct blocks8 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique3796 ?
Unique (%)65.2%

Sample

1st row중소벤처기업부 출범은 대한민국 경제 정책의 패러다임을 바꾸는 역사적인 일
2nd row수출 대기업이라는 하나의 심장으로 뛰었던 대한민국 경제에 또 하나의 심장을 더하는 것이기 때문
3rd row중소기업은 우리나라 전체 사업체수의 99%, 고용의 88%를 차지하는 일자리의 원천
4th row‘사람중심 경제’의 양 날개인 소득주도성장과 혁신성장 모두 중소기업의 활성화를 통해서만 이뤄낼 수 있다
5th row여러분은 대한민국 경제의 중심이고 주역이므로 여러분의 권익을 당당하게 요구하고 지켜주시고, 필요할 때 주저 없이 손을 내밀어달라
ValueCountFrequency (%)
892
 
1.2%
있다 832
 
1.2%
639
 
0.9%
한다 467
 
0.7%
343
 
0.5%
있는 322
 
0.5%
함께 290
 
0.4%
위해 261
 
0.4%
우리 258
 
0.4%
239
 
0.3%
Other values (14589) 66938
93.6%
2023-12-12T18:43:00.963609image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
65668
 
23.0%
5755
 
2.0%
5578
 
2.0%
5254
 
1.8%
4886
 
1.7%
4524
 
1.6%
4514
 
1.6%
4030
 
1.4%
3714
 
1.3%
3675
 
1.3%
Other values (1051) 178351
62.4%

Most occurring categories

ValueCountFrequency (%)
Other Letter 213003
74.5%
Space Separator 65668
 
23.0%
Other Punctuation 2155
 
0.8%
Decimal Number 1974
 
0.7%
Uppercase Letter 979
 
0.3%
Open Punctuation 617
 
0.2%
Close Punctuation 617
 
0.2%
Lowercase Letter 491
 
0.2%
Initial Punctuation 179
 
0.1%
Final Punctuation 179
 
0.1%
Other values (4) 87
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
5755
 
2.7%
5578
 
2.6%
5254
 
2.5%
4886
 
2.3%
4524
 
2.1%
4514
 
2.1%
4030
 
1.9%
3714
 
1.7%
3675
 
1.7%
3562
 
1.7%
Other values (966) 167511
78.6%
Uppercase Letter
ValueCountFrequency (%)
A 182
18.6%
E 132
13.5%
U 120
12.3%
I 79
8.1%
C 74
7.6%
T 61
 
6.2%
F 53
 
5.4%
B 49
 
5.0%
M 38
 
3.9%
O 33
 
3.4%
Other values (15) 158
16.1%
Lowercase Letter
ValueCountFrequency (%)
e 61
12.4%
t 52
10.6%
i 47
9.6%
a 43
8.8%
s 43
8.8%
n 42
8.6%
o 38
7.7%
c 30
 
6.1%
l 22
 
4.5%
d 21
 
4.3%
Other values (15) 92
18.7%
Other Punctuation
ValueCountFrequency (%)
, 1373
63.7%
· 458
 
21.3%
' 193
 
9.0%
% 52
 
2.4%
. 27
 
1.3%
? 23
 
1.1%
& 9
 
0.4%
! 8
 
0.4%
8
 
0.4%
3
 
0.1%
Decimal Number
ValueCountFrequency (%)
1 431
21.8%
2 429
21.7%
0 388
19.7%
3 184
9.3%
5 119
 
6.0%
9 104
 
5.3%
8 100
 
5.1%
4 100
 
5.1%
6 69
 
3.5%
7 50
 
2.5%
Math Symbol
ValueCountFrequency (%)
12
41.4%
~ 8
27.6%
+ 7
24.1%
> 1
 
3.4%
< 1
 
3.4%
Other Symbol
ValueCountFrequency (%)
2
66.7%
1
33.3%
Space Separator
ValueCountFrequency (%)
65668
100.0%
Open Punctuation
ValueCountFrequency (%)
( 617
100.0%
Close Punctuation
ValueCountFrequency (%)
) 617
100.0%
Initial Punctuation
ValueCountFrequency (%)
179
100.0%
Final Punctuation
ValueCountFrequency (%)
179
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 38
100.0%
Modifier Symbol
ValueCountFrequency (%)
` 17
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 212880
74.4%
Common 71476
 
25.0%
Latin 1470
 
0.5%
Han 123
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
5755
 
2.7%
5578
 
2.6%
5254
 
2.5%
4886
 
2.3%
4524
 
2.1%
4514
 
2.1%
4030
 
1.9%
3714
 
1.7%
3675
 
1.7%
3562
 
1.7%
Other values (900) 167388
78.6%
Han
ValueCountFrequency (%)
8
 
6.5%
8
 
6.5%
8
 
6.5%
8
 
6.5%
5
 
4.1%
3
 
2.4%
2
 
1.6%
2
 
1.6%
2
 
1.6%
2
 
1.6%
Other values (56) 75
61.0%
Latin
ValueCountFrequency (%)
A 182
 
12.4%
E 132
 
9.0%
U 120
 
8.2%
I 79
 
5.4%
C 74
 
5.0%
T 61
 
4.1%
e 61
 
4.1%
F 53
 
3.6%
t 52
 
3.5%
B 49
 
3.3%
Other values (40) 607
41.3%
Common
ValueCountFrequency (%)
65668
91.9%
, 1373
 
1.9%
( 617
 
0.9%
) 617
 
0.9%
· 458
 
0.6%
1 431
 
0.6%
2 429
 
0.6%
0 388
 
0.5%
' 193
 
0.3%
3 184
 
0.3%
Other values (25) 1118
 
1.6%

Most occurring blocks

ValueCountFrequency (%)
Hangul 212846
74.4%
ASCII 72104
 
25.2%
None 461
 
0.2%
Punctuation 366
 
0.1%
CJK 123
 
< 0.1%
Compat Jamo 34
 
< 0.1%
Math Operators 12
 
< 0.1%
CJK Compat 3
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
65668
91.1%
, 1373
 
1.9%
( 617
 
0.9%
) 617
 
0.9%
1 431
 
0.6%
2 429
 
0.6%
0 388
 
0.5%
' 193
 
0.3%
3 184
 
0.3%
A 182
 
0.3%
Other values (67) 2022
 
2.8%
Hangul
ValueCountFrequency (%)
5755
 
2.7%
5578
 
2.6%
5254
 
2.5%
4886
 
2.3%
4524
 
2.1%
4514
 
2.1%
4030
 
1.9%
3714
 
1.7%
3675
 
1.7%
3562
 
1.7%
Other values (899) 167354
78.6%
None
ValueCountFrequency (%)
· 458
99.3%
3
 
0.7%
Punctuation
ValueCountFrequency (%)
179
48.9%
179
48.9%
8
 
2.2%
Compat Jamo
ValueCountFrequency (%)
34
100.0%
Math Operators
ValueCountFrequency (%)
12
100.0%
CJK
ValueCountFrequency (%)
8
 
6.5%
8
 
6.5%
8
 
6.5%
8
 
6.5%
5
 
4.1%
3
 
2.4%
2
 
1.6%
2
 
1.6%
2
 
1.6%
2
 
1.6%
Other values (56) 75
61.0%
CJK Compat
ValueCountFrequency (%)
2
66.7%
1
33.3%
Distinct2251
Distinct (%)38.7%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
2023-12-12T18:43:01.303508image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length413
Median length195
Mean length88.306371
Min length2

Characters and Unicode

Total characters514208
Distinct characters741
Distinct categories12 ?
Distinct scripts4 ?
Distinct blocks6 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique937 ?
Unique (%)16.1%

Sample

1st row문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템
2nd row문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템
3rd row문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템
4th row문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템
5th row문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템
ValueCountFrequency (%)
문재인 3442
 
3.4%
미국 3229
 
3.2%
북한 3180
 
3.1%
중국 2963
 
2.9%
청와대 2533
 
2.5%
한국 2259
 
2.2%
트럼프 2229
 
2.2%
국회 1578
 
1.5%
자유한국당 1476
 
1.4%
더불어민주당 1354
 
1.3%
Other values (4154) 78241
76.3%
2023-12-12T18:43:01.818189image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
97723
 
19.0%
, 80774
 
15.7%
19762
 
3.8%
14007
 
2.7%
7999
 
1.6%
7621
 
1.5%
7317
 
1.4%
6201
 
1.2%
6032
 
1.2%
5933
 
1.2%
Other values (731) 260839
50.7%

Most occurring categories

ValueCountFrequency (%)
Other Letter 324309
63.1%
Space Separator 97723
 
19.0%
Other Punctuation 81644
 
15.9%
Uppercase Letter 9758
 
1.9%
Decimal Number 259
 
0.1%
Lowercase Letter 236
 
< 0.1%
Dash Punctuation 145
 
< 0.1%
Close Punctuation 91
 
< 0.1%
Open Punctuation 22
 
< 0.1%
Other Symbol 10
 
< 0.1%
Other values (2) 11
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
19762
 
6.1%
14007
 
4.3%
7999
 
2.5%
7621
 
2.3%
7317
 
2.3%
6201
 
1.9%
6032
 
1.9%
5933
 
1.8%
5402
 
1.7%
5209
 
1.6%
Other values (671) 238826
73.6%
Uppercase Letter
ValueCountFrequency (%)
A 1449
14.8%
C 1289
13.2%
E 979
10.0%
U 831
 
8.5%
N 645
 
6.6%
I 577
 
5.9%
T 534
 
5.5%
D 526
 
5.4%
S 452
 
4.6%
B 397
 
4.1%
Other values (14) 2079
21.3%
Lowercase Letter
ValueCountFrequency (%)
s 39
16.5%
o 30
12.7%
e 26
11.0%
r 25
10.6%
c 24
10.2%
a 19
8.1%
m 17
7.2%
u 11
 
4.7%
d 11
 
4.7%
l 9
 
3.8%
Other values (4) 25
10.6%
Decimal Number
ValueCountFrequency (%)
0 59
22.8%
2 58
22.4%
1 37
14.3%
6 32
12.4%
8 24
9.3%
3 22
 
8.5%
5 13
 
5.0%
9 7
 
2.7%
4 7
 
2.7%
Other Punctuation
ValueCountFrequency (%)
, 80774
98.9%
· 705
 
0.9%
. 72
 
0.1%
& 70
 
0.1%
? 23
 
< 0.1%
Open Punctuation
ValueCountFrequency (%)
( 20
90.9%
[ 2
 
9.1%
Space Separator
ValueCountFrequency (%)
97723
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 145
100.0%
Close Punctuation
ValueCountFrequency (%)
) 91
100.0%
Other Symbol
ValueCountFrequency (%)
10
100.0%
Modifier Symbol
ValueCountFrequency (%)
` 9
100.0%
Math Symbol
ValueCountFrequency (%)
~ 2
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 323941
63.0%
Common 179895
35.0%
Latin 9994
 
1.9%
Han 378
 
0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
19762
 
6.1%
14007
 
4.3%
7999
 
2.5%
7621
 
2.4%
7317
 
2.3%
6201
 
1.9%
6032
 
1.9%
5933
 
1.8%
5402
 
1.7%
5209
 
1.6%
Other values (640) 238458
73.6%
Latin
ValueCountFrequency (%)
A 1449
14.5%
C 1289
12.9%
E 979
9.8%
U 831
 
8.3%
N 645
 
6.5%
I 577
 
5.8%
T 534
 
5.3%
D 526
 
5.3%
S 452
 
4.5%
B 397
 
4.0%
Other values (28) 2315
23.2%
Han
ValueCountFrequency (%)
36
 
9.5%
33
 
8.7%
33
 
8.7%
31
 
8.2%
31
 
8.2%
31
 
8.2%
31
 
8.2%
22
 
5.8%
20
 
5.3%
13
 
3.4%
Other values (22) 97
25.7%
Common
ValueCountFrequency (%)
97723
54.3%
, 80774
44.9%
· 705
 
0.4%
- 145
 
0.1%
) 91
 
0.1%
. 72
 
< 0.1%
& 70
 
< 0.1%
0 59
 
< 0.1%
2 58
 
< 0.1%
1 37
 
< 0.1%
Other values (11) 161
 
0.1%

Most occurring blocks

ValueCountFrequency (%)
Hangul 323843
63.0%
ASCII 189184
36.8%
None 715
 
0.1%
CJK 350
 
0.1%
Compat Jamo 88
 
< 0.1%
CJK Compat Ideographs 28
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
97723
51.7%
, 80774
42.7%
A 1449
 
0.8%
C 1289
 
0.7%
E 979
 
0.5%
U 831
 
0.4%
N 645
 
0.3%
I 577
 
0.3%
T 534
 
0.3%
D 526
 
0.3%
Other values (48) 3857
 
2.0%
Hangul
ValueCountFrequency (%)
19762
 
6.1%
14007
 
4.3%
7999
 
2.5%
7621
 
2.4%
7317
 
2.3%
6201
 
1.9%
6032
 
1.9%
5933
 
1.8%
5402
 
1.7%
5209
 
1.6%
Other values (638) 238360
73.6%
None
ValueCountFrequency (%)
· 705
98.6%
10
 
1.4%
Compat Jamo
ValueCountFrequency (%)
88
100.0%
CJK
ValueCountFrequency (%)
36
10.3%
33
9.4%
33
9.4%
31
 
8.9%
31
 
8.9%
31
 
8.9%
31
 
8.9%
20
 
5.7%
13
 
3.7%
11
 
3.1%
Other values (19) 80
22.9%
CJK Compat Ideographs
ValueCountFrequency (%)
22
78.6%
3
 
10.7%
3
 
10.7%
Distinct2270
Distinct (%)39.0%
Missing0
Missing (%)0.0%
Memory size45.6 KiB
2023-12-12T18:43:02.118412image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length45
Median length39
Mean length23.015112
Min length12

Characters and Unicode

Total characters134017
Distinct characters533
Distinct categories7 ?
Distinct scripts4 ?
Distinct blocks4 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique951 ?
Unique (%)16.3%

Sample

1st row중소기업 경제_중심 대한민국_경제 중소벤처기업부
2nd row중소기업 경제_중심 대한민국_경제 중소벤처기업부
3rd row중소기업 경제_중심 대한민국_경제 중소벤처기업부
4th row중소기업 경제_중심 대한민국_경제 중소벤처기업부
5th row중소기업 경제_중심 대한민국_경제 중소벤처기업부
ValueCountFrequency (%)
중국 1080
 
4.6%
미국 710
 
3.0%
한국당 628
 
2.7%
청와대 573
 
2.5%
트럼프_대통령 468
 
2.0%
민주당 428
 
1.8%
틸러슨_장관 360
 
1.5%
한국 279
 
1.2%
미국_대통령 243
 
1.0%
본회의 239
 
1.0%
Other values (2819) 18284
78.5%
2023-12-12T18:43:02.954859image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
23292
 
17.4%
_ 13004
 
9.7%
6264
 
4.7%
3864
 
2.9%
2921
 
2.2%
2434
 
1.8%
1884
 
1.4%
1703
 
1.3%
1628
 
1.2%
1487
 
1.1%
Other values (523) 75536
56.4%

Most occurring categories

ValueCountFrequency (%)
Other Letter 95389
71.2%
Space Separator 23292
 
17.4%
Connector Punctuation 13004
 
9.7%
Lowercase Letter 1585
 
1.2%
Decimal Number 684
 
0.5%
Other Punctuation 61
 
< 0.1%
Dash Punctuation 2
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
6264
 
6.6%
3864
 
4.1%
2921
 
3.1%
2434
 
2.6%
1884
 
2.0%
1703
 
1.8%
1628
 
1.7%
1487
 
1.6%
1456
 
1.5%
1452
 
1.5%
Other values (487) 70296
73.7%
Lowercase Letter
ValueCountFrequency (%)
a 415
26.2%
u 367
23.2%
e 364
23.0%
s 57
 
3.6%
b 47
 
3.0%
c 42
 
2.6%
j 42
 
2.6%
n 41
 
2.6%
m 35
 
2.2%
i 35
 
2.2%
Other values (10) 140
 
8.8%
Decimal Number
ValueCountFrequency (%)
1 200
29.2%
2 111
16.2%
3 109
15.9%
4 62
 
9.1%
6 44
 
6.4%
8 38
 
5.6%
0 36
 
5.3%
7 34
 
5.0%
9 31
 
4.5%
5 19
 
2.8%
Other Punctuation
ValueCountFrequency (%)
· 50
82.0%
? 9
 
14.8%
, 2
 
3.3%
Space Separator
ValueCountFrequency (%)
23292
100.0%
Connector Punctuation
ValueCountFrequency (%)
_ 13004
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 2
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 95379
71.2%
Common 37043
 
27.6%
Latin 1585
 
1.2%
Han 10
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
6264
 
6.6%
3864
 
4.1%
2921
 
3.1%
2434
 
2.6%
1884
 
2.0%
1703
 
1.8%
1628
 
1.7%
1487
 
1.6%
1456
 
1.5%
1452
 
1.5%
Other values (485) 70286
73.7%
Latin
ValueCountFrequency (%)
a 415
26.2%
u 367
23.2%
e 364
23.0%
s 57
 
3.6%
b 47
 
3.0%
c 42
 
2.6%
j 42
 
2.6%
n 41
 
2.6%
m 35
 
2.2%
i 35
 
2.2%
Other values (10) 140
 
8.8%
Common
ValueCountFrequency (%)
23292
62.9%
_ 13004
35.1%
1 200
 
0.5%
2 111
 
0.3%
3 109
 
0.3%
4 62
 
0.2%
· 50
 
0.1%
6 44
 
0.1%
8 38
 
0.1%
0 36
 
0.1%
Other values (6) 97
 
0.3%
Han
ValueCountFrequency (%)
9
90.0%
1
 
10.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 95379
71.2%
ASCII 38578
28.8%
None 50
 
< 0.1%
CJK 10
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
23292
60.4%
_ 13004
33.7%
a 415
 
1.1%
u 367
 
1.0%
e 364
 
0.9%
1 200
 
0.5%
2 111
 
0.3%
3 109
 
0.3%
4 62
 
0.2%
s 57
 
0.1%
Other values (25) 597
 
1.5%
Hangul
ValueCountFrequency (%)
6264
 
6.6%
3864
 
4.1%
2921
 
3.1%
2434
 
2.6%
1884
 
2.0%
1703
 
1.8%
1628
 
1.7%
1487
 
1.6%
1456
 
1.5%
1452
 
1.5%
Other values (485) 70286
73.7%
None
ValueCountFrequency (%)
· 50
100.0%
CJK
ValueCountFrequency (%)
9
90.0%
1
 
10.0%

Correlations

2023-12-12T18:43:03.089499image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
일자언론사소스통합 분류1통합 분류2통합 분류3사건/사고 분류1사건/사고 분류2사건/사고 분류3
일자1.0000.5930.5420.7040.6520.7210.9040.8950.931
언론사0.5931.0000.5160.5890.6140.8130.7670.9320.886
소스0.5420.5161.0000.7230.6240.4270.6760.9130.420
통합 분류10.7040.5890.7231.0000.8690.7390.8220.9560.833
통합 분류20.6520.6140.6240.8691.0000.8810.7110.8980.863
통합 분류30.7210.8130.4270.7390.8811.0000.7840.9371.000
사건/사고 분류10.9040.7670.6760.8220.7110.7841.0000.9210.882
사건/사고 분류20.8950.9320.9130.9560.8980.9370.9211.0000.899
사건/사고 분류30.9310.8860.4200.8330.8631.0000.8820.8991.000
2023-12-12T18:43:03.251281image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
통합 분류3일자언론사사건/사고 분류1통합 분류1소스사건/사고 분류2통합 분류2
통합 분류31.0000.2290.2760.3580.2540.1160.6950.374
일자0.2291.0000.1530.4600.2190.1500.5480.185
언론사0.2760.1531.0000.2660.1480.1300.5590.150
사건/사고 분류10.3580.4600.2661.0000.4110.2550.6400.276
통합 분류10.2540.2190.1480.4111.0000.2380.7800.350
소스0.1160.1500.1300.2550.2381.0000.7050.183
사건/사고 분류20.6950.5480.5590.6400.7800.7051.0000.589
통합 분류20.3740.1850.1500.2760.3500.1830.5891.000
2023-12-12T18:43:03.388710image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
일자언론사소스통합 분류1통합 분류2통합 분류3사건/사고 분류1사건/사고 분류2
일자1.0000.1530.1500.2190.1850.2290.4600.548
언론사0.1531.0000.1300.1480.1500.2760.2660.559
소스0.1500.1301.0000.2380.1830.1160.2550.705
통합 분류10.2190.1480.2381.0000.3500.2540.4110.780
통합 분류20.1850.1500.1830.3501.0000.3740.2760.589
통합 분류30.2290.2760.1160.2540.3741.0000.3580.695
사건/사고 분류10.4600.2660.2550.4110.2760.3581.0000.640
사건/사고 분류20.5480.5590.7050.7800.5890.6950.6401.000

Missing values

2023-12-12T18:42:56.277419image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2023-12-12T18:42:56.512108image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

주소일자언론사제목소스통합 분류1통합 분류2통합 분류3사건/사고 분류1사건/사고 분류2사건/사고 분류3인용문개체명인물/지역/기관특성추출
0http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.201712012013330012017-12-01경남신문문 대통령 “중소기업을 우리경제 중심에 두겠다”문재인 대통령경제>국제경제경제>산업_기업정치>정치일반<NA><NA><NA>중소벤처기업부 출범은 대한민국 경제 정책의 패러다임을 바꾸는 역사적인 일문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템중소기업 경제_중심 대한민국_경제 중소벤처기업부
1http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.201712012013330012017-12-01경남신문문 대통령 “중소기업을 우리경제 중심에 두겠다”문재인 대통령경제>국제경제경제>산업_기업정치>정치일반<NA><NA><NA>수출 대기업이라는 하나의 심장으로 뛰었던 대한민국 경제에 또 하나의 심장을 더하는 것이기 때문문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템중소기업 경제_중심 대한민국_경제 중소벤처기업부
2http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.201712012013330012017-12-01경남신문문 대통령 “중소기업을 우리경제 중심에 두겠다”문재인 대통령경제>국제경제경제>산업_기업정치>정치일반<NA><NA><NA>중소기업은 우리나라 전체 사업체수의 99%, 고용의 88%를 차지하는 일자리의 원천문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템중소기업 경제_중심 대한민국_경제 중소벤처기업부
3http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.201712012013330012017-12-01경남신문문 대통령 “중소기업을 우리경제 중심에 두겠다”문재인 대통령경제>국제경제경제>산업_기업정치>정치일반<NA><NA><NA>‘사람중심 경제’의 양 날개인 소득주도성장과 혁신성장 모두 중소기업의 활성화를 통해서만 이뤄낼 수 있다문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템중소기업 경제_중심 대한민국_경제 중소벤처기업부
4http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500051.201712012013330012017-12-01경남신문문 대통령 “중소기업을 우리경제 중심에 두겠다”문재인 대통령경제>국제경제경제>산업_기업정치>정치일반<NA><NA><NA>여러분은 대한민국 경제의 중심이고 주역이므로 여러분의 권익을 당당하게 요구하고 지켜주시고, 필요할 때 주저 없이 손을 내밀어달라문재인 서울, 대한민국 중소벤처기업부, 코엑스, 불공정, 시스템중소기업 경제_중심 대한민국_경제 중소벤처기업부
5http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01200201.201712012111380012017-12-01경인일보[중소벤처기업부 출범]문재인 대통령 “재벌대기업 중심 경제 더 이상 미래 보장 못해”문재인 대통령경제>국제경제경제>취업_창업정치>청와대<NA><NA><NA>중소벤처기업부의 출범은 대한민국 경제 정책의 패러다임을 바꾸는 역사적인 일문재인, 김동연, 최종구, 홍종학, 유영민 그랜드볼룸, 대한민국, 서울, 코엑스몰, 강남구 과학기술정보통신부, 금융위, 중기부, 정부의, 중소벤처기업부, 기획재정부경제_중심 중소기업 대한민국_경제 중심_경제
6http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01200201.201712012111380012017-12-01경인일보[중소벤처기업부 출범]문재인 대통령 “재벌대기업 중심 경제 더 이상 미래 보장 못해”문재인 대통령경제>국제경제경제>취업_창업정치>청와대<NA><NA><NA>수출대기업이라는 하나의 심장으로 뛰었던 대한민국 경제에 또 하나의 심장을 더하는 것문재인, 김동연, 최종구, 홍종학, 유영민 그랜드볼룸, 대한민국, 서울, 코엑스몰, 강남구 과학기술정보통신부, 금융위, 중기부, 정부의, 중소벤처기업부, 기획재정부경제_중심 중소기업 대한민국_경제 중심_경제
7http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01200201.201712012111380012017-12-01경인일보[중소벤처기업부 출범]문재인 대통령 “재벌대기업 중심 경제 더 이상 미래 보장 못해”문재인 대통령경제>국제경제경제>취업_창업정치>청와대<NA><NA><NA>‘사람중심 경제’의 양 날개인 소득주도성장과 혁신성장 모두 중소기업의 활성화를 통해서만 이뤄낼 수 있다고 저는 믿는다문재인, 김동연, 최종구, 홍종학, 유영민 그랜드볼룸, 대한민국, 서울, 코엑스몰, 강남구 과학기술정보통신부, 금융위, 중기부, 정부의, 중소벤처기업부, 기획재정부경제_중심 중소기업 대한민국_경제 중심_경제
8http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01200201.201712012111380012017-12-01경인일보[중소벤처기업부 출범]문재인 대통령 “재벌대기업 중심 경제 더 이상 미래 보장 못해”문재인 대통령경제>국제경제경제>취업_창업정치>청와대<NA><NA><NA>정부는 중소기업을 우리 경제의 중심에 두겠다문재인, 김동연, 최종구, 홍종학, 유영민 그랜드볼룸, 대한민국, 서울, 코엑스몰, 강남구 과학기술정보통신부, 금융위, 중기부, 정부의, 중소벤처기업부, 기획재정부경제_중심 중소기업 대한민국_경제 중심_경제
9http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01200101.201712012114000042017-12-01경기일보문재인 대통령 "중소기업 불공정 불합리 불균형 '3不' 해결해야"문재인 대통령경제>국제경제정치>외교정치>청와대<NA><NA><NA>대기업 중심의 경제에서 사람 중심 경제로 패러다임 전환을 이루겠다문재인 국민경제, 불공정, 시스템, 중소벤처기업부, 대한민국, 정부의중소기업 중소기업_정책 중소기업_불공정 문재인_대통령_중소기업_불공정
주소일자언론사제목소스통합 분류1통합 분류2통합 분류3사건/사고 분류1사건/사고 분류2사건/사고 분류3인용문개체명인물/지역/기관특성추출
5813http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01600801.201712290001050012017-12-29전남일보민주-한국 극한 대치 오늘 본회의 소집 불투명우원식 더불어민주당 원내대표정치>국회_정당정치>행정_자치<NA><NA><NA><NA>원내 지도부는 다각도로 혼신의 힘을 다해 야당과 개별 의원들을 설득 중에 있다문재인, 김용덕, 정세균, 박보영, 후보자, 김성태, 우원식 개정안, 한국 국민의당, 민주당, 더불어민주당, 국회, 감사원, 대법원, 정의당, 헌법개정특별위원회, 자유한국당, 집권당, 지도부, 바른정당, 한국당본회의 민생법안 본회의_처리 국회_본회의
5814http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100201.201712290500580022017-12-29국민일보국민의당 “한국당 패싱은 꼼수” 與 본회의 제안 일축우원식 더불어민주당 원내대표정치>국회_정당정치>행정_자치<NA><NA><NA><NA>시급하고 절박한 민생법안과 헌법기관 등의 인사 문제는 29일 본회의에서 분리 처리하자는 제안을 드린다정세균, 김동철, 김성태, 우원식, 유성엽 개정안, 호남 국민의당, 민주당, 더불어민주당, 정치개혁특별위원회, 국회, 감사원, 한국, 대법원, 광주MBC, 페이스북, 헌법개정특별위원회, 통합파, 바른정당, 한국당민주당 국민의당 본회의 한국당
5815http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100501.201712291110060042017-12-29문화일보與野, 오후 본회의 개최 ‘극적 타결’ 민생법안 처리키로우원식 더불어민주당 원내대표정치>행정_자치정치>국회_정당<NA><NA><NA><NA>운영위원장을 한국당이 맡는 대신에 정부조직법을 2월에 처리하기로 합의했다김동철, 정세균, 임명동, 김성태, 이우현, 우원식, 최경환 개정안, 서울, 여의도 정무위, 민주당, 보궐선거, 검찰, 정치개혁특별위원회, 사법개혁특별위원회, 국회, 감사원, 국방위, 헌법개정특별위원회, 자유한국당, 정치개혁, 특별위원회, 한국당본회의 극적_합의 이날_본회의 민생_법안
5816http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100101.201712291129580022017-12-29매일경제국회, 개헌 논의 내년 6월까지 연장 합의우원식 더불어민주당 원내대표정치>행정_자치정치>국회_정당<NA><NA><NA><NA>정우택 위원장이 사퇴하지 않으면 (민주당으로서는) 방법이 없다정우택, 김용태, 김학용, 정세균, 김성태, 우원식 개정안 국민의당, 정치개혁소위원회, 민주당, 보궐선거, 정치개혁특별위원회, 더불어민주당, 교섭단, 국회, 국방위, 자유한국당, 정치개혁특별위원, 국가재, 한국당한국당 한국당_원내대표 위원장 김성태_한국당_원내대표
5817http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100101.201712291129580022017-12-29매일경제국회, 개헌 논의 내년 6월까지 연장 합의우원식 더불어민주당 원내대표정치>행정_자치정치>국회_정당<NA><NA><NA><NA>그래서 민주당은 차기 운영위원장과 관련해 한국당에 양보하는 대신 정부조직법을 완성하는 것으로 합의했다정우택, 김용태, 김학용, 정세균, 김성태, 우원식 개정안 국민의당, 정치개혁소위원회, 민주당, 보궐선거, 정치개혁특별위원회, 더불어민주당, 교섭단, 국회, 국방위, 자유한국당, 정치개혁특별위원, 국가재, 한국당한국당 한국당_원내대표 위원장 김성태_한국당_원내대표
5818http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01101001.201712291158090012017-12-29한겨레여야, “개헌특위 6개월” 더 합의 새달 ‘개헌시기’ 격돌 예고우원식 더불어민주당 원내대표정치>행정_자치정치>국회_정당<NA><NA><NA><NA>물관리일원화는 김동철 원내대표가 2월 처리를 보증하는 것으로 했다김동철, 안철상, 정세균, 임명동, 후보자, 김성태, 이우현, 최재형, 민유숙, 우원식, 최경환 개정안 국민의당, 경찰개혁소위원회, 민주당, 정무위, 보궐선거, 검찰, 과학기술정보방송통신위원회, 더불어민주당, 정치개혁특별위원회, 사법개혁특별위원회, 행정안전위원회, 국회, 감사원, 국방위, 기획재정위원회, 검찰개혁소위원회, 국가과학기술자문회의, 헌법개정특별위원회, 평창동계올림픽, 자유한국당, 방송통신심의위, 국가재, 특별위원회위원회 본회의 통합_위원회 자유한국당
5819http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01600301.201712291400340032017-12-29광주일보민생현안 시급한데 여야 본회의 극한 대치우원식 더불어민주당 원내대표정치>국회_정당정치>행정_자치<NA><NA><NA><NA>어제도 국회의장과 여야 원내대표 긴급회동 등 다각도 접촉을 통해 민생입법의 돌파구를 마련해보고자 노력했지만 만족할 만한 성과를 얻지 못했다정세균, 김동철, 김성태, 우원식 국민의당, 민주당, 청와대, 자유한국당, 더불어민주당, 지도부, 교섭단, 국회, 감사원, 한국당본회의 여야_본회의 국회_본회의 민주당
5820http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01600301.201712291400340032017-12-29광주일보민생현안 시급한데 여야 본회의 극한 대치우원식 더불어민주당 원내대표정치>국회_정당정치>행정_자치<NA><NA><NA><NA>이견은 이견대로 원내 지도부간 효과적 논의를 더 이어가고 시급한 민생현안은 29일 본회의를 열어 분리 처리해 나가자고 제안한다정세균, 김동철, 김성태, 우원식 국민의당, 민주당, 청와대, 자유한국당, 더불어민주당, 지도부, 교섭단, 국회, 감사원, 한국당본회의 여야_본회의 국회_본회의 민주당
5821http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100501.201712301732460012017-12-30파이낸셜뉴스시한만 늘린 개헌특위.. 여야 쟁점은 여전히 팽팽우원식 더불어민주당 원내대표정치>국회_정당정치>행정_자치<NA><NA><NA><NA>정치적 셈법 때문에 (한국당이)대선 공약까지 파기하려고 한다정세균, 문재인, 우원식 대부분 간담회, 국회, 헌법개정특별위원회, 민주당, 자유한국당, 한국당개헌안_국회 개헌_투표 개헌안 여야_쟁점
5822http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100101.201712292151070012017-12-29경향신문“형님의 준엄한 말, 가슴속에 각인” “영화 1987 보다가 그가 떠올랐다”우원식 더불어민주당 원내대표정치>국회_정당<NA><NA><NA><NA><NA>3기 민주정부 원내대표로 분투하면서 ‘인간의 가치는 그가 품고 있는 희망의 크기에 의해 결정된다’는 형님의 준엄한 말, 늘 가슴속에 각인하고 있다이종걸, 손학규, 김근태, 추미애, 이재명, 박종철, 이한열, 인재근, 박영선, 안희정, 문재인, 문희상, 박완주, 이인영, 유은혜, 임종석, 설훈, 김부겸, 우원식 마석, 서울, 경기, 남양주, 모란공원, 도봉구 국민의당, 민주평화국민연대, 민주통합당, 성남시장, 행정안전부, 민주당, 창동성당, 충남지사, 대통령비서실, 더불어민주당김근태 민주주의자 상임고문 민주당