Overview

Dataset statistics

Number of variables15
Number of observations1541
Missing cells3077
Missing cells (%)13.3%
Duplicate rows0
Duplicate rows (%)0.0%
Total size in memory180.7 KiB
Average record size in memory120.1 B

Variable types

Text7
Categorical8

Dataset

Description뉴스데이터베이스 "BIGKinds" 기반 분석 자료, 기사 메타정보
Author한국언론진흥재단
URLhttps://www.data.go.kr/data/15072749/fileData.do

Alerts

사건_사고 분류4 has constant value ""Constant
일자 is highly overall correlated with 사건_사고 분류2High correlation
소스 is highly overall correlated with 사건_사고 분류2High correlation
통합 분류1 is highly overall correlated with 사건_사고 분류2High correlation
통합 분류2 is highly overall correlated with 사건_사고 분류2High correlation
통합 분류3 is highly overall correlated with 사건_사고 분류2High correlation
사건_사고 분류1 is highly overall correlated with 사건_사고 분류2High correlation
사건_사고 분류2 is highly overall correlated with 일자 and 5 other fieldsHigh correlation
사건_사고 분류1 is highly imbalanced (68.6%)Imbalance
사건_사고 분류2 is highly imbalanced (90.9%)Imbalance
사건_사고 분류3 has 1538 (99.8%) missing valuesMissing
사건_사고 분류4 has 1539 (99.9%) missing valuesMissing

Reproduction

Analysis started2023-12-12 22:11:34.253188
Analysis finished2023-12-12 22:11:36.419222
Duration2.17 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

주소
Text

Distinct773
Distinct (%)50.2%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
2023-12-13T07:11:36.657739image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length82
Median length82
Mean length82
Min length82

Characters and Unicode

Total characters126362
Distinct characters34
Distinct categories5 ?
Distinct scripts2 ?
Distinct blocks1 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique421 ?
Unique (%)27.3%

Sample

1st rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100501.20180101162409001
2nd rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=07101201.20180101011119001
3rd rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=07101201.20180101011140001
4th rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100201.20180101083117004
5th rowhttp://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01101101.20180101050835003
ValueCountFrequency (%)
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=02100701.20180115105134001 12
 
0.8%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01100101.20180111141535001 12
 
0.8%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=02100311.20180115145208002 12
 
0.8%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=02100101.20180108175338004 12
 
0.8%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=07101201.20180109011145002 11
 
0.7%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=01100611.20180117034111001 10
 
0.6%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=07100501.20180110152615002 10
 
0.6%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=07100501.20180110141719002 10
 
0.6%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=07100501.20180110103144001 10
 
0.6%
http://www.bigkinds.or.kr/news/newsdetailview.do?newsid=02100201.20180125233655003 9
 
0.6%
Other values (763) 1433
93.0%
2023-12-13T07:11:37.194640image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
0 13750
 
10.9%
1 11310
 
9.0%
w 10787
 
8.5%
e 7705
 
6.1%
. 7705
 
6.1%
n 6164
 
4.9%
s 6164
 
4.9%
/ 6164
 
4.9%
i 6164
 
4.9%
2 4835
 
3.8%
Other values (24) 45614
36.1%

Most occurring categories

ValueCountFrequency (%)
Lowercase Letter 64722
51.2%
Decimal Number 38525
30.5%
Other Punctuation 16951
 
13.4%
Uppercase Letter 4623
 
3.7%
Math Symbol 1541
 
1.2%

Most frequent character per category

Lowercase Letter
ValueCountFrequency (%)
w 10787
16.7%
e 7705
11.9%
n 6164
9.5%
s 6164
9.5%
i 6164
9.5%
d 4623
7.1%
t 4623
7.1%
o 3082
 
4.8%
r 3082
 
4.8%
k 3082
 
4.8%
Other values (6) 9246
14.3%
Decimal Number
ValueCountFrequency (%)
0 13750
35.7%
1 11310
29.4%
2 4835
 
12.6%
8 2384
 
6.2%
3 1721
 
4.5%
5 1364
 
3.5%
4 1198
 
3.1%
7 850
 
2.2%
6 684
 
1.8%
9 429
 
1.1%
Other Punctuation
ValueCountFrequency (%)
. 7705
45.5%
/ 6164
36.4%
? 1541
 
9.1%
: 1541
 
9.1%
Uppercase Letter
ValueCountFrequency (%)
I 1541
33.3%
D 1541
33.3%
V 1541
33.3%
Math Symbol
ValueCountFrequency (%)
= 1541
100.0%

Most occurring scripts

ValueCountFrequency (%)
Latin 69345
54.9%
Common 57017
45.1%

Most frequent character per script

Latin
ValueCountFrequency (%)
w 10787
15.6%
e 7705
11.1%
n 6164
8.9%
s 6164
8.9%
i 6164
8.9%
d 4623
 
6.7%
t 4623
 
6.7%
o 3082
 
4.4%
r 3082
 
4.4%
k 3082
 
4.4%
Other values (9) 13869
20.0%
Common
ValueCountFrequency (%)
0 13750
24.1%
1 11310
19.8%
. 7705
13.5%
/ 6164
10.8%
2 4835
 
8.5%
8 2384
 
4.2%
3 1721
 
3.0%
= 1541
 
2.7%
? 1541
 
2.7%
: 1541
 
2.7%
Other values (5) 4525
 
7.9%

Most occurring blocks

ValueCountFrequency (%)
ASCII 126362
100.0%

Most frequent character per block

ASCII
ValueCountFrequency (%)
0 13750
 
10.9%
1 11310
 
9.0%
w 10787
 
8.5%
e 7705
 
6.1%
. 7705
 
6.1%
n 6164
 
4.9%
s 6164
 
4.9%
/ 6164
 
4.9%
i 6164
 
4.9%
2 4835
 
3.8%
Other values (24) 45614
36.1%

일자
Categorical

HIGH CORRELATION 

Distinct31
Distinct (%)2.0%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
2018-01-11
192 
2018-01-15
114 
2018-01-17
 
96
2018-01-10
 
89
2018-01-08
 
84
Other values (26)
966 

Length

Max length10
Median length10
Mean length10
Min length10

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row2018-01-01
2nd row2018-01-01
3rd row2018-01-01
4th row2018-01-01
5th row2018-01-01

Common Values

ValueCountFrequency (%)
2018-01-11 192
 
12.5%
2018-01-15 114
 
7.4%
2018-01-17 96
 
6.2%
2018-01-10 89
 
5.8%
2018-01-08 84
 
5.5%
2018-01-16 84
 
5.5%
2018-01-18 82
 
5.3%
2018-01-25 77
 
5.0%
2018-01-26 70
 
4.5%
2018-01-03 70
 
4.5%
Other values (21) 583
37.8%

Length

2023-12-13T07:11:37.336135image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
2018-01-11 192
 
12.5%
2018-01-15 114
 
7.4%
2018-01-17 96
 
6.2%
2018-01-10 89
 
5.8%
2018-01-08 84
 
5.5%
2018-01-16 84
 
5.5%
2018-01-18 82
 
5.3%
2018-01-25 77
 
5.0%
2018-01-26 70
 
4.5%
2018-01-03 70
 
4.5%
Other values (21) 583
37.8%

언론사
Categorical

Distinct39
Distinct (%)2.5%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
머니투데이
202 
서울경제
201 
아시아경제
187 
매일경제
121 
헤럴드경제
97 
Other values (34)
733 

Length

Max length6
Median length4
Mean length4.4276444
Min length3

Unique

Unique8 ?
Unique (%)0.5%

Sample

1st row파이낸셜뉴스
2nd row디지털타임스
3rd row디지털타임스
4th row머니투데이
5th row한국일보

Common Values

ValueCountFrequency (%)
머니투데이 202
13.1%
서울경제 201
13.0%
아시아경제 187
12.1%
매일경제 121
 
7.9%
헤럴드경제 97
 
6.3%
전자신문 93
 
6.0%
국민일보 84
 
5.5%
경향신문 79
 
5.1%
서울신문 67
 
4.3%
한국일보 59
 
3.8%
Other values (29) 351
22.8%

Length

2023-12-13T07:11:37.451486image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
머니투데이 202
13.1%
서울경제 201
13.0%
아시아경제 187
12.1%
매일경제 121
 
7.9%
헤럴드경제 97
 
6.3%
전자신문 93
 
6.0%
국민일보 84
 
5.5%
경향신문 79
 
5.1%
서울신문 67
 
4.3%
한국일보 59
 
3.8%
Other values (29) 351
22.8%

제목
Text

Distinct730
Distinct (%)47.4%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
2023-12-13T07:11:37.803016image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length62
Median length50
Mean length31.528228
Min length13

Characters and Unicode

Total characters48585
Distinct characters804
Distinct categories16 ?
Distinct scripts4 ?
Distinct blocks10 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique374 ?
Unique (%)24.3%

Sample

1st row[개혁과 도약 2018 함께 뛰자, 대한민국] 다시 열린 경제 성장판 '개혁 골든타임'
2nd row"올해 3만 달러 소득시대 국민 삶의 질 개선"
3rd row반도체 수출 편중 내수 침체 "올 성장률, 2%대 후반"
4th row최저임금 7530원 오늘 적용 소득증가 vs 고용축소 '팽팽'
5th row[신년 좌담회] 한국산업의 미래 “아이돌 그룹처럼 성공사례 나와야 스타트업 열풍 불 것”
ValueCountFrequency (%)
가상화폐 236
 
2.0%
거래소 186
 
1.6%
김동연 185
 
1.6%
최종구 142
 
1.2%
정부 125
 
1.1%
폐쇄 121
 
1.0%
트럼프 105
 
0.9%
일자리 76
 
0.7%
최저임금 63
 
0.5%
대통령 62
 
0.5%
Other values (2978) 10348
88.8%
2023-12-13T07:11:38.328382image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
10116
 
20.8%
" 1058
 
2.2%
689
 
1.4%
658
 
1.4%
580
 
1.2%
, 569
 
1.2%
561
 
1.2%
528
 
1.1%
521
 
1.1%
475
 
1.0%
Other values (794) 32830
67.6%

Most occurring categories

ValueCountFrequency (%)
Other Letter 32350
66.6%
Space Separator 10116
 
20.8%
Other Punctuation 2624
 
5.4%
Decimal Number 1207
 
2.5%
Initial Punctuation 465
 
1.0%
Final Punctuation 455
 
0.9%
Uppercase Letter 393
 
0.8%
Close Punctuation 356
 
0.7%
Open Punctuation 356
 
0.7%
Math Symbol 80
 
0.2%
Other values (6) 183
 
0.4%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
689
 
2.1%
658
 
2.0%
580
 
1.8%
561
 
1.7%
528
 
1.6%
521
 
1.6%
475
 
1.5%
469
 
1.4%
439
 
1.4%
373
 
1.2%
Other values (715) 27057
83.6%
Uppercase Letter
ValueCountFrequency (%)
T 60
15.3%
L 47
12.0%
G 46
11.7%
P 36
9.2%
A 31
7.9%
F 23
 
5.9%
I 22
 
5.6%
O 20
 
5.1%
S 16
 
4.1%
W 16
 
4.1%
Other values (13) 76
19.3%
Lowercase Letter
ValueCountFrequency (%)
e 10
16.4%
d 8
13.1%
n 7
11.5%
p 5
8.2%
s 5
8.2%
v 5
8.2%
f 5
8.2%
o 4
 
6.6%
i 4
 
6.6%
l 2
 
3.3%
Other values (3) 6
9.8%
Decimal Number
ValueCountFrequency (%)
0 324
26.8%
2 187
15.5%
3 185
15.3%
1 172
14.3%
4 69
 
5.7%
6 64
 
5.3%
5 60
 
5.0%
8 52
 
4.3%
7 49
 
4.1%
9 45
 
3.7%
Other Punctuation
ValueCountFrequency (%)
" 1058
40.3%
, 569
21.7%
. 425
16.2%
' 368
 
14.0%
% 95
 
3.6%
? 88
 
3.4%
& 9
 
0.3%
/ 7
 
0.3%
! 5
 
0.2%
Math Symbol
ValueCountFrequency (%)
~ 23
28.7%
< 11
13.8%
> 11
13.8%
9
 
11.2%
9
 
11.2%
+ 8
 
10.0%
8
 
10.0%
= 1
 
1.2%
Other Number
ValueCountFrequency (%)
6
54.5%
3
27.3%
2
 
18.2%
Close Punctuation
ValueCountFrequency (%)
] 303
85.1%
) 53
 
14.9%
Open Punctuation
ValueCountFrequency (%)
[ 303
85.1%
( 53
 
14.9%
Initial Punctuation
ValueCountFrequency (%)
275
59.1%
190
40.9%
Final Punctuation
ValueCountFrequency (%)
265
58.2%
190
41.8%
Space Separator
ValueCountFrequency (%)
10116
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 64
100.0%
Modifier Symbol
ValueCountFrequency (%)
` 42
100.0%
Other Symbol
ValueCountFrequency (%)
3
100.0%
Letter Number
ValueCountFrequency (%)
2
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 32003
65.9%
Common 15779
32.5%
Latin 456
 
0.9%
Han 347
 
0.7%

Most frequent character per script

Hangul
ValueCountFrequency (%)
689
 
2.2%
658
 
2.1%
580
 
1.8%
561
 
1.8%
528
 
1.6%
521
 
1.6%
475
 
1.5%
469
 
1.5%
439
 
1.4%
373
 
1.2%
Other values (675) 26710
83.5%
Common
ValueCountFrequency (%)
10116
64.1%
" 1058
 
6.7%
, 569
 
3.6%
. 425
 
2.7%
' 368
 
2.3%
0 324
 
2.1%
] 303
 
1.9%
[ 303
 
1.9%
275
 
1.7%
265
 
1.7%
Other values (32) 1773
 
11.2%
Han
ValueCountFrequency (%)
108
31.1%
83
23.9%
29
 
8.4%
24
 
6.9%
13
 
3.7%
9
 
2.6%
8
 
2.3%
6
 
1.7%
6
 
1.7%
6
 
1.7%
Other values (30) 55
15.9%
Latin
ValueCountFrequency (%)
T 60
13.2%
L 47
 
10.3%
G 46
 
10.1%
P 36
 
7.9%
A 31
 
6.8%
F 23
 
5.0%
I 22
 
4.8%
O 20
 
4.4%
S 16
 
3.5%
W 16
 
3.5%
Other values (27) 139
30.5%

Most occurring blocks

ValueCountFrequency (%)
Hangul 31988
65.8%
ASCII 15273
31.4%
Punctuation 920
 
1.9%
CJK 341
 
0.7%
Arrows 26
 
0.1%
Compat Jamo 15
 
< 0.1%
Enclosed Alphanum 11
 
< 0.1%
CJK Compat Ideographs 6
 
< 0.1%
Box Drawing 3
 
< 0.1%
Number Forms 2
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
10116
66.2%
" 1058
 
6.9%
, 569
 
3.7%
. 425
 
2.8%
' 368
 
2.4%
0 324
 
2.1%
] 303
 
2.0%
[ 303
 
2.0%
2 187
 
1.2%
3 185
 
1.2%
Other values (57) 1435
 
9.4%
Hangul
ValueCountFrequency (%)
689
 
2.2%
658
 
2.1%
580
 
1.8%
561
 
1.8%
528
 
1.7%
521
 
1.6%
475
 
1.5%
469
 
1.5%
439
 
1.4%
373
 
1.2%
Other values (674) 26695
83.5%
Punctuation
ValueCountFrequency (%)
275
29.9%
265
28.8%
190
20.7%
190
20.7%
CJK
ValueCountFrequency (%)
108
31.7%
83
24.3%
29
 
8.5%
24
 
7.0%
13
 
3.8%
9
 
2.6%
8
 
2.3%
6
 
1.8%
6
 
1.8%
6
 
1.8%
Other values (28) 49
14.4%
Compat Jamo
ValueCountFrequency (%)
15
100.0%
Arrows
ValueCountFrequency (%)
9
34.6%
9
34.6%
8
30.8%
Enclosed Alphanum
ValueCountFrequency (%)
6
54.5%
3
27.3%
2
 
18.2%
CJK Compat Ideographs
ValueCountFrequency (%)
4
66.7%
2
33.3%
Box Drawing
ValueCountFrequency (%)
3
100.0%
Number Forms
ValueCountFrequency (%)
2
100.0%

소스
Categorical

HIGH CORRELATION 

Distinct19
Distinct (%)1.2%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
최종구 금융 위원장
338 
김동연 부총리 겸 기획재정부 장관
186 
박상기 법무부 장관
174 
문재인 대통령
172 
트럼프 대통령
164 
Other values (14)
507 

Length

Max length20
Median length18
Mean length10.795587
Min length5

Unique

Unique1 ?
Unique (%)0.1%

Sample

1st row김동연 경제부총리 겸 기획재정부 장관
2nd row김동연 경제부총리 겸 기획재정부 장관
3rd row김동연 경제부총리 겸 기획재정부 장관
4th row김동연 부총리 겸 기획재정부 장관
5th row김동연 경제부총리 겸 기획재정부 장관

Common Values

ValueCountFrequency (%)
최종구 금융 위원장 338
21.9%
김동연 부총리 겸 기획재정부 장관 186
12.1%
박상기 법무부 장관 174
11.3%
문재인 대통령 172
11.2%
트럼프 대통령 164
10.6%
김동연 경제부총리 겸 기획재정부 장관 141
9.1%
문 대통령 103
 
6.7%
김동연 부총리 62
 
4.0%
도널드 트럼프 미국 대통령 48
 
3.1%
최종구 금융위원장 46
 
3.0%
Other values (9) 107
 
6.9%

Length

2023-12-13T07:11:38.470051image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
대통령 505
10.7%
장관 505
10.7%
김동연 430
9.1%
최종구 417
8.9%
위원장 371
 
7.9%
금융 343
 
7.3%
기획재정부 327
 
6.9%
327
 
6.9%
부총리 248
 
5.3%
트럼프 230
 
4.9%
Other values (12) 1005
21.3%

통합 분류1
Categorical

HIGH CORRELATION 

Distinct28
Distinct (%)1.8%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
<NA>
327 
경제>금융_재테크
269 
경제>국제경제
187 
경제>경제일반
138 
경제>산업_기업
132 
Other values (23)
488 

Length

Max length13
Median length8
Mean length6.8150552
Min length4

Unique

Unique1 ?
Unique (%)0.1%

Sample

1st row<NA>
2nd row<NA>
3rd row<NA>
4th row<NA>
5th row<NA>

Common Values

ValueCountFrequency (%)
<NA> 327
21.2%
경제>금융_재테크 269
17.5%
경제>국제경제 187
12.1%
경제>경제일반 138
9.0%
경제>산업_기업 132
8.6%
경제>취업_창업 94
 
6.1%
국제>국제일반 68
 
4.4%
경제>증권_증시 55
 
3.6%
정치>청와대 44
 
2.9%
정치>외교 33
 
2.1%
Other values (18) 194
12.6%

Length

2023-12-13T07:11:38.583335image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 327
21.2%
경제>금융_재테크 269
17.5%
경제>국제경제 187
12.1%
경제>경제일반 138
9.0%
경제>산업_기업 132
8.6%
경제>취업_창업 94
 
6.1%
국제>국제일반 68
 
4.4%
경제>증권_증시 55
 
3.6%
정치>청와대 44
 
2.9%
정치>외교 33
 
2.1%
Other values (18) 194
12.6%

통합 분류2
Categorical

HIGH CORRELATION 

Distinct36
Distinct (%)2.3%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
<NA>
283 
경제>국제경제
221 
경제>산업_기업
185 
경제>경제일반
166 
경제>금융_재테크
95 
Other values (31)
591 

Length

Max length13
Median length10
Mean length6.8007787
Min length4

Unique

Unique5 ?
Unique (%)0.3%

Sample

1st row경제>산업_기업
2nd row정치>청와대
3rd row경제>산업_기업
4th row경제>취업_창업
5th row경제>산업_기업

Common Values

ValueCountFrequency (%)
<NA> 283
18.4%
경제>국제경제 221
14.3%
경제>산업_기업 185
12.0%
경제>경제일반 166
10.8%
경제>금융_재테크 95
 
6.2%
경제>취업_창업 75
 
4.9%
정치>행정_자치 63
 
4.1%
경제>증권_증시 61
 
4.0%
국제>국제일반 54
 
3.5%
경제>부동산 51
 
3.3%
Other values (26) 287
18.6%

Length

2023-12-13T07:11:38.719587image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 283
18.4%
경제>국제경제 221
14.3%
경제>산업_기업 185
12.0%
경제>경제일반 166
10.8%
경제>금융_재테크 95
 
6.2%
경제>취업_창업 75
 
4.9%
정치>행정_자치 63
 
4.1%
경제>증권_증시 61
 
4.0%
국제>국제일반 54
 
3.5%
경제>부동산 51
 
3.3%
Other values (26) 287
18.6%

통합 분류3
Categorical

HIGH CORRELATION 

Distinct31
Distinct (%)2.0%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
<NA>
783 
경제>국제경제
199 
경제>금융_재테크
96 
경제>산업_기업
 
76
경제>증권_증시
 
45
Other values (26)
342 

Length

Max length13
Median length4
Mean length5.7235561
Min length4

Unique

Unique1 ?
Unique (%)0.1%

Sample

1st row경제>국제경제
2nd row경제>경제일반
3rd row경제>국제경제
4th row경제>국제경제
5th rowIT_과학>인터넷_SNS

Common Values

ValueCountFrequency (%)
<NA> 783
50.8%
경제>국제경제 199
 
12.9%
경제>금융_재테크 96
 
6.2%
경제>산업_기업 76
 
4.9%
경제>증권_증시 45
 
2.9%
경제>취업_창업 44
 
2.9%
국제>미국_북미 35
 
2.3%
경제>무역 29
 
1.9%
정치>행정_자치 24
 
1.6%
정치>청와대 23
 
1.5%
Other values (21) 187
 
12.1%

Length

2023-12-13T07:11:38.840923image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 783
50.8%
경제>국제경제 199
 
12.9%
경제>금융_재테크 96
 
6.2%
경제>산업_기업 76
 
4.9%
경제>증권_증시 45
 
2.9%
경제>취업_창업 44
 
2.9%
국제>미국_북미 35
 
2.3%
경제>무역 29
 
1.9%
정치>행정_자치 24
 
1.6%
정치>청와대 23
 
1.5%
Other values (21) 187
 
12.1%

사건_사고 분류1
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct31
Distinct (%)2.0%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
<NA>
1211 
범죄>기업범죄>거래제한
 
80
범죄>범죄일반>사기
 
38
경제>국제경제
 
34
경제>금융_재테크
 
29
Other values (26)
149 

Length

Max length13
Median length4
Mean length5.1661259
Min length4

Unique

Unique7 ?
Unique (%)0.5%

Sample

1st row정치>정치일반
2nd row<NA>
3rd row경제>무역
4th row사회>노동_복지
5th row경제>취업_창업

Common Values

ValueCountFrequency (%)
<NA> 1211
78.6%
범죄>기업범죄>거래제한 80
 
5.2%
범죄>범죄일반>사기 38
 
2.5%
경제>국제경제 34
 
2.2%
경제>금융_재테크 29
 
1.9%
경제>산업_기업 24
 
1.6%
경제>증권_증시 23
 
1.5%
범죄>범죄일반>절도 19
 
1.2%
사고>산업사고>화재 18
 
1.2%
정치>정치일반 11
 
0.7%
Other values (21) 54
 
3.5%

Length

2023-12-13T07:11:38.948191image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
na 1211
78.6%
범죄>기업범죄>거래제한 80
 
5.2%
범죄>범죄일반>사기 38
 
2.5%
경제>국제경제 34
 
2.2%
경제>금융_재테크 29
 
1.9%
경제>산업_기업 24
 
1.6%
경제>증권_증시 23
 
1.5%
범죄>범죄일반>절도 19
 
1.2%
사고>산업사고>화재 18
 
1.2%
정치>정치일반 11
 
0.7%
Other values (21) 54
 
3.5%

사건_사고 분류2
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct10
Distinct (%)0.6%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
<NA>
1488 
범죄>범죄일반>사기
 
20
범죄>기업범죄>거래제한
 
10
사고>산업사고>화재
 
9
범죄>범죄일반>절도
 
7
Other values (5)
 
7

Length

Max length12
Median length4
Mean length4.220636
Min length4

Unique

Unique3 ?
Unique (%)0.2%

Sample

1st row<NA>
2nd row<NA>
3rd row<NA>
4th row<NA>
5th row<NA>

Common Values

ValueCountFrequency (%)
<NA> 1488
96.6%
범죄>범죄일반>사기 20
 
1.3%
범죄>기업범죄>거래제한 10
 
0.6%
사고>산업사고>화재 9
 
0.6%
범죄>범죄일반>절도 7
 
0.5%
범죄>성범죄>성추행 2
 
0.1%
사고>산업사고>폭발 2
 
0.1%
재해>자연재해>폭염 1
 
0.1%
사고>교통사고>노상사고 1
 
0.1%
범죄>범죄일반>방화 1
 
0.1%

Length

2023-12-13T07:11:39.068420image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-13T07:11:39.204222image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
na 1488
96.6%
범죄>범죄일반>사기 20
 
1.3%
범죄>기업범죄>거래제한 10
 
0.6%
사고>산업사고>화재 9
 
0.6%
범죄>범죄일반>절도 7
 
0.5%
범죄>성범죄>성추행 2
 
0.1%
사고>산업사고>폭발 2
 
0.1%
재해>자연재해>폭염 1
 
0.1%
사고>교통사고>노상사고 1
 
0.1%
범죄>범죄일반>방화 1
 
0.1%

사건_사고 분류3
Text

MISSING 

Distinct2
Distinct (%)66.7%
Missing1538
Missing (%)99.8%
Memory size12.2 KiB
2023-12-13T07:11:39.343795image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length10
Median length10
Mean length10
Min length10

Characters and Unicode

Total characters30
Distinct characters9
Distinct categories2 ?
Distinct scripts2 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique1 ?
Unique (%)33.3%

Sample

1st row범죄>범죄일반>방화
2nd row범죄>범죄일반>방화
3rd row범죄>범죄일반>사기
ValueCountFrequency (%)
범죄>범죄일반>방화 2
66.7%
범죄>범죄일반>사기 1
33.3%
2023-12-13T07:11:39.594282image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
6
20.0%
6
20.0%
> 6
20.0%
3
10.0%
3
10.0%
2
 
6.7%
2
 
6.7%
1
 
3.3%
1
 
3.3%

Most occurring categories

ValueCountFrequency (%)
Other Letter 24
80.0%
Math Symbol 6
 
20.0%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
6
25.0%
6
25.0%
3
12.5%
3
12.5%
2
 
8.3%
2
 
8.3%
1
 
4.2%
1
 
4.2%
Math Symbol
ValueCountFrequency (%)
> 6
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 24
80.0%
Common 6
 
20.0%

Most frequent character per script

Hangul
ValueCountFrequency (%)
6
25.0%
6
25.0%
3
12.5%
3
12.5%
2
 
8.3%
2
 
8.3%
1
 
4.2%
1
 
4.2%
Common
ValueCountFrequency (%)
> 6
100.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 24
80.0%
ASCII 6
 
20.0%

Most frequent character per block

Hangul
ValueCountFrequency (%)
6
25.0%
6
25.0%
3
12.5%
3
12.5%
2
 
8.3%
2
 
8.3%
1
 
4.2%
1
 
4.2%
ASCII
ValueCountFrequency (%)
> 6
100.0%

사건_사고 분류4
Text

CONSTANT  MISSING 

Distinct1
Distinct (%)50.0%
Missing1539
Missing (%)99.9%
Memory size12.2 KiB
2023-12-13T07:11:39.728581image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length10
Median length10
Mean length10
Min length10

Characters and Unicode

Total characters20
Distinct characters7
Distinct categories2 ?
Distinct scripts2 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row범죄>범죄일반>사기
2nd row범죄>범죄일반>사기
ValueCountFrequency (%)
범죄>범죄일반>사기 2
100.0%
2023-12-13T07:11:39.987802image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
4
20.0%
4
20.0%
> 4
20.0%
2
10.0%
2
10.0%
2
10.0%
2
10.0%

Most occurring categories

ValueCountFrequency (%)
Other Letter 16
80.0%
Math Symbol 4
 
20.0%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
4
25.0%
4
25.0%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
Math Symbol
ValueCountFrequency (%)
> 4
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 16
80.0%
Common 4
 
20.0%

Most frequent character per script

Hangul
ValueCountFrequency (%)
4
25.0%
4
25.0%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
Common
ValueCountFrequency (%)
> 4
100.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 16
80.0%
ASCII 4
 
20.0%

Most frequent character per block

Hangul
ValueCountFrequency (%)
4
25.0%
4
25.0%
2
12.5%
2
12.5%
2
12.5%
2
12.5%
ASCII
ValueCountFrequency (%)
> 4
100.0%
Distinct1232
Distinct (%)79.9%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
2023-12-13T07:11:40.264284image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length166
Median length95
Mean length44.728748
Min length15

Characters and Unicode

Total characters68927
Distinct characters721
Distinct categories12 ?
Distinct scripts5 ?
Distinct blocks7 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique1025 ?
Unique (%)66.5%

Sample

1st row저출산.고령화 등 사회·경제적 과제를 극복할 수 있는 모멘텀을 만들지 못하면 한국 경제는 5, 10년 후 어려운 지경에 처한다
2nd row새해는 3만 달러 소득시대를 여는 원년이 될 것이며, 경제의 역동성을 살려 견고한 성장세가 지속 되도록 하겠다
3rd row내년에는 국민소득 3만 달러 시대에 확실히 들어갈 것
4th row소득주도 성장을 위해서는 근로소득 개선이 무엇보다 중요하며 그 출발점이 최저임금 인상
5th row혁신하지 않으면 경제가 바뀔 수 없다
ValueCountFrequency (%)
279
 
1.6%
있다 249
 
1.5%
138
 
0.8%
가상화폐 135
 
0.8%
128
 
0.7%
거래소 102
 
0.6%
있는 89
 
0.5%
일자리 82
 
0.5%
우리 78
 
0.5%
대한 78
 
0.5%
Other values (5230) 15737
92.1%
2023-12-13T07:11:40.907557image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
15556
 
22.6%
1268
 
1.8%
1212
 
1.8%
1178
 
1.7%
1134
 
1.6%
1119
 
1.6%
1091
 
1.6%
853
 
1.2%
835
 
1.2%
802
 
1.2%
Other values (711) 43879
63.7%

Most occurring categories

ValueCountFrequency (%)
Other Letter 51617
74.9%
Space Separator 15556
 
22.6%
Decimal Number 571
 
0.8%
Other Punctuation 569
 
0.8%
Open Punctuation 154
 
0.2%
Close Punctuation 153
 
0.2%
Uppercase Letter 149
 
0.2%
Initial Punctuation 45
 
0.1%
Final Punctuation 45
 
0.1%
Lowercase Letter 35
 
0.1%
Other values (2) 33
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
1268
 
2.5%
1212
 
2.3%
1178
 
2.3%
1134
 
2.2%
1119
 
2.2%
1091
 
2.1%
853
 
1.7%
835
 
1.6%
802
 
1.6%
794
 
1.5%
Other values (650) 41331
80.1%
Lowercase Letter
ValueCountFrequency (%)
t 5
14.3%
o 4
11.4%
i 4
11.4%
c 3
 
8.6%
p 2
 
5.7%
y 2
 
5.7%
l 2
 
5.7%
k 2
 
5.7%
α 2
 
5.7%
g 1
 
2.9%
Other values (8) 8
22.9%
Uppercase Letter
ValueCountFrequency (%)
G 20
13.4%
L 19
12.8%
T 17
11.4%
U 14
9.4%
E 12
8.1%
F 11
7.4%
O 11
7.4%
P 11
7.4%
I 9
6.0%
C 7
 
4.7%
Other values (5) 18
12.1%
Decimal Number
ValueCountFrequency (%)
0 126
22.1%
3 114
20.0%
2 112
19.6%
1 77
13.5%
4 49
 
8.6%
5 32
 
5.6%
7 20
 
3.5%
8 19
 
3.3%
9 14
 
2.5%
6 8
 
1.4%
Other Punctuation
ValueCountFrequency (%)
, 377
66.3%
· 76
 
13.4%
' 54
 
9.5%
% 48
 
8.4%
. 12
 
2.1%
1
 
0.2%
? 1
 
0.2%
Math Symbol
ValueCountFrequency (%)
~ 22
73.3%
4
 
13.3%
+ 2
 
6.7%
> 1
 
3.3%
< 1
 
3.3%
Space Separator
ValueCountFrequency (%)
15556
100.0%
Open Punctuation
ValueCountFrequency (%)
( 154
100.0%
Close Punctuation
ValueCountFrequency (%)
) 153
100.0%
Initial Punctuation
ValueCountFrequency (%)
45
100.0%
Final Punctuation
ValueCountFrequency (%)
45
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 3
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 51613
74.9%
Common 17126
 
24.8%
Latin 182
 
0.3%
Han 4
 
< 0.1%
Greek 2
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
1268
 
2.5%
1212
 
2.3%
1178
 
2.3%
1134
 
2.2%
1119
 
2.2%
1091
 
2.1%
853
 
1.7%
835
 
1.6%
802
 
1.6%
794
 
1.5%
Other values (647) 41327
80.1%
Latin
ValueCountFrequency (%)
G 20
 
11.0%
L 19
 
10.4%
T 17
 
9.3%
U 14
 
7.7%
E 12
 
6.6%
F 11
 
6.0%
O 11
 
6.0%
P 11
 
6.0%
I 9
 
4.9%
C 7
 
3.8%
Other values (22) 51
28.0%
Common
ValueCountFrequency (%)
15556
90.8%
, 377
 
2.2%
( 154
 
0.9%
) 153
 
0.9%
0 126
 
0.7%
3 114
 
0.7%
2 112
 
0.7%
1 77
 
0.4%
· 76
 
0.4%
' 54
 
0.3%
Other values (18) 327
 
1.9%
Han
ValueCountFrequency (%)
2
50.0%
1
25.0%
1
25.0%
Greek
ValueCountFrequency (%)
α 2
100.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 51605
74.9%
ASCII 17137
 
24.9%
Punctuation 91
 
0.1%
None 78
 
0.1%
Compat Jamo 8
 
< 0.1%
Math Operators 4
 
< 0.1%
CJK 4
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
15556
90.8%
, 377
 
2.2%
( 154
 
0.9%
) 153
 
0.9%
0 126
 
0.7%
3 114
 
0.7%
2 112
 
0.7%
1 77
 
0.4%
' 54
 
0.3%
4 49
 
0.3%
Other values (45) 365
 
2.1%
Hangul
ValueCountFrequency (%)
1268
 
2.5%
1212
 
2.3%
1178
 
2.3%
1134
 
2.2%
1119
 
2.2%
1091
 
2.1%
853
 
1.7%
835
 
1.6%
802
 
1.6%
794
 
1.5%
Other values (646) 41319
80.1%
None
ValueCountFrequency (%)
· 76
97.4%
α 2
 
2.6%
Punctuation
ValueCountFrequency (%)
45
49.5%
45
49.5%
1
 
1.1%
Compat Jamo
ValueCountFrequency (%)
8
100.0%
Math Operators
ValueCountFrequency (%)
4
100.0%
CJK
ValueCountFrequency (%)
2
50.0%
1
25.0%
1
25.0%
Distinct735
Distinct (%)47.7%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
2023-12-13T07:11:41.171131image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length339
Median length164
Mean length72.434134
Min length5

Characters and Unicode

Total characters111621
Distinct characters625
Distinct categories10 ?
Distinct scripts4 ?
Distinct blocks5 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique377 ?
Unique (%)24.5%

Sample

1st row이주열, 성태윤, 김동연 북한, 대한민국, 한국 IMF, 중국, 기획재정부, 연세대, 국가재, 한국은행, 한국, 국제통화기금
2nd row세종, 김동연 기획재정부
3rd row김기흥, 이창선, 김동연, 홍준표, 성태윤, 양준모, 박용정, 윤창현 미국, 한국 간담회, IMF, 디지털타임스, 현대경제연구원, 연세대, 석유화학, 서울시립대, 정부의, 기자단, 경기대, OECD, 글로벌, 기획재정부, 경제협력개발기구, LG경제연구원, 국제통화기금
4th row이윤재, 박지순, 김동연, 세종, 김준 줄도산 경제관계장관회의, 노동대학원, 노동자의, 중소기업중앙회, 고려대, 기획재정부, 고용노동부, 숭실대, 국회입법조사처
5th row크리스, 김동연, 김수호, 오바마, 이윤희, 클레이턴, 이장균, 신현한, 맥킨지 이스라엘, 중구, 미국, 서울, 일본, 영국, 중국, 싱가포르, 한국, 금산 대한상의회, 구글, 메디힐, 대한상의, 하버드대, 현대경제연구원, 연세대, 한국, 삼성전자, 아마존, 한국사무소, 페이스북, 생산기술센터, 글로벌, 기획재정부, 대한상공회의소, 요즈마, 정보통신, 스타트업코리아, 핀테크, 대한민국, 모비두, 롤스로이스, d Technology Center, 컨소시엄, CVC, 대부분, 애플, 롯데 L페이, 나스닥
ValueCountFrequency (%)
미국 596
 
2.8%
금융위 556
 
2.6%
김동연 498
 
2.4%
정부의 498
 
2.4%
한국 471
 
2.2%
기획재정부 436
 
2.1%
서울 434
 
2.1%
트럼프 423
 
2.0%
중국 321
 
1.5%
문재인 297
 
1.4%
Other values (2331) 16569
78.5%
2023-12-13T07:11:41.628615image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
20194
 
18.1%
, 16424
 
14.7%
2655
 
2.4%
2437
 
2.2%
2367
 
2.1%
1785
 
1.6%
1733
 
1.6%
1523
 
1.4%
1511
 
1.4%
1445
 
1.3%
Other values (615) 59547
53.3%

Most occurring categories

ValueCountFrequency (%)
Other Letter 71384
64.0%
Space Separator 20194
 
18.1%
Other Punctuation 16513
 
14.8%
Uppercase Letter 3332
 
3.0%
Decimal Number 88
 
0.1%
Lowercase Letter 81
 
0.1%
Open Punctuation 11
 
< 0.1%
Close Punctuation 9
 
< 0.1%
Dash Punctuation 7
 
< 0.1%
Other Symbol 2
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
2655
 
3.7%
2437
 
3.4%
2367
 
3.3%
1785
 
2.5%
1733
 
2.4%
1523
 
2.1%
1511
 
2.1%
1445
 
2.0%
1428
 
2.0%
1399
 
2.0%
Other values (560) 53101
74.4%
Uppercase Letter
ValueCountFrequency (%)
I 296
 
8.9%
C 277
 
8.3%
B 261
 
7.8%
T 246
 
7.4%
F 236
 
7.1%
K 231
 
6.9%
S 202
 
6.1%
U 198
 
5.9%
A 183
 
5.5%
G 182
 
5.5%
Other values (15) 1020
30.6%
Lowercase Letter
ValueCountFrequency (%)
t 15
18.5%
b 14
17.3%
s 14
17.3%
e 11
13.6%
o 10
12.3%
d 9
11.1%
n 2
 
2.5%
c 1
 
1.2%
h 1
 
1.2%
l 1
 
1.2%
Other values (3) 3
 
3.7%
Decimal Number
ValueCountFrequency (%)
1 32
36.4%
4 23
26.1%
2 11
 
12.5%
0 9
 
10.2%
8 4
 
4.5%
3 4
 
4.5%
5 4
 
4.5%
9 1
 
1.1%
Other Punctuation
ValueCountFrequency (%)
, 16424
99.5%
· 52
 
0.3%
& 31
 
0.2%
. 6
 
< 0.1%
Space Separator
ValueCountFrequency (%)
20194
100.0%
Open Punctuation
ValueCountFrequency (%)
( 11
100.0%
Close Punctuation
ValueCountFrequency (%)
) 9
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 7
100.0%
Other Symbol
ValueCountFrequency (%)
2
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 71351
63.9%
Common 36822
33.0%
Latin 3413
 
3.1%
Han 35
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
2655
 
3.7%
2437
 
3.4%
2367
 
3.3%
1785
 
2.5%
1733
 
2.4%
1523
 
2.1%
1511
 
2.1%
1445
 
2.0%
1428
 
2.0%
1399
 
2.0%
Other values (554) 53068
74.4%
Latin
ValueCountFrequency (%)
I 296
 
8.7%
C 277
 
8.1%
B 261
 
7.6%
T 246
 
7.2%
F 236
 
6.9%
K 231
 
6.8%
S 202
 
5.9%
U 198
 
5.8%
A 183
 
5.4%
G 182
 
5.3%
Other values (28) 1101
32.3%
Common
ValueCountFrequency (%)
20194
54.8%
, 16424
44.6%
· 52
 
0.1%
1 32
 
0.1%
& 31
 
0.1%
4 23
 
0.1%
( 11
 
< 0.1%
2 11
 
< 0.1%
0 9
 
< 0.1%
) 9
 
< 0.1%
Other values (6) 26
 
0.1%
Han
ValueCountFrequency (%)
14
40.0%
6
17.1%
6
17.1%
5
 
14.3%
2
 
5.7%
1
 
2.9%
1
 
2.9%

Most occurring blocks

ValueCountFrequency (%)
Hangul 71327
63.9%
ASCII 40183
36.0%
None 54
 
< 0.1%
CJK 35
 
< 0.1%
Compat Jamo 22
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
20194
50.3%
, 16424
40.9%
I 296
 
0.7%
C 277
 
0.7%
B 261
 
0.6%
T 246
 
0.6%
F 236
 
0.6%
K 231
 
0.6%
S 202
 
0.5%
U 198
 
0.5%
Other values (43) 1618
 
4.0%
Hangul
ValueCountFrequency (%)
2655
 
3.7%
2437
 
3.4%
2367
 
3.3%
1785
 
2.5%
1733
 
2.4%
1523
 
2.1%
1511
 
2.1%
1445
 
2.0%
1428
 
2.0%
1399
 
2.0%
Other values (552) 53044
74.4%
None
ValueCountFrequency (%)
· 52
96.3%
2
 
3.7%
Compat Jamo
ValueCountFrequency (%)
22
100.0%
CJK
ValueCountFrequency (%)
14
40.0%
6
17.1%
6
17.1%
5
 
14.3%
2
 
5.7%
1
 
2.9%
1
 
2.9%
Distinct721
Distinct (%)46.8%
Missing0
Missing (%)0.0%
Memory size12.2 KiB
2023-12-13T07:11:41.914409image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length39
Median length33
Mean length24.548345
Min length14

Characters and Unicode

Total characters37829
Distinct characters395
Distinct categories8 ?
Distinct scripts3 ?
Distinct blocks3 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique365 ?
Unique (%)23.7%

Sample

1st row한국 한국_경제 연말_2018년 지속_가능
2nd row부총리 무술년 3만 김동연
3rd row경제_성장률 글로벌_경제 성장률 반도체
4th row최저임금 최저임금_인상 근로자 최저임금_지원
5th row대기업 스타트업 글로벌_혁신 산업_정책
ValueCountFrequency (%)
가상화폐 289
 
4.7%
가상화폐_거래소 195
 
3.2%
가상화폐_거래 175
 
2.8%
거래소 171
 
2.8%
일자리 160
 
2.6%
미국 160
 
2.6%
최저임금 101
 
1.6%
가상통화 97
 
1.6%
미국_대통령 82
 
1.3%
세탁기 77
 
1.2%
Other values (1133) 4657
75.6%
2023-12-13T07:11:42.352325image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
6164
 
16.3%
_ 3544
 
9.4%
1534
 
4.1%
1529
 
4.0%
1362
 
3.6%
1078
 
2.8%
775
 
2.0%
774
 
2.0%
659
 
1.7%
642
 
1.7%
Other values (385) 19768
52.3%

Most occurring categories

ValueCountFrequency (%)
Other Letter 27716
73.3%
Space Separator 6164
 
16.3%
Connector Punctuation 3544
 
9.4%
Decimal Number 210
 
0.6%
Lowercase Letter 132
 
0.3%
Other Punctuation 60
 
0.2%
Math Symbol 2
 
< 0.1%
Other Symbol 1
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
1534
 
5.5%
1529
 
5.5%
1362
 
4.9%
1078
 
3.9%
775
 
2.8%
774
 
2.8%
659
 
2.4%
642
 
2.3%
625
 
2.3%
596
 
2.2%
Other values (349) 18142
65.5%
Lowercase Letter
ValueCountFrequency (%)
i 31
23.5%
a 28
21.2%
d 10
 
7.6%
t 9
 
6.8%
u 8
 
6.1%
r 7
 
5.3%
e 7
 
5.3%
s 6
 
4.5%
k 5
 
3.8%
g 5
 
3.8%
Other values (7) 16
12.1%
Decimal Number
ValueCountFrequency (%)
3 64
30.5%
2 33
15.7%
0 24
 
11.4%
4 23
 
11.0%
1 20
 
9.5%
5 15
 
7.1%
9 9
 
4.3%
6 9
 
4.3%
7 7
 
3.3%
8 6
 
2.9%
Other Punctuation
ValueCountFrequency (%)
% 44
73.3%
. 5
 
8.3%
& 5
 
8.3%
, 5
 
8.3%
· 1
 
1.7%
Space Separator
ValueCountFrequency (%)
6164
100.0%
Connector Punctuation
ValueCountFrequency (%)
_ 3544
100.0%
Math Symbol
ValueCountFrequency (%)
~ 2
100.0%
Other Symbol
ValueCountFrequency (%)
1
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 27717
73.3%
Common 9980
 
26.4%
Latin 132
 
0.3%

Most frequent character per script

Hangul
ValueCountFrequency (%)
1534
 
5.5%
1529
 
5.5%
1362
 
4.9%
1078
 
3.9%
775
 
2.8%
774
 
2.8%
659
 
2.4%
642
 
2.3%
625
 
2.3%
596
 
2.2%
Other values (350) 18143
65.5%
Common
ValueCountFrequency (%)
6164
61.8%
_ 3544
35.5%
3 64
 
0.6%
% 44
 
0.4%
2 33
 
0.3%
0 24
 
0.2%
4 23
 
0.2%
1 20
 
0.2%
5 15
 
0.2%
9 9
 
0.1%
Other values (8) 40
 
0.4%
Latin
ValueCountFrequency (%)
i 31
23.5%
a 28
21.2%
d 10
 
7.6%
t 9
 
6.8%
u 8
 
6.1%
r 7
 
5.3%
e 7
 
5.3%
s 6
 
4.5%
k 5
 
3.8%
g 5
 
3.8%
Other values (7) 16
12.1%

Most occurring blocks

ValueCountFrequency (%)
Hangul 27716
73.3%
ASCII 10111
 
26.7%
None 2
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
6164
61.0%
_ 3544
35.1%
3 64
 
0.6%
% 44
 
0.4%
2 33
 
0.3%
i 31
 
0.3%
a 28
 
0.3%
0 24
 
0.2%
4 23
 
0.2%
1 20
 
0.2%
Other values (24) 136
 
1.3%
Hangul
ValueCountFrequency (%)
1534
 
5.5%
1529
 
5.5%
1362
 
4.9%
1078
 
3.9%
775
 
2.8%
774
 
2.8%
659
 
2.4%
642
 
2.3%
625
 
2.3%
596
 
2.2%
Other values (349) 18142
65.5%
None
ValueCountFrequency (%)
1
50.0%
· 1
50.0%

Correlations

2023-12-13T07:11:42.478688image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
일자언론사소스통합 분류1통합 분류2통합 분류3사건_사고 분류1사건_사고 분류2사건_사고 분류3
일자1.0000.6160.7560.7830.7400.7330.8830.946NaN
언론사0.6161.0000.6280.6870.7600.6530.8390.788NaN
소스0.7560.6281.0000.7740.7540.7480.8250.8520.000
통합 분류10.7830.6870.7741.0000.8270.8430.7910.920NaN
통합 분류20.7400.7600.7540.8271.0000.8800.8610.9490.000
통합 분류30.7330.6530.7480.8430.8801.0000.8440.8700.000
사건_사고 분류10.8830.8390.8250.7910.8610.8441.0000.9550.000
사건_사고 분류20.9460.7880.8520.9200.9490.8700.9551.0000.000
사건_사고 분류3NaNNaN0.000NaN0.0000.0000.0000.0001.000
2023-12-13T07:11:42.708490image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
일자통합 분류2통합 분류1언론사통합 분류3사건_사고 분류1사건_사고 분류2소스
일자1.0000.2380.2890.1670.2420.4060.7510.300
통합 분류20.2381.0000.3250.2370.3140.3980.6270.298
통합 분류10.2890.3251.0000.2100.3770.4580.7820.337
언론사0.1670.2370.2101.0000.1950.3670.4980.206
통합 분류30.2420.3140.3770.1951.0000.3840.6680.312
사건_사고 분류10.4060.3980.4580.3670.3841.0000.8460.406
사건_사고 분류20.7510.6270.7820.4980.6680.8461.0000.661
소스0.3000.2980.3370.2060.3120.4060.6611.000
2023-12-13T07:11:42.958754image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
일자언론사소스통합 분류1통합 분류2통합 분류3사건_사고 분류1사건_사고 분류2
일자1.0000.1670.3000.2890.2380.2420.4060.751
언론사0.1671.0000.2060.2100.2370.1950.3670.498
소스0.3000.2061.0000.3370.2980.3120.4060.661
통합 분류10.2890.2100.3371.0000.3250.3770.4580.782
통합 분류20.2380.2370.2980.3251.0000.3140.3980.627
통합 분류30.2420.1950.3120.3770.3141.0000.3840.668
사건_사고 분류10.4060.3670.4060.4580.3980.3841.0000.846
사건_사고 분류20.7510.4980.6610.7820.6270.6680.8461.000

Missing values

2023-12-13T07:11:36.010599image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2023-12-13T07:11:36.189713image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.
2023-12-13T07:11:36.333050image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

Sample

주소일자언론사제목소스통합 분류1통합 분류2통합 분류3사건_사고 분류1사건_사고 분류2사건_사고 분류3사건_사고 분류4인용문개체명인물_지역_기관특성추출
0http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100501.201801011624090012018-01-01파이낸셜뉴스[개혁과 도약 2018 함께 뛰자, 대한민국] 다시 열린 경제 성장판 '개혁 골든타임'김동연 경제부총리 겸 기획재정부 장관<NA>경제>산업_기업경제>국제경제정치>정치일반<NA><NA><NA>저출산.고령화 등 사회·경제적 과제를 극복할 수 있는 모멘텀을 만들지 못하면 한국 경제는 5, 10년 후 어려운 지경에 처한다이주열, 성태윤, 김동연 북한, 대한민국, 한국 IMF, 중국, 기획재정부, 연세대, 국가재, 한국은행, 한국, 국제통화기금한국 한국_경제 연말_2018년 지속_가능
1http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=07101201.201801010111190012018-01-01디지털타임스"올해 3만 달러 소득시대 국민 삶의 질 개선"김동연 경제부총리 겸 기획재정부 장관<NA>정치>청와대경제>경제일반<NA><NA><NA><NA>새해는 3만 달러 소득시대를 여는 원년이 될 것이며, 경제의 역동성을 살려 견고한 성장세가 지속 되도록 하겠다세종, 김동연 기획재정부부총리 무술년 3만 김동연
2http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=07101201.201801010111400012018-01-01디지털타임스반도체 수출 편중 내수 침체 "올 성장률, 2%대 후반"김동연 경제부총리 겸 기획재정부 장관<NA>경제>산업_기업경제>국제경제경제>무역<NA><NA><NA>내년에는 국민소득 3만 달러 시대에 확실히 들어갈 것김기흥, 이창선, 김동연, 홍준표, 성태윤, 양준모, 박용정, 윤창현 미국, 한국 간담회, IMF, 디지털타임스, 현대경제연구원, 연세대, 석유화학, 서울시립대, 정부의, 기자단, 경기대, OECD, 글로벌, 기획재정부, 경제협력개발기구, LG경제연구원, 국제통화기금경제_성장률 글로벌_경제 성장률 반도체
3http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100201.201801010831170042018-01-01머니투데이최저임금 7530원 오늘 적용 소득증가 vs 고용축소 '팽팽'김동연 부총리 겸 기획재정부 장관<NA>경제>취업_창업경제>국제경제사회>노동_복지<NA><NA><NA>소득주도 성장을 위해서는 근로소득 개선이 무엇보다 중요하며 그 출발점이 최저임금 인상이윤재, 박지순, 김동연, 세종, 김준 줄도산 경제관계장관회의, 노동대학원, 노동자의, 중소기업중앙회, 고려대, 기획재정부, 고용노동부, 숭실대, 국회입법조사처최저임금 최저임금_인상 근로자 최저임금_지원
4http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01101101.201801010508350032018-01-01한국일보[신년 좌담회] 한국산업의 미래 “아이돌 그룹처럼 성공사례 나와야 스타트업 열풍 불 것”김동연 경제부총리 겸 기획재정부 장관<NA>경제>산업_기업IT_과학>인터넷_SNS경제>취업_창업<NA><NA><NA>혁신하지 않으면 경제가 바뀔 수 없다크리스, 김동연, 김수호, 오바마, 이윤희, 클레이턴, 이장균, 신현한, 맥킨지 이스라엘, 중구, 미국, 서울, 일본, 영국, 중국, 싱가포르, 한국, 금산 대한상의회, 구글, 메디힐, 대한상의, 하버드대, 현대경제연구원, 연세대, 한국, 삼성전자, 아마존, 한국사무소, 페이스북, 생산기술센터, 글로벌, 기획재정부, 대한상공회의소, 요즈마, 정보통신, 스타트업코리아, 핀테크, 대한민국, 모비두, 롤스로이스, d Technology Center, 컨소시엄, CVC, 대부분, 애플, 롯데 L페이, 나스닥대기업 스타트업 글로벌_혁신 산업_정책
5http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100201.201801012227570012018-01-01국민일보‘혁신과 신뢰’로 3만 달러 돌파김동연 경제부총리 겸 기획재정부 장관<NA>경제>금융_재테크경제>국제경제경제>산업_기업<NA><NA><NA>새해는 3만 달러 소득 시대를 여는 원년으로 경제의 역동성을 살려 견고한 성장세가 지속하도록 하겠다김동연, 이주열 금융위, 은행연합회, 공정거래위, 기획재정부, 생명보험협회, 정보통신, 한국은행, 금융감독원, 금감원, 금융협회, 금융소비자, 손해보험협회신년사 혁신_성장 금융_분야 금융권
6http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100201.201801012227570012018-01-01국민일보‘혁신과 신뢰’로 3만 달러 돌파김동연 경제부총리 겸 기획재정부 장관<NA>경제>금융_재테크경제>국제경제경제>산업_기업<NA><NA><NA>중요한 것은 국민 삶의 질 개선김동연, 이주열 금융위, 은행연합회, 공정거래위, 기획재정부, 생명보험협회, 정보통신, 한국은행, 금융감독원, 금감원, 금융협회, 금융소비자, 손해보험협회신년사 혁신_성장 금융_분야 금융권
7http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100201.201801022337320012018-01-02머니투데이원/달러 환율 3년2개월來 최저 김동연 "시장에 맡기겠다"김동연 부총리 겸 기획재정부 장관<NA>경제>외환경제>국제경제경제>증권_증시<NA><NA><NA>(환율의) 급격한 변동에 대해서는 정부가 대처를 하겠지만 전체적으로는 시장에 맡기는 것김동연 미국, 서울, 중국, 뉴욕 PBOC, 글로벌, 중앙은행, 기획재정부환율_3년 원화_강세 김동연_시장 위안화
8http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100701.201801022034470012018-01-02세계일보새해 벽두 환율 ‘곤두박질’ 증시는 ‘기분 좋은 출발’김동연 부총리 겸 기획재정부 장관<NA>경제>국제경제경제>외환경제>증권_증시<NA><NA><NA>급격한 변동에 대해서는 정부가 대처해야겠지만 일단 전체적으로는 시장에 맡기겠다김재철, 김동연, 황영기, 정지원 독일, 미국, 서울, 영국, 인도, 중국, 여의도, 브라질, 신흥국, 경기도 한국거래소, 미국, 코스닥협회, 금융투자협회, 한국, 금융위, 글로벌, 기획재정부, 코스닥, 한국경제연구원, 연합뉴스, 국제금융센터, LG경제연구원이날_외국인 환율_하락 외국인 이날_코스닥
9http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=07100501.201801021400380012018-01-02전자신문김동연 부총리, 새해 첫 행보로 일자리 안정자금 점검 “성공 시행에 최우선 역점”김동연 경제부총리 겸 기획재정부 장관<NA>경제>취업_창업<NA><NA><NA><NA><NA>일자리 안정자금 사업의 성공적 시행에 올해 최우선 역점을 두겠다김동연, 홍종학, 김영주, 담당직원, 안정자 고용노동부, 근로복지공단, 중소벤처기업부, 기획재정부일자리 부총리 2일_일자리 일자리_안정자금_사업
주소일자언론사제목소스통합 분류1통합 분류2통합 분류3사건_사고 분류1사건_사고 분류2사건_사고 분류3사건_사고 분류4인용문개체명인물_지역_기관특성추출
1531http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100311.201801191132590022018-01-19서울경제투자자라면 꼭 봐야 할 6대 뉴스 - IT '저점' 매수 기회 온다박상기 법무부 장관경제>증권_증시경제>산업_기업경제>금융_재테크<NA><NA><NA><NA>부처간 조율이 안됐다고 보기 어렵다박상기 정무위, 셀트리온제약, 현대자동차그룹, 인텔, 삼익악기, 금융투자협회, 삼성전자, 삼성, 경동나비엔, SK하이닉스, 금융위원회, 금융위, 소프트, 셀트리온, 현대차, 코스닥, SK, 법무부, 금융감독원거래대금 연기금 코스닥 실적_전망
1532http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01200201.201801192301350012018-01-19경인일보[이슈&스토리]투자인가, 투기인가 ‘가상화폐’ 논란박상기 법무부 장관경제>국제경제경제>금융_재테크경제>증권_증시범죄>기업범죄>거래제한범죄>범죄일반>방화범죄>범죄일반>사기<NA>가상화폐 거래소 폐쇄까지를 목표로 하고 있다김동연, 이원근, 박상기 일기도, 영국, 중국 국세청, 청와대, 중앙은행, 기획재정부, 코닥, 와이즈앱, 법무부, 한국은행, 아이클릭아트, 정부의, 국무조정실, 한은가상화폐 가상화폐_가격 가상화폐_거래소 가상_화폐
1533http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100201.201801192331470032018-01-19머니투데이투자자라면 꼭 봐야 할 10대 투자뉴스-19일박상기 법무부 장관경제>산업_기업경제>증권_증시IT_과학>IT_과학일반<NA><NA><NA><NA>부처간 조율이 안됐다고 보기 어렵다박상기 중국 GS이엠, 정무위, 현대자동차, 현대자동차그룹, 인텔, 카카오, 금융투자협회, 삼성전자, 삼성, 금융위원회, 금융위, 소프트, 글로벌, 현대차, 코스닥, GS에너지, SK, 법무부, 금융감독원, LG전자, 자동차, LG화학거래대금 글로벌_시장 연기금 코스닥
1534http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01500401.201801222148320012018-01-22국제신문[국제칼럼] 산통이 깨지면 뒷감당은 어떻게 하나 /정상도박상기 법무부 장관정치>외교경제>경제일반<NA><NA><NA><NA><NA>가상화폐 거래소 폐지 특별법안을 내는 것에 부처 간 이견이 없다최종구, 이낙연, 문재인, 김동연, 박상기 강원 금융위, 대부분, 청와대, 관세청, 금융감독원, 법무부, 정부의, 대한민국, 국무조정실, 해피앤딩가상화폐 가상화폐_거래소 가상화폐_투자 청와대
1535http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01100701.201801251307420012018-01-25세계일보세금 안낸 외국인, 비자 연장 힘들어진다박상기 법무장관경제>경제일반<NA><NA><NA><NA><NA><NA>이번 조치는 외국인의 세금체납 문제를 정상화하려는 것으로, 이를 통해 외국인의 체류질서확립은 물론 조세정의 실현과 국가재정 누수방지에 크게 기여할 것으로 기대한다김부겸, 박상기 김포공항, 김해공항출입국사무소, 인천공항출입국사무소, 인천공항 국세청, 행정안전부, 출입국사무소, 관세청, 국가재, 법무부, 행안부, 출입국관리사무소, 사무소세금_체납 외국인 외국인_지방세 체납_세금
1536http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100311.201801251403120012018-01-25서울경제'세금 먹튀' 외국인 잡는 비자연장 제한으로 122억 징수박상기 법무부 장관경제>금융_재테크<NA><NA><NA><NA><NA><NA>외국인의 체류질서를 확립하는 것은 물론이고 조세정의 실현과 국가재정 누수 방지에 크게 기여할 것박상기 국가재, 법무부, 출입국사무소, 출입국관리사무소, 사무소외국인 비자_연장 외국인_조세 외국인_조세_체납액
1537http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=02100201.201801262336040042018-01-26머니투데이법무부 "산하기관 직원들 가상화폐 거래 자제" 요청박상기 법무장관경제>경제일반<NA><NA><NA><NA><NA><NA>가상통화 거래가 사실상 투기 도박과 비슷한 양상으로 이뤄지고 있다박상기 법무부, 정부의, 대한법률구조공단가상통화_거래 가상화폐_거래 법무부 거래_금지_입법
1538http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01101101.201801310511180022018-01-31한국일보김동연 “거래소 폐쇄 시 음성 거래나 외화 유출 우려돼”박상기 법무부 장관정치>행정_자치경제>경제일반<NA><NA><NA><NA><NA>한국 투자자들이 외국 거래소로 망명해 외화 유출만 부추길 것유승민, 김동연, 박상기 한국 기획재정부, 바른정당, 거래소, 법무부, 국회, 기획재정위원회거래소 부총리 거래소_폐쇄 거래소_폐쇄_방안
1539http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01101101.201801310511180022018-01-31한국일보김동연 “거래소 폐쇄 시 음성 거래나 외화 유출 우려돼”박상기 법무부 장관정치>행정_자치경제>경제일반<NA><NA><NA><NA><NA>현재 27개 가상화폐 거래소가 있는 것으로 파악했다유승민, 김동연, 박상기 한국 기획재정부, 바른정당, 거래소, 법무부, 국회, 기획재정위원회거래소 부총리 거래소_폐쇄 거래소_폐쇄_방안
1540http://www.bigkinds.or.kr/news/newsDetailView.do?newsId=01101101.201801310511180022018-01-31한국일보김동연 “거래소 폐쇄 시 음성 거래나 외화 유출 우려돼”박상기 법무부 장관정치>행정_자치경제>경제일반<NA><NA><NA><NA><NA>이 중 3개 거래소는 최근 하루 거래 금액이 약 5,000억원에 육박한다유승민, 김동연, 박상기 한국 기획재정부, 바른정당, 거래소, 법무부, 국회, 기획재정위원회거래소 부총리 거래소_폐쇄 거래소_폐쇄_방안