Overview

Dataset statistics

Number of variables6
Number of observations100
Missing cells96
Missing cells (%)16.0%
Duplicate rows0
Duplicate rows (%)0.0%
Total size in memory4.8 KiB
Average record size in memory49.3 B

Variable types

Text3
Categorical3

Alerts

비고 has constant value ""Constant
플래그 is highly overall correlated with 출처High correlation
출처 is highly overall correlated with 플래그High correlation
플래그 is highly imbalanced (67.3%)Imbalance
출처 is highly imbalanced (67.3%)Imbalance
CAS등록번호 has 96 (96.0%) missing valuesMissing
기존물질번호 has unique valuesUnique

Reproduction

Analysis started2023-12-10 10:46:49.146857
Analysis finished2023-12-10 10:46:49.820488
Duration0.67 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

기존물질번호
Text

UNIQUE 

Distinct100
Distinct (%)100.0%
Missing0
Missing (%)0.0%
Memory size932.0 B
2023-12-10T19:46:50.221652image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length11
Median length8
Mean length8.15
Min length8

Characters and Unicode

Total characters815
Distinct characters13
Distinct categories3 ?
Distinct scripts2 ?
Distinct blocks1 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique100 ?
Unique (%)100.0%

Sample

1st rowKE-04602
2nd rowKE-07824
3rd rowKE-09016
4th rowKE-09564
5th rowKE-00195
ValueCountFrequency (%)
ke-04602 1
 
1.0%
ke-07049 1
 
1.0%
ke-07214 1
 
1.0%
ke-07183 1
 
1.0%
ke-07182 1
 
1.0%
ke-07181 1
 
1.0%
ke-07180 1
 
1.0%
ke-07085 1
 
1.0%
ke-07084 1
 
1.0%
ke-07052 1
 
1.0%
Other values (90) 90
90.0%
2023-12-10T19:46:50.947691image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
0 139
17.1%
- 106
13.0%
K 94
11.5%
E 94
11.5%
6 63
7.7%
2 49
 
6.0%
7 49
 
6.0%
5 48
 
5.9%
1 40
 
4.9%
8 37
 
4.5%
Other values (3) 96
11.8%

Most occurring categories

ValueCountFrequency (%)
Decimal Number 521
63.9%
Uppercase Letter 188
 
23.1%
Dash Punctuation 106
 
13.0%

Most frequent character per category

Decimal Number
ValueCountFrequency (%)
0 139
26.7%
6 63
12.1%
2 49
 
9.4%
7 49
 
9.4%
5 48
 
9.2%
1 40
 
7.7%
8 37
 
7.1%
9 35
 
6.7%
3 33
 
6.3%
4 28
 
5.4%
Uppercase Letter
ValueCountFrequency (%)
K 94
50.0%
E 94
50.0%
Dash Punctuation
ValueCountFrequency (%)
- 106
100.0%

Most occurring scripts

ValueCountFrequency (%)
Common 627
76.9%
Latin 188
 
23.1%

Most frequent character per script

Common
ValueCountFrequency (%)
0 139
22.2%
- 106
16.9%
6 63
10.0%
2 49
 
7.8%
7 49
 
7.8%
5 48
 
7.7%
1 40
 
6.4%
8 37
 
5.9%
9 35
 
5.6%
3 33
 
5.3%
Latin
ValueCountFrequency (%)
K 94
50.0%
E 94
50.0%

Most occurring blocks

ValueCountFrequency (%)
ASCII 815
100.0%

Most frequent character per block

ASCII
ValueCountFrequency (%)
0 139
17.1%
- 106
13.0%
K 94
11.5%
E 94
11.5%
6 63
7.7%
2 49
 
6.0%
7 49
 
6.0%
5 48
 
5.9%
1 40
 
4.9%
8 37
 
4.5%
Other values (3) 96
11.8%

CAS등록번호
Text

MISSING 

Distinct4
Distinct (%)100.0%
Missing96
Missing (%)96.0%
Memory size932.0 B
2023-12-10T19:46:51.147971image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length10
Median length9.5
Mean length8.25
Min length7

Characters and Unicode

Total characters33
Distinct characters10
Distinct categories2 ?
Distinct scripts1 ?
Distinct blocks1 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique4 ?
Unique (%)100.0%

Sample

1st row1333-89-7
2nd row97765-54-3
3rd row75-07-0
4th row60-35-5
ValueCountFrequency (%)
1333-89-7 1
25.0%
97765-54-3 1
25.0%
75-07-0 1
25.0%
60-35-5 1
25.0%
2023-12-10T19:46:51.539852image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
- 8
24.2%
3 5
15.2%
7 5
15.2%
5 5
15.2%
0 3
 
9.1%
9 2
 
6.1%
6 2
 
6.1%
1 1
 
3.0%
8 1
 
3.0%
4 1
 
3.0%

Most occurring categories

ValueCountFrequency (%)
Decimal Number 25
75.8%
Dash Punctuation 8
 
24.2%

Most frequent character per category

Decimal Number
ValueCountFrequency (%)
3 5
20.0%
7 5
20.0%
5 5
20.0%
0 3
12.0%
9 2
 
8.0%
6 2
 
8.0%
1 1
 
4.0%
8 1
 
4.0%
4 1
 
4.0%
Dash Punctuation
ValueCountFrequency (%)
- 8
100.0%

Most occurring scripts

ValueCountFrequency (%)
Common 33
100.0%

Most frequent character per script

Common
ValueCountFrequency (%)
- 8
24.2%
3 5
15.2%
7 5
15.2%
5 5
15.2%
0 3
 
9.1%
9 2
 
6.1%
6 2
 
6.1%
1 1
 
3.0%
8 1
 
3.0%
4 1
 
3.0%

Most occurring blocks

ValueCountFrequency (%)
ASCII 33
100.0%

Most frequent character per block

ASCII
ValueCountFrequency (%)
- 8
24.2%
3 5
15.2%
7 5
15.2%
5 5
15.2%
0 3
 
9.1%
9 2
 
6.1%
6 2
 
6.1%
1 1
 
3.0%
8 1
 
3.0%
4 1
 
3.0%
Distinct95
Distinct (%)95.0%
Missing0
Missing (%)0.0%
Memory size932.0 B
2023-12-10T19:46:51.902807image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length49
Median length41
Mean length21.48
Min length2

Characters and Unicode

Total characters2148
Distinct characters56
Distinct categories10 ?
Distinct scripts4 ?
Distinct blocks3 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique94 ?
Unique (%)94.0%

Sample

1st rowCalcium polyisobutenylsuccinate
2nd rowC.I. natural red 009
3rd rowCresyl alkyl(C=3-10)carboxylate
4th row3-Decyloxythiolane dioxide
5th rowAcrylic acid alkenyl(C=4-22)ester
ValueCountFrequency (%)
c.i 73
20.7%
acid 41
 
11.6%
brown 27
 
7.7%
direct 18
 
5.1%
blue 17
 
4.8%
yellow 14
 
4.0%
disperse 11
 
3.1%
삭제 6
 
1.7%
red 6
 
1.7%
green 5
 
1.4%
Other values (115) 134
38.1%
2023-12-10T19:46:52.516851image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
340
 
15.8%
. 152
 
7.1%
e 133
 
6.2%
i 98
 
4.6%
l 97
 
4.5%
a 90
 
4.2%
d 88
 
4.1%
C 87
 
4.1%
r 84
 
3.9%
c 82
 
3.8%
Other values (46) 897
41.8%

Most occurring categories

ValueCountFrequency (%)
Lowercase Letter 1127
52.5%
Space Separator 340
 
15.8%
Decimal Number 269
 
12.5%
Uppercase Letter 192
 
8.9%
Other Punctuation 160
 
7.4%
Dash Punctuation 19
 
0.9%
Other Letter 12
 
0.6%
Open Punctuation 11
 
0.5%
Close Punctuation 11
 
0.5%
Math Symbol 7
 
0.3%

Most frequent character per category

Lowercase Letter
ValueCountFrequency (%)
e 133
11.8%
i 98
 
8.7%
l 97
 
8.6%
a 90
 
8.0%
d 88
 
7.8%
r 84
 
7.5%
c 82
 
7.3%
o 70
 
6.2%
b 58
 
5.1%
n 55
 
4.9%
Other values (14) 272
24.1%
Uppercase Letter
ValueCountFrequency (%)
C 87
45.3%
I 73
38.0%
A 14
 
7.3%
S 4
 
2.1%
N 4
 
2.1%
M 3
 
1.6%
H 2
 
1.0%
T 2
 
1.0%
D 1
 
0.5%
P 1
 
0.5%
Decimal Number
ValueCountFrequency (%)
1 55
20.4%
0 36
13.4%
4 31
11.5%
2 30
11.2%
3 27
10.0%
5 24
8.9%
7 21
 
7.8%
6 19
 
7.1%
9 13
 
4.8%
8 13
 
4.8%
Other Punctuation
ValueCountFrequency (%)
. 152
95.0%
, 3
 
1.9%
: 3
 
1.9%
; 2
 
1.2%
Other Letter
ValueCountFrequency (%)
6
50.0%
6
50.0%
Space Separator
ValueCountFrequency (%)
340
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 19
100.0%
Open Punctuation
ValueCountFrequency (%)
( 11
100.0%
Close Punctuation
ValueCountFrequency (%)
) 11
100.0%
Math Symbol
ValueCountFrequency (%)
= 7
100.0%

Most occurring scripts

ValueCountFrequency (%)
Latin 1318
61.4%
Common 817
38.0%
Hangul 12
 
0.6%
Greek 1
 
< 0.1%

Most frequent character per script

Latin
ValueCountFrequency (%)
e 133
 
10.1%
i 98
 
7.4%
l 97
 
7.4%
a 90
 
6.8%
d 88
 
6.7%
C 87
 
6.6%
r 84
 
6.4%
c 82
 
6.2%
I 73
 
5.5%
o 70
 
5.3%
Other values (24) 416
31.6%
Common
ValueCountFrequency (%)
340
41.6%
. 152
18.6%
1 55
 
6.7%
0 36
 
4.4%
4 31
 
3.8%
2 30
 
3.7%
3 27
 
3.3%
5 24
 
2.9%
7 21
 
2.6%
6 19
 
2.3%
Other values (9) 82
 
10.0%
Hangul
ValueCountFrequency (%)
6
50.0%
6
50.0%
Greek
ValueCountFrequency (%)
γ 1
100.0%

Most occurring blocks

ValueCountFrequency (%)
ASCII 2135
99.4%
Hangul 12
 
0.6%
None 1
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
340
 
15.9%
. 152
 
7.1%
e 133
 
6.2%
i 98
 
4.6%
l 97
 
4.5%
a 90
 
4.2%
d 88
 
4.1%
C 87
 
4.1%
r 84
 
3.9%
c 82
 
3.8%
Other values (43) 884
41.4%
Hangul
ValueCountFrequency (%)
6
50.0%
6
50.0%
None
ValueCountFrequency (%)
γ 1
100.0%

플래그
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct2
Distinct (%)2.0%
Missing0
Missing (%)0.0%
Memory size932.0 B
화평법 제2조제3호 가목에 따른 기존화학물질
94 
화평법 제2조제3호 나목에 따른 기존화학물질
 
6

Length

Max length24
Median length24
Mean length24
Min length24

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row화평법 제2조제3호 가목에 따른 기존화학물질
2nd row화평법 제2조제3호 가목에 따른 기존화학물질
3rd row화평법 제2조제3호 가목에 따른 기존화학물질
4th row화평법 제2조제3호 가목에 따른 기존화학물질
5th row화평법 제2조제3호 가목에 따른 기존화학물질

Common Values

ValueCountFrequency (%)
화평법 제2조제3호 가목에 따른 기존화학물질 94
94.0%
화평법 제2조제3호 나목에 따른 기존화학물질 6
 
6.0%

Length

2023-12-10T19:46:52.739487image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-10T19:46:52.887410image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
화평법 100
20.0%
제2조제3호 100
20.0%
따른 100
20.0%
기존화학물질 100
20.0%
가목에 94
18.8%
나목에 6
 
1.2%

비고
Categorical

CONSTANT 

Distinct1
Distinct (%)1.0%
Missing0
Missing (%)0.0%
Memory size932.0 B
해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함
100 

Length

Max length31
Median length31
Mean length31
Min length31

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함
2nd row해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함
3rd row해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함
4th row해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함
5th row해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함

Common Values

ValueCountFrequency (%)
해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함 100
100.0%

Length

2023-12-10T19:46:53.043167image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-10T19:46:53.193342image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
해당 100
14.3%
화학물질의 100
14.3%
수화물 100
14.3%
또는 100
14.3%
무수물도 100
14.3%
기존화학물질에 100
14.3%
포함 100
14.3%

출처
Categorical

HIGH CORRELATION  IMBALANCE 

Distinct2
Distinct (%)2.0%
Missing0
Missing (%)0.0%
Memory size932.0 B
환경부고시 제2019-82호 별표1
94 
환경부고시 제2019-82호 별표2
 
6

Length

Max length19
Median length19
Mean length19
Min length19

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row환경부고시 제2019-82호 별표1
2nd row환경부고시 제2019-82호 별표1
3rd row환경부고시 제2019-82호 별표1
4th row환경부고시 제2019-82호 별표1
5th row환경부고시 제2019-82호 별표1

Common Values

ValueCountFrequency (%)
환경부고시 제2019-82호 별표1 94
94.0%
환경부고시 제2019-82호 별표2 6
 
6.0%

Length

2023-12-10T19:46:53.362500image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-10T19:46:53.517846image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
환경부고시 100
33.3%
제2019-82호 100
33.3%
별표1 94
31.3%
별표2 6
 
2.0%

Correlations

2023-12-10T19:46:53.622736image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
기존물질번호CAS등록번호화학물질영문플래그출처
기존물질번호1.0001.0001.0001.0001.000
CAS등록번호1.0001.0001.000NaNNaN
화학물질영문1.0001.0001.0001.0001.000
플래그1.000NaN1.0001.0000.990
출처1.000NaN1.0000.9901.000
2023-12-10T19:46:53.761645image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
플래그출처
플래그1.0000.910
출처0.9101.000
2023-12-10T19:46:53.875612image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
플래그출처
플래그1.0000.910
출처0.9101.000

Missing values

2023-12-10T19:46:49.581972image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2023-12-10T19:46:49.752975image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

기존물질번호CAS등록번호화학물질영문플래그비고출처
0KE-04602<NA>Calcium polyisobutenylsuccinate화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
1KE-07824<NA>C.I. natural red 009화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
2KE-09016<NA>Cresyl alkyl(C=3-10)carboxylate화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
3KE-09564<NA>3-Decyloxythiolane dioxide화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
4KE-00195<NA>Acrylic acid alkenyl(C=4-22)ester화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
5KE-00711<NA>Alkoxyalkyl(C=2-6)acrylate화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
6KE-00712<NA>Alkoxyalkyl(C=2-4)methacrylate화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
7KE-00713<NA>Alkoxy(C=3-10)diphenyl화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
8KE-00776<NA>Alkylbenzylphthalate화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
9KE-00808<NA>γ-Alkyllactone(C=5-16)화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
기존물질번호CAS등록번호화학물질영문플래그비고출처
902013-3-5717<NA>삭제화평법 제2조제3호 나목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표2
912015-3-6253<NA>삭제화평법 제2조제3호 나목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표2
92KE-07293<NA>C.I. disperse blue 163화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
932015-3-6460<NA>삭제화평법 제2조제3호 나목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표2
94KE-07294<NA>C.I. disperse blue 165:1화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
95KE-07295<NA>C.I. disperse blue 165:3화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
96KE-000011333-89-7Abitol ; Hydroabietyl alcohol (CAS No. 1333-89-7)화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
97KE-0000297765-54-3Acacia vestita, ext. (CAS No. 97765-54-3)화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
98KE-0000375-07-0Acetaldehyde ; Ethanal (CAS No. 75-07-0)화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1
99KE-0000460-35-5Acetamide (CAS No. 60-35-5)화평법 제2조제3호 가목에 따른 기존화학물질해당 화학물질의 수화물 또는 무수물도 기존화학물질에 포함환경부고시 제2019-82호 별표1