gimi9 Pandas Profiling

Dataset statistics

Number of variables	9
Number of observations	833
Missing cells	723
Missing cells (%)	9.6%
Duplicate rows	7
Duplicate rows (%)	0.8%
Total size in memory	59.5 KiB
Average record size in memory	73.2 B

Variable types

Numeric	1
Text	6
Categorical	2

Dataset

Description	한국산업안전보건공단에서 제공하는 화학물질 및 물리적 인자의 노출기준에 대한 목록으로
Author	한국산업안전보건공단
URL	https://www.data.go.kr/data/3038258/fileData.do

Alerts

Dataset has 7 (0.8%) duplicate rows	Duplicates
`노출기준(STEL,㎎/㎥)` is highly imbalanced (74.0%)	Imbalance
`일련번호` has 102 (12.2%) missing values	Missing
`유해물질의 명칭(국문)` has 52 (6.2%) missing values	Missing
`유해물질의 명칭(영문)` has 38 (4.6%) missing values	Missing
`화학식` has 93 (11.2%) missing values	Missing
`노출기준(TWA, ppm)` has 106 (12.7%) missing values	Missing
`노출기준(STEL,ppm)` has 175 (21.0%) missing values	Missing
`비고(CAS번호 등)` has 157 (18.8%) missing values	Missing

Reproduction

Analysis started	2023-12-12 09:59:56.116654
Analysis finished	2023-12-12 09:59:57.438847
Duration	1.32 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

일련번호
Real number (ℝ)

MISSING

Distinct	731
Distinct (%)	100.0%
Missing	102
Missing (%)	12.2%
Infinite	0
Infinite (%)	0.0%
Mean	366

Minimum	1
Maximum	731
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	7.5 KiB

Quantile statistics

Minimum	1
5-th percentile	37.5
Q1	183.5
median	366
Q3	548.5
95-th percentile	694.5
Maximum	731
Range	730
Interquartile range (IQR)	365

Descriptive statistics

Standard deviation	211.16581
Coefficient of variation (CV)	0.57695577
Kurtosis	-1.2
Mean	366
Median Absolute Deviation (MAD)	183
Skewness	0
Sum	267546
Variance	44591
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
482	1	0.1%
484	1	0.1%
485	1	0.1%
486	1	0.1%
487	1	0.1%
488	1	0.1%
489	1	0.1%
490	1	0.1%
491	1	0.1%
492	1	0.1%
Other values (721)	721	86.6%
(Missing)	102	12.2%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	0.1%
2	1	0.1%
3	1	0.1%
4	1	0.1%
5	1	0.1%
6	1	0.1%
7	1	0.1%
8	1	0.1%
9	1	0.1%
10	1	0.1%

Value	Count	Frequency (%)
731	1	0.1%
730	1	0.1%
729	1	0.1%
728	1	0.1%
727	1	0.1%
726	1	0.1%
725	1	0.1%
724	1	0.1%
723	1	0.1%
722	1	0.1%

유해물질의 명칭(국문)
Text

MISSING

Distinct	769
Distinct (%)	98.5%
Missing	52
Missing (%)	6.2%
Memory size	6.6 KiB

Length

Max length	47
Median length	18
Mean length	7.7823303
Min length	2

Characters and Unicode

Total characters	6078
Distinct characters	310
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	762 ?
Unique (%)	97.6%

Sample

1st row	가솔린
2nd row	개미산
3rd row	게르마늄 테트라하이드라이드
4th row	고형 파라핀 흄
5th row	곡물분진

Value	Count	Frequency (%)
메틸	29	2.5%
및	25	2.2%
에틸	15	1.3%
화합물	12	1.0%
초산	12	1.0%
염화	11	1.0%
알코올	11	1.0%
그	10	0.9%
케톤	10	0.9%
에틸렌	8	0.7%
Other values (796)	1008	87.6%

Most occurring characters

Value	Count	Frequency (%)
	370	6.1%
로	339	5.6%
-	202	3.3%
이	179	2.9%
트	175	2.9%
틸	174	2.9%
디	137	2.3%
아	131	2.2%
클	128	2.1%
화	127	2.1%
Other values (300)	4116	67.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	5032	82.8%
Space Separator	370	6.1%
Dash Punctuation	202	3.3%
Decimal Number	183	3.0%
Close Punctuation	93	1.5%
Open Punctuation	93	1.5%
Other Punctuation	87	1.4%
Uppercase Letter	11	0.2%
Lowercase Letter	7	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
로	339	6.7%
이	179	3.6%
트	175	3.5%
틸	174	3.5%
디	137	2.7%
아	131	2.6%
클	128	2.5%
화	127	2.5%
메	124	2.5%
에	117	2.3%
Other values (277)	3401	67.6%

Lowercase Letter

Value	Count	Frequency (%)
a	1	14.3%
p	1	14.3%
h	1	14.3%
i	1	14.3%
t	1	14.3%
r	1	14.3%
e	1	14.3%

Decimal Number

Value	Count	Frequency (%)
2	71	38.8%
1	56	30.6%
4	24	13.1%
3	16	8.7%
6	9	4.9%
5	7	3.8%

Other Punctuation

Value	Count	Frequency (%)
,	80	92.0%
'	4	4.6%
%	3	3.4%

Uppercase Letter

Value	Count	Frequency (%)
N	8	72.7%
H	2	18.2%
G	1	9.1%

Space Separator

Value	Count	Frequency (%)
	370	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	202	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	93	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	93	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	5032	82.8%
Common	1028	16.9%
Latin	18	0.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
로	339	6.7%
이	179	3.6%
트	175	3.5%
틸	174	3.5%
디	137	2.7%
아	131	2.6%
클	128	2.5%
화	127	2.5%
메	124	2.5%
에	117	2.3%
Other values (277)	3401	67.6%

Common

Value	Count	Frequency (%)
	370	36.0%
-	202	19.6%
)	93	9.0%
(	93	9.0%
,	80	7.8%
2	71	6.9%
1	56	5.4%
4	24	2.3%
3	16	1.6%
6	9	0.9%
Other values (3)	14	1.4%

Latin

Value	Count	Frequency (%)
N	8	44.4%
H	2	11.1%
G	1	5.6%
a	1	5.6%
p	1	5.6%
h	1	5.6%
i	1	5.6%
t	1	5.6%
r	1	5.6%
e	1	5.6%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	5032	82.8%
ASCII	1046	17.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	370	35.4%
-	202	19.3%
)	93	8.9%
(	93	8.9%
,	80	7.6%
2	71	6.8%
1	56	5.4%
4	24	2.3%
3	16	1.5%
6	9	0.9%
Other values (13)	32	3.1%

Hangul

Value	Count	Frequency (%)
로	339	6.7%
이	179	3.6%
트	175	3.5%
틸	174	3.5%
디	137	2.7%
아	131	2.6%
클	128	2.5%
화	127	2.5%
메	124	2.5%
에	117	2.3%
Other values (277)	3401	67.6%

유해물질의 명칭(영문)
Text

MISSING

Distinct	777
Distinct (%)	97.7%
Missing	38
Missing (%)	4.6%
Memory size	6.6 KiB

Length

Max length	99
Median length	49
Mean length	19.172327
Min length	4

Characters and Unicode

Total characters	15242
Distinct characters	72
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	769 ?
Unique (%)	96.7%

Sample

1st row	Gasoline
2nd row	Formic acid
3rd row	Germanium tetrahydride
4th row	Paraffin wax fume
5th row	Grain dust

Value	Count	Frequency (%)
fraction	72	4.6%
as	52	3.3%
and	42	2.7%
methyl	32	2.0%
vapor	30	1.9%
compounds	28	1.8%
chloride	18	1.2%
acetate	17	1.1%
	16	1.0%
ethyl	15	1.0%
Other values (831)	1239	79.4%

Most occurring characters

Value	Count	Frequency (%)
e	1426	9.4%
o	1204	7.9%
l	1030	6.8%
a	1010	6.6%
n	962	6.3%
i	951	6.2%
r	846	5.6%
t	829	5.4%
	766	5.0%
h	652	4.3%
Other values (62)	5566	36.5%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	12486	81.9%
Uppercase Letter	1023	6.7%
Space Separator	766	5.0%
Dash Punctuation	213	1.4%
Close Punctuation	191	1.3%
Open Punctuation	191	1.3%
Decimal Number	191	1.3%
Other Punctuation	176	1.2%
Letter Number	4	< 0.1%
Modifier Symbol	1	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
e	1426	11.4%
o	1204	9.6%
l	1030	8.2%
a	1010	8.1%
n	962	7.7%
i	951	7.6%
r	846	6.8%
t	829	6.6%
h	652	5.2%
c	525	4.2%
Other values (17)	3051	24.4%

Uppercase Letter

Value	Count	Frequency (%)
C	113	11.0%
D	99	9.7%
M	91	8.9%
P	88	8.6%
I	88	8.6%
T	84	8.2%
A	66	6.5%
S	63	6.2%
N	54	5.3%
B	53	5.2%
Other values (15)	224	21.9%

Other Punctuation

Value	Count	Frequency (%)
,	141	80.1%
&	17	9.7%
.	9	5.1%
'	4	2.3%
%	3	1.7%
＆	2	1.1%

Decimal Number

Value	Count	Frequency (%)
2	74	38.7%
1	58	30.4%
4	28	14.7%
3	16	8.4%
5	8	4.2%
6	7	3.7%

Letter Number

Value	Count	Frequency (%)
Ⅵ	2	50.0%
Ⅱ	1	25.0%
Ⅲ	1	25.0%

Space Separator

Value	Count	Frequency (%)
	766	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	213	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	191	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	191	100.0%

Modifier Symbol

Value	Count	Frequency (%)
´	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	13502	88.6%
Common	1729	11.3%
Greek	11	0.1%

Most frequent character per script

Latin

Value	Count	Frequency (%)
e	1426	10.6%
o	1204	8.9%
l	1030	7.6%
a	1010	7.5%
n	962	7.1%
i	951	7.0%
r	846	6.3%
t	829	6.1%
h	652	4.8%
c	525	3.9%
Other values (43)	4067	30.1%

Common

Value	Count	Frequency (%)
	766	44.3%
-	213	12.3%
)	191	11.0%
(	191	11.0%
,	141	8.2%
2	74	4.3%
1	58	3.4%
4	28	1.6%
&	17	1.0%
3	16	0.9%
Other values (7)	34	2.0%

Greek

Value	Count	Frequency (%)
α	7	63.6%
β	4	36.4%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	15224	99.9%
None	14	0.1%
Number Forms	4	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
e	1426	9.4%
o	1204	7.9%
l	1030	6.8%
a	1010	6.6%
n	962	6.3%
i	951	6.2%
r	846	5.6%
t	829	5.4%
	766	5.0%
h	652	4.3%
Other values (55)	5548	36.4%

None

Value	Count	Frequency (%)
α	7	50.0%
β	4	28.6%
＆	2	14.3%
´	1	7.1%

Number Forms

Value	Count	Frequency (%)
Ⅵ	2	50.0%
Ⅱ	1	25.0%
Ⅲ	1	25.0%

화학식
Text

MISSING

Distinct	592
Distinct (%)	80.0%
Missing	93
Missing (%)	11.2%
Memory size	6.6 KiB

Length

Max length	31
Median length	22
Mean length	8.6027027
Min length	1

Characters and Unicode

Total characters	6366
Distinct characters	61
Distinct categories	10 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	502 ?
Unique (%)	67.8%

Sample

1st row	-
2nd row	HCOOH
3rd row	GeH4
4th row	-
5th row	-

Value	Count	Frequency (%)
	37	5.0%
sio2	8	1.1%
cr	6	0.8%
c6h4(oh)2	5	0.7%
al	5	0.7%
hg	3	0.4%
c6h12o2	3	0.4%
ni	3	0.4%
ccl3no2	3	0.4%
mo	3	0.4%
Other values (583)	666	89.8%

Most occurring characters

Value	Count	Frequency (%)
C	1289	20.2%
H	1080	17.0%
2	744	11.7%
O	544	8.5%
3	383	6.0%
N	220	3.5%
4	199	3.1%
l	191	3.0%
1	187	2.9%
6	179	2.8%
Other values (51)	1350	21.2%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	3476	54.6%
Decimal Number	2029	31.9%
Lowercase Letter	394	6.2%
Close Punctuation	179	2.8%
Open Punctuation	179	2.8%
Other Punctuation	62	1.0%
Dash Punctuation	38	0.6%
Other Number	4	0.1%
Math Symbol	3	< 0.1%
Space Separator	2	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
C	1289	37.1%
H	1080	31.1%
O	544	15.7%
N	220	6.3%
S	121	3.5%
P	59	1.7%
F	46	1.3%
B	37	1.1%
A	15	0.4%
T	12	0.3%
Other values (11)	53	1.5%

Lowercase Letter

Value	Count	Frequency (%)
l	191	48.5%
r	46	11.7%
n	29	7.4%
i	29	7.4%
a	29	7.4%
e	22	5.6%
g	10	2.5%
b	10	2.5%
o	9	2.3%
s	5	1.3%
Other values (6)	14	3.6%

Decimal Number

Value	Count	Frequency (%)
2	744	36.7%
3	383	18.9%
4	199	9.8%
1	187	9.2%
6	179	8.8%
5	145	7.1%
0	60	3.0%
8	53	2.6%
9	40	2.0%
7	39	1.9%

Other Punctuation

Value	Count	Frequency (%)
/	60	96.8%
%	1	1.6%
·	1	1.6%

Other Number

Value	Count	Frequency (%)
₂	2	50.0%
₄	1	25.0%
₃	1	25.0%

Close Punctuation

Value	Count	Frequency (%)
)	170	95.0%
]	9	5.0%

Open Punctuation

Value	Count	Frequency (%)
(	170	95.0%
[	9	5.0%

Math Symbol

Value	Count	Frequency (%)
=	2	66.7%
~	1	33.3%

Dash Punctuation

Value	Count	Frequency (%)
-	38	100.0%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	3870	60.8%
Common	2496	39.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
C	1289	33.3%
H	1080	27.9%
O	544	14.1%
N	220	5.7%
l	191	4.9%
S	121	3.1%
P	59	1.5%
F	46	1.2%
r	46	1.2%
B	37	1.0%
Other values (27)	237	6.1%

Common

Value	Count	Frequency (%)
2	744	29.8%
3	383	15.3%
4	199	8.0%
1	187	7.5%
6	179	7.2%
)	170	6.8%
(	170	6.8%
5	145	5.8%
0	60	2.4%
/	60	2.4%
Other values (14)	199	8.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	6361	99.9%
None	5	0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
C	1289	20.3%
H	1080	17.0%
2	744	11.7%
O	544	8.6%
3	383	6.0%
N	220	3.5%
4	199	3.1%
l	191	3.0%
1	187	2.9%
6	179	2.8%
Other values (47)	1345	21.1%

None

Value	Count	Frequency (%)
₂	2	40.0%
·	1	20.0%
₄	1	20.0%
₃	1	20.0%

노출기준(TWA, ppm)
Text

MISSING

Distinct	101
Distinct (%)	13.9%
Missing	106
Missing (%)	12.7%
Memory size	6.6 KiB

Length

Max length	22
Median length	1
Mean length	2.4250344
Min length	1

Characters and Unicode

Total characters	1763
Distinct characters	124
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	74 ?
Unique (%)	10.2%

Sample

1st row	300
2nd row	5
3rd row	0.2
4th row	9
5th row	9

Value	Count	Frequency (%)
9	339	41.6%
참조	60	7.4%
10	32	3.9%
50	31	3.8%
2	29	3.6%
5	29	3.6%
1	26	3.2%
0.1	22	2.7%
0.5	21	2.6%
200	15	1.8%
Other values (99)	210	25.8%

Most occurring characters

Value	Count	Frequency (%)
0	343	19.5%
9	339	19.2%
5	127	7.2%
1	126	7.1%
	87	4.9%
2	85	4.8%
.	85	4.8%
조	64	3.6%
참	63	3.6%
로	42	2.4%
Other values (114)	402	22.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	1046	59.3%
Other Letter	504	28.6%
Other Punctuation	92	5.2%
Space Separator	87	4.9%
Dash Punctuation	17	1.0%
Lowercase Letter	10	0.6%
Open Punctuation	3	0.2%
Close Punctuation	3	0.2%
Uppercase Letter	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
조	64	12.7%
참	63	12.5%
로	42	8.3%
틸	26	5.2%
에	21	4.2%
메	19	3.8%
클	18	3.6%
디	13	2.6%
탄	11	2.2%
아	11	2.2%
Other values (88)	216	42.9%

Decimal Number

Value	Count	Frequency (%)
0	343	32.8%
9	339	32.4%
5	127	12.1%
1	126	12.0%
2	85	8.1%
3	13	1.2%
4	5	0.5%
6	4	0.4%
8	3	0.3%
7	1	0.1%

Lowercase Letter

Value	Count	Frequency (%)
t	2	20.0%
i	1	10.0%
u	1	10.0%
a	1	10.0%
n	1	10.0%
e	1	10.0%
h	1	10.0%
o	1	10.0%
l	1	10.0%

Other Punctuation

Value	Count	Frequency (%)
.	85	92.4%
,	7	7.6%

Space Separator

Value	Count	Frequency (%)
	87	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	17	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	3	100.0%

Uppercase Letter

Value	Count	Frequency (%)
B	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	1248	70.8%
Hangul	504	28.6%
Latin	11	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
조	64	12.7%
참	63	12.5%
로	42	8.3%
틸	26	5.2%
에	21	4.2%
메	19	3.8%
클	18	3.6%
디	13	2.6%
탄	11	2.2%
아	11	2.2%
Other values (88)	216	42.9%

Common

Value	Count	Frequency (%)
0	343	27.5%
9	339	27.2%
5	127	10.2%
1	126	10.1%
	87	7.0%
2	85	6.8%
.	85	6.8%
-	17	1.4%
3	13	1.0%
,	7	0.6%
Other values (6)	19	1.5%

Latin

Value	Count	Frequency (%)
t	2	18.2%
i	1	9.1%
B	1	9.1%
u	1	9.1%
a	1	9.1%
n	1	9.1%
e	1	9.1%
h	1	9.1%
o	1	9.1%
l	1	9.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1259	71.4%
Hangul	504	28.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	343	27.2%
9	339	26.9%
5	127	10.1%
1	126	10.0%
	87	6.9%
2	85	6.8%
.	85	6.8%
-	17	1.4%
3	13	1.0%
,	7	0.6%
Other values (16)	30	2.4%

Hangul

Value	Count	Frequency (%)
조	64	12.7%
참	63	12.5%
로	42	8.3%
틸	26	5.2%
에	21	4.2%
메	19	3.8%
클	18	3.6%
디	13	2.6%
탄	11	2.2%
아	11	2.2%
Other values (88)	216	42.9%

노출기준(TWA, ㎎/㎥)
Categorical

Distinct	37
Distinct (%)	4.4%
Missing	0
Missing (%)	0.0%
Memory size	6.6 KiB

9	370
<NA>	177
10	51
5	40
0.1	39
Other values (32)	156

Length

Max length	8
Median length	1
Mean length	2.1116447
Min length	1

Unique

Unique	16 ?
Unique (%)	1.9%

Sample

1st row	9
2nd row	9
3rd row	9
4th row	2
5th row	4

Common Values

Value	Count	Frequency (%)
9	370	44.4%
<NA>	177	21.2%
10	51	6.1%
5	40	4.8%
0.1	39	4.7%
1	27	3.2%
0.5	25	3.0%
2	19	2.3%
0.2	18	2.2%
0.05	15	1.8%
Other values (27)	52	6.2%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
9	370	44.4%
na	177	21.2%
10	51	6.1%
5	40	4.8%
0.1	39	4.7%
1	27	3.2%
0.5	25	3.0%
2	19	2.3%
0.2	18	2.2%
0.05	15	1.8%
Other values (26)	52	6.2%

노출기준(STEL,ppm)
Text

MISSING

Distinct	58
Distinct (%)	8.8%
Missing	175
Missing (%)	21.0%
Memory size	6.6 KiB

Length

Max length	7
Median length	1
Mean length	1.4164134
Min length	1

Characters and Unicode

Total characters	932
Distinct characters	14
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	25 ?
Unique (%)	3.8%

Sample

1st row	500
2nd row	9
3rd row	9
4th row	9
5th row	9

Value	Count	Frequency (%)
9	513	75.0%
c	26	3.8%
15	12	1.8%
150	8	1.2%
100	8	1.2%
10	7	1.0%
1	7	1.0%
5	7	1.0%
75	6	0.9%
250	6	0.9%
Other values (40)	84	12.3%

Most occurring characters

Value	Count	Frequency (%)
9	513	55.0%
0	123	13.2%
5	69	7.4%
1	63	6.8%
2	33	3.5%
.	33	3.5%
C	28	3.0%
	26	2.8%
3	16	1.7%
7	12	1.3%
Other values (4)	16	1.7%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	844	90.6%
Other Punctuation	34	3.6%
Uppercase Letter	28	3.0%
Space Separator	26	2.8%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
9	513	60.8%
0	123	14.6%
5	69	8.2%
1	63	7.5%
2	33	3.9%
3	16	1.9%
7	12	1.4%
4	11	1.3%
6	3	0.4%
8	1	0.1%

Other Punctuation

Value	Count	Frequency (%)
.	33	97.1%
,	1	2.9%

Uppercase Letter

Value	Count	Frequency (%)
C	28	100.0%

Space Separator

Value	Count	Frequency (%)
	26	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	904	97.0%
Latin	28	3.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
9	513	56.7%
0	123	13.6%
5	69	7.6%
1	63	7.0%
2	33	3.7%
.	33	3.7%
	26	2.9%
3	16	1.8%
7	12	1.3%
4	11	1.2%
Other values (3)	5	0.6%

Latin

Value	Count	Frequency (%)
C	28	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	932	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
9	513	55.0%
0	123	13.2%
5	69	7.4%
1	63	6.8%
2	33	3.5%
.	33	3.5%
C	28	3.0%
	26	2.8%
3	16	1.7%
7	12	1.3%
Other values (4)	16	1.7%

노출기준(STEL,㎎/㎥)
Categorical

IMBALANCE

Distinct	22
Distinct (%)	2.6%
Missing	0
Missing (%)	0.0%
Memory size	6.6 KiB

9	624
<NA>	172
3	6
10	5
20	4
Other values (17)	22

Length

Max length	6
Median length	1
Mean length	1.6842737
Min length	1

Unique

Unique	13 ?
Unique (%)	1.6%

Sample

1st row	9
2nd row	9
3rd row	9
4th row	9
5th row	9

Common Values

Value	Count	Frequency (%)
9	624	74.9%
<NA>	172	20.6%
3	6	0.7%
10	5	0.6%
20	4	0.5%
2	3	0.4%
C 0.1	2	0.2%
0.6	2	0.2%
C 2	2	0.2%
C 100	1	0.1%
Other values (12)	12	1.4%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
9	624	74.3%
na	172	20.5%
c	7	0.8%
3	6	0.7%
10	5	0.6%
2	5	0.6%
20	4	0.5%
0.1	2	0.2%
0.6	2	0.2%
5	2	0.2%
Other values (11)	11	1.3%

비고(CAS번호 등)
Text

MISSING

Distinct	640
Distinct (%)	94.7%
Missing	157
Missing (%)	18.8%
Memory size	6.6 KiB

Length

Max length	71
Median length	43
Mean length	16.223373
Min length	1

Characters and Unicode

Total characters	10967
Distinct characters	116
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	614 ?
Unique (%)	90.8%

Sample

1st row	[8006-61-9] 발암성 1B, (가솔린 증기의 직업적 노출에 한정함), 생식세포 변이원성 1B
2nd row	[64-18-6]
3rd row	[7782-65-2]
4th row	[8002-74-2]
5th row	-

Value	Count	Frequency (%)
skin	201	12.0%
발암성	199	11.9%
2	140	8.3%
1b	89	5.3%
1a	54	3.2%
흡입성	53	3.2%
생식독성	46	2.7%
변이원성	42	2.5%
생식세포	42	2.5%
및	32	1.9%
Other values (659)	781	46.5%

Most occurring characters

Value	Count	Frequency (%)
-	1330	12.1%
	1003	9.1%
1	750	6.8%
]	663	6.0%
[	663	6.0%
2	536	4.9%
0	482	4.4%
7	466	4.2%
4	442	4.0%
성	363	3.3%
Other values (106)	4269	38.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	4431	40.4%
Other Letter	1659	15.1%
Dash Punctuation	1330	12.1%
Space Separator	1003	9.1%
Close Punctuation	678	6.2%
Open Punctuation	678	6.2%
Lowercase Letter	611	5.6%
Uppercase Letter	349	3.2%
Other Punctuation	227	2.1%
Math Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
성	363	21.9%
암	200	12.1%
발	200	12.1%
생	88	5.3%
식	88	5.3%
흡	73	4.4%
입	53	3.2%
이	51	3.1%
독	47	2.8%
포	43	2.6%
Other values (76)	453	27.3%

Decimal Number

Value	Count	Frequency (%)
1	750	16.9%
2	536	12.1%
0	482	10.9%
7	466	10.5%
4	442	10.0%
3	358	8.1%
8	356	8.0%
9	352	7.9%
5	351	7.9%
6	338	7.6%

Lowercase Letter

Value	Count	Frequency (%)
i	203	33.2%
n	202	33.1%
k	202	33.1%
s	3	0.5%
t	1	0.2%

Uppercase Letter

Value	Count	Frequency (%)
S	200	57.3%
B	91	26.1%
A	56	16.0%
I	1	0.3%
M	1	0.3%

Other Punctuation

Value	Count	Frequency (%)
,	213	93.8%
%	8	3.5%
.	6	2.6%

Close Punctuation

Value	Count	Frequency (%)
]	663	97.8%
)	15	2.2%

Open Punctuation

Value	Count	Frequency (%)
[	663	97.8%
(	15	2.2%

Dash Punctuation

Value	Count	Frequency (%)
-	1330	100.0%

Space Separator

Value	Count	Frequency (%)
	1003	100.0%

Math Symbol

Value	Count	Frequency (%)
~	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	8348	76.1%
Hangul	1659	15.1%
Latin	960	8.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
성	363	21.9%
암	200	12.1%
발	200	12.1%
생	88	5.3%
식	88	5.3%
흡	73	4.4%
입	53	3.2%
이	51	3.1%
독	47	2.8%
포	43	2.6%
Other values (76)	453	27.3%

Common

Value	Count	Frequency (%)
-	1330	15.9%
	1003	12.0%
1	750	9.0%
]	663	7.9%
[	663	7.9%
2	536	6.4%
0	482	5.8%
7	466	5.6%
4	442	5.3%
3	358	4.3%
Other values (10)	1655	19.8%

Latin

Value	Count	Frequency (%)
i	203	21.1%
n	202	21.0%
k	202	21.0%
S	200	20.8%
B	91	9.5%
A	56	5.8%
s	3	0.3%
I	1	0.1%
M	1	0.1%
t	1	0.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	9308	84.9%
Hangul	1659	15.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
-	1330	14.3%
	1003	10.8%
1	750	8.1%
]	663	7.1%
[	663	7.1%
2	536	5.8%
0	482	5.2%
7	466	5.0%
4	442	4.7%
3	358	3.8%
Other values (20)	2615	28.1%

Hangul

Value	Count	Frequency (%)
성	363	21.9%
암	200	12.1%
발	200	12.1%
생	88	5.3%
식	88	5.3%
흡	73	4.4%
입	53	3.2%
이	51	3.1%
독	47	2.8%
포	43	2.6%
Other values (76)	453	27.3%

일련번호

일련번호

Heatmap
Table

	일련번호	노출기준(TWA, ㎎/㎥)	노출기준(STEL,ppm)	노출기준(STEL,㎎/㎥)
일련번호	1.000	0.187	0.218	0.133
노출기준(TWA, ㎎/㎥)	0.187	1.000	0.000	0.805
노출기준(STEL,ppm)	0.218	0.000	1.000	0.000
노출기준(STEL,㎎/㎥)	0.133	0.805	0.000	1.000

Heatmap
Table

	노출기준(STEL,㎎/㎥)	노출기준(TWA, ㎎/㎥)
노출기준(STEL,㎎/㎥)	1.000	0.322
노출기준(TWA, ㎎/㎥)	0.322	1.000

Heatmap
Table

	일련번호	노출기준(TWA, ㎎/㎥)	노출기준(STEL,㎎/㎥)
일련번호	1.000	0.063	0.049
노출기준(TWA, ㎎/㎥)	0.063	1.000	0.322
노출기준(STEL,㎎/㎥)	0.049	0.322	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	일련번호	유해물질의 명칭(국문)	유해물질의 명칭(영문)	화학식	노출기준(TWA, ppm)	노출기준(TWA, ㎎/㎥)	노출기준(STEL,ppm)	노출기준(STEL,㎎/㎥)	비고(CAS번호 등)
0	1	가솔린	Gasoline	-	300	9	500	9	[8006-61-9] 발암성 1B, (가솔린 증기의 직업적 노출에 한정함), 생식세포 변이원성 1B
1	2	개미산	Formic acid	HCOOH	5	9	9	9	[64-18-6]
2	3	게르마늄 테트라하이드라이드	Germanium tetrahydride	GeH4	0.2	9	9	9	[7782-65-2]
3	4	고형 파라핀 흄	Paraffin wax fume	-	9	2	9	9	[8002-74-2]
4	5	곡물분진	Grain dust	-	9	4	9	9	-
5	6	곡분분진	Flour dust(Inhalable fraction)	-	9	0.5	9	9	흡입성
6	7	과산화벤조일	Benzoyl peroxide	(C6H5CO)2O2	9	5	9	9	[94-36-0]
7	8	과산화수소	Hydrogen peroxide	H2O2	1	9	9	9	[7722-84-1] 발암성 2
8	9	광물털 섬유	Mineral wool fiber	-	9	10	9	9	발암성 2, (알칼리 산화물 및 알칼리토금속 산화물의 중량비가 18% 이상인 불특정 모양의 인공 유리규산 섬유에 한정함)
9	10	구리(분진 및 미스트)	Copper(Dust & mist, as Cu)	Cu	9	1	9	9	[7440-50-8]

	일련번호	유해물질의 명칭(국문)	유해물질의 명칭(영문)	화학식	노출기준(TWA, ppm)	노출기준(TWA, ㎎/㎥)	노출기준(STEL,ppm)	노출기준(STEL,㎎/㎥)	비고(CAS번호 등)
823	<NA>	(흄 및 분진)	(Fume & dust, as Ni)	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
824	728	황화수소	Hydrogen sulfide	H2S	10	9	15	9	[7783-06-4]
825	729	휘발성 콜타르피치	Coal tar pitch volatiles	C14H10/C16H10/C12H9N/C20H12	9	0.2	9	9	[65996-93-2] 발암성 1A, 생식독성 1B
826	<NA>	(벤젠에 가용물)	(Benzene solubles)	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
827	730	흑연	Graphite	C	9	2	9	9	[7782-42-5] 호흡성
828	<NA>	(천연 및 합성,	(Natural＆ Synthetic,	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
829	<NA>	Graphite 섬유제외)	Except Graphite fibers, Respirable fraction)	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>
830	731	기타 분진	Particulates not otherwise	-	9	10	9	9	발암성 1A
831	<NA>	(산화규소 결정체 1% 이하)	regulated(no more than 1%	<NA>	<NA>	<NA>	<NA>	<NA>	(산화규소 결정체 0.1% 이상에 한함)
832	<NA>	<NA>	crystalline silica)	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>

Most frequently occurring

	일련번호	유해물질의 명칭(국문)	유해물질의 명칭(영문)	화학식	노출기준(TWA, ppm)	노출기준(TWA, ㎎/㎥)	노출기준(STEL,ppm)	노출기준(STEL,㎎/㎥)	비고(CAS번호 등)	# duplicates
1	<NA>	<NA>	(Inhalable fraction and vapor)	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	8
2	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	(벤젠 0.1% 이상인 경우에 한정함)	3
0	<NA>	디플로로에탄	difluoroethane	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	2
3	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	Skin	2
4	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	생식독성 1B	2
5	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	생식독성 2, Skin	2
6	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Decimal Number

Other Punctuation

Uppercase Letter

Space Separator

Dash Punctuation

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Letter Number

Space Separator

Dash Punctuation

Close Punctuation

Open Punctuation

Modifier Symbol

Most occurring scripts

Most frequent character per script

Latin

Common

Greek

Most occurring blocks

Most frequent character per block

ASCII

None

Number Forms

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Other Number

Close Punctuation

Open Punctuation

Math Symbol

Dash Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Dash Punctuation

Open Punctuation

Close Punctuation

Uppercase Letter

Most occurring scripts