gimi9 Pandas Profiling

Dataset statistics

Number of variables	6
Number of observations	265
Missing cells	94
Missing cells (%)	5.9%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	12.6 KiB
Average record size in memory	48.5 B

Variable types

Categorical	3
Text	3

Dataset

Description	대구광역시_시료유형 및 검사항목_20210316
Author	대구광역시
URL	http://data.daegu.go.kr/open/data/dataView.do?dataSetId=15062514&dataSetDetailId=150625141b5eba396deab&provdMethod=FILE

Alerts

`시료유형1` is highly overall correlated with `구분` and 1 other fields	High correlation
`구분` is highly overall correlated with `시료유형1` and 1 other fields	High correlation
`비고` is highly overall correlated with `구분` and 1 other fields	High correlation
`비고` is highly imbalanced (73.2%)	Imbalance
`시료유형2` has 87 (32.8%) missing values	Missing
`검사항목` has 7 (2.6%) missing values	Missing

Reproduction

Analysis started	2024-04-16 15:51:05.700217
Analysis finished	2024-04-16 15:51:07.528155
Duration	1.83 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

구분
Categorical

HIGH CORRELATION

Distinct	8
Distinct (%)	3.0%
Missing	0
Missing (%)	0.0%
Memory size	2.2 KiB

식품	95
의약품	40
하천수, 호소수	37
토양	34
환경검사	23
Other values (3)	36

Length

Max length	8
Median length	2
Mean length	3.3735849
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	미생물
2nd row	미생물
3rd row	미생물
4th row	미생물
5th row	미생물

Common Values

Value	Count	Frequency (%)
식품	95	35.8%
의약품	40	15.1%
하천수, 호소수	37	14.0%
토양	34	12.8%
환경검사	23	8.7%
축산	15	5.7%
미생물	14	5.3%
하수(오수)검사	7	2.6%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
식품	95	31.5%
의약품	40	13.2%
하천수	37	12.3%
호소수	37	12.3%
토양	34	11.3%
환경검사	23	7.6%
축산	15	5.0%
미생물	14	4.6%
하수(오수)검사	7	2.3%

시료유형1
Categorical

HIGH CORRELATION

Distinct	35
Distinct (%)	13.2%
Missing	0
Missing (%)	0.0%
Memory size	2.2 KiB

식품별 규격 확인 시험법	34
성분시험법	25
일반오염물질	20
검사항목(22항목)	19
특정유해물질	17
Other values (30)	150

Length

Max length	18
Median length	11
Mean length	7.6981132
Min length	2

Unique

Unique	11 ?
Unique (%)	4.2%

Sample

1st row	가공식품 및 조리식품 등
2nd row	가공식품 및 조리식품 등
3rd row	가공식품 및 조리식품 등
4th row	가공식품 및 조리식품 등
5th row	가공식품 및 조리식품 등

Common Values

Value	Count	Frequency (%)
식품별 규격 확인 시험법	34	12.8%
성분시험법	25	9.4%
일반오염물질	20	7.5%
검사항목(22항목)	19	7.2%
특정유해물질	17	6.4%
축산물	15	5.7%
가공식품 및 조리식품 등	14	5.3%
의약품 및 의약외품	12	4.5%
건강기능식품	11	4.2%
유해물질	10	3.8%
Other values (25)	88	33.2%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
식품별	34	7.3%
시험법	34	7.3%
규격	34	7.3%
확인	34	7.3%
및	26	5.6%
성분시험법	25	5.3%
일반오염물질	20	4.3%
검사항목(22항목	19	4.1%
특정유해물질	17	3.6%
축산물	15	3.2%
Other values (39)	210	44.9%

시료유형2
Text

MISSING

Distinct	60
Distinct (%)	33.7%
Missing	87
Missing (%)	32.8%
Memory size	2.2 KiB

Length

Max length	36
Median length	30
Mean length	6.1179775
Min length	2

Characters and Unicode

Total characters	1089
Distinct characters	155
Distinct categories	7 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	30 ?
Unique (%)	16.9%

Sample

1st row	식품규격
2nd row	식품규격
3rd row	식중독균 검사
4th row	식중독균 검사
5th row	식중독균 검사

Value	Count	Frequency (%)
및	21	7.8%
의약품	12	4.5%
의약외품	12	4.5%
식중독균	11	4.1%
검사	11	4.1%
일반시험법	10	3.7%
조미식품	9	3.4%
위생용품	9	3.4%
또는	7	2.6%
개별성분시험법	7	2.6%
Other values (79)	159	59.3%

Most occurring characters

Value	Count	Frequency (%)
	90	8.3%
품	71	6.5%
식	40	3.7%
용	26	2.4%
화	25	2.3%
약	24	2.2%
의	24	2.2%
물	22	2.0%
수	22	2.0%
기	22	2.0%
Other values (145)	723	66.4%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	940	86.3%
Space Separator	90	8.3%
Other Punctuation	22	2.0%
Close Punctuation	14	1.3%
Open Punctuation	14	1.3%
Uppercase Letter	5	0.5%
Decimal Number	4	0.4%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
품	71	7.6%
식	40	4.3%
용	26	2.8%
화	25	2.7%
약	24	2.6%
의	24	2.6%
물	22	2.3%
수	22	2.3%
기	22	2.3%
분	21	2.2%
Other values (134)	643	68.4%

Uppercase Letter

Value	Count	Frequency (%)
C	2	40.0%
H	1	20.0%
A	1	20.0%
P	1	20.0%

Other Punctuation

Value	Count	Frequency (%)
,	15	68.2%
·	7	31.8%

Decimal Number

Value	Count	Frequency (%)
1	3	75.0%
7	1	25.0%

Space Separator

Value	Count	Frequency (%)
	90	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	14	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	14	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	940	86.3%
Common	144	13.2%
Latin	5	0.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
품	71	7.6%
식	40	4.3%
용	26	2.8%
화	25	2.7%
약	24	2.6%
의	24	2.6%
물	22	2.3%
수	22	2.3%
기	22	2.3%
분	21	2.2%
Other values (134)	643	68.4%

Common

Value	Count	Frequency (%)
	90	62.5%
,	15	10.4%
)	14	9.7%
(	14	9.7%
·	7	4.9%
1	3	2.1%
7	1	0.7%

Latin

Value	Count	Frequency (%)
C	2	40.0%
H	1	20.0%
A	1	20.0%
P	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	940	86.3%
ASCII	142	13.0%
None	7	0.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	90	63.4%
,	15	10.6%
)	14	9.9%
(	14	9.9%
1	3	2.1%
C	2	1.4%
H	1	0.7%
7	1	0.7%
A	1	0.7%
P	1	0.7%

Hangul

Value	Count	Frequency (%)
품	71	7.6%
식	40	4.3%
용	26	2.8%
화	25	2.7%
약	24	2.6%
의	24	2.6%
물	22	2.3%
수	22	2.3%
기	22	2.3%
분	21	2.2%
Other values (134)	643	68.4%

None

Value	Count	Frequency (%)
·	7	100.0%

검사항목
Text

MISSING

Distinct	215
Distinct (%)	83.3%
Missing	7
Missing (%)	2.6%
Memory size	2.2 KiB

Length

Max length	65
Median length	45
Mean length	9.3682171
Min length	1

Characters and Unicode

Total characters	2417
Distinct characters	294
Distinct categories	10 ?
Distinct scripts	4 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	186 ?
Unique (%)	72.1%

Sample

1st row	대장균군, 일반세균수, 유산균수, 대장균, 진균수(1항목당)
2nd row	대장균군, 일반세균수, 대장균(1항목당)
3rd row	살모넬라, 장출혈성 대장균, 장염비브리오, 황색포도상구균, 리스테리아 모노사이토제네스(1항목당)
4th row	살모넬라, 장출혈성 대장균, 장염비브리오, 황색포도상구균, 리스테리아 모노사이토제네스(1항목당)
5th row	여시니아 엔테로콜리티카

Value	Count	Frequency (%)
항목	16	3.7%
및	7	1.6%
시험	7	1.6%
납	6	1.4%
카드뮴	6	1.4%
살모넬라	6	1.4%
그밖의	5	1.2%
타르색소	5	1.2%
대장균	5	1.2%
비소	5	1.2%
Other values (288)	365	84.3%

Most occurring characters

Value	Count	Frequency (%)
	176	7.3%
)	100	4.1%
(	100	4.1%
,	98	4.1%
당	53	2.2%
1	52	2.2%
시	48	2.0%
항	44	1.8%
리	43	1.8%
목	43	1.8%
Other values (284)	1660	68.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	1681	69.5%
Space Separator	176	7.3%
Uppercase Letter	132	5.5%
Other Punctuation	101	4.2%
Close Punctuation	100	4.1%
Open Punctuation	100	4.1%
Decimal Number	89	3.7%
Lowercase Letter	21	0.9%
Dash Punctuation	16	0.7%
Math Symbol	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
당	53	3.2%
시	48	2.9%
항	44	2.6%
리	43	2.6%
목	43	2.6%
험	39	2.3%
소	38	2.3%
산	37	2.2%
비	29	1.7%
로	29	1.7%
Other values (238)	1278	76.0%

Uppercase Letter

Value	Count	Frequency (%)
D	14	10.6%
C	14	10.6%
B	13	9.8%
P	12	9.1%
N	11	8.3%
H	11	8.3%
T	10	7.6%
O	9	6.8%
A	9	6.8%
E	9	6.8%
Other values (7)	20	15.2%

Decimal Number

Value	Count	Frequency (%)
1	52	58.4%
2	11	12.4%
6	9	10.1%
5	5	5.6%
0	3	3.4%
4	3	3.4%
9	2	2.2%
3	2	2.2%
7	1	1.1%
8	1	1.1%

Lowercase Letter

Value	Count	Frequency (%)
n	5	23.8%
α	3	14.3%
p	3	14.3%
a	2	9.5%
r	2	9.5%
i	2	9.5%
e	1	4.8%
b	1	4.8%
g	1	4.8%
u	1	4.8%

Other Punctuation

Value	Count	Frequency (%)
,	98	97.0%
#	1	1.0%
/	1	1.0%
·	1	1.0%

Space Separator

Value	Count	Frequency (%)
	176	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	100	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	100	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	16	100.0%

Math Symbol

Value	Count	Frequency (%)
+	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	1681	69.5%
Common	583	24.1%
Latin	150	6.2%
Greek	3	0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
당	53	3.2%
시	48	2.9%
항	44	2.6%
리	43	2.6%
목	43	2.6%
험	39	2.3%
소	38	2.3%
산	37	2.2%
비	29	1.7%
로	29	1.7%
Other values (238)	1278	76.0%

Latin

Value	Count	Frequency (%)
D	14	9.3%
C	14	9.3%
B	13	8.7%
P	12	8.0%
N	11	7.3%
H	11	7.3%
T	10	6.7%
O	9	6.0%
A	9	6.0%
E	9	6.0%
Other values (16)	38	25.3%

Common

Value	Count	Frequency (%)
	176	30.2%
)	100	17.2%
(	100	17.2%
,	98	16.8%
1	52	8.9%
-	16	2.7%
2	11	1.9%
6	9	1.5%
5	5	0.9%
0	3	0.5%
Other values (9)	13	2.2%

Greek

Value	Count	Frequency (%)
α	3	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	1681	69.5%
ASCII	732	30.3%
None	4	0.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	176	24.0%
)	100	13.7%
(	100	13.7%
,	98	13.4%
1	52	7.1%
-	16	2.2%
D	14	1.9%
C	14	1.9%
B	13	1.8%
P	12	1.6%
Other values (34)	137	18.7%

Hangul

Value	Count	Frequency (%)
당	53	3.2%
시	48	2.9%
항	44	2.6%
리	43	2.6%
목	43	2.6%
험	39	2.3%
소	38	2.3%
산	37	2.2%
비	29	1.7%
로	29	1.7%
Other values (238)	1278	76.0%

None

Value	Count	Frequency (%)
α	3	75.0%
·	1	25.0%

비고
Categorical

HIGH CORRELATION IMBALANCE

Distinct	14
Distinct (%)	5.3%
Missing	0
Missing (%)	0.0%
Memory size	2.2 KiB

<NA>	229
n=5	9
기기분석	5
상기외의 시험	4
참고용	4
Other values (9)	14

Length

Max length	24
Median length	4
Mean length	4.2867925
Min length	3

Unique

Unique	6 ?
Unique (%)	2.3%

Sample

1st row	<NA>
2nd row	n=5
3rd row	<NA>
4th row	n=5
5th row	n=5

Common Values

Value	Count	Frequency (%)
<NA>	229	86.4%
n=5	9	3.4%
기기분석	5	1.9%
상기외의 시험	4	1.5%
참고용	4	1.5%
출장비: 40,000원 별도	3	1.1%
살균, n=5	3	1.1%
비살균, n=5	2	0.8%
박층크로마토그래프법	1	0.4%
적정법	1	0.4%
Other values (4)	4	1.5%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
na	229	80.9%
n=5	14	4.9%
기기분석	5	1.8%
상기외의	4	1.4%
시험	4	1.4%
참고용	4	1.4%
출장비	4	1.4%
비살균	3	1.1%
살균	3	1.1%
별도	3	1.1%
Other values (8)	10	3.5%

수수료(원)
Text

Distinct	167
Distinct (%)	63.0%
Missing	0
Missing (%)	0.0%
Memory size	2.2 KiB

Length

Max length	11
Median length	5
Mean length	4.9886792
Min length	3

Characters and Unicode

Total characters	1322
Distinct characters	20
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	129 ?
Unique (%)	48.7%

Sample

1st row	19900
2nd row	43600
3rd row	29000
4th row	64900
5th row	47700

Value	Count	Frequency (%)
44200	22	7.9%
6900	8	2.9%
8600	7	2.5%
30000	7	2.5%
유사시험	6	2.2%
항목에	6	2.2%
준함	6	2.2%
3400	5	1.8%
26000	5	1.8%
2800	4	1.4%
Other values (159)	201	72.6%

Most occurring characters

Value	Count	Frequency (%)
0	622	47.0%
4	104	7.9%
1	90	6.8%
2	88	6.7%
3	79	6.0%
6	76	5.7%
5	55	4.2%
7	50	3.8%
8	47	3.6%
9	45	3.4%
Other values (10)	66	5.0%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	1256	95.0%
Other Letter	54	4.1%
Space Separator	12	0.9%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	622	49.5%
4	104	8.3%
1	90	7.2%
2	88	7.0%
3	79	6.3%
6	76	6.1%
5	55	4.4%
7	50	4.0%
8	47	3.7%
9	45	3.6%

Other Letter

Value	Count	Frequency (%)
시	6	11.1%
항	6	11.1%
목	6	11.1%
에	6	11.1%
준	6	11.1%
함	6	11.1%
사	6	11.1%
유	6	11.1%
험	6	11.1%

Space Separator

Value	Count	Frequency (%)
	12	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	1268	95.9%
Hangul	54	4.1%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	622	49.1%
4	104	8.2%
1	90	7.1%
2	88	6.9%
3	79	6.2%
6	76	6.0%
5	55	4.3%
7	50	3.9%
8	47	3.7%
9	45	3.5%

Hangul

Value	Count	Frequency (%)
시	6	11.1%
항	6	11.1%
목	6	11.1%
에	6	11.1%
준	6	11.1%
함	6	11.1%
사	6	11.1%
유	6	11.1%
험	6	11.1%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	1268	95.9%
Hangul	54	4.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	622	49.1%
4	104	8.2%
1	90	7.1%
2	88	6.9%
3	79	6.2%
6	76	6.0%
5	55	4.3%
7	50	3.9%
8	47	3.7%
9	45	3.5%

Hangul

Value	Count	Frequency (%)
시	6	11.1%
항	6	11.1%
목	6	11.1%
에	6	11.1%
준	6	11.1%
함	6	11.1%
사	6	11.1%
유	6	11.1%
험	6	11.1%

Heatmap
Table

	구분	시료유형1	시료유형2	비고
구분	1.000	1.000	1.000	1.000
시료유형1	1.000	1.000	0.999	0.849
시료유형2	1.000	0.999	1.000	0.955
비고	1.000	0.849	0.955	1.000

Heatmap
Table

	시료유형1	구분	비고
시료유형1	1.000	0.946	0.513
구분	0.946	1.000	0.848
비고	0.513	0.848	1.000

Heatmap
Table

	구분	시료유형1	비고
구분	1.000	0.946	0.848
시료유형1	0.946	1.000	0.513
비고	0.848	0.513	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	구분	시료유형1	시료유형2	검사항목	비고	수수료(원)
0	미생물	가공식품 및 조리식품 등	식품규격	대장균군, 일반세균수, 유산균수, 대장균, 진균수(1항목당)	<NA>	19900
1	미생물	가공식품 및 조리식품 등	식품규격	대장균군, 일반세균수, 대장균(1항목당)	n=5	43600
2	미생물	가공식품 및 조리식품 등	식중독균 검사	살모넬라, 장출혈성 대장균, 장염비브리오, 황색포도상구균, 리스테리아 모노사이토제네스(1항목당)	<NA>	29000
3	미생물	가공식품 및 조리식품 등	식중독균 검사	살모넬라, 장출혈성 대장균, 장염비브리오, 황색포도상구균, 리스테리아 모노사이토제네스(1항목당)	n=5	64900
4	미생물	가공식품 및 조리식품 등	식중독균 검사	여시니아 엔테로콜리티카	n=5	47700
5	미생물	가공식품 및 조리식품 등	식중독균 검사	클로스트리디움 퍼프린젠스	n=5	40200
6	미생물	가공식품 및 조리식품 등	식중독균 검사	캠필로박터 제주니/콜리	n=5	46500
7	미생물	가공식품 및 조리식품 등	식중독균 검사	크로노박터	n=5	38300
8	미생물	가공식품 및 조리식품 등	식중독균 검사	바실루스 세레우스(정량)	<NA>	52800
9	미생물	가공식품 및 조리식품 등	식중독균 검사	바실루스 세레우스(정량)	n=5	225700

	구분	시료유형1	시료유형2	검사항목	비고	수수료(원)
255	축산	축산물	알가공품	세균수, 대장균군, 살모넬라, 리스테리아모노사이토제네스	살균, n=5	217000
256	축산	축산물	식육 (학교급식)	항생제검사(정성, 단성분정량검사)	<NA>	60000
257	축산	축산물	HACCP검사	세균수, 대장균, 살모넬라	<NA>	68800
258	축산	축산물	기구류, 낙하세균	세균수	<NA>	19900
259	축산	축산물	축산물	잔류농약(다성분분석법)	참고용	278400
260	축산	축산물	축산물	잔류농약(단성분분석법)	참고용	81400
261	축산	축산물	축산물	잔류동물용의약품(정성시험)	참고용	20000
262	축산	축산물	축산물	잔류동물용의약품(정량시험)	참고용	40000
263	축산	축산물	식용란	잔류물질	자가품질검사	231400
264	축산	축산물	소고기	한우확인검사	<NA>	80000

Overview

Variables

Common Values

Length

Common Values (Plot)

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Other Punctuation

Decimal Number

Space Separator

Close Punctuation

Open Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Space Separator

Close Punctuation

Open Punctuation

Dash Punctuation

Math Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Greek

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Common Values

Length

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Other Letter

Space Separator

Most occurring scripts

Most frequent character per script

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Correlations

Missing values

Sample