gimi9 Pandas Profiling

Dataset statistics

Number of variables	7
Number of observations	29
Missing cells	56
Missing cells (%)	27.6%
Duplicate rows	1
Duplicate rows (%)	3.4%
Total size in memory	1.7 KiB
Average record size in memory	60.4 B

Variable types

Unsupported	2
Text	3
Categorical	2

Dataset

Description	해상조난사고 상세데이터(해양경찰청)
Author	행정안전부
URL	https://www.vworld.kr/dtmk/dtmk_ntads_s002.do?dsId=30161

Alerts

Dataset has 1 (3.4%) duplicate rows	Duplicates
`Unnamed: 6` is highly overall correlated with `Unnamed: 3`	High correlation
`Unnamed: 3` is highly overall correlated with `Unnamed: 6`	High correlation
`Unnamed: 1` has 10 (34.5%) missing values	Missing
`Unnamed: 2` has 9 (31.0%) missing values	Missing
`Unnamed: 4` has 10 (34.5%) missing values	Missing
`Unnamed: 5` has 27 (93.1%) missing values	Missing
`테이블정의서` is an unsupported type, check if it needs cleaning or further analysis	Unsupported
`Unnamed: 4` is an unsupported type, check if it needs cleaning or further analysis	Unsupported

Reproduction

Analysis started	2024-04-21 08:19:33.446671
Analysis finished	2024-04-21 08:19:34.780122
Duration	1.33 second
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

테이블정의서
Unsupported

REJECTED UNSUPPORTED

Missing	0
Missing (%)	0.0%
Memory size	360.0 B

Unnamed: 1
Text

MISSING

Distinct	19
Distinct (%)	100.0%
Missing	10
Missing (%)	34.5%
Memory size	360.0 B

Length

Max length	10
Median length	9
Mean length	6.4210526
Min length	1

Characters and Unicode

Total characters	122
Distinct characters	27
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	19 ?
Unique (%)	100.0%

Sample

1st row	컬럼ID
2nd row	OBJT_ID
3rd row	OCCU_YEAR
4th row	OCCU_MT
5th row	OCCU_DE

Value	Count	Frequency (%)
컬럼id	1	5.3%
occu_ca_de	1	5.3%
y	1	5.3%
x	1	5.3%
occu_ty_cd	1	5.3%
lon	1	5.3%
lat	1	5.3%
acdn_lc_cn	1	5.3%
wether_sn	1	5.3%
occu_ty	1	5.3%
Other values (9)	9	47.4%

Most occurring characters

Value	Count	Frequency (%)
C	25	20.5%
_	16	13.1%
O	12	9.8%
U	9	7.4%
T	8	6.6%
D	7	5.7%
E	6	4.9%
N	5	4.1%
L	5	4.1%
A	5	4.1%
Other values (17)	24	19.7%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	100	82.0%
Connector Punctuation	16	13.1%
Other Letter	6	4.9%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
C	25	25.0%
O	12	12.0%
U	9	9.0%
T	8	8.0%
D	7	7.0%
E	6	6.0%
N	5	5.0%
L	5	5.0%
A	5	5.0%
Y	4	4.0%
Other values (10)	14	14.0%

Other Letter

Value	Count	Frequency (%)
용	1	16.7%
내	1	16.7%
없	1	16.7%
컬	1	16.7%
럼	1	16.7%
음	1	16.7%

Connector Punctuation

Value	Count	Frequency (%)
_	16	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	100	82.0%
Common	16	13.1%
Hangul	6	4.9%

Most frequent character per script

Latin

Value	Count	Frequency (%)
C	25	25.0%
O	12	12.0%
U	9	9.0%
T	8	8.0%
D	7	7.0%
E	6	6.0%
N	5	5.0%
L	5	5.0%
A	5	5.0%
Y	4	4.0%
Other values (10)	14	14.0%

Hangul

Value	Count	Frequency (%)
용	1	16.7%
내	1	16.7%
없	1	16.7%
컬	1	16.7%
럼	1	16.7%
음	1	16.7%

Common

Value	Count	Frequency (%)
_	16	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	116	95.1%
Hangul	6	4.9%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
C	25	21.6%
_	16	13.8%
O	12	10.3%
U	9	7.8%
T	8	6.9%
D	7	6.0%
E	6	5.2%
N	5	4.3%
L	5	4.3%
A	5	4.3%
Other values (11)	18	15.5%

Hangul

Value	Count	Frequency (%)
용	1	16.7%
내	1	16.7%
없	1	16.7%
컬	1	16.7%
럼	1	16.7%
음	1	16.7%

Unnamed: 2
Text

MISSING

Distinct	20
Distinct (%)	100.0%
Missing	9
Missing (%)	31.0%
Memory size	360.0 B

Length

Max length	22
Median length	12.5
Mean length	7.25
Min length	2

Characters and Unicode

Total characters	145
Distinct characters	68
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	20 ?
Unique (%)	100.0%

Sample

1st row	A2SM_OceanAcdntSttus
2nd row	생활안전지도 사고안전 해양사고발생현황정보
3rd row	컬럼명
4th row	일련번호
5th row	발생년도(YYYY)

Value	Count	Frequency (%)
생활안전지도	1	4.5%
사고안전	1	4.5%
y좌표	1	4.5%
x좌표	1	4.5%
발생유형코드	1	4.5%
경도	1	4.5%
위도	1	4.5%
사고위치내용	1	4.5%
기상특보	1	4.5%
발생원인상세	1	4.5%
Other values (12)	12	54.5%

Most occurring characters

Value	Count	Frequency (%)
생	11	7.6%
발	10	6.9%
Y	9	6.2%
M	7	4.8%
)	5	3.4%
(	5	3.4%
도	4	2.8%
D	4	2.8%
t	3	2.1%
고	3	2.1%
Other values (58)	84	57.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	91	62.8%
Uppercase Letter	28	19.3%
Lowercase Letter	12	8.3%
Close Punctuation	5	3.4%
Open Punctuation	5	3.4%
Space Separator	2	1.4%
Decimal Number	1	0.7%
Connector Punctuation	1	0.7%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
생	11	12.1%
발	10	11.0%
도	4	4.4%
고	3	3.3%
위	3	3.3%
사	3	3.3%
일	3	3.3%
좌	2	2.2%
월	2	2.2%
치	2	2.2%
Other values (37)	48	52.7%

Uppercase Letter

Value	Count	Frequency (%)
Y	9	32.1%
M	7	25.0%
D	4	14.3%
H	2	7.1%
A	2	7.1%
S	2	7.1%
X	1	3.6%
O	1	3.6%

Lowercase Letter

Value	Count	Frequency (%)
t	3	25.0%
c	2	16.7%
n	2	16.7%
s	1	8.3%
u	1	8.3%
d	1	8.3%
e	1	8.3%
a	1	8.3%

Close Punctuation

Value	Count	Frequency (%)
)	5	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	5	100.0%

Space Separator

Value	Count	Frequency (%)
	2	100.0%

Decimal Number

Value	Count	Frequency (%)
2	1	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	91	62.8%
Latin	40	27.6%
Common	14	9.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
생	11	12.1%
발	10	11.0%
도	4	4.4%
고	3	3.3%
위	3	3.3%
사	3	3.3%
일	3	3.3%
좌	2	2.2%
월	2	2.2%
치	2	2.2%
Other values (37)	48	52.7%

Latin

Value	Count	Frequency (%)
Y	9	22.5%
M	7	17.5%
D	4	10.0%
t	3	7.5%
H	2	5.0%
A	2	5.0%
c	2	5.0%
n	2	5.0%
S	2	5.0%
s	1	2.5%
Other values (6)	6	15.0%

Common

Value	Count	Frequency (%)
)	5	35.7%
(	5	35.7%
	2	14.3%
2	1	7.1%
_	1	7.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	91	62.8%
ASCII	54	37.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
생	11	12.1%
발	10	11.0%
도	4	4.4%
고	3	3.3%
위	3	3.3%
사	3	3.3%
일	3	3.3%
좌	2	2.2%
월	2	2.2%
치	2	2.2%
Other values (37)	48	52.7%

ASCII

Value	Count	Frequency (%)
Y	9	16.7%
M	7	13.0%
)	5	9.3%
(	5	9.3%
D	4	7.4%
t	3	5.6%
H	2	3.7%
A	2	3.7%
c	2	3.7%
n	2	3.7%
Other values (11)	13	24.1%

Unnamed: 3
Categorical

HIGH CORRELATION

Distinct	5
Distinct (%)	17.2%
Missing	0
Missing (%)	0.0%
Memory size	360.0 B

VARCHAR2	12
<NA>	10
NUMBER	5
테이블명	1
데이터 타입	1

Length

Max length	8
Median length	6
Mean length	6.0689655
Min length	4

Unique

Unique	2 ?
Unique (%)	6.9%

Sample

1st row	테이블명
2nd row	<NA>
3rd row	데이터 타입
4th row	NUMBER
5th row	VARCHAR2

Common Values

Value	Count	Frequency (%)
VARCHAR2	12	41.4%
<NA>	10	34.5%
NUMBER	5	17.2%
테이블명	1	3.4%
데이터 타입	1	3.4%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
varchar2	12	40.0%
na	10	33.3%
number	5	16.7%
테이블명	1	3.3%
데이터	1	3.3%
타입	1	3.3%

Unnamed: 4
Unsupported

MISSING REJECTED UNSUPPORTED

Missing	10
Missing (%)	34.5%
Memory size	360.0 B

Unnamed: 5
Text

MISSING

Distinct	2
Distinct (%)	100.0%
Missing	27
Missing (%)	93.1%
Memory size	360.0 B

Length

Max length	3
Median length	2.5
Mean length	2.5
Min length	2

Characters and Unicode

Total characters	5
Distinct characters	4
Distinct categories	2 ?
Distinct scripts	1 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	100.0%

Sample

1st row	Key
2nd row	PK

Value	Count	Frequency (%)
key	1	50.0%
pk	1	50.0%

Most occurring characters

Value	Count	Frequency (%)
K	2	40.0%
e	1	20.0%
y	1	20.0%
P	1	20.0%

Most occurring categories

Value	Count	Frequency (%)
Uppercase Letter	3	60.0%
Lowercase Letter	2	40.0%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
K	2	66.7%
P	1	33.3%

Lowercase Letter

Value	Count	Frequency (%)
e	1	50.0%
y	1	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Latin	5	100.0%

Most frequent character per script

Latin

Value	Count	Frequency (%)
K	2	40.0%
e	1	20.0%
y	1	20.0%
P	1	20.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	5	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
K	2	40.0%
e	1	20.0%
y	1	20.0%
P	1	20.0%

Unnamed: 6
Categorical

HIGH CORRELATION

Distinct	3
Distinct (%)	10.3%
Missing	0
Missing (%)	0.0%
Memory size	360.0 B

<NA>	16
NOT NULL	12
NULL여부	1

Length

Max length	8
Median length	4
Mean length	5.7241379
Min length	4

Unique

Unique	1 ?
Unique (%)	3.4%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	NULL여부
4th row	NOT NULL
5th row	NOT NULL

Common Values

Value	Count	Frequency (%)
<NA>	16	55.2%
NOT NULL	12	41.4%
NULL여부	1	3.4%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
na	16	39.0%
not	12	29.3%
null	12	29.3%
null여부	1	2.4%

Heatmap
Table

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 5	Unnamed: 6
Unnamed: 1	1.000	1.000	1.000	0.000	1.000
Unnamed: 2	1.000	1.000	1.000	0.000	1.000
Unnamed: 3	1.000	1.000	1.000	0.000	1.000
Unnamed: 5	0.000	0.000	0.000	1.000	0.000
Unnamed: 6	1.000	1.000	1.000	0.000	1.000

Heatmap
Table

	Unnamed: 6	Unnamed: 3
Unnamed: 6	1.000	0.953
Unnamed: 3	0.953	1.000

Heatmap
Table

	Unnamed: 3	Unnamed: 6
Unnamed: 3	1.000	0.953
Unnamed: 6	0.953	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6
0	테이블ID	<NA>	A2SM_OceanAcdntSttus	테이블명	해양사고 발생현황	<NA>	<NA>
1	테이블설명	<NA>	생활안전지도 사고안전 해양사고발생현황정보	<NA>	NaN	<NA>	<NA>
2	No.	컬럼ID	컬럼명	데이터 타입	길이	Key	NULL여부
3	1	OBJT_ID	일련번호	NUMBER	10	PK	NOT NULL
4	2	OCCU_YEAR	발생년도(YYYY)	VARCHAR2	4	<NA>	NOT NULL
5	3	OCCU_MT	발생월(MM)	VARCHAR2	2	<NA>	NOT NULL
6	4	OCCU_DE	발생일(DD)	VARCHAR2	2	<NA>	NOT NULL
7	5	OCCU_TM	발생시간(HHMM)	VARCHAR2	4	<NA>	NOT NULL
8	6	OCCU_DATE	발생년월일(YYYYMMDD)	VARCHAR2	8	<NA>	NOT NULL
9	7	POLC_NM	관할해양경찰서	VARCHAR2	20	<NA>	<NA>

	테이블정의서	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6
19	17	Y	Y좌표	NUMBER	15,6	<NA>	NOT NULL
20	18	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
21	19	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
22	20	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
23	21	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
24	22	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
25	23	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
26	24	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
27	25	<NA>	<NA>	<NA>	NaN	<NA>	<NA>
28	기타	내용없음	<NA>	<NA>	NaN	<NA>	<NA>

Most frequently occurring

	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 5	Unnamed: 6	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	8

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Other Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Latin

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Close Punctuation

Open Punctuation

Space Separator

Decimal Number

Connector Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Lowercase Letter

Most occurring scripts

Most frequent character per script

Latin

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Common Values (Plot)

Correlations

Missing values

Sample

Duplicate rows

Most frequently occurring