gimi9 Pandas Profiling

Dataset statistics

Number of variables	6
Number of observations	48
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	2.4 KiB
Average record size in memory	50.8 B

Variable types

Text	3
Categorical	3

Dataset

Description	국립과학수사연구원 등록특허 목록
Author	행정안전부 국립과학수사연구원
URL	https://www.data.go.kr/data/15061577/fileData.do

Alerts

`RIGHT_DIV_NM` is highly overall correlated with `PATENT_DT` and 1 other fields	High correlation
`PATENT_DT` is highly overall correlated with `RIGHT_DIV_NM`	High correlation
`INVENTOR_NM_LIST` is highly overall correlated with `RIGHT_DIV_NM`	High correlation
`RIGHT_DIV_NM` is highly imbalanced (58.7%)	Imbalance
`TITLE` has unique values	Unique
`PATENT_APPLICATION_NO` has unique values	Unique

Reproduction

Analysis started	2023-12-12 15:49:46.234201
Analysis finished	2023-12-12 15:49:47.168354
Duration	0.93 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

TITLE
Text

UNIQUE

Distinct	48
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	516.0 B

Length

Max length	65
Median length	31
Mean length	24.416667
Min length	8

Characters and Unicode

Total characters	1172
Distinct characters	219
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	48 ?
Unique (%)	100.0%

Sample

1st row	PNA 프로브 및 형광융해곡선분석을 이용한 혈액형 판별방법
2nd row	희생자 신원확인 시스템
3rd row	식별코드를 이용한 증거물 위치추적 시스템
4th row	스마트폰을 사용한 디지털파일 위변조 입증시스템 및 방법
5th row	프린터 스테가노그래피 기법을 이용한 위조방지수단이 구비된 문서

Value	Count	Frequency (%)
방법	22	7.1%
및	17	5.5%
장치	11	3.6%
교육용	10	3.2%
이용한	9	2.9%
시스템	9	2.9%
시각화장치	6	1.9%
시각화	6	1.9%
디지털	4	1.3%
제공	3	1.0%
Other values (167)	212	68.6%

Most occurring characters

Value	Count	Frequency (%)
	261	22.3%
방	30	2.6%
법	26	2.2%
용	25	2.1%
시	23	2.0%
치	22	1.9%
장	21	1.8%
이	19	1.6%
한	19	1.6%
및	17	1.5%
Other values (209)	709	60.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	795	67.8%
Space Separator	261	22.3%
Lowercase Letter	95	8.1%
Uppercase Letter	20	1.7%
Dash Punctuation	1	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
방	30	3.8%
법	26	3.3%
용	25	3.1%
시	23	2.9%
치	22	2.8%
장	21	2.6%
이	19	2.4%
한	19	2.4%
및	17	2.1%
화	15	1.9%
Other values (179)	578	72.7%

Lowercase Letter

Value	Count	Frequency (%)
e	12	12.6%
o	10	10.5%
r	7	7.4%
a	7	7.4%
i	7	7.4%
c	7	7.4%
d	6	6.3%
t	5	5.3%
n	5	5.3%
s	5	5.3%
Other values (11)	24	25.3%

Uppercase Letter

Value	Count	Frequency (%)
N	6	30.0%
S	3	15.0%
P	3	15.0%
A	3	15.0%
D	2	10.0%
G	2	10.0%
M	1	5.0%

Space Separator

Value	Count	Frequency (%)
	261	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	795	67.8%
Common	262	22.4%
Latin	115	9.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
방	30	3.8%
법	26	3.3%
용	25	3.1%
시	23	2.9%
치	22	2.8%
장	21	2.6%
이	19	2.4%
한	19	2.4%
및	17	2.1%
화	15	1.9%
Other values (179)	578	72.7%

Latin

Value	Count	Frequency (%)
e	12	10.4%
o	10	8.7%
r	7	6.1%
a	7	6.1%
i	7	6.1%
c	7	6.1%
N	6	5.2%
d	6	5.2%
t	5	4.3%
n	5	4.3%
Other values (18)	43	37.4%

Common

Value	Count	Frequency (%)
	261	99.6%
-	1	0.4%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	795	67.8%
ASCII	377	32.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	261	69.2%
e	12	3.2%
o	10	2.7%
r	7	1.9%
a	7	1.9%
i	7	1.9%
c	7	1.9%
N	6	1.6%
d	6	1.6%
t	5	1.3%
Other values (20)	49	13.0%

Hangul

Value	Count	Frequency (%)
방	30	3.8%
법	26	3.3%
용	25	3.1%
시	23	2.9%
치	22	2.8%
장	21	2.6%
이	19	2.4%
한	19	2.4%
및	17	2.1%
화	15	1.9%
Other values (179)	578	72.7%

PATENT_NO
Text

Distinct	44
Distinct (%)	91.7%
Missing	0
Missing (%)	0.0%
Memory size	516.0 B

Length

Max length	28
Median length	14
Mean length	10.75
Min length	4

Characters and Unicode

Total characters	516
Distinct characters	37
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	42 ?
Unique (%)	87.5%

Sample

1st row	1695477
2nd row	1707025
3rd row	1713134
4th row	1727582
5th row	1727585

Value	Count	Frequency (%)
컴퓨터	5	7.1%
프로그램	5	7.1%
및	5	7.1%
장치	4	5.7%
us	2	2.9%
9	2	2.9%
10-1934445	1	1.4%
제10-2019047호	1	1.4%
제10-1938712호	1	1.4%
제10-1886043호	1	1.4%
Other values (43)	43	61.4%

Most occurring characters

Value	Count	Frequency (%)
1	98	19.0%
7	55	10.7%
0	48	9.3%
-	32	6.2%
9	31	6.0%
3	30	5.8%
	27	5.2%
4	24	4.7%
8	23	4.5%
호	20	3.9%
Other values (27)	128	24.8%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	353	68.4%
Other Letter	100	19.4%
Dash Punctuation	32	6.2%
Space Separator	27	5.2%
Uppercase Letter	4	0.8%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
호	20	20.0%
제	20	20.0%
램	5	5.0%
그	5	5.0%
로	5	5.0%
프	5	5.0%
터	5	5.0%
퓨	5	5.0%
컴	5	5.0%
및	5	5.0%
Other values (13)	20	20.0%

Decimal Number

Value	Count	Frequency (%)
1	98	27.8%
7	55	15.6%
0	48	13.6%
9	31	8.8%
3	30	8.5%
4	24	6.8%
8	23	6.5%
5	17	4.8%
2	15	4.2%
6	12	3.4%

Uppercase Letter

Value	Count	Frequency (%)
S	2	50.0%
U	2	50.0%

Dash Punctuation

Value	Count	Frequency (%)
-	32	100.0%

Space Separator

Value	Count	Frequency (%)
	27	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	412	79.8%
Hangul	100	19.4%
Latin	4	0.8%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
호	20	20.0%
제	20	20.0%
램	5	5.0%
그	5	5.0%
로	5	5.0%
프	5	5.0%
터	5	5.0%
퓨	5	5.0%
컴	5	5.0%
및	5	5.0%
Other values (13)	20	20.0%

Common

Value	Count	Frequency (%)
1	98	23.8%
7	55	13.3%
0	48	11.7%
-	32	7.8%
9	31	7.5%
3	30	7.3%
	27	6.6%
4	24	5.8%
8	23	5.6%
5	17	4.1%
Other values (2)	27	6.6%

Latin

Value	Count	Frequency (%)
S	2	50.0%
U	2	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	416	80.6%
Hangul	100	19.4%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	98	23.6%
7	55	13.2%
0	48	11.5%
-	32	7.7%
9	31	7.5%
3	30	7.2%
	27	6.5%
4	24	5.8%
8	23	5.5%
5	17	4.1%
Other values (4)	31	7.5%

Hangul

Value	Count	Frequency (%)
호	20	20.0%
제	20	20.0%
램	5	5.0%
그	5	5.0%
로	5	5.0%
프	5	5.0%
터	5	5.0%
퓨	5	5.0%
컴	5	5.0%
및	5	5.0%
Other values (13)	20	20.0%

PATENT_APPLICATION_NO
Text

UNIQUE

Distinct	48
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Memory size	516.0 B

Length

Max length	17
Median length	15
Mean length	14.229167
Min length	3

Characters and Unicode

Total characters	683
Distinct characters	14
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	48 ?
Unique (%)	100.0%

Sample

1st row	2014-0063974
2nd row	2014-0178281
3rd row	2015-0096368
4th row	2015-0016211
5th row	2015-0181261

Value	Count	Frequency (%)
2014-0063974	1	2.1%
2014-0178281	1	2.1%
제10-2017-0034948호	1	2.1%
436	1	2.1%
제10-2018-0067647호	1	2.1%
제10-2018-0106038호	1	2.1%
제10-2017-0056911호	1	2.1%
제10-2018-0075222호	1	2.1%
제10-2018-0075220호	1	2.1%
제10-2018-0123768호	1	2.1%
Other values (38)	38	79.2%

Most occurring characters

Value	Count	Frequency (%)
0	166	24.3%
1	115	16.8%
-	76	11.1%
2	59	8.6%
6	41	6.0%
5	38	5.6%
7	36	5.3%
8	34	5.0%
4	25	3.7%
제	24	3.5%
Other values (4)	69	10.1%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	558	81.7%
Dash Punctuation	76	11.1%
Other Letter	48	7.0%
Other Punctuation	1	0.1%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
0	166	29.7%
1	115	20.6%
2	59	10.6%
6	41	7.3%
5	38	6.8%
7	36	6.5%
8	34	6.1%
4	25	4.5%
3	22	3.9%
9	22	3.9%

Other Letter

Value	Count	Frequency (%)
제	24	50.0%
호	24	50.0%

Dash Punctuation

Value	Count	Frequency (%)
-	76	100.0%

Other Punctuation

Value	Count	Frequency (%)
/	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	635	93.0%
Hangul	48	7.0%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	166	26.1%
1	115	18.1%
-	76	12.0%
2	59	9.3%
6	41	6.5%
5	38	6.0%
7	36	5.7%
8	34	5.4%
4	25	3.9%
3	22	3.5%
Other values (2)	23	3.6%

Hangul

Value	Count	Frequency (%)
제	24	50.0%
호	24	50.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	635	93.0%
Hangul	48	7.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	166	26.1%
1	115	18.1%
-	76	12.0%
2	59	9.3%
6	41	6.5%
5	38	6.0%
7	36	5.7%
8	34	5.4%
4	25	3.9%
3	22	3.5%
Other values (2)	23	3.6%

Hangul

Value	Count	Frequency (%)
제	24	50.0%
호	24	50.0%

RIGHT_DIV_NM
Categorical

HIGH CORRELATION IMBALANCE

Distinct	4
Distinct (%)	8.3%
Missing	0
Missing (%)	0.0%
Memory size	516.0 B

국내특허	40
RIGHT001	6
13/980	1
14/234	1

Length

Max length	8
Median length	4
Mean length	4.5833333
Min length	4

Unique

Unique	2 ?
Unique (%)	4.2%

Sample

1st row	국내특허
2nd row	국내특허
3rd row	국내특허
4th row	국내특허
5th row	국내특허

Common Values

Value	Count	Frequency (%)
국내특허	40	83.3%
RIGHT001	6	12.5%
13/980	1	2.1%
14/234	1	2.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
국내특허	40	83.3%
right001	6	12.5%
13/980	1	2.1%
14/234	1	2.1%

PATENT_DT
Categorical

HIGH CORRELATION

Distinct	23
Distinct (%)	47.9%
Missing	0
Missing (%)	0.0%
Memory size	516.0 B

국내특허	6
2017.09.19	5
2017.04.11	5
2017.02.09	4
2018.12.26	3
Other values (18)	25

Length

Max length	10
Median length	10
Mean length	8.9583333
Min length	3

Unique

Unique	13 ?
Unique (%)	27.1%

Sample

1st row	2017.01.10
2nd row	2017.02.09
3rd row	2017.02.28
4th row	2017.04.11
5th row	2017.04.11

Common Values

Value	Count	Frequency (%)
국내특허	6	12.5%
2017.09.19	5	10.4%
2017.04.11	5	10.4%
2017.02.09	4	8.3%
2018.12.26	3	6.2%
2017.09.11	3	6.2%
2018.02.27	3	6.2%
2017.10.31	2	4.2%
2017.07.28	2	4.2%
2019.02.22	2	4.2%
Other values (13)	13	27.1%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
국내특허	6	12.5%
2017.04.11	5	10.4%
2017.09.19	5	10.4%
2017.02.09	4	8.3%
2018.12.26	3	6.2%
2017.09.11	3	6.2%
2018.02.27	3	6.2%
2017.10.31	2	4.2%
2017.07.28	2	4.2%
2019.02.22	2	4.2%
Other values (13)	13	27.1%

INVENTOR_NM_LIST
Categorical

HIGH CORRELATION

Distinct	17
Distinct (%)	35.4%
Missing	0
Missing (%)	0.0%
Memory size	516.0 B

이중	15
박남규	15
임시근	2
김종혁	2
RIGHT002	2
Other values (12)	12

Length

Max length	10
Median length	3
Mean length	3.7708333
Min length	2

Unique

Unique	12 ?
Unique (%)	25.0%

Sample

1st row	임시근
2nd row	정낙은
3rd row	박현철
4th row	서중석
5th row	이중

Common Values

Value	Count	Frequency (%)
이중	15	31.2%
박남규	15	31.2%
임시근	2	4.2%
김종혁	2	4.2%
RIGHT002	2	4.2%
이재형	1	2.1%
박현철	1	2.1%
서중석	1	2.1%
양경무	1	2.1%
2018.07.30	1	2.1%
Other values (7)	7	14.6%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
이중	15	31.2%
박남규	15	31.2%
임시근	2	4.2%
김종혁	2	4.2%
right002	2	4.2%
정낙은	1	2.1%
2016.08.23	1	2.1%
임동아	1	2.1%
2017.06.29	1	2.1%
2018.03.29	1	2.1%
Other values (7)	7	14.6%

Heatmap
Table

	TITLE	PATENT_NO	PATENT_APPLICATION_NO	RIGHT_DIV_NM	PATENT_DT	INVENTOR_NM_LIST
TITLE	1.000	1.000	1.000	1.000	1.000	1.000
PATENT_NO	1.000	1.000	1.000	0.000	0.982	0.000
PATENT_APPLICATION_NO	1.000	1.000	1.000	1.000	1.000	1.000
RIGHT_DIV_NM	1.000	0.000	1.000	1.000	1.000	0.876
PATENT_DT	1.000	0.982	1.000	1.000	1.000	0.766
INVENTOR_NM_LIST	1.000	0.000	1.000	0.876	0.766	1.000

Heatmap
Table

	INVENTOR_NM_LIST	PATENT_DT	RIGHT_DIV_NM
INVENTOR_NM_LIST	1.000	0.283	0.590
PATENT_DT	0.283	1.000	0.754
RIGHT_DIV_NM	0.590	0.754	1.000

Heatmap
Table

	RIGHT_DIV_NM	PATENT_DT	INVENTOR_NM_LIST
RIGHT_DIV_NM	1.000	0.754	0.590
PATENT_DT	0.754	1.000	0.283
INVENTOR_NM_LIST	0.590	0.283	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	TITLE	PATENT_NO	PATENT_APPLICATION_NO	RIGHT_DIV_NM	PATENT_DT	INVENTOR_NM_LIST
0	PNA 프로브 및 형광융해곡선분석을 이용한 혈액형 판별방법	1695477	2014-0063974	국내특허	2017.01.10	임시근
1	희생자 신원확인 시스템	1707025	2014-0178281	국내특허	2017.02.09	정낙은
2	식별코드를 이용한 증거물 위치추적 시스템	1713134	2015-0096368	국내특허	2017.02.28	박현철
3	스마트폰을 사용한 디지털파일 위변조 입증시스템 및 방법	1727582	2015-0016211	국내특허	2017.04.11	서중석
4	프린터 스테가노그래피 기법을 이용한 위조방지수단이 구비된 문서	1727585	2015-0181261	국내특허	2017.04.11	이중
5	디지털 녹취 파일 녹취록 생성 방법	1727587	2016-0066947	국내특허	2017.04.11	이중
6	PNA 프로브 및 융해곡선분석을 이용한 미토콘드리아 DNA의 SNP 분석방법	1727598	2016-0117459	국내특허	2017.04.11	임시근
7	디지털 증거물에 대한 원격 접수장치	1740299	2015-0126739	국내특허	2017.05.22	이중
8	사진이 구비된 보고서 작성 시스템 및 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체	1764774	2014-0178280	국내특허	2017.07.28	양경무
9	음향 분석을 활용한 횡방향 그루빙이 형성된 도로를 지나는 차량의 속도 추정 방법	장치 및 컴퓨터 프로그램	제10-1885065호	RIGHT001	국내특허	2018.07.30

	TITLE	PATENT_NO	PATENT_APPLICATION_NO	RIGHT_DIV_NM	PATENT_DT	INVENTOR_NM_LIST
38	교육용 트래킹현상 시각화장치	제10-1707027호	제10-2016-0058184호	국내특허	2017.02.09	박남규
39	교육용 퓨즈용단 시각화장치	제10-1707029호	제10-2016-0058185호	국내특허	2017.02.09	박남규
40	교육용 화재 시각화장치	제10-1727591호	제10-2016-0077551호	국내특허	2017.04.11	박남규
41	부탄가스 폭발 시각화장치	제10-1779184호	제10-2017-0034947호	국내특허	2017.09.11	박남규
42	정전기 발생 시각화 장치	제10-1793919호	제10-2017-0056910호	국내특허	2017.10.31	박남규
43	족적 조회 방법 및 시스템	제10-1767380호	제10-2016-0054639호	국내특허	2016.05.03	박남규
44	공구흔 분석 방법	장치 및 컴퓨터 프로그램	제10-1885066호	RIGHT001	국내특허	2019.07.19
45	혈흔 구별 방법	장치 및 컴퓨터 프로그램	제10-1812089호	RIGHT001	국내특허	2017.06.29
46	잠재 충격흔 현출용 가열장치	제10-1913752호	제10-2017-0172506호	국내특허	2017.12.14	임동아
47	비산혈흔의 충돌 각도를 산출하는 전자 장치	비산혈흔 충돌 각도 산출 방법 및 컴퓨터 프로그램	제10-1970300호	RIGHT001	국내특허	2019.04.12

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Dash Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Other Letter

Dash Punctuation

Other Punctuation

Most occurring scripts

Most frequent character per script

Common

Hangul

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Common Values

Length

Common Values (Plot)

Common Values

Length

Common Values

Length

Correlations

Missing values

Sample