gimi9 Pandas Profiling

Dataset statistics

Number of variables	18
Number of observations	10000
Missing cells	10193
Missing cells (%)	5.7%
Duplicate rows	1
Duplicate rows (%)	< 0.1%
Total size in memory	1.5 MiB
Average record size in memory	154.0 B

Variable types

Numeric	2
Text	8
Categorical	5
DateTime	3

Dataset

Description	해당 과제에서 등록된 특허 출원 및 등록 정보 제공 (지식재산권구분, 출원등록구분, 출원번호, 등록번호, 출원 및 등록 기관 등), 지식재산권 중 공개대상인 특허만 포함
Author	한국환경산업기술원
URL	https://www.data.go.kr/data/15087586/fileData.do

Alerts

Dataset has 1 (< 0.1%) duplicate rows	Duplicates
`국내외구분` is highly overall correlated with `지식재산구분` and 1 other fields	High correlation
`출원등록구분` is highly overall correlated with `지식재산구분`	High correlation
`출원등록국가` is highly overall correlated with `지식재산구분` and 1 other fields	High correlation
`지식재산구분` is highly overall correlated with `순번` and 5 other fields	High correlation
`연구기관유형` is highly overall correlated with `지식재산구분`	High correlation
`순번` is highly overall correlated with `지식재산구분`	High correlation
`성과년도` is highly overall correlated with `지식재산구분`	High correlation
`지식재산구분` is highly imbalanced (97.8%)	Imbalance
`출원등록국가` is highly imbalanced (86.4%)	Imbalance
`국내외구분` is highly imbalanced (72.9%)	Imbalance
`출원등록년월` has 1918 (19.2%) missing values	Missing
`출원번호` has 1910 (19.1%) missing values	Missing
`등록번호` has 6207 (62.1%) missing values	Missing

Reproduction

Analysis started	2023-12-12 21:54:25.725698
Analysis finished	2023-12-12 21:54:30.284044
Duration	4.56 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

순번
Real number (ℝ)

HIGH CORRELATION

Distinct	9988
Distinct (%)	100.0%
Missing	12
Missing (%)	0.1%
Infinite	0
Infinite (%)	0.0%
Mean	7909.0343

Minimum	1
Maximum	15807
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	1
5-th percentile	784.35
Q1	3988.75
median	7907
Q3	11847.25
95-th percentile	15003.65
Maximum	15807
Range	15806
Interquartile range (IQR)	7858.5

Descriptive statistics

Standard deviation	4558.0327
Coefficient of variation (CV)	0.5763071
Kurtosis	-1.1937647
Mean	7909.0343
Median Absolute Deviation (MAD)	3928.5
Skewness	-0.0034086735
Sum	78995435
Variance	20775662
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
417	1	< 0.1%
14379	1	< 0.1%
9229	1	< 0.1%
145	1	< 0.1%
11310	1	< 0.1%
10597	1	< 0.1%
9674	1	< 0.1%
7831	1	< 0.1%
12438	1	< 0.1%
14708	1	< 0.1%
Other values (9978)	9978	99.8%
(Missing)	12	0.1%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	< 0.1%
2	1	< 0.1%
3	1	< 0.1%
4	1	< 0.1%
5	1	< 0.1%
6	1	< 0.1%
7	1	< 0.1%
8	1	< 0.1%
9	1	< 0.1%
12	1	< 0.1%

Value	Count	Frequency (%)
15807	1	< 0.1%
15806	1	< 0.1%
15805	1	< 0.1%
15803	1	< 0.1%
15802	1	< 0.1%
15801	1	< 0.1%
15800	1	< 0.1%
15799	1	< 0.1%
15798	1	< 0.1%
15797	1	< 0.1%

사업명
Text

Distinct	60
Distinct (%)	0.6%
Missing	5
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	39
Median length	28
Mean length	13.967684
Min length	2

Characters and Unicode

Total characters	139607
Distinct characters	180
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3 ?
Unique (%)	< 0.1%

Sample

1st row	글로벌탑환경기술개발사업
2nd row	환경산업선진화기술개발사업
3rd row	토양·지하수 오염방지 기술개발사업
4th row	글로벌탑환경기술개발사업
5th row	야생생물 유래 친환경 신소재 및 공정 기술개발사업

Value	Count	Frequency (%)
기술개발사업	3458	16.7%
차세대	2083	10.1%
핵심환경	2083	10.1%
글로벌탑환경기술개발사업	1841	8.9%
환경산업선진화기술개발사업	1042	5.0%
환경정책기반공공기술개발사업	804	3.9%
사업	696	3.4%
eco-star	683	3.3%
연구사업	665	3.2%
오염방지	581	2.8%
Other values (142)	6742	32.6%

Most occurring characters

Value	Count	Frequency (%)
업	11040	7.9%
	10697	7.7%
사	9929	7.1%
기	9740	7.0%
술	8464	6.1%
개	8257	5.9%
발	8239	5.9%
환	7198	5.2%
경	7114	5.1%
대	2437	1.7%
Other values (170)	56492	40.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	122732	87.9%
Space Separator	10697	7.7%
Lowercase Letter	3415	2.4%
Uppercase Letter	1445	1.0%
Dash Punctuation	683	0.5%
Other Punctuation	593	0.4%
Decimal Number	32	< 0.1%
Open Punctuation	5	< 0.1%
Close Punctuation	5	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
업	11040	9.0%
사	9929	8.1%
기	9740	7.9%
술	8464	6.9%
개	8257	6.7%
발	8239	6.7%
환	7198	5.9%
경	7114	5.8%
대	2437	2.0%
세	2161	1.8%
Other values (153)	48153	39.2%

Uppercase Letter

Value	Count	Frequency (%)
E	683	47.3%
S	683	47.3%
C	37	2.6%
O	32	2.2%
T	5	0.3%
I	5	0.3%

Lowercase Letter

Value	Count	Frequency (%)
r	683	20.0%
a	683	20.0%
t	683	20.0%
o	683	20.0%
c	683	20.0%

Space Separator

Value	Count	Frequency (%)
	10697	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	683	100.0%

Other Punctuation

Value	Count	Frequency (%)
·	593	100.0%

Decimal Number

Value	Count	Frequency (%)
2	32	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	5	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	5	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	122732	87.9%
Common	12015	8.6%
Latin	4860	3.5%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
업	11040	9.0%
사	9929	8.1%
기	9740	7.9%
술	8464	6.9%
개	8257	6.7%
발	8239	6.7%
환	7198	5.9%
경	7114	5.8%
대	2437	2.0%
세	2161	1.8%
Other values (153)	48153	39.2%

Latin

Value	Count	Frequency (%)
r	683	14.1%
a	683	14.1%
t	683	14.1%
E	683	14.1%
S	683	14.1%
o	683	14.1%
c	683	14.1%
C	37	0.8%
O	32	0.7%
T	5	0.1%

Common

Value	Count	Frequency (%)
	10697	89.0%
-	683	5.7%
·	593	4.9%
2	32	0.3%
(	5	< 0.1%
)	5	< 0.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	122732	87.9%
ASCII	16282	11.7%
None	593	0.4%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
업	11040	9.0%
사	9929	8.1%
기	9740	7.9%
술	8464	6.9%
개	8257	6.7%
발	8239	6.7%
환	7198	5.9%
경	7114	5.8%
대	2437	2.0%
세	2161	1.8%
Other values (153)	48153	39.2%

ASCII

Value	Count	Frequency (%)
	10697	65.7%
r	683	4.2%
a	683	4.2%
t	683	4.2%
E	683	4.2%
S	683	4.2%
-	683	4.2%
o	683	4.2%
c	683	4.2%
C	37	0.2%
Other values (6)	84	0.5%

None

Value	Count	Frequency (%)
·	593	100.0%

연구과제명
Text

Distinct	2464
Distinct (%)	24.7%
Missing	5
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	144
Median length	74
Mean length	35.391596
Min length	2

Characters and Unicode

Total characters	353739
Distinct characters	698
Distinct categories	16 ?
Distinct scripts	4 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	617 ?
Unique (%)	6.2%

Sample

1st row	대기 배출원 복합유해물질 측정분석장치 개발
2nd row	지하환경 환경진단 모니터링 및 평가 시스템 개발
3rd row	폐굴껍질과 가축뼈 등 천연폐자원을 이용한 비소 및 중금속으로 오염된 토양의 안정화
4th row	대기 배출원 복합유해물질 측정분석장치 개발
5th row	목재 부산물과 이온성 액체/열 분해 복합 처리를 이용한 풀빅산 유사체 대량 생산 기술 개발 및 화장품 응용 소재 발굴

Value	Count	Frequency (%)
개발	7209	8.6%
및	4668	5.6%
기술	1908	2.3%
위한	1805	2.2%
이용한	1585	1.9%
시스템	1394	1.7%
기반	775	0.9%
기술개발	714	0.9%
고효율	483	0.6%
실증화	422	0.5%
Other values (7225)	62770	75.0%

Most occurring characters

Value	Count	Frequency (%)
	74228	21.0%
기	9808	2.8%
발	9500	2.7%
개	9148	2.6%
용	5555	1.6%
술	5475	1.5%
수	4981	1.4%
한	4803	1.4%
및	4682	1.3%
화	4573	1.3%
Other values (688)	220986	62.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	252365	71.3%
Space Separator	74228	21.0%
Lowercase Letter	10335	2.9%
Uppercase Letter	9773	2.8%
Other Punctuation	2697	0.8%
Decimal Number	1392	0.4%
Open Punctuation	1051	0.3%
Close Punctuation	1048	0.3%
Dash Punctuation	782	0.2%
Other Symbol	28	< 0.1%
Other values (6)	40	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	9808	3.9%
발	9500	3.8%
개	9148	3.6%
용	5555	2.2%
술	5475	2.2%
수	4981	2.0%
한	4803	1.9%
및	4682	1.9%
화	4573	1.8%
시	4011	1.6%
Other values (598)	189829	75.2%

Lowercase Letter

Value	Count	Frequency (%)
i	1107	10.7%
e	1013	9.8%
o	927	9.0%
t	787	7.6%
r	782	7.6%
a	774	7.5%
s	712	6.9%
n	610	5.9%
l	570	5.5%
m	414	4.0%
Other values (17)	2639	25.5%

Uppercase Letter

Value	Count	Frequency (%)
C	1114	11.4%
O	1025	10.5%
P	893	9.1%
S	705	7.2%
M	565	5.8%
N	513	5.2%
F	503	5.1%
D	458	4.7%
R	458	4.7%
V	450	4.6%
Other values (15)	3089	31.6%

Other Punctuation

Value	Count	Frequency (%)
/	1211	44.9%
,	777	28.8%
·	387	14.3%
.	132	4.9%
:	98	3.6%
;	36	1.3%
&	23	0.9%
%	21	0.8%
"	6	0.2%
#	4	0.1%

Decimal Number

Value	Count	Frequency (%)
2	372	26.7%
0	326	23.4%
3	216	15.5%
1	191	13.7%
5	97	7.0%
6	83	6.0%
4	73	5.2%
8	17	1.2%
9	12	0.9%
7	5	0.4%

Other Symbol

Value	Count	Frequency (%)
㎤	21	75.0%
㎥	3	10.7%
㎛	3	10.7%
℃	1	3.6%

Open Punctuation

Value	Count	Frequency (%)
(	1046	99.5%
「	5	0.5%

Close Punctuation

Value	Count	Frequency (%)
)	1043	99.5%
」	5	0.5%

Other Number

Value	Count	Frequency (%)
₂	8	80.0%
₄	2	20.0%

Space Separator

Value	Count	Frequency (%)
	74228	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	782	100.0%

Math Symbol

Value	Count	Frequency (%)
+	18	100.0%

Final Punctuation

Value	Count	Frequency (%)
”	4	100.0%

Initial Punctuation

Value	Count	Frequency (%)
“	4	100.0%

Modifier Symbol

Value	Count	Frequency (%)
˙	3	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	252361	71.3%
Common	81269	23.0%
Latin	20105	5.7%
Han	4	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	9808	3.9%
발	9500	3.8%
개	9148	3.6%
용	5555	2.2%
술	5475	2.2%
수	4981	2.0%
한	4803	1.9%
및	4682	1.9%
화	4573	1.8%
시	4011	1.6%
Other values (594)	189825	75.2%

Latin

Value	Count	Frequency (%)
C	1114	5.5%
i	1107	5.5%
O	1025	5.1%
e	1013	5.0%
o	927	4.6%
P	893	4.4%
t	787	3.9%
r	782	3.9%
a	774	3.8%
s	712	3.5%
Other values (41)	10971	54.6%

Common

Value	Count	Frequency (%)
	74228	91.3%
/	1211	1.5%
(	1046	1.3%
)	1043	1.3%
-	782	1.0%
,	777	1.0%
·	387	0.5%
2	372	0.5%
0	326	0.4%
3	216	0.3%
Other values (29)	881	1.1%

Han

Value	Count	Frequency (%)
管	1	25.0%
石	1	25.0%
開	1	25.0%
始	1	25.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	252305	71.3%
ASCII	100925	28.5%
None	407	0.1%
Compat Jamo	56	< 0.1%
CJK Compat	27	< 0.1%
Punctuation	8	< 0.1%
Letterlike Symbols	4	< 0.1%
CJK	4	< 0.1%
Modifier Letters	3	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	74228	73.5%
/	1211	1.2%
C	1114	1.1%
i	1107	1.1%
(	1046	1.0%
)	1043	1.0%
O	1025	1.0%
e	1013	1.0%
o	927	0.9%
P	893	0.9%
Other values (67)	17318	17.2%

Hangul

Value	Count	Frequency (%)
기	9808	3.9%
발	9500	3.8%
개	9148	3.6%
용	5555	2.2%
술	5475	2.2%
수	4981	2.0%
한	4803	1.9%
및	4682	1.9%
화	4573	1.8%
시	4011	1.6%
Other values (593)	189769	75.2%

None

Value	Count	Frequency (%)
·	387	95.1%
₂	8	2.0%
「	5	1.2%
」	5	1.2%
₄	2	0.5%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	56	100.0%

CJK Compat

Value	Count	Frequency (%)
㎤	21	77.8%
㎥	3	11.1%
㎛	3	11.1%

Punctuation

Value	Count	Frequency (%)
”	4	50.0%
“	4	50.0%

Modifier Letters

Value	Count	Frequency (%)
˙	3	100.0%

Letterlike Symbols

Value	Count	Frequency (%)
ℓ	3	75.0%
℃	1	25.0%

CJK

Value	Count	Frequency (%)
管	1	25.0%
石	1	25.0%
開	1	25.0%
始	1	25.0%

연구기관
Text

Distinct	1019
Distinct (%)	10.2%
Missing	5
Missing (%)	< 0.1%
Memory size	156.2 KiB

Length

Max length	18
Median length	16
Mean length	9.1386693
Min length	2

Characters and Unicode

Total characters	91341
Distinct characters	443
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	195 ?
Unique (%)	2.0%

Sample

1st row	건국대학교 산학협력단
2nd row	(주)그린솔루스
3rd row	(주)해천이티에스
4th row	건국대학교 산학협력단
5th row	경상국립대학교 산학협력단

Value	Count	Frequency (%)
산학협력단	2044	15.3%
주식회사	700	5.2%
한국과학기술연구원	432	3.2%
서울대학교	280	2.1%
한국건설기술연구원	249	1.9%
주	234	1.7%
고려대학교	206	1.5%
한국지질자원연구원	187	1.4%
한국에너지기술연구원	187	1.4%
한국기계연구원	161	1.2%
Other values (1021)	8716	65.1%

Most occurring characters

Value	Count	Frequency (%)
학	5668	6.2%
주	5173	5.7%
)	4277	4.7%
(	4276	4.7%
	3403	3.7%
원	2793	3.1%
대	2713	3.0%
산	2603	2.8%
국	2402	2.6%
교	2377	2.6%
Other values (433)	55656	60.9%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	78897	86.4%
Close Punctuation	4277	4.7%
Open Punctuation	4276	4.7%
Space Separator	3403	3.7%
Uppercase Letter	287	0.3%
Decimal Number	146	0.2%
Dash Punctuation	21	< 0.1%
Lowercase Letter	20	< 0.1%
Other Punctuation	10	< 0.1%
Other Symbol	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
학	5668	7.2%
주	5173	6.6%
원	2793	3.5%
대	2713	3.4%
산	2603	3.3%
국	2402	3.0%
교	2377	3.0%
한	2352	3.0%
연	2317	2.9%
단	2226	2.8%
Other values (390)	48273	61.2%

Uppercase Letter

Value	Count	Frequency (%)
S	41	14.3%
E	38	13.2%
K	36	12.5%
M	22	7.7%
I	20	7.0%
G	20	7.0%
C	16	5.6%
N	16	5.6%
V	16	5.6%
A	14	4.9%
Other values (9)	48	16.7%

Decimal Number

Value	Count	Frequency (%)
1	41	28.1%
2	38	26.0%
0	28	19.2%
3	10	6.8%
4	7	4.8%
8	5	3.4%
6	5	3.4%
7	5	3.4%
9	4	2.7%
5	3	2.1%

Lowercase Letter

Value	Count	Frequency (%)
n	6	30.0%
a	4	20.0%
o	2	10.0%
c	2	10.0%
r	2	10.0%
e	2	10.0%
g	2	10.0%

Other Punctuation

Value	Count	Frequency (%)
.	8	80.0%
&	2	20.0%

Close Punctuation

Value	Count	Frequency (%)
)	4277	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	4276	100.0%

Space Separator

Value	Count	Frequency (%)
	3403	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	21	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	4	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	78901	86.4%
Common	12133	13.3%
Latin	307	0.3%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
학	5668	7.2%
주	5173	6.6%
원	2793	3.5%
대	2713	3.4%
산	2603	3.3%
국	2402	3.0%
교	2377	3.0%
한	2352	3.0%
연	2317	2.9%
단	2226	2.8%
Other values (391)	48277	61.2%

Latin

Value	Count	Frequency (%)
S	41	13.4%
E	38	12.4%
K	36	11.7%
M	22	7.2%
I	20	6.5%
G	20	6.5%
C	16	5.2%
N	16	5.2%
V	16	5.2%
A	14	4.6%
Other values (16)	68	22.1%

Common

Value	Count	Frequency (%)
)	4277	35.3%
(	4276	35.2%
	3403	28.0%
1	41	0.3%
2	38	0.3%
0	28	0.2%
-	21	0.2%
3	10	0.1%
.	8	0.1%
4	7	0.1%
Other values (6)	24	0.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	78897	86.4%
ASCII	12440	13.6%
None	4	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
학	5668	7.2%
주	5173	6.6%
원	2793	3.5%
대	2713	3.4%
산	2603	3.3%
국	2402	3.0%
교	2377	3.0%
한	2352	3.0%
연	2317	2.9%
단	2226	2.8%
Other values (390)	48273	61.2%

ASCII

Value	Count	Frequency (%)
)	4277	34.4%
(	4276	34.4%
	3403	27.4%
1	41	0.3%
S	41	0.3%
E	38	0.3%
2	38	0.3%
K	36	0.3%
0	28	0.2%
M	22	0.2%
Other values (32)	240	1.9%

None

Value	Count	Frequency (%)
㈜	4	100.0%

연구기관유형
Categorical

HIGH CORRELATION

Distinct	17
Distinct (%)	0.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

중소기업	2858
대학	2369
정부출연연구기관	1213
벤처기업	803
대기업	779
Other values (12)	1978

Length

Max length	9
Median length	8
Mean length	4.3793
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	대학
2nd row	벤처기업
3rd row	중소기업
4th row	대학
5th row	대학

Common Values

Value	Count	Frequency (%)
중소기업	2858	28.6%
대학	2369	23.7%
정부출연연구기관	1213	12.1%
벤처기업	803	8.0%
대기업	779	7.8%
특정연구기관	684	6.8%
중소기업부설연구소	526	5.3%
중견기업	220	2.2%
기타	141	1.4%
기타비영리	131	1.3%
Other values (7)	276	2.8%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
중소기업	2858	28.6%
대학	2369	23.7%
정부출연연구기관	1213	12.1%
벤처기업	803	8.0%
대기업	779	7.8%
특정연구기관	684	6.8%
중소기업부설연구소	526	5.3%
중견기업	220	2.2%
기타	141	1.4%
기타비영리	131	1.3%
Other values (7)	276	2.8%

연구책임자
Text

Distinct	1699
Distinct (%)	17.0%
Missing	6
Missing (%)	0.1%
Memory size	156.2 KiB

Length

Max length	13
Median length	3
Mean length	3.126676
Min length	2

Characters and Unicode

Total characters	31248
Distinct characters	237
Distinct categories	4 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	344 ?
Unique (%)	3.4%

Sample

1st row	김조천
2nd row	봉춘근
3rd row	김태성
4th row	김조천
5th row	전종록

Value	Count	Frequency (%)
미존재인력의	109	1.1%
대표인력	109	1.1%
류재천	98	1.0%
61269	54	0.5%
한장희	50	0.5%
김조천	48	0.5%
김치경	48	0.5%
한무영	46	0.5%
이상협	42	0.4%
정준교	41	0.4%
Other values (1692)	9463	93.6%

Most occurring characters

Value	Count	Frequency (%)
김	1964	6.3%
이	1854	5.9%
영	781	2.5%
박	751	2.4%
정	741	2.4%
재	701	2.2%
성	674	2.2%
호	613	2.0%
상	554	1.8%
현	530	1.7%
Other values (227)	22085	70.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	30298	97.0%
Uppercase Letter	566	1.8%
Decimal Number	270	0.9%
Space Separator	114	0.4%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
김	1964	6.5%
이	1854	6.1%
영	781	2.6%
박	751	2.5%
정	741	2.4%
재	701	2.3%
성	674	2.2%
호	613	2.0%
상	554	1.8%
현	530	1.7%
Other values (204)	21135	69.8%

Uppercase Letter

Value	Count	Frequency (%)
N	123	21.7%
G	82	14.5%
E	46	8.1%
O	46	8.1%
A	44	7.8%
K	43	7.6%
H	42	7.4%
U	41	7.2%
W	40	7.1%
S	39	6.9%
Other values (8)	20	3.5%

Decimal Number

Value	Count	Frequency (%)
6	108	40.0%
9	54	20.0%
2	54	20.0%
1	54	20.0%

Space Separator

Value	Count	Frequency (%)
	114	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	30298	97.0%
Latin	566	1.8%
Common	384	1.2%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
김	1964	6.5%
이	1854	6.1%
영	781	2.6%
박	751	2.5%
정	741	2.4%
재	701	2.3%
성	674	2.2%
호	613	2.0%
상	554	1.8%
현	530	1.7%
Other values (204)	21135	69.8%

Latin

Value	Count	Frequency (%)
N	123	21.7%
G	82	14.5%
E	46	8.1%
O	46	8.1%
A	44	7.8%
K	43	7.6%
H	42	7.4%
U	41	7.2%
W	40	7.1%
S	39	6.9%
Other values (8)	20	3.5%

Common

Value	Count	Frequency (%)
	114	29.7%
6	108	28.1%
9	54	14.1%
2	54	14.1%
1	54	14.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	30298	97.0%
ASCII	950	3.0%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
김	1964	6.5%
이	1854	6.1%
영	781	2.6%
박	751	2.5%
정	741	2.4%
재	701	2.3%
성	674	2.2%
호	613	2.0%
상	554	1.8%
현	530	1.7%
Other values (204)	21135	69.8%

ASCII

Value	Count	Frequency (%)
N	123	12.9%
	114	12.0%
6	108	11.4%
G	82	8.6%
9	54	5.7%
2	54	5.7%
1	54	5.7%
E	46	4.8%
O	46	4.8%
A	44	4.6%
Other values (13)	225	23.7%

과제시작일
Date

Distinct	185
Distinct (%)	1.9%
Missing	12
Missing (%)	0.1%
Memory size	156.2 KiB

Minimum	2001-06-01 00:00:00
Maximum	2022-08-01 00:00:00

Histogram

Histogram with fixed size bins (bins=50)

과제종료일
Date

Distinct	181
Distinct (%)	1.8%
Missing	12
Missing (%)	0.1%
Memory size	156.2 KiB

Minimum	2003-05-31 00:00:00
Maximum	2028-12-31 00:00:00

Histogram

Histogram with fixed size bins (bins=50)

성과년도
Real number (ℝ)

HIGH CORRELATION

Distinct	23
Distinct (%)	0.2%
Missing	12
Missing (%)	0.1%
Infinite	0
Infinite (%)	0.0%
Mean	2014.2475

Minimum	2001
Maximum	2023
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	2001
5-th percentile	2005
Q1	2010
median	2015
Q3	2019
95-th percentile	2022
Maximum	2023
Range	22
Interquartile range (IQR)	9

Descriptive statistics

Standard deviation	5.2996916
Coefficient of variation (CV)	0.0026311025
Kurtosis	-0.72187609
Mean	2014.2475
Median Absolute Deviation (MAD)	4
Skewness	-0.40202169
Sum	20118304
Variance	28.086731
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=23)

Value	Count	Frequency (%)
2015	731	7.3%
2016	727	7.3%
2013	700	7.0%
2018	681	6.8%
2019	665	6.7%
2020	640	6.4%
2014	615	6.2%
2017	575	5.8%
2021	564	5.6%
2022	542	5.4%
Other values (13)	3548	35.5%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
2001	38	0.4%
2002	111	1.1%
2003	119	1.2%
2004	148	1.5%
2005	266	2.7%
2006	337	3.4%
2007	378	3.8%
2008	391	3.9%
2009	373	3.7%
2010	349	3.5%

Value	Count	Frequency (%)
2023	136	1.4%
2022	542	5.4%
2021	564	5.6%
2020	640	6.4%
2019	665	6.7%
2018	681	6.8%
2017	575	5.8%
2016	727	7.3%
2015	731	7.3%
2014	615	6.2%

출원등록년월
Date

MISSING

Distinct	3304
Distinct (%)	40.9%
Missing	1918
Missing (%)	19.2%
Memory size	156.2 KiB

Minimum	2001-02-14 00:00:00
Maximum	2023-09-23 00:00:00

Histogram

Histogram with fixed size bins (bins=50)

명칭
Text

Distinct	7959
Distinct (%)	79.7%
Missing	12
Missing (%)	0.1%
Memory size	156.2 KiB

Length

Max length	258
Median length	155
Mean length	30.806768
Min length	2

Characters and Unicode

Total characters	307698
Distinct characters	1086
Distinct categories	13 ?
Distinct scripts	7 ?
Distinct blocks	10 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	6204 ?
Unique (%)	62.1%

Sample

1st row	배출가스 분석장치 및 이의 배출가스 분석방법
2nd row	실내쾌적도 모니터링 장치 및 방법
3rd row	납 오염 토양 안정화 또는 수처리용 조성물
4th row	히트란 밴드패스필터와 GFC가 결합된 가스분석기를 이용한 가스 농도 보정방법
5th row	염모제 조성물

Value	Count	Frequency (%)
및	4890	6.7%
이용한	2524	3.5%
방법	2383	3.3%
장치	1404	1.9%
이를	1346	1.8%
시스템	1158	1.6%
제조방법	1094	1.5%
위한	768	1.1%
그	728	1.0%
포함하는	494	0.7%
Other values (14924)	56152	77.0%

Most occurring characters

Value	Count	Frequency (%)
	63180	20.5%
이	7800	2.5%
방	5556	1.8%
용	5247	1.7%
법	5119	1.7%
및	4926	1.6%
한	4616	1.5%
수	4111	1.3%
장	4101	1.3%
의	3932	1.3%
Other values (1076)	199110	64.7%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	210298	68.3%
Space Separator	63182	20.5%
Uppercase Letter	17477	5.7%
Lowercase Letter	14139	4.6%
Other Punctuation	890	0.3%
Decimal Number	641	0.2%
Dash Punctuation	583	0.2%
Open Punctuation	234	0.1%
Close Punctuation	233	0.1%
Math Symbol	10	< 0.1%
Other values (3)	11	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
이	7800	3.7%
방	5556	2.6%
용	5247	2.5%
법	5119	2.4%
및	4926	2.3%
한	4616	2.2%
수	4111	2.0%
장	4101	2.0%
의	3932	1.9%
치	3850	1.8%
Other values (927)	161040	76.6%

Uppercase Letter

Value	Count	Frequency (%)
E	1603	9.2%
A	1444	8.3%
T	1337	7.7%
I	1306	7.5%
O	1295	7.4%
N	1267	7.2%
R	1205	6.9%
S	991	5.7%
C	837	4.8%
M	790	4.5%
Other values (40)	5402	30.9%

Lowercase Letter

Value	Count	Frequency (%)
e	1521	10.8%
o	1239	8.8%
a	1195	8.5%
t	1178	8.3%
i	1103	7.8%
r	1067	7.5%
n	1060	7.5%
s	741	5.2%
d	581	4.1%
l	549	3.9%
Other values (40)	3905	27.6%

Decimal Number

Value	Count	Frequency (%)
2	192	30.0%
3	122	19.0%
1	102	15.9%
0	61	9.5%
5	48	7.5%
4	34	5.3%
6	19	3.0%
7	12	1.9%
１	9	1.4%
9	9	1.4%
Other values (9)	33	5.1%

Other Punctuation

Value	Count	Frequency (%)
,	660	74.2%
/	120	13.5%
·	47	5.3%
.	44	4.9%
／	4	0.4%
:	3	0.3%
&	3	0.3%
#	3	0.3%
;	3	0.3%
'	2	0.2%

Open Punctuation

Value	Count	Frequency (%)
(	216	92.3%
{	15	6.4%
（	2	0.9%
[	1	0.4%

Close Punctuation

Value	Count	Frequency (%)
)	215	92.3%
}	15	6.4%
）	2	0.9%
]	1	0.4%

Dash Punctuation

Value	Count	Frequency (%)
-	571	97.9%
―	6	1.0%
－	6	1.0%

Space Separator

Value	Count	Frequency (%)
	63180	> 99.9%
	2	< 0.1%

Math Symbol

Value	Count	Frequency (%)
+	7	70.0%
＋	3	30.0%

Letter Number

Value	Count	Frequency (%)
Ⅱ	2	50.0%
Ⅰ	2	50.0%

Format

Value	Count	Frequency (%)
	5	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	2	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	210052	68.3%
Common	65780	21.4%
Latin	31607	10.3%
Han	198	0.1%
Hiragana	26	< 0.1%
Katakana	22	< 0.1%
Greek	13	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
이	7800	3.7%
방	5556	2.6%
용	5247	2.5%
법	5119	2.4%
및	4926	2.3%
한	4616	2.2%
수	4111	2.0%
장	4101	2.0%
의	3932	1.9%
치	3850	1.8%
Other values (792)	160794	76.5%

Han

Value	Count	Frequency (%)
的	11	5.6%
方	10	5.1%
法	9	4.5%
用	9	4.5%
生	6	3.0%
置	6	3.0%
造	5	2.5%
膜	5	2.5%
化	4	2.0%
裝	4	2.0%
Other values (93)	129	65.2%

Latin

Value	Count	Frequency (%)
E	1603	5.1%
e	1521	4.8%
A	1444	4.6%
T	1337	4.2%
I	1306	4.1%
O	1295	4.1%
N	1267	4.0%
o	1239	3.9%
R	1205	3.8%
a	1195	3.8%
Other values (88)	18195	57.6%

Common

Value	Count	Frequency (%)
	63180	96.0%
,	660	1.0%
-	571	0.9%
(	216	0.3%
)	215	0.3%
2	192	0.3%
3	122	0.2%
/	120	0.2%
1	102	0.2%
0	61	0.1%
Other values (37)	341	0.5%

Katakana

Value	Count	Frequency (%)
ッ	2	9.1%
ル	2	9.1%
ア	1	4.5%
ミ	1	4.5%
ニ	1	4.5%
ム	1	4.5%
ウ	1	4.5%
ナ	1	4.5%
ド	1	4.5%
リ	1	4.5%
Other values (10)	10	45.5%

Hiragana

Value	Count	Frequency (%)
を	5	19.2%
の	5	19.2%
た	4	15.4%
ろ	2	7.7%
い	2	7.7%
し	2	7.7%
か	1	3.8%
ら	1	3.8%
む	1	3.8%
れ	1	3.8%
Other values (2)	2	7.7%

Greek

Value	Count	Frequency (%)
ε	6	46.2%
α	3	23.1%
β	3	23.1%
γ	1	7.7%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	210045	68.3%
ASCII	96930	31.5%
None	460	0.1%
CJK	196	0.1%
Hiragana	26	< 0.1%
Katakana	22	< 0.1%
Compat Jamo	7	< 0.1%
Punctuation	6	< 0.1%
Number Forms	4	< 0.1%
CJK Compat Ideographs	2	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	63180	65.2%
E	1603	1.7%
e	1521	1.6%
A	1444	1.5%
T	1337	1.4%
I	1306	1.3%
O	1295	1.3%
N	1267	1.3%
o	1239	1.3%
R	1205	1.2%
Other values (71)	21533	22.2%

Hangul

Value	Count	Frequency (%)
이	7800	3.7%
방	5556	2.6%
용	5247	2.5%
법	5119	2.4%
및	4926	2.3%
한	4616	2.2%
수	4111	2.0%
장	4101	2.0%
의	3932	1.9%
치	3850	1.8%
Other values (789)	160787	76.5%

None

Value	Count	Frequency (%)
·	47	10.2%
Ａ	26	5.7%
Ｄ	26	5.7%
Ｃ	22	4.8%
Ｐ	22	4.8%
Ｍ	22	4.8%
Ｓ	16	3.5%
Ｉ	14	3.0%
Ｎ	13	2.8%
Ｒ	13	2.8%
Other values (55)	239	52.0%

CJK

Value	Count	Frequency (%)
的	11	5.6%
方	10	5.1%
法	9	4.6%
用	9	4.6%
生	6	3.1%
置	6	3.1%
造	5	2.6%
膜	5	2.6%
化	4	2.0%
裝	4	2.0%
Other values (91)	127	64.8%

Punctuation

Value	Count	Frequency (%)
―	6	100.0%

Hiragana

Value	Count	Frequency (%)
を	5	19.2%
の	5	19.2%
た	4	15.4%
ろ	2	7.7%
い	2	7.7%
し	2	7.7%
か	1	3.8%
ら	1	3.8%
む	1	3.8%
れ	1	3.8%
Other values (2)	2	7.7%

Compat Jamo

Value	Count	Frequency (%)
ㆍ	5	71.4%
ㅇ	1	14.3%
ㅔ	1	14.3%

Number Forms

Value	Count	Frequency (%)
Ⅱ	2	50.0%
Ⅰ	2	50.0%

Katakana

Value	Count	Frequency (%)
ッ	2	9.1%
ル	2	9.1%
ア	1	4.5%
ミ	1	4.5%
ニ	1	4.5%
ム	1	4.5%
ウ	1	4.5%
ナ	1	4.5%
ド	1	4.5%
リ	1	4.5%
Other values (10)	10	45.5%

CJK Compat Ideographs

Value	Count	Frequency (%)
類	1	50.0%
綠	1	50.0%

지식재산구분
Categorical

HIGH CORRELATION IMBALANCE

Distinct	2
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

특허	9979
<NA>	21

Length

Max length	4
Median length	2
Mean length	2.0042
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	특허
2nd row	특허
3rd row	특허
4th row	특허
5th row	특허

Common Values

Value	Count	Frequency (%)
특허	9979	99.8%
<NA>	21	0.2%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
특허	9979	99.8%
na	21	0.2%

출원등록구분
Categorical

HIGH CORRELATION

Distinct	3
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

출원	6178
등록	3801
<NA>	21

Length

Max length	4
Median length	2
Mean length	2.0042
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	출원
2nd row	등록
3rd row	출원
4th row	출원
5th row	출원

Common Values

Value	Count	Frequency (%)
출원	6178	61.8%
등록	3801	38.0%
<NA>	21	0.2%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
출원	6178	61.8%
등록	3801	38.0%
na	21	0.2%

출원번호
Text

MISSING

Distinct	6928
Distinct (%)	85.6%
Missing	1910
Missing (%)	19.1%
Memory size	156.2 KiB

Length

Max length	19
Median length	15
Mean length	14.672682
Min length	4

Characters and Unicode

Total characters	118702
Distinct characters	53
Distinct categories	8 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	5882 ?
Unique (%)	72.7%

Sample

1st row	10-2017-0072473
2nd row	10-2009-0127882
3rd row	10-2018-0126957
4th row	10-2023-0004327
5th row	10-2008-0012911

Value	Count	Frequency (%)
출원	24	0.3%
1.02014e+12	17	0.2%
제	13	0.2%
1.02016e+12	9	0.1%
1.02003e+12	9	0.1%
2.0121e+11	8	0.1%
10-2004-0057612	7	0.1%
2.0131e+11	7	0.1%
2.01711e+11	7	0.1%
2.0128e+11	7	0.1%
Other values (6940)	8047	98.7%

Most occurring characters

Value	Count	Frequency (%)
0	32992	27.8%
1	20525	17.3%
2	14561	12.3%
-	14365	12.1%
3	4880	4.1%
8	4835	4.1%
6	4717	4.0%
4	4713	4.0%
7	4683	3.9%
5	4635	3.9%
Other values (43)	7796	6.6%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	100984	85.1%
Dash Punctuation	14365	12.1%
Uppercase Letter	1831	1.5%
Other Punctuation	1032	0.9%
Other Letter	199	0.2%
Math Symbol	190	0.2%
Space Separator	94	0.1%
Lowercase Letter	7	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
P	329	18.0%
K	321	17.5%
R	316	17.3%
T	315	17.2%
C	314	17.1%
E	194	10.6%
X	9	0.5%
O	6	0.3%
L	5	0.3%
S	4	0.2%
Other values (11)	18	1.0%

Decimal Number

Value	Count	Frequency (%)
0	32992	32.7%
1	20525	20.3%
2	14561	14.4%
3	4880	4.8%
8	4835	4.8%
6	4717	4.7%
4	4713	4.7%
7	4683	4.6%
5	4635	4.6%
9	4443	4.4%

Other Letter

Value	Count	Frequency (%)
제	63	31.7%
호	56	28.1%
출	30	15.1%
원	30	15.1%
특	8	4.0%
허	8	4.0%
록	2	1.0%
등	2	1.0%

Lowercase Letter

Value	Count	Frequency (%)
a	2	28.6%
s	1	14.3%
p	1	14.3%
n	1	14.3%
b	1	14.3%
i	1	14.3%

Other Punctuation

Value	Count	Frequency (%)
/	806	78.1%
.	205	19.9%
,	19	1.8%
;	1	0.1%
&	1	0.1%

Dash Punctuation

Value	Count	Frequency (%)
-	14365	100.0%

Math Symbol

Value	Count	Frequency (%)
+	190	100.0%

Space Separator

Value	Count	Frequency (%)
	94	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	116665	98.3%
Latin	1838	1.5%
Hangul	199	0.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
P	329	17.9%
K	321	17.5%
R	316	17.2%
T	315	17.1%
C	314	17.1%
E	194	10.6%
X	9	0.5%
O	6	0.3%
L	5	0.3%
S	4	0.2%
Other values (17)	25	1.4%

Common

Value	Count	Frequency (%)
0	32992	28.3%
1	20525	17.6%
2	14561	12.5%
-	14365	12.3%
3	4880	4.2%
8	4835	4.1%
6	4717	4.0%
4	4713	4.0%
7	4683	4.0%
5	4635	4.0%
Other values (8)	5759	4.9%

Hangul

Value	Count	Frequency (%)
제	63	31.7%
호	56	28.1%
출	30	15.1%
원	30	15.1%
특	8	4.0%
허	8	4.0%
록	2	1.0%
등	2	1.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	118503	99.8%
Hangul	199	0.2%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	32992	27.8%
1	20525	17.3%
2	14561	12.3%
-	14365	12.1%
3	4880	4.1%
8	4835	4.1%
6	4717	4.0%
4	4713	4.0%
7	4683	4.0%
5	4635	3.9%
Other values (35)	7597	6.4%

Hangul

Value	Count	Frequency (%)
제	63	31.7%
호	56	28.1%
출	30	15.1%
원	30	15.1%
특	8	4.0%
허	8	4.0%
록	2	1.0%
등	2	1.0%

등록번호
Text

MISSING

Distinct	3731
Distinct (%)	98.4%
Missing	6207
Missing (%)	62.1%
Memory size	156.2 KiB

Length

Max length	19
Median length	15
Mean length	14.414448
Min length	4

Characters and Unicode

Total characters	54674
Distinct characters	38
Distinct categories	9 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3686 ?
Unique (%)	97.2%

Sample

1st row	10-1307189-0000
2nd row	10-0938596-0000
3rd row	10-15386090000
4th row	ZL202210464845.0
5th row	10-2175195-0000

Value	Count	Frequency (%)
등록	62	1.6%
제	48	1.2%
특허	24	0.6%
1.02e+12	9	0.2%
호	9	0.2%
10-0600704	6	0.2%
us	5	0.1%
1.01e+12	5	0.1%
1.00e+12	4	0.1%
zl	3	0.1%
Other values (3732)	3778	95.6%

Most occurring characters

Value	Count	Frequency (%)
0	19869	36.3%
1	7883	14.4%
-	6825	12.5%
2	3275	6.0%
5	2411	4.4%
9	2336	4.3%
4	2333	4.3%
6	2286	4.2%
8	2228	4.1%
3	2216	4.1%
Other values (28)	3012	5.5%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	47029	86.0%
Dash Punctuation	6825	12.5%
Other Letter	422	0.8%
Space Separator	172	0.3%
Uppercase Letter	137	0.3%
Other Punctuation	68	0.1%
Math Symbol	19	< 0.1%
Open Punctuation	1	< 0.1%
Close Punctuation	1	< 0.1%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
Z	38	27.7%
L	36	26.3%
E	19	13.9%
B	7	5.1%
U	7	5.1%
S	7	5.1%
P	6	4.4%
I	5	3.6%
X	5	3.6%
T	2	1.5%
Other values (4)	5	3.6%

Decimal Number

Value	Count	Frequency (%)
0	19869	42.2%
1	7883	16.8%
2	3275	7.0%
5	2411	5.1%
9	2336	5.0%
4	2333	5.0%
6	2286	4.9%
8	2228	4.7%
3	2216	4.7%
7	2192	4.7%

Other Letter

Value	Count	Frequency (%)
제	126	29.9%
호	107	25.4%
록	68	16.1%
등	68	16.1%
특	27	6.4%
허	26	6.2%

Other Punctuation

Value	Count	Frequency (%)
.	54	79.4%
,	8	11.8%
/	6	8.8%

Dash Punctuation

Value	Count	Frequency (%)
-	6825	100.0%

Space Separator

Value	Count	Frequency (%)
	172	100.0%

Math Symbol

Value	Count	Frequency (%)
+	19	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	54115	99.0%
Hangul	422	0.8%
Latin	137	0.3%

Most frequent character per script

Common

Value	Count	Frequency (%)
0	19869	36.7%
1	7883	14.6%
-	6825	12.6%
2	3275	6.1%
5	2411	4.5%
9	2336	4.3%
4	2333	4.3%
6	2286	4.2%
8	2228	4.1%
3	2216	4.1%
Other values (8)	2453	4.5%

Latin

Value	Count	Frequency (%)
Z	38	27.7%
L	36	26.3%
E	19	13.9%
B	7	5.1%
U	7	5.1%
S	7	5.1%
P	6	4.4%
I	5	3.6%
X	5	3.6%
T	2	1.5%
Other values (4)	5	3.6%

Hangul

Value	Count	Frequency (%)
제	126	29.9%
호	107	25.4%
록	68	16.1%
등	68	16.1%
특	27	6.4%
허	26	6.2%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	54252	99.2%
Hangul	422	0.8%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	19869	36.6%
1	7883	14.5%
-	6825	12.6%
2	3275	6.0%
5	2411	4.4%
9	2336	4.3%
4	2333	4.3%
6	2286	4.2%
8	2228	4.1%
3	2216	4.1%
Other values (22)	2590	4.8%

Hangul

Value	Count	Frequency (%)
제	126	29.9%
호	107	25.4%
록	68	16.1%
등	68	16.1%
특	27	6.4%
허	26	6.2%

출원등록기관
Text

Distinct	1449
Distinct (%)	14.6%
Missing	77
Missing (%)	0.8%
Memory size	156.2 KiB

Length

Max length	58
Median length	34
Mean length	9.192079
Min length	2

Characters and Unicode

Total characters	91213
Distinct characters	485
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	3 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	501 ?
Unique (%)	5.0%

Sample

1st row	건국대학교 산학협력단
2nd row	(주)그린솔루스
3rd row	(주)해천이티에스
4th row	건국대학교 산학협력단
5th row	경상국립대학교 산학협력단

Value	Count	Frequency (%)
산학협력단	1984	14.7%
주식회사	749	5.5%
한국과학기술연구원	430	3.2%
주	270	2.0%
한국건설기술연구원	236	1.7%
서울대학교	217	1.6%
한국화학연구원	189	1.4%
고려대학교	183	1.4%
한국지질자원연구원	178	1.3%
한국에너지기술연구원	178	1.3%
Other values (1453)	8899	65.9%

Most occurring characters

Value	Count	Frequency (%)
학	5767	6.3%
주	4960	5.4%
)	3929	4.3%
(	3927	4.3%
	3607	4.0%
원	2798	3.1%
산	2753	3.0%
대	2682	2.9%
국	2430	2.7%
한	2415	2.6%
Other values (475)	55945	61.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	78916	86.5%
Close Punctuation	3929	4.3%
Open Punctuation	3927	4.3%
Space Separator	3607	4.0%
Uppercase Letter	418	0.5%
Lowercase Letter	172	0.2%
Decimal Number	137	0.2%
Other Punctuation	80	0.1%
Other Symbol	26	< 0.1%
Dash Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
학	5767	7.3%
주	4960	6.3%
원	2798	3.5%
산	2753	3.5%
대	2682	3.4%
국	2430	3.1%
한	2415	3.1%
단	2380	3.0%
교	2330	3.0%
력	2295	2.9%
Other values (416)	48106	61.0%

Uppercase Letter

Value	Count	Frequency (%)
S	56	13.4%
E	55	13.2%
K	37	8.9%
G	36	8.6%
L	29	6.9%
N	28	6.7%
M	25	6.0%
I	24	5.7%
C	23	5.5%
T	13	3.1%
Other values (13)	92	22.0%

Lowercase Letter

Value	Count	Frequency (%)
e	24	14.0%
n	22	12.8%
o	17	9.9%
a	15	8.7%
g	13	7.6%
t	12	7.0%
i	11	6.4%
r	9	5.2%
d	8	4.7%
s	7	4.1%
Other values (11)	34	19.8%

Decimal Number

Value	Count	Frequency (%)
1	72	52.6%
2	48	35.0%
4	9	6.6%
3	5	3.6%
5	3	2.2%

Other Punctuation

Value	Count	Frequency (%)
,	47	58.8%
.	16	20.0%
/	8	10.0%
&	6	7.5%
:	3	3.8%

Close Punctuation

Value	Count	Frequency (%)
)	3929	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	3927	100.0%

Space Separator

Value	Count	Frequency (%)
	3607	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	26	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	78942	86.5%
Common	11681	12.8%
Latin	590	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
학	5767	7.3%
주	4960	6.3%
원	2798	3.5%
산	2753	3.5%
대	2682	3.4%
국	2430	3.1%
한	2415	3.1%
단	2380	3.0%
교	2330	3.0%
력	2295	2.9%
Other values (417)	48132	61.0%

Latin

Value	Count	Frequency (%)
S	56	9.5%
E	55	9.3%
K	37	6.3%
G	36	6.1%
L	29	4.9%
N	28	4.7%
M	25	4.2%
e	24	4.1%
I	24	4.1%
C	23	3.9%
Other values (34)	253	42.9%

Common

Value	Count	Frequency (%)
)	3929	33.6%
(	3927	33.6%
	3607	30.9%
1	72	0.6%
2	48	0.4%
,	47	0.4%
.	16	0.1%
4	9	0.1%
/	8	0.1%
&	6	0.1%
Other values (4)	12	0.1%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	78916	86.5%
ASCII	12271	13.5%
None	26	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
학	5767	7.3%
주	4960	6.3%
원	2798	3.5%
산	2753	3.5%
대	2682	3.4%
국	2430	3.1%
한	2415	3.1%
단	2380	3.0%
교	2330	3.0%
력	2295	2.9%
Other values (416)	48106	61.0%

ASCII

Value	Count	Frequency (%)
)	3929	32.0%
(	3927	32.0%
	3607	29.4%
1	72	0.6%
S	56	0.5%
E	55	0.4%
2	48	0.4%
,	47	0.4%
K	37	0.3%
G	36	0.3%
Other values (48)	457	3.7%

None

Value	Count	Frequency (%)
㈜	26	100.0%

출원등록국가
Categorical

HIGH CORRELATION IMBALANCE

Distinct	28
Distinct (%)	0.3%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

대한민국	9164
국제(PCT)	249
미국	209
중국	154
일본	88
Other values (23)	136

Length

Max length	9
Median length	4
Mean length	3.9783
Min length	2

Unique

Unique	5 ?
Unique (%)	< 0.1%

Sample

1st row	대한민국
2nd row	대한민국
3rd row	대한민국
4th row	대한민국
5th row	대한민국

Common Values

Value	Count	Frequency (%)
대한민국	9164	91.6%
국제(PCT)	249	2.5%
미국	209	2.1%
중국	154	1.5%
일본	88	0.9%
유럽연합	34	0.3%
<NA>	21	0.2%
베트남	12	0.1%
인도네시아	8	0.1%
대만	8	0.1%
Other values (18)	53	0.5%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
대한민국	9164	91.6%
국제(pct	249	2.5%
미국	209	2.1%
중국	154	1.5%
일본	88	0.9%
유럽연합	34	0.3%
na	21	0.2%
베트남	12	0.1%
인도네시아	8	0.1%
대만	8	0.1%
Other values (19)	55	0.5%

국내외구분
Categorical

HIGH CORRELATION IMBALANCE

Distinct	3
Distinct (%)	< 0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

국내	9164
국외	815
<NA>	21

Length

Max length	4
Median length	2
Mean length	2.0042
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	국내
2nd row	국내
3rd row	국내
4th row	국내
5th row	국내

Common Values

Value	Count	Frequency (%)
국내	9164	91.6%
국외	815	8.2%
<NA>	21	0.2%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
국내	9164	91.6%
국외	815	8.2%
na	21	0.2%

순번
성과년도

성과년도
순번

성과년도
순번

Heatmap
Table

	순번	사업명	연구기관유형	성과년도	출원등록구분	출원등록국가	국내외구분
순번	1.000	0.971	0.362	0.795	0.119	0.140	0.143
사업명	0.971	1.000	0.693	0.800	0.142	0.000	0.166
연구기관유형	0.362	0.693	1.000	0.252	0.039	0.247	0.086
성과년도	0.795	0.800	0.252	1.000	0.133	0.101	0.083
출원등록구분	0.119	0.142	0.039	0.133	1.000	0.169	0.205
출원등록국가	0.140	0.000	0.247	0.101	0.169	1.000	1.000
국내외구분	0.143	0.166	0.086	0.083	0.205	1.000	1.000

Heatmap
Table

	국내외구분	출원등록구분	출원등록국가	지식재산구분	연구기관유형
국내외구분	1.000	0.131	0.999	1.000	0.067
출원등록구분	0.131	1.000	0.145	1.000	0.030
출원등록국가	0.999	0.145	1.000	1.000	0.075
지식재산구분	1.000	1.000	1.000	1.000	1.000
연구기관유형	0.067	0.030	0.075	1.000	1.000

Heatmap
Table

	순번	성과년도	연구기관유형	지식재산구분	출원등록구분	출원등록국가	국내외구분
순번	1.000	-0.032	0.150	1.000	0.091	0.051	0.110
성과년도	-0.032	1.000	0.102	1.000	0.105	0.036	0.064
연구기관유형	0.150	0.102	1.000	1.000	0.030	0.075	0.067
지식재산구분	1.000	1.000	1.000	1.000	1.000	1.000	1.000
출원등록구분	0.091	0.105	0.030	1.000	1.000	0.145	0.131
출원등록국가	0.051	0.036	0.075	1.000	0.145	1.000	0.999
국내외구분	0.110	0.064	0.067	1.000	0.131	0.999	1.000

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

First rows
Last rows

	순번	사업명	연구과제명	연구기관	연구기관유형	연구책임자	과제시작일	과제종료일	성과년도	출원등록년월	명칭	지식재산구분	출원등록구분	출원번호	등록번호	출원등록기관	출원등록국가	국내외구분
2507	2508	글로벌탑환경기술개발사업	대기 배출원 복합유해물질 측정분석장치 개발	건국대학교 산학협력단	대학	김조천	2014-12-31	2020-12-31	2017	2017-06-09	배출가스 분석장치 및 이의 배출가스 분석방법	특허	출원	10-2017-0072473	<NA>	건국대학교 산학협력단	대한민국	국내
13457	13445	환경산업선진화기술개발사업	지하환경 환경진단 모니터링 및 평가 시스템 개발	(주)그린솔루스	벤처기업	봉춘근	2011-05-01	2014-03-31	2013	<NA>	실내쾌적도 모니터링 장치 및 방법	특허	등록	<NA>	10-1307189-0000	(주)그린솔루스	대한민국	국내
11059	11054	토양·지하수 오염방지 기술개발사업	폐굴껍질과 가축뼈 등 천연폐자원을 이용한 비소 및 중금속으로 오염된 토양의 안정화	(주)해천이티에스	중소기업	김태성	2009-03-01	2011-02-28	2009	2009-12-21	납 오염 토양 안정화 또는 수처리용 조성물	특허	출원	10-2009-0127882	<NA>	(주)해천이티에스	대한민국	국내
1584	1585	글로벌탑환경기술개발사업	대기 배출원 복합유해물질 측정분석장치 개발	건국대학교 산학협력단	대학	김조천	2014-12-31	2020-12-31	2018	2018-10-23	히트란 밴드패스필터와 GFC가 결합된 가스분석기를 이용한 가스 농도 보정방법	특허	출원	10-2018-0126957	<NA>	건국대학교 산학협력단	대한민국	국내
6374	6369	야생생물 유래 친환경 신소재 및 공정 기술개발사업	목재 부산물과 이온성 액체/열 분해 복합 처리를 이용한 풀빅산 유사체 대량 생산 기술 개발 및 화장품 응용 소재 발굴	경상국립대학교 산학협력단	대학	전종록	2021-04-01	2023-12-31	2023	2023-01-11	염모제 조성물	특허	출원	10-2023-0004327	<NA>	경상국립대학교 산학협력단	대한민국	국내
10159	10154	차세대 핵심환경 기술개발사업	나노 금속/금속산화물을 활용한 공기정화용 고효율 에어 필터 개발	(주)엔지텍	중소기업	김종순	2007-04-01	2008-03-31	2008	2008-02-13	나노 금속 입자의 제조방법 및 그 응용제품	특허	출원	10-2008-0012911	<NA>	(주)엔지텍	대한민국	국내
14135	14123	환경융합신기술개발사업	덴드리틱 구조에 기반한 유해물질 분리용 나노 담체 합성 및 재생 기술 개발	한국과학기술원	특정연구기관	김상율	2009-06-01	2014-05-31	2012	2012-05-23	역상 현탁중합과 전구체를 이용한 가교된 하이퍼브랜치 폴리아미도아민 입자의 제조 방법	특허	출원	10-2012-0054537	<NA>	한국과학기술원	대한민국	국내
782	783	Eco-Star 사업	수생태계 생물서식처 복원기술 개발	강원대학교 삼척산학협력단	대학	허우명	2007-12-01	2014-05-31	2010	<NA>	수변어소블럭	특허	등록	<NA>	10-0938596-0000	강원대학교 삼척산학협력단	대한민국	국내
3821	3822	글로벌탑환경기술개발사업	고무 폐자원의 고부가가치 재활용 기술	경상국립대학교 산학협력단	대학	김진국	2011-08-01	2014-04-30	2013	2013-04-18	경량화 방근시트의 제조방법 및 이로부터 제조된 경량화 방근시트	특허	출원	10-2013-0042625	<NA>	경상국립대학교 산학협력단	대한민국	국내
5017	5013	물관리 연구사업	수변 충적층 지하수열 활용 저장 시스템 지상설비 최적화 기술 개발	KAIA-임시기관	기타	61269	2011-10-31	2016-06-30	2015	2015-04-01	바이패스 밸브를 이용하는 히트펌프 시스템 및 그 작동방법	특허	등록	10-2015-0046142	10-15386090000	<NA>	대한민국	국내

	순번	사업명	연구과제명	연구기관	연구기관유형	연구책임자	과제시작일	과제종료일	성과년도	출원등록년월	명칭	지식재산구분	출원등록구분	출원번호	등록번호	출원등록기관	출원등록국가	국내외구분
7188	7183	차세대 핵심환경 기술개발사업	온실가스 N2O 분해용 촉매 시스템 및 적용기술 개발	상명대학교	대학	장길상	2004-06-01	2006-05-31	2005	2005-06-01	일산화탄소를 이용한 질소산화물의 분해방법	특허	출원	10-2005-0046695	<NA>	장길상,우제완,박용성	대한민국	국내
5350	5345	미세먼지 사각지대 해소 및 저감 실증화 기술개발사업	다단 희석 샘플링 기술을 이용한 고정오염원 배출시설의 미세먼지 연속측정 기술 실증화	한국기계연구원	정부출연연구기관	한방우	2020-05-12	2021-12-31	2021	2021-07-20	배기가스 희석장치	특허	출원	10-2021-0094806	<NA>	한국기계연구원	대한민국	국내
15623	15611	환경정책기반공공기술개발사업	도심 하수도 악취 저감을 위한 최적 시스템 개발	한국건설기술연구원	정부출연연구기관	유성수	2017-04-11	2021-06-30	2019	2019-11-13	하수관용 인버트 구조체 및 그 시공방법	특허	출원	10-2019-0145127	<NA>	한국건설기술연구원	대한민국	국내
366	367	Eco-Star 사업	자연하안 창출공법 및 인공하안 대체공법 개발	(주)한화건설	대기업	허형우	2007-12-01	2014-05-31	2012	2012-03-19	생태안착형 입체 호안구조 및 이의 시공방법	특허	출원	10-2012-0027796	<NA>	(주)한화건설	대한민국	국내
13796	13784	환경서비스기술개발사업	폐형광등 수거 장치 및 수거 모니터링 시스템 구축	(주)에코아이이앤씨	벤처기업	정재수	2013-05-01	2015-03-31	2014	2014-03-31	폐형광등 수거 시스템 및 폐형광등 수거방법	특허	출원	10-2014-0037930	<NA>	(주)에코아이이앤씨	대한민국	국내
9583	9578	차세대 핵심환경 기술개발사업	이온성 액체-나노 융합소재를 이용한 촉매의 회수 및 재사용	이화여자대학교 산학협력단	대학	이상기	2006-04-01	2008-03-31	2007	2007-09-18	금속나노입자가 고정화된 이온성 액체-탄소나노튜브지지체 복합체 및 이의 제조방법	특허	출원	10-2007-0094611	<NA>	이화여자대학교 산학협력단	대한민국	국내
6788	6783	지중환경오염위해관리기술개발사업	해안매립지역 자유상 유류 오염 지중 정화 기술 개발	대일이앤씨	중소기업	이철효	2018-06-01	2020-12-31	2021	2021-03-12	축열연소 산화설비를 이용한 토양정화 시스템 및 그 방법	특허	출원	10-2021-0033018	<NA>	대일이앤씨	대한민국	국내
2656	2657	글로벌탑환경기술개발사업	막 손상/노후막 진단 기술 및 장치 개발	한양대학교 산학협력단	대학	이용수	2016-08-10	2021-10-31	2017	2017-03-30	여과막 손상 및 수명 진단 분리 이동형 장치	특허	출원	10-2017-0040510	<NA>	한양대학교 산학협력단	대한민국	국내
9824	9819	차세대 핵심환경 기술개발사업	질산화 효율증진을 위한 하ㆍ폐수 고도처리 실용화 기술개발	(주)디엠퓨어텍	벤처기업	송준상	2004-06-01	2006-05-31	2004	<NA>	슬러지의 혐기성 또는 호기성 소화액으로 배양한 질산화미생물을 이용한 하수고도처리 방법	특허	등록	<NA>	등록 제 0434858호	(주)디엠퓨어텍	대한민국	국내
8359	8354	차세대 핵심환경 기술개발사업	지구온난화추세 및 아열대기후 환경에서의 한반도 연안환경 기상영향분석 및 정량적 예측기술개발	부산대학교 산학협력단	대학	하경자	2008-04-01	2011-02-28	2009	<NA>	밝기온도 표준편차 판정법에 의한 기상관측위성을 이용한 안개 탐지시스템 및 그를 사용한 안개 탐지방법	특허	등록	<NA>	10-0934700	부산대학교 산학협력단	대한민국	국내

Most frequently occurring

	순번	사업명	연구과제명	연구기관	연구기관유형	연구책임자	과제시작일	과제종료일	성과년도	출원등록년월	명칭	지식재산구분	출원등록구분	출원번호	등록번호	출원등록기관	출원등록국가	국내외구분	# duplicates
0	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	<NA>	5

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Space Separator

Dash Punctuation

Other Punctuation

Decimal Number

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

None

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Other Punctuation

Decimal Number

Other Symbol

Open Punctuation

Close Punctuation

Other Number

Space Separator

Dash Punctuation

Math Symbol

Final Punctuation

Initial Punctuation

Modifier Symbol

Connector Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

ASCII

Hangul

None

Compat Jamo

CJK Compat

Punctuation

Modifier Letters

Letterlike Symbols

CJK

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Close Punctuation

Open Punctuation

Space Separator

Dash Punctuation

Other Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block