gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	17
Duplicate rows (%)	0.2%
Total size in memory	322.3 KiB
Average record size in memory	33.0 B

Variable types

Text	1
Numeric	1
DateTime	1

Dataset

Description	기관 대표 홈페이지의 메뉴별 연관 키워드에 대한 정보로써 키워드, 조회수, 메뉴ID, 키워드 등록 날짜 항목 정보를 제공합니다.
Author	한국보건산업진흥원
URL	https://www.data.go.kr/data/15122043/fileData.do

Alerts

Dataset has 17 (0.2%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 05:55:51.306995
Analysis finished	2023-12-12 05:55:52.032683
Duration	0.73 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

키워드
Text

Distinct	4108
Distinct (%)	41.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	97
Median length	83
Mean length	4.9841
Min length	1

Characters and Unicode

Total characters	49841
Distinct characters	712
Distinct categories	13 ?
Distinct scripts	4 ?
Distinct blocks	6 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3056 ?
Unique (%)	30.6%

Sample

1st row	정책보럼
2nd row	제약산어
3rd row	쇼케이스
4th row	한국의료기기산업협회
5th row	투자활성화

Value	Count	Frequency (%)
의료기기	416	3.7%
한국보건산업진흥원	201	1.8%
보건산업	182	1.6%
중국	108	1.0%
글로벌	106	0.9%
식품의약품안전처	105	0.9%
의료해외진출	104	0.9%
보건복지부	94	0.8%
동향	90	0.8%
지원사업	83	0.7%
Other values (3920)	9768	86.8%

Most occurring characters

Value	Count	Frequency (%)
기	2193	4.4%
의	1796	3.6%
료	1599	3.2%
업	1314	2.6%
	1258	2.5%
보	1155	2.3%
원	915	1.8%
국	858	1.7%
산	857	1.7%
건	840	1.7%
Other values (702)	37056	74.3%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	42553	85.4%
Uppercase Letter	2378	4.8%
Lowercase Letter	1990	4.0%
Space Separator	1258	2.5%
Decimal Number	1218	2.4%
Other Punctuation	245	0.5%
Dash Punctuation	107	0.2%
Open Punctuation	37	0.1%
Close Punctuation	35	0.1%
Math Symbol	16	< 0.1%
Other values (3)	4	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
기	2193	5.2%
의	1796	4.2%
료	1599	3.8%
업	1314	3.1%
보	1155	2.7%
원	915	2.2%
국	858	2.0%
산	857	2.0%
건	840	2.0%
진	692	1.6%
Other values (618)	30334	71.3%

Uppercase Letter

Value	Count	Frequency (%)
A	218	9.2%
I	201	8.5%
K	180	7.6%
E	162	6.8%
D	156	6.6%
R	147	6.2%
S	143	6.0%
T	141	5.9%
O	138	5.8%
M	126	5.3%
Other values (17)	766	32.2%

Lowercase Letter

Value	Count	Frequency (%)
e	231	11.6%
a	217	10.9%
i	180	9.0%
t	162	8.1%
o	156	7.8%
r	155	7.8%
n	124	6.2%
l	117	5.9%
c	89	4.5%
d	86	4.3%
Other values (16)	473	23.8%

Decimal Number

Value	Count	Frequency (%)
2	302	24.8%
1	276	22.7%
0	267	21.9%
9	76	6.2%
7	69	5.7%
8	61	5.0%
3	58	4.8%
4	53	4.4%
6	31	2.5%
5	25	2.1%

Other Punctuation

Value	Count	Frequency (%)
,	146	59.6%
.	39	15.9%
&	36	14.7%
·	9	3.7%
'	8	3.3%
/	3	1.2%
"	2	0.8%
%	1	0.4%
*	1	0.4%

Math Symbol

Value	Count	Frequency (%)
>	6	37.5%
<	6	37.5%
+	4	25.0%

Open Punctuation

Value	Count	Frequency (%)
(	36	97.3%
[	1	2.7%

Close Punctuation

Value	Count	Frequency (%)
)	34	97.1%
]	1	2.9%

Space Separator

Value	Count	Frequency (%)
	1258	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	107	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	2	100.0%

Final Punctuation

Value	Count	Frequency (%)
’	1	100.0%

Other Symbol

Value	Count	Frequency (%)
㈜	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	42546	85.4%
Latin	4368	8.8%
Common	2919	5.9%
Han	8	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
기	2193	5.2%
의	1796	4.2%
료	1599	3.8%
업	1314	3.1%
보	1155	2.7%
원	915	2.2%
국	858	2.0%
산	857	2.0%
건	840	2.0%
진	692	1.6%
Other values (611)	30327	71.3%

Latin

Value	Count	Frequency (%)
e	231	5.3%
A	218	5.0%
a	217	5.0%
I	201	4.6%
K	180	4.1%
i	180	4.1%
E	162	3.7%
t	162	3.7%
o	156	3.6%
D	156	3.6%
Other values (43)	2505	57.3%

Common

Value	Count	Frequency (%)
	1258	43.1%
2	302	10.3%
1	276	9.5%
0	267	9.1%
,	146	5.0%
-	107	3.7%
9	76	2.6%
7	69	2.4%
8	61	2.1%
3	58	2.0%
Other values (20)	299	10.2%

Han

Value	Count	Frequency (%)
炎	1	12.5%
新	1	12.5%
冠	1	12.5%
肺	1	12.5%
大	1	12.5%
流	1	12.5%
行	1	12.5%
期	1	12.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	42542	85.4%
ASCII	7276	14.6%
None	11	< 0.1%
CJK	8	< 0.1%
Compat Jamo	3	< 0.1%
Punctuation	1	< 0.1%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
기	2193	5.2%
의	1796	4.2%
료	1599	3.8%
업	1314	3.1%
보	1155	2.7%
원	915	2.2%
국	858	2.0%
산	857	2.0%
건	840	2.0%
진	692	1.6%
Other values (608)	30323	71.3%

ASCII

Value	Count	Frequency (%)
	1258	17.3%
2	302	4.2%
1	276	3.8%
0	267	3.7%
e	231	3.2%
A	218	3.0%
a	217	3.0%
I	201	2.8%
K	180	2.5%
i	180	2.5%
Other values (70)	3946	54.2%

None

Value	Count	Frequency (%)
·	9	81.8%
Ｈ	1	9.1%
㈜	1	9.1%

Compat Jamo

Value	Count	Frequency (%)
ㅇ	2	66.7%
ㄴ	1	33.3%

Punctuation

Value	Count	Frequency (%)
’	1	100.0%

CJK

Value	Count	Frequency (%)
炎	1	12.5%
新	1	12.5%
冠	1	12.5%
肺	1	12.5%
大	1	12.5%
流	1	12.5%
行	1	12.5%
期	1	12.5%

조회수
Real number (ℝ)

Distinct	5020
Distinct (%)	50.2%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	4213.558

Minimum	1
Maximum	78677
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	1
5-th percentile	2
Q1	1993
median	3649
Q3	5516
95-th percentile	10846
Maximum	78677
Range	78676
Interquartile range (IQR)	3523

Descriptive statistics

Standard deviation	3974.7822
Coefficient of variation (CV)	0.94333155
Kurtosis	41.568381
Mean	4213.558
Median Absolute Deviation (MAD)	1762
Skewness	3.9318059
Sum	42135580
Variance	15798894
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
1	416	4.2%
2	216	2.2%
3	148	1.5%
4	81	0.8%
6	54	0.5%
5	52	0.5%
7	47	0.5%
8	21	0.2%
9	21	0.2%
12	18	0.2%
Other values (5010)	8926	89.3%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	416	4.2%
2	216	2.2%
3	148	1.5%
4	81	0.8%
5	52	0.5%
6	54	0.5%
7	47	0.5%
8	21	0.2%
9	21	0.2%
10	17	0.2%

Value	Count	Frequency (%)
78677	1	< 0.1%
70841	2	< 0.1%
58211	1	< 0.1%
44409	1	< 0.1%
43769	2	< 0.1%
42086	1	< 0.1%
39176	2	< 0.1%
38487	1	< 0.1%
35538	1	< 0.1%
35080	1	< 0.1%

키워드 등록 날짜
Date

Distinct	1674
Distinct (%)	16.7%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Minimum	2006-02-01 00:00:00
Maximum	2021-07-01 00:00:00

Histogram

Histogram with fixed size bins (bins=50)

조회수

조회수

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	키워드	조회수	키워드 등록 날짜
56904	정책보럼	5753	2018-11-12
11051	제약산어	11772	2016-02-19
32603	쇼케이스	11530	2017-07-27
21112	한국의료기기산업협회	2987	2016-12-01
49943	투자활성화	7548	2018-05-08
31359	활용	2963	2017-07-03
18517	교육	4974	2016-09-21
51881	식품의약품안전처	4289	2018-06-29
60460	비품의 관리	1014	2019-01-15
20087	의료기관	1179	2016-11-07

	키워드	조회수	키워드 등록 날짜
18340	특허연계	5343	2016-09-13
30940	의료기기	3666	2017-06-26
50528	보건복지부	7042	2018-05-23
54707	평가결과	10883	2018-09-19
91883	러시아	8383	2019-12-03
25590	과	4318	2017-03-06
44924	20회	4167	2018-01-23
68287	인도	6698	2019-07-09
20909	보건의료	2	2016-11-25
93379	글로벌	7409	2020-11-26

Most frequently occurring

	키워드	조회수	키워드 등록 날짜	# duplicates
0	<script>alert('XSS')</script>	2	2019-07-15	2
1	KOHES뉴스레터	1	2018-10-15	2
2	MOA 체결	3	2016-03-31	2
3	교육비	2	2016-10-21	2
4	김현정기자	3	2016-08-31	2
5	뉴스레터	3	2017-09-20	2
6	서울경제	1	2017-05-19	2
7	영국	2660	2016-11-13	2
8	의료 한류	1	2016-07-04	2
9	의료기기	1	2019-02-26	2

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Lowercase Letter

Decimal Number

Other Punctuation

Math Symbol

Open Punctuation

Close Punctuation

Space Separator

Dash Punctuation

Connector Punctuation

Final Punctuation

Other Symbol

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Han

Most occurring blocks

Most frequent character per block

Hangul

ASCII

None

Compat Jamo

Punctuation

CJK

Interactions

Missing values

Sample

Duplicate rows

Most frequently occurring