gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	400.4 KiB
Average record size in memory	41.0 B

Variable types

Text	2
DateTime	1
Numeric	1

Dataset

Description	전통의학정보포털 오아시스의 일자별 이용자 검색어 정보입니다. 키워드, 사용자, 등록일, 검색건수로 이루어져있습니다.
Author	한국한의학연구원
URL	https://www.data.go.kr/data/15086067/fileData.do

Reproduction

Analysis started	2023-12-12 18:28:42.796969
Analysis finished	2023-12-12 18:28:43.589937
Duration	0.79 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

키워드
Text

Distinct	4596
Distinct (%)	46.0%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	102
Median length	40
Mean length	4.3868
Min length	1

Characters and Unicode

Total characters	43868
Distinct characters	1018
Distinct categories	12 ?
Distinct scripts	6 ?
Distinct blocks	9 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	3135 ?
Unique (%)	31.4%

Sample

1st row	불면증
2nd row	2000-10-22
3rd row	갑상선
4th row	Phellodendri
5th row	대한한방안이비인후피부과학회

Value	Count	Frequency (%)
침	104	1.0%
한약	92	0.9%
acupuncture	65	0.6%
약침	54	0.5%
비만	49	0.5%
증례	43	0.4%
아토피	43	0.4%
추나	43	0.4%
암	40	0.4%
감초	35	0.3%
Other values (4552)	9436	94.3%

Most occurring characters

Value	Count	Frequency (%)
0	1964	4.5%
e	1467	3.3%
a	1415	3.2%
-	1339	3.1%
i	1256	2.9%
2	1086	2.5%
n	1082	2.5%
t	1048	2.4%
r	1026	2.3%
o	968	2.2%
Other values (1008)	31217	71.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	21885	49.9%
Lowercase Letter	14783	33.7%
Decimal Number	5620	12.8%
Dash Punctuation	1339	3.1%
Uppercase Letter	155	0.4%
Other Punctuation	61	0.1%
Math Symbol	10	< 0.1%
Connector Punctuation	8	< 0.1%
Space Separator	4	< 0.1%
Modifier Symbol	1	< 0.1%
Other values (2)	2	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
한	454	2.1%
침	372	1.7%
의	314	1.4%
증	310	1.4%
기	297	1.4%
약	270	1.2%
이	269	1.2%
상	267	1.2%
경	263	1.2%
지	255	1.2%
Other values (927)	18814	86.0%

Lowercase Letter

Value	Count	Frequency (%)
e	1467	9.9%
a	1415	9.6%
i	1256	8.5%
n	1082	7.3%
t	1048	7.1%
r	1026	6.9%
o	968	6.5%
c	931	6.3%
s	816	5.5%
u	729	4.9%
Other values (17)	4045	27.4%

Uppercase Letter

Value	Count	Frequency (%)
C	18	11.6%
L	17	11.0%
A	14	9.0%
T	13	8.4%
P	11	7.1%
R	10	6.5%
S	7	4.5%
H	6	3.9%
E	6	3.9%
U	6	3.9%
Other values (15)	47	30.3%

Decimal Number

Value	Count	Frequency (%)
0	1964	34.9%
2	1086	19.3%
1	960	17.1%
9	267	4.8%
5	266	4.7%
8	247	4.4%
3	226	4.0%
6	219	3.9%
4	207	3.7%
7	178	3.2%

Other Punctuation

Value	Count	Frequency (%)
/	34	55.7%
:	12	19.7%
&	7	11.5%
·	3	4.9%
¡	2	3.3%
#	2	3.3%
\	1	1.6%

Math Symbol

Value	Count	Frequency (%)
=	4	40.0%
+	2	20.0%
∼	2	20.0%
÷	1	10.0%
~	1	10.0%

Space Separator

Value	Count	Frequency (%)
	2	50.0%
	2	50.0%

Dash Punctuation

Value	Count	Frequency (%)
-	1339	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	8	100.0%

Modifier Symbol

Value	Count	Frequency (%)
¨	1	100.0%

Other Number

Value	Count	Frequency (%)
₂	1	100.0%

Letter Number

Value	Count	Frequency (%)
ⅱ	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	21123	48.2%
Latin	14938	34.1%
Common	7044	16.1%
Han	759	1.7%
Katakana	3	< 0.1%
Greek	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
한	454	2.1%
침	372	1.8%
의	314	1.5%
증	310	1.5%
기	297	1.4%
약	270	1.3%
이	269	1.3%
상	267	1.3%
경	263	1.2%
지	255	1.2%
Other values (598)	18052	85.5%

Han

Value	Count	Frequency (%)
湯	31	4.1%
學	21	2.8%
韓	19	2.5%
醫	17	2.2%
大	15	2.0%
小	12	1.6%
會	11	1.4%
誌	10	1.3%
散	10	1.3%
血	9	1.2%
Other values (316)	604	79.6%

Latin

Value	Count	Frequency (%)
e	1467	9.8%
a	1415	9.5%
i	1256	8.4%
n	1082	7.2%
t	1048	7.0%
r	1026	6.9%
o	968	6.5%
c	931	6.2%
s	816	5.5%
u	729	4.9%
Other values (42)	4200	28.1%

Common

Value	Count	Frequency (%)
0	1964	27.9%
-	1339	19.0%
2	1086	15.4%
1	960	13.6%
9	267	3.8%
5	266	3.8%
8	247	3.5%
3	226	3.2%
6	219	3.1%
4	207	2.9%
Other values (18)	263	3.7%

Katakana

Value	Count	Frequency (%)
ラ	1	33.3%
ム	1	33.3%
ツ	1	33.3%

Greek

Value	Count	Frequency (%)
γ	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	21967	50.1%
Hangul	21098	48.1%
CJK	738	1.7%
Compat Jamo	25	0.1%
CJK Compat Ideographs	21	< 0.1%
None	13	< 0.1%
Katakana	3	< 0.1%
Math Operators	2	< 0.1%
Number Forms	1	< 0.1%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	1964	8.9%
e	1467	6.7%
a	1415	6.4%
-	1339	6.1%
i	1256	5.7%
2	1086	4.9%
n	1082	4.9%
t	1048	4.8%
r	1026	4.7%
o	968	4.4%
Other values (61)	9316	42.4%

Hangul

Value	Count	Frequency (%)
한	454	2.2%
침	372	1.8%
의	314	1.5%
증	310	1.5%
기	297	1.4%
약	270	1.3%
이	269	1.3%
상	267	1.3%
경	263	1.2%
지	255	1.2%
Other values (587)	18027	85.4%

CJK

Value	Count	Frequency (%)
湯	31	4.2%
學	21	2.8%
韓	19	2.6%
醫	17	2.3%
大	15	2.0%
小	12	1.6%
會	11	1.5%
誌	10	1.4%
散	10	1.4%
血	9	1.2%
Other values (304)	583	79.0%

Compat Jamo

Value	Count	Frequency (%)
ㅎ	8	32.0%
ㅡ	4	16.0%
ㅇ	4	16.0%
ㅣ	2	8.0%
ㅊ	1	4.0%
ㅅ	1	4.0%
ㄹ	1	4.0%
ㅗ	1	4.0%
ㄱ	1	4.0%
ㅂ	1	4.0%

CJK Compat Ideographs

Value	Count	Frequency (%)
六	4	19.0%
冷	3	14.3%
不	3	14.3%
論	3	14.3%
療	1	4.8%
臨	1	4.8%
金	1	4.8%
連	1	4.8%
臘	1	4.8%
例	1	4.8%
Other values (2)	2	9.5%

None

Value	Count	Frequency (%)
·	3	23.1%
	2	15.4%
¡	2	15.4%
Æ	2	15.4%
÷	1	7.7%
¨	1	7.7%
₂	1	7.7%
γ	1	7.7%

Math Operators

Value	Count	Frequency (%)
∼	2	100.0%

Number Forms

Value	Count	Frequency (%)
ⅱ	1	100.0%

Katakana

Value	Count	Frequency (%)
ラ	1	33.3%
ム	1	33.3%
ツ	1	33.3%

사용자
Text

Distinct	679
Distinct (%)	6.8%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	6
Median length	6
Mean length	6
Min length	6

Characters and Unicode

Total characters	60000
Distinct characters	45
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	303 ?
Unique (%)	3.0%

Sample

1st row	guesOO
2nd row	guesOO
3rd row	guesOO
4th row	guesOO
5th row	gateOO

Value	Count	Frequency (%)
guesoo	6447	64.5%
solaoo	167	1.7%
pkhgoo	97	1.0%
pastoo	89	0.9%
gll1oo	69	0.7%
kwonoo	59	0.6%
ssamoo	51	0.5%
fanuoo	48	0.5%
eunsoo	45	0.4%
min9oo	42	0.4%
Other values (668)	2886	28.9%

Most occurring characters

Value	Count	Frequency (%)
O	20006	33.3%
s	7470	12.4%
e	7218	12.0%
u	6985	11.6%
g	6923	11.5%
a	1092	1.8%
o	1062	1.8%
l	880	1.5%
n	845	1.4%
i	833	1.4%
Other values (35)	6686	11.1%

Most occurring categories

Value	Count	Frequency (%)
Lowercase Letter	39266	65.4%
Uppercase Letter	20024	33.4%
Decimal Number	710	1.2%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
s	7470	19.0%
e	7218	18.4%
u	6985	17.8%
g	6923	17.6%
a	1092	2.8%
o	1062	2.7%
l	880	2.2%
n	845	2.2%
i	833	2.1%
k	660	1.7%
Other values (16)	5298	13.5%

Decimal Number

Value	Count	Frequency (%)
1	200	28.2%
0	197	27.7%
9	91	12.8%
3	55	7.7%
2	32	4.5%
4	31	4.4%
6	30	4.2%
8	30	4.2%
5	26	3.7%
7	18	2.5%

Uppercase Letter

Value	Count	Frequency (%)
O	20006	99.9%
M	5	< 0.1%
N	5	< 0.1%
T	2	< 0.1%
D	2	< 0.1%
P	1	< 0.1%
H	1	< 0.1%
B	1	< 0.1%
J	1	< 0.1%

Most occurring scripts

Value	Count	Frequency (%)
Latin	59290	98.8%
Common	710	1.2%

Most frequent character per script

Latin

Value	Count	Frequency (%)
O	20006	33.7%
s	7470	12.6%
e	7218	12.2%
u	6985	11.8%
g	6923	11.7%
a	1092	1.8%
o	1062	1.8%
l	880	1.5%
n	845	1.4%
i	833	1.4%
Other values (25)	5976	10.1%

Common

Value	Count	Frequency (%)
1	200	28.2%
0	197	27.7%
9	91	12.8%
3	55	7.7%
2	32	4.5%
4	31	4.4%
6	30	4.2%
8	30	4.2%
5	26	3.7%
7	18	2.5%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	60000	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
O	20006	33.3%
s	7470	12.4%
e	7218	12.0%
u	6985	11.6%
g	6923	11.5%
a	1092	1.8%
o	1062	1.8%
l	880	1.5%
n	845	1.4%
i	833	1.4%
Other values (35)	6686	11.1%

등록일
Date

Distinct	1074
Distinct (%)	10.7%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Minimum	2018-01-09 00:00:00
Maximum	2021-04-20 00:00:00

Histogram

Histogram with fixed size bins (bins=50)

검색건수
Real number (ℝ)

Distinct	94
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	56.2217

Minimum	1
Maximum	363
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	166.0 KiB

Quantile statistics

Minimum	1
5-th percentile	6
Q1	16
median	29
Q3	56
95-th percentile	201
Maximum	363
Range	362
Interquartile range (IQR)	40

Descriptive statistics

Standard deviation	68.323745
Coefficient of variation (CV)	1.2152558
Kurtosis	5.8063183
Mean	56.2217
Median Absolute Deviation (MAD)	16
Skewness	2.3152571
Sum	562217
Variance	4668.1342
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
16	275	2.8%
19	260	2.6%
21	249	2.5%
17	238	2.4%
20	235	2.4%
28	234	2.3%
10	225	2.2%
24	225	2.2%
13	214	2.1%
12	213	2.1%
Other values (84)	7632	76.3%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	21	0.2%
2	49	0.5%
3	72	0.7%
4	103	1.0%
5	144	1.4%
6	181	1.8%
7	155	1.6%
8	193	1.9%
9	179	1.8%
10	225	2.2%

Value	Count	Frequency (%)
363	161	1.6%
262	118	1.2%
213	85	0.9%
202	89	0.9%
201	90	0.9%
199	96	1.0%
190	77	0.8%
175	74	0.7%
157	66	0.7%
155	59	0.6%

검색건수

검색건수

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	키워드	사용자	등록일	검색건수
16230	불면증	guesOO	2020-05-28	37
5828	2000-10-22	guesOO	2018-06-21	20
6498	갑상선	guesOO	2018-07-23	9
10406	Phellodendri	guesOO	2019-01-02	9
6554	대한한방안이비인후피부과학회	gateOO	2018-07-30	27
7778	가래나무	guesOO	2018-09-17	77
9469	치료	guesOO	2018-11-11	76
17013	retrospective	pkhgOO	2020-06-22	60
2687	서창용	guesOO	2018-01-26	92
16589	침치료	guesOO	2020-05-31	139

	키워드	사용자	등록일	검색건수
4886	소양인	guesOO	2018-05-17	20
15998	복근	guesOO	2020-05-11	47
2311	탕	guesOO	2018-01-23	190
11941	병행한	dkwkOO	2019-05-17	39
15661	청각자극	guesOO	2020-04-03	37
17980	알즈하이머	guesOO	2020-09-08	37
18684	crohn	guesOO	2020-11-01	30
1305	ㅎㅎㅎ	guesOO	2018-01-16	97
4172	대전	guesOO	2018-04-09	53
9113	won	guesOO	2018-11-01	54

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Math Symbol

Space Separator

Dash Punctuation

Connector Punctuation

Modifier Symbol

Other Number

Letter Number

Most occurring scripts

Most frequent character per script

Hangul

Han

Latin

Common

Katakana

Greek

Most occurring blocks

Most frequent character per block

ASCII

Hangul

CJK

Compat Jamo

CJK Compat Ideographs

None

Math Operators

Number Forms

Katakana

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Decimal Number

Uppercase Letter

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Interactions

Missing values

Sample