gimi9 Pandas Profiling

Dataset statistics

Number of variables	3
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	192
Duplicate rows (%)	1.9%
Total size in memory	312.5 KiB
Average record size in memory	32.0 B

Variable types

Text	2
Categorical	1

Dataset

Description	KnowTBT포털 회원의 관심국가에 대한 정보를 제공함, 우선 대륙별-국가이름 정보를 제공하되, 회원의 ID는 비식별화하였습니다.
URL	https://www.data.go.kr/data/15068826/fileData.do

Alerts

Dataset has 192 (1.9%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 08:11:58.135795
Analysis finished	2023-12-12 08:11:58.578149
Duration	0.44 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

회원아이디
Text

Distinct	892
Distinct (%)	8.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	19
Median length	17
Mean length	7.3653
Min length	5

Characters and Unicode

Total characters	73653
Distinct characters	57
Distinct categories	5 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	212 ?
Unique (%)	2.1%

Sample

1st row	f****n
2nd row	k****gs2
3rd row	n****w
4th row	e****do
5th row	j****k82

Value	Count	Frequency (%)
k	152	1.5%
t	86	0.9%
j	72	0.7%
y****s	65	0.7%
m	65	0.7%
s	59	0.6%
p****s	56	0.6%
j****635	56	0.6%
h	54	0.5%
r	53	0.5%
Other values (878)	9282	92.8%

Most occurring characters

Value	Count	Frequency (%)
*	40000	54.3%
s	2055	2.8%
0	1791	2.4%
e	1777	2.4%
n	1676	2.3%
a	1499	2.0%
k	1489	2.0%
1	1435	1.9%
2	1358	1.8%
r	1254	1.7%
Other values (47)	19319	26.2%

Most occurring categories

Value	Count	Frequency (%)
Other Punctuation	40326	54.8%
Lowercase Letter	22782	30.9%
Decimal Number	10258	13.9%
Uppercase Letter	284	0.4%
Dash Punctuation	3	< 0.1%

Most frequent character per category

Lowercase Letter

Value	Count	Frequency (%)
s	2055	9.0%
e	1777	7.8%
n	1676	7.4%
a	1499	6.6%
k	1489	6.5%
r	1254	5.5%
o	1164	5.1%
g	1115	4.9%
j	1102	4.8%
i	1079	4.7%
Other values (16)	8572	37.6%

Uppercase Letter

Value	Count	Frequency (%)
D	61	21.5%
K	50	17.6%
G	35	12.3%
O	28	9.9%
F	22	7.7%
A	22	7.7%
S	14	4.9%
T	13	4.6%
L	11	3.9%
E	7	2.5%
Other values (7)	21	7.4%

Decimal Number

Value	Count	Frequency (%)
0	1791	17.5%
1	1435	14.0%
2	1358	13.2%
9	1170	11.4%
7	952	9.3%
8	923	9.0%
3	717	7.0%
4	687	6.7%
5	651	6.3%
6	574	5.6%

Other Punctuation

Value	Count	Frequency (%)
*	40000	99.2%
.	211	0.5%
@	115	0.3%

Dash Punctuation

Value	Count	Frequency (%)
-	3	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	50587	68.7%
Latin	23066	31.3%

Most frequent character per script

Latin

Value	Count	Frequency (%)
s	2055	8.9%
e	1777	7.7%
n	1676	7.3%
a	1499	6.5%
k	1489	6.5%
r	1254	5.4%
o	1164	5.0%
g	1115	4.8%
j	1102	4.8%
i	1079	4.7%
Other values (33)	8856	38.4%

Common

Value	Count	Frequency (%)
*	40000	79.1%
0	1791	3.5%
1	1435	2.8%
2	1358	2.7%
9	1170	2.3%
7	952	1.9%
8	923	1.8%
3	717	1.4%
4	687	1.4%
5	651	1.3%
Other values (4)	903	1.8%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	73653	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
*	40000	54.3%
s	2055	2.8%
0	1791	2.4%
e	1777	2.4%
n	1676	2.3%
a	1499	2.0%
k	1489	2.0%
1	1435	1.9%
2	1358	1.8%
r	1254	1.7%
Other values (47)	19319	26.2%

대륙이름
Categorical

Distinct	8
Distinct (%)	0.1%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

유럽	3492
아시아	2222
중남미	1616
아프리카	1058
중동	854
Other values (3)	758

Length

Max length	5
Median length	4
Mean length	2.7035
Min length	2

Unique

Unique	0 ?
Unique (%)	0.0%

Sample

1st row	아시아
2nd row	유럽
3rd row	오세아니아
4th row	중남미
5th row	아시아

Common Values

Value	Count	Frequency (%)
유럽	3492	34.9%
아시아	2222	22.2%
중남미	1616	16.2%
아프리카	1058	10.6%
중동	854	8.5%
북미	393	3.9%
오세아니아	358	3.6%
전세계	7	0.1%

Length

Histogram of lengths of the category

Common Values (Plot)

Value	Count	Frequency (%)
유럽	3492	34.9%
아시아	2222	22.2%
중남미	1616	16.2%
아프리카	1058	10.6%
중동	854	8.5%
북미	393	3.9%
오세아니아	358	3.6%
전세계	7	0.1%

국가이름
Text

Distinct	237
Distinct (%)	2.4%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	16
Median length	11
Mean length	3.7603
Min length	1

Characters and Unicode

Total characters	37603
Distinct characters	220
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	11 ?
Unique (%)	0.1%

Sample

1st row	일본
2nd row	스웨덴
3rd row	마우리티우스
4th row	과테말라
5th row	인도

Value	Count	Frequency (%)
미국	223	2.2%
중국	207	2.0%
일본	157	1.5%
독일	147	1.4%
한국	145	1.4%
영국	144	1.4%
캐나다	136	1.3%
인도	132	1.3%
프랑스	122	1.2%
사우디아라비아	117	1.1%
Other values (237)	8675	85.0%

Most occurring characters

Value	Count	Frequency (%)
아	2814	7.5%
스	1569	4.2%
리	1297	3.4%
이	1153	3.1%
르	1083	2.9%
국	1014	2.7%
라	917	2.4%
니	902	2.4%
나	817	2.2%
트	757	2.0%
Other values (210)	25280	67.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	37345	99.3%
Space Separator	205	0.5%
Dash Punctuation	53	0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
아	2814	7.5%
스	1569	4.2%
리	1297	3.5%
이	1153	3.1%
르	1083	2.9%
국	1014	2.7%
라	917	2.5%
니	902	2.4%
나	817	2.2%
트	757	2.0%
Other values (208)	25022	67.0%

Space Separator

Value	Count	Frequency (%)
	205	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	53	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	37345	99.3%
Common	258	0.7%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
아	2814	7.5%
스	1569	4.2%
리	1297	3.5%
이	1153	3.1%
르	1083	2.9%
국	1014	2.7%
라	917	2.5%
니	902	2.4%
나	817	2.2%
트	757	2.0%
Other values (208)	25022	67.0%

Common

Value	Count	Frequency (%)
	205	79.5%
-	53	20.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	37345	99.3%
ASCII	258	0.7%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
아	2814	7.5%
스	1569	4.2%
리	1297	3.5%
이	1153	3.1%
르	1083	2.9%
국	1014	2.7%
라	917	2.5%
니	902	2.4%
나	817	2.2%
트	757	2.0%
Other values (208)	25022	67.0%

ASCII

Value	Count	Frequency (%)
	205	79.5%
-	53	20.5%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	회원아이디	대륙이름	국가이름
9450	f****n	아시아	일본
22079	k****gs2	유럽	스웨덴
27551	n****w	오세아니아	마우리티우스
8467	e****do	중남미	과테말라
18178	j****k82	아시아	인도
35223	s****w	유럽	헝가리
11690	g****er	유럽	네덜란드
36128	s****	유럽	프랑스
32562	r****	중동	사우디아라비아
16717	j****b	아시아	태국

	회원아이디	대륙이름	국가이름
28758	o****7	중동	사우디아라비아
8547	e****n9021	유럽	폴란드
15898	i****@kaeri.re.kr	중남미	아르헨티나
29151	o****598	오세아니아	뉴질랜드
5150	c****r	유럽	벨기에
23666	l****39	유럽	아일랜드
35182	s****w	중동	요르단
5351	c****eed	아시아	베트남
37755	s****k	유럽	마케도니아 공화국
22012	k****1	중동	쿠웨이트

Most frequently occurring

	회원아이디	대륙이름	국가이름	# duplicates
12	e****6	아프리카	감비아	7
13	e****6	유럽	건지	7
17	e****6	중남미	가이아나	6
137	s****	아시아	중국	5
11	e****6	북미	괌	4
35	j****	중남미	브라질	4
50	k****	아시아	말레이시아	4
57	k****	아시아	일본	4
66	k****	유럽	라트비아	4
71	k****	유럽	스위스	4

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Lowercase Letter

Uppercase Letter

Decimal Number

Other Punctuation

Dash Punctuation

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Common Values

Length

Common Values (Plot)

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Dash Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Missing values

Sample

Duplicate rows

Most frequently occurring