gimi9 Pandas Profiling

Dataset statistics

Number of variables	2
Number of observations	10000
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	797
Duplicate rows (%)	8.0%
Total size in memory	234.4 KiB
Average record size in memory	24.0 B

Variable types

Text	2

Dataset

Description	2019년 12월에 접수된 국제특급 수출 우편물 정보입니다. 접수국과 도착국의 정보가 있는 데이터입니다. EMS 관련정보입니다.
Author	과학기술정보통신부 우정사업본부
URL	https://www.data.go.kr/data/15105953/fileData.do

Alerts

Dataset has 797 (8.0%) duplicate rows

Duplicates

Reproduction

Analysis started	2023-12-12 16:32:56.822589
Analysis finished	2023-12-12 16:32:57.222023
Duration	0.4 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

발생국
Text

Distinct	1219
Distinct (%)	12.2%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	16
Median length	15
Mean length	6.8343
Min length	5

Characters and Unicode

Total characters	68343
Distinct characters	336
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	602 ?
Unique (%)	6.0%

Sample

1st row	서울강남우체국
2nd row	대구수성우체국
3rd row	의정부3동우체국
4th row	서울태평로우체국
5th row	영천임고우체국

Value	Count	Frequency (%)
서울강남우체국	2580	25.8%
인천우체국	1114	11.1%
국제우편물류센터	415	4.1%
김포우체국	411	4.1%
서울중앙우체국	208	2.1%
서울양천우체국	200	2.0%
서울마포우체국	182	1.8%
서울강동우체국	176	1.8%
고양일산우체국	146	1.5%
서울강서우체국	133	1.3%
Other values (1210)	4436	44.4%

Most occurring characters

Value	Count	Frequency (%)
우	10005	14.6%
국	9994	14.6%
체	8930	13.1%
서	5048	7.4%
울	4610	6.7%
강	2920	4.3%
남	2902	4.2%
천	1757	2.6%
동	1475	2.2%
인	1397	2.0%
Other values (326)	19305	28.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	67975	99.5%
Decimal Number	333	0.5%
Uppercase Letter	24	< 0.1%
Dash Punctuation	10	< 0.1%
Space Separator	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
우	10005	14.7%
국	9994	14.7%
체	8930	13.1%
서	5048	7.4%
울	4610	6.8%
강	2920	4.3%
남	2902	4.3%
천	1757	2.6%
동	1475	2.2%
인	1397	2.1%
Other values (310)	18937	27.9%

Decimal Number

Value	Count	Frequency (%)
2	121	36.3%
1	80	24.0%
3	66	19.8%
4	28	8.4%
6	15	4.5%
5	15	4.5%
7	4	1.2%
8	3	0.9%
9	1	0.3%

Uppercase Letter

Value	Count	Frequency (%)
G	10	41.7%
A	9	37.5%
D	2	8.3%
I	2	8.3%
S	1	4.2%

Dash Punctuation

Value	Count	Frequency (%)
-	10	100.0%

Space Separator

Value	Count	Frequency (%)
	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	67975	99.5%
Common	344	0.5%
Latin	24	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
우	10005	14.7%
국	9994	14.7%
체	8930	13.1%
서	5048	7.4%
울	4610	6.8%
강	2920	4.3%
남	2902	4.3%
천	1757	2.6%
동	1475	2.2%
인	1397	2.1%
Other values (310)	18937	27.9%

Common

Value	Count	Frequency (%)
2	121	35.2%
1	80	23.3%
3	66	19.2%
4	28	8.1%
6	15	4.4%
5	15	4.4%
-	10	2.9%
7	4	1.2%
8	3	0.9%
9	1	0.3%

Latin

Value	Count	Frequency (%)
G	10	41.7%
A	9	37.5%
D	2	8.3%
I	2	8.3%
S	1	4.2%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	67975	99.5%
ASCII	368	0.5%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
우	10005	14.7%
국	9994	14.7%
체	8930	13.1%
서	5048	7.4%
울	4610	6.8%
강	2920	4.3%
남	2902	4.3%
천	1757	2.6%
동	1475	2.2%
인	1397	2.1%
Other values (310)	18937	27.9%

ASCII

Value	Count	Frequency (%)
2	121	32.9%
1	80	21.7%
3	66	17.9%
4	28	7.6%
6	15	4.1%
5	15	4.1%
-	10	2.7%
G	10	2.7%
A	9	2.4%
7	4	1.1%
Other values (6)	10	2.7%

도착국가
Text

Distinct	85
Distinct (%)	0.9%
Missing	0
Missing (%)	0.0%
Memory size	156.2 KiB

Length

Max length	12
Median length	3
Mean length	4.4048
Min length	3

Characters and Unicode

Total characters	44048
Distinct characters	128
Distinct categories	4 ?
Distinct scripts	2 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	4 ?
Unique (%)	< 0.1%

Sample

1st row	일본
2nd row	일본
3rd row	미국
4th row	일본
5th row	말레이시아

Value	Count	Frequency (%)
일본	2130	21.3%
미국	1518	15.2%
중국	1253	12.5%
타이(태국	530	5.3%
홍콩(중국	479	4.8%
타이완(대만	385	3.9%
캐나다	340	3.4%
싱가포르	280	2.8%
필리핀	265	2.6%
인도네시아	256	2.6%
Other values (75)	2564	25.6%

Most occurring characters

Value	Count	Frequency (%)
	10000	22.7%
국	4067	9.2%
일	2559	5.8%
본	2130	4.8%
중	1754	4.0%
(	1749	4.0%
)	1749	4.0%
미	1576	3.6%
이	1310	3.0%
아	1198	2.7%
Other values (118)	15956	36.2%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	30550	69.4%
Space Separator	10000	22.7%
Open Punctuation	1749	4.0%
Close Punctuation	1749	4.0%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
국	4067	13.3%
일	2559	8.4%
본	2130	7.0%
중	1754	5.7%
미	1576	5.2%
이	1310	4.3%
아	1198	3.9%
타	923	3.0%
시	712	2.3%
스	646	2.1%
Other values (115)	13675	44.8%

Space Separator

Value	Count	Frequency (%)
	10000	100.0%

Open Punctuation

Value	Count	Frequency (%)
(	1749	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	1749	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	30550	69.4%
Common	13498	30.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
국	4067	13.3%
일	2559	8.4%
본	2130	7.0%
중	1754	5.7%
미	1576	5.2%
이	1310	4.3%
아	1198	3.9%
타	923	3.0%
시	712	2.3%
스	646	2.1%
Other values (115)	13675	44.8%

Common

Value	Count	Frequency (%)
	10000	74.1%
(	1749	13.0%
)	1749	13.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	30550	69.4%
ASCII	13498	30.6%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	10000	74.1%
(	1749	13.0%
)	1749	13.0%

Hangul

Value	Count	Frequency (%)
국	4067	13.3%
일	2559	8.4%
본	2130	7.0%
중	1754	5.7%
미	1576	5.2%
이	1310	4.3%
아	1198	3.9%
타	923	3.0%
시	712	2.3%
스	646	2.1%
Other values (115)	13675	44.8%

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	발생국	도착국가
83644	서울강남우체국	일본
31998	대구수성우체국	일본
2706	의정부3동우체국	미국
933	서울태평로우체국	일본
871	영천임고우체국	말레이시아
58822	고양화정2동우편취급국	우크라이나
73274	서울강남우체국	미국
89924	김포우체국	미국
88110	서울강남우체국	핀란드
78547	서울강남우체국	싱가포르

	발생국	도착국가
7099	부산수안동우체국	일본
6365	팔탄우체국	일본
98610	사천곤명우체국	미국
8611	서울홍파동우편취급국	대한민국
83209	서울강남우체국	일본
46809	서울중앙우체국	일본
80812	서울강남우체국	스위스
68974	서울강남우체국	중국
91653	서울마포우체국	미국
65893	서울강남우체국	싱가포르

Most frequently occurring

	발생국	도착국가	# duplicates
275	서울강남우체국	미국	417
706	인천우체국	중국	402
299	서울강남우체국	일본	339
103	국제우편물류센터	홍콩(중국)	283
709	인천우체국	타이(태국)	260
125	김포우체국	일본	193
309	서울강남우체국	타이완(대만)	155
316	서울강남우체국	필리핀	148
298	서울강남우체국	인도네시아	133
280	서울강남우체국	브라질	118

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Decimal Number

Uppercase Letter

Dash Punctuation

Space Separator

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Open Punctuation

Close Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Missing values

Sample

Duplicate rows

Most frequently occurring