gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	601
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	18.9 KiB
Average record size in memory	32.2 B

Variable types

Text	3
Categorical	1

Dataset

Description	경남도립거창대학의 구분코드 공공데이터입니다. 구분종류, 구분코드, 구분명, 비고 등의 데이터를 포함하고 있습니다.
Author	공공데이터포털
URL	https://www.data.go.kr/data/15097838/fileData.do

Alerts

비고 is highly imbalanced (87.1%) Imbalance

Reproduction

Analysis started	2024-04-21 23:58:17.204653
Analysis finished	2024-04-21 23:58:17.546371
Duration	0.34 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

구분종류
Text

Distinct	65
Distinct (%)	10.8%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

Length

Max length	5
Median length	4
Mean length	3.9650582
Min length	2

Characters and Unicode

Total characters	2383
Distinct characters	94
Distinct categories	3 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	2 ?
Unique (%)	0.3%

Sample

1st row	장학구분
2nd row	장학구분
3rd row	교수구분
4th row	이수구분
5th row	이수구분

Value	Count	Frequency (%)
장학구분	99	16.5%
소속부서	24	4.0%
계급	22	3.7%
취업직업	21	3.5%
변동구분	21	3.5%
교수구분	17	2.8%
시도구분	17	2.8%
지망구분	16	2.7%
취업업종	16	2.7%
업종구분	16	2.7%
Other values (55)	332	55.2%

Most occurring characters

Value	Count	Frequency (%)
분	325	13.6%
구	323	13.6%
학	154	6.5%
장	111	4.7%
업	107	4.5%
종	64	2.7%
부	59	2.5%
취	58	2.4%
계	55	2.3%
교	41	1.7%
Other values (84)	1086	45.6%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2378	99.8%
Lowercase Letter	4	0.2%
Connector Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
분	325	13.7%
구	323	13.6%
학	154	6.5%
장	111	4.7%
업	107	4.5%
종	64	2.7%
부	59	2.5%
취	58	2.4%
계	55	2.3%
교	41	1.7%
Other values (79)	1081	45.5%

Lowercase Letter

Value	Count	Frequency (%)
g	1	25.0%
b	1	25.0%
j	1	25.0%
r	1	25.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2378	99.8%
Latin	4	0.2%
Common	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
분	325	13.7%
구	323	13.6%
학	154	6.5%
장	111	4.7%
업	107	4.5%
종	64	2.7%
부	59	2.5%
취	58	2.4%
계	55	2.3%
교	41	1.7%
Other values (79)	1081	45.5%

Latin

Value	Count	Frequency (%)
g	1	25.0%
b	1	25.0%
j	1	25.0%
r	1	25.0%

Common

Value	Count	Frequency (%)
_	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2378	99.8%
ASCII	5	0.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
분	325	13.7%
구	323	13.6%
학	154	6.5%
장	111	4.7%
업	107	4.5%
종	64	2.7%
부	59	2.5%
취	58	2.4%
계	55	2.3%
교	41	1.7%
Other values (79)	1081	45.5%

ASCII

Value	Count	Frequency (%)
g	1	20.0%
b	1	20.0%
_	1	20.0%
j	1	20.0%
r	1	20.0%

구분코드
Text

Distinct	105
Distinct (%)	17.5%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

Length

Max length	2
Median length	1
Mean length	1.4076539
Min length	1

Characters and Unicode

Total characters	846
Distinct characters	16
Distinct categories	3 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	50 ?
Unique (%)	8.3%

Sample

1st row	82
2nd row	29
3rd row	13
4th row	1
5th row	2

Value	Count	Frequency (%)
1	60	10.0%
2	58	9.7%
3	53	8.8%
4	45	7.5%
5	36	6.0%
6	32	5.3%
7	26	4.3%
8	25	4.2%
12	16	2.7%
11	16	2.7%
Other values (95)	234	38.9%

Most occurring characters

Value	Count	Frequency (%)
1	201	23.8%
2	123	14.5%
3	103	12.2%
4	82	9.7%
5	78	9.2%
6	62	7.3%
7	60	7.1%
8	53	6.3%
9	45	5.3%
0	33	3.9%
Other values (6)	6	0.7%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	840	99.3%
Uppercase Letter	4	0.5%
Lowercase Letter	2	0.2%

Most frequent character per category

Decimal Number

Value	Count	Frequency (%)
1	201	23.9%
2	123	14.6%
3	103	12.3%
4	82	9.8%
5	78	9.3%
6	62	7.4%
7	60	7.1%
8	53	6.3%
9	45	5.4%
0	33	3.9%

Uppercase Letter

Value	Count	Frequency (%)
B	1	25.0%
D	1	25.0%
C	1	25.0%
A	1	25.0%

Lowercase Letter

Value	Count	Frequency (%)
g	1	50.0%
b	1	50.0%

Most occurring scripts

Value	Count	Frequency (%)
Common	840	99.3%
Latin	6	0.7%

Most frequent character per script

Common

Value	Count	Frequency (%)
1	201	23.9%
2	123	14.6%
3	103	12.3%
4	82	9.8%
5	78	9.3%
6	62	7.4%
7	60	7.1%
8	53	6.3%
9	45	5.4%
0	33	3.9%

Latin

Value	Count	Frequency (%)
B	1	16.7%
g	1	16.7%
b	1	16.7%
D	1	16.7%
C	1	16.7%
A	1	16.7%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	846	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
1	201	23.8%
2	123	14.5%
3	103	12.2%
4	82	9.7%
5	78	9.2%
6	62	7.3%
7	60	7.1%
8	53	6.3%
9	45	5.3%
0	33	3.9%
Other values (6)	6	0.7%

구분명
Text

Distinct	538
Distinct (%)	89.5%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

Length

Max length	11
Median length	9
Mean length	4.2828619
Min length	1

Characters and Unicode

Total characters	2574
Distinct characters	288
Distinct categories	10 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	485 ?
Unique (%)	80.7%

Sample

1st row	국가다자녀장학감면
2nd row	포항지진장학
3rd row	명예교수
4th row	교양
5th row	교선

Value	Count	Frequency (%)
기타	6	1.0%
가능	4	0.6%
기타(직접입력	4	0.6%
정상	3	0.5%
미등록제적	3	0.5%
미복학제적	3	0.5%
군인	3	0.5%
세무/회계직	2	0.3%
의료기관	2	0.3%
교육기관	2	0.3%
Other values (540)	591	94.9%

Most occurring characters

Value	Count	Frequency (%)
학	156	6.1%
장	87	3.4%
교	59	2.3%
자	54	2.1%
기	52	2.0%
업	48	1.9%
정	47	1.8%
사	46	1.8%
(	46	1.8%
)	46	1.8%
Other values (278)	1933	75.1%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2388	92.8%
Open Punctuation	46	1.8%
Close Punctuation	46	1.8%
Decimal Number	31	1.2%
Space Separator	25	1.0%
Other Punctuation	17	0.7%
Uppercase Letter	12	0.5%
Math Symbol	4	0.2%
Lowercase Letter	4	0.2%
Connector Punctuation	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
학	156	6.5%
장	87	3.6%
교	59	2.5%
자	54	2.3%
기	52	2.2%
업	48	2.0%
정	47	2.0%
사	46	1.9%
전	39	1.6%
수	36	1.5%
Other values (251)	1764	73.9%

Uppercase Letter

Value	Count	Frequency (%)
A	4	33.3%
B	2	16.7%
R	1	8.3%
K	1	8.3%
P	1	8.3%
C	1	8.3%
T	1	8.3%
O	1	8.3%

Decimal Number

Value	Count	Frequency (%)
2	12	38.7%
1	8	25.8%
3	4	12.9%
4	3	9.7%
5	2	6.5%
6	1	3.2%
7	1	3.2%

Lowercase Letter

Value	Count	Frequency (%)
m	1	25.0%
n	1	25.0%
b	1	25.0%
g	1	25.0%

Other Punctuation

Value	Count	Frequency (%)
/	15	88.2%
&	1	5.9%
.	1	5.9%

Open Punctuation

Value	Count	Frequency (%)
(	46	100.0%

Close Punctuation

Value	Count	Frequency (%)
)	46	100.0%

Space Separator

Value	Count	Frequency (%)
	25	100.0%

Math Symbol

Value	Count	Frequency (%)
+	4	100.0%

Connector Punctuation

Value	Count	Frequency (%)
_	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2388	92.8%
Common	170	6.6%
Latin	16	0.6%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
학	156	6.5%
장	87	3.6%
교	59	2.5%
자	54	2.3%
기	52	2.2%
업	48	2.0%
정	47	2.0%
사	46	1.9%
전	39	1.6%
수	36	1.5%
Other values (251)	1764	73.9%

Common

Value	Count	Frequency (%)
(	46	27.1%
)	46	27.1%
	25	14.7%
/	15	8.8%
2	12	7.1%
1	8	4.7%
+	4	2.4%
3	4	2.4%
4	3	1.8%
5	2	1.2%
Other values (5)	5	2.9%

Latin

Value	Count	Frequency (%)
A	4	25.0%
B	2	12.5%
R	1	6.2%
K	1	6.2%
m	1	6.2%
P	1	6.2%
C	1	6.2%
T	1	6.2%
n	1	6.2%
b	1	6.2%
Other values (2)	2	12.5%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2388	92.8%
ASCII	186	7.2%

Most frequent character per block

Hangul

Value	Count	Frequency (%)
학	156	6.5%
장	87	3.6%
교	59	2.5%
자	54	2.3%
기	52	2.2%
업	48	2.0%
정	47	2.0%
사	46	1.9%
전	39	1.6%
수	36	1.5%
Other values (251)	1764	73.9%

ASCII

Value	Count	Frequency (%)
(	46	24.7%
)	46	24.7%
	25	13.4%
/	15	8.1%
2	12	6.5%
1	8	4.3%
A	4	2.2%
+	4	2.2%
3	4	2.2%
4	3	1.6%
Other values (17)	19	10.2%

비고
Categorical

IMBALANCE

Distinct	13
Distinct (%)	2.2%
Missing	0
Missing (%)	0.0%
Memory size	4.8 KiB

<NA>	568
군휴학	9
REJECT	5
일반휴학	4
질병휴학	4
Other values (8)	11

Length

Max length	6
Median length	4
Mean length	3.9950083
Min length	2

Unique

Unique	7 ?
Unique (%)	1.2%

Sample

1st row	<NA>
2nd row	<NA>
3rd row	<NA>
4th row	<NA>
5th row	<NA>

Common Values

Value	Count	Frequency (%)
<NA>	568	94.5%
군휴학	9	1.5%
REJECT	5	0.8%
일반휴학	4	0.7%
질병휴학	4	0.7%
군예정휴학	4	0.7%
체능계열	1	0.2%
하사관	1	0.2%
사회계열	1	0.2%
경북	1	0.2%
Other values (3)	3	0.5%

Length

Histogram of lengths of the category

Value	Count	Frequency (%)
na	568	94.5%
군휴학	9	1.5%
reject	5	0.8%
일반휴학	4	0.7%
질병휴학	4	0.7%
군예정휴학	4	0.7%
체능계열	1	0.2%
하사관	1	0.2%
사회계열	1	0.2%
경북	1	0.2%
Other values (3)	3	0.5%

Phik (φk)

Heatmap
Table

	구분종류	비고
구분종류	1.000	0.990
비고	0.990	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	구분종류	구분코드	구분명	비고
0	장학구분	82	국가다자녀장학감면	<NA>
1	장학구분	29	포항지진장학	<NA>
2	교수구분	13	명예교수	<NA>
3	이수구분	1	교양	<NA>
4	이수구분	2	교선	<NA>
5	이수구분	3	전필	<NA>
6	이수구분	4	전선	<NA>
7	이수구분	5	교직	<NA>
8	입학구분	1	당초입학	<NA>
9	입학구분	2	편입학	<NA>

	구분종류	구분코드	구분명	비고
591	소속부서	51	건축인테리어(심화)	<NA>
592	소속부서	55	드론토목학부(심화)	<NA>
593	장학구분	28	다문화가족 장학	<NA>
594	장학구분	83	장애학생 장학	<NA>
595	장학구분	84	다자녀생활비지원금	<NA>
596	장학구분	89	국가다자녀장학지급	<NA>
597	장학구분	6	학생자치회층장장학	<NA>
598	장학구분	7	학생자치회학생장장학	<NA>
599	장학구분	8	체육우수장학	<NA>
600	정외세부	62	만학도	<NA>

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Lowercase Letter

Connector Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Latin

Common

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Decimal Number

Uppercase Letter

Lowercase Letter

Most occurring scripts

Most frequent character per script

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Uppercase Letter

Decimal Number

Lowercase Letter

Other Punctuation

Open Punctuation

Close Punctuation

Space Separator

Math Symbol

Connector Punctuation

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

Hangul

ASCII

Common Values

Length

Correlations

Missing values

Sample