gimi9 Pandas Profiling

Dataset statistics

Number of variables	4
Number of observations	100
Missing cells	0
Missing cells (%)	0.0%
Duplicate rows	0
Duplicate rows (%)	0.0%
Total size in memory	3.4 KiB
Average record size in memory	35.3 B

Variable types

Numeric	2
Text	2

Dataset

Description	알코올 사용 장애 환자들의 다양한 공존 질환의 진단명과 진단코드, 최초진단일, 진단 데이터가 포함됨. 주요 동반질환은 소화계통의 질환, 정신 및 행동장애, 내분비질환, 순환기계 질환 등이 포함됨. 진단코드는 ICD-11 코드와 SNOMED-CT 코드로 매핑됨.
Author	가톨릭대학교 은평성모병원
URL	http://cmcdata.net/data/dataset/coexistence-disease-data-alcohol-use-disorder-eunpyeong

Alerts

RID has unique values Unique

Reproduction

Analysis started	2023-10-08 18:55:38.290807
Analysis finished	2023-10-08 18:55:45.929273
Duration	7.64 seconds
Software version	ydata-profiling vv4.5.1
Download configuration	config.json

RID
Real number (ℝ)

UNIQUE

Distinct	100
Distinct (%)	100.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	50.5

Minimum	1
Maximum	100
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	1.0 KiB

Quantile statistics

Minimum	1
5-th percentile	5.95
Q1	25.75
median	50.5
Q3	75.25
95-th percentile	95.05
Maximum	100
Range	99
Interquartile range (IQR)	49.5

Descriptive statistics

Standard deviation	29.011492
Coefficient of variation (CV)	0.57448499
Kurtosis	-1.2
Mean	50.5
Median Absolute Deviation (MAD)	25
Skewness	0
Sum	5050
Variance	841.66667
Monotonicity	Strictly increasing

Histogram with fixed size bins (bins=50)

Value	Count	Frequency (%)
1	1	1.0%
65	1	1.0%
75	1	1.0%
74	1	1.0%
73	1	1.0%
72	1	1.0%
71	1	1.0%
70	1	1.0%
69	1	1.0%
68	1	1.0%
Other values (90)	90	90.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
1	1	1.0%
2	1	1.0%
3	1	1.0%
4	1	1.0%
5	1	1.0%
6	1	1.0%
7	1	1.0%
8	1	1.0%
9	1	1.0%
10	1	1.0%

Value	Count	Frequency (%)
100	1	1.0%
99	1	1.0%
98	1	1.0%
97	1	1.0%
96	1	1.0%
95	1	1.0%
94	1	1.0%
93	1	1.0%
92	1	1.0%
91	1	1.0%

CODIAG_GRP1
Text

Distinct	66
Distinct (%)	66.0%
Missing	0
Missing (%)	0.0%
Memory size	932.0 B

Length

Max length	71
Median length	47.5
Mean length	32.52
Min length	15

Characters and Unicode

Total characters	3252
Distinct characters	181
Distinct categories	5 ?
Distinct scripts	3 ?
Distinct blocks	2 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	48 ?
Unique (%)	48.0%

Sample

1st row	혈액 및 조혈기관의 질환-빈혈-영양성 빈혈
2nd row	내분비질환, 영양 및 대사-대사장애-수분, 전해질 및 산-염기균형의 기타 장애
3rd row	소화계통의 질환-식도, 위 및 십이지장의 질환-위염 및 십이지장염
4th row	정신 및 행동장애-기타-기타
5th row	소화계통의 질환-간의 질환-간의 기타질환

Value	Count	Frequency (%)
및	138	19.8%
증상	44	6.3%
검사의	25	3.6%
임상	25	3.6%
징후와	25	3.6%
소화계통의	17	2.4%
질환-간의	17	2.4%
정신	14	2.0%
순환계통의	14	2.0%
기타	13	1.9%
Other values (179)	366	52.4%

Most occurring characters

Value	Count	Frequency (%)
	598	18.4%
-	206	6.3%
의	155	4.8%
및	138	4.2%
상	126	3.9%
환	118	3.6%
질	100	3.1%
증	79	2.4%
통	79	2.4%
장	77	2.4%
Other values (171)	1576	48.5%

Most occurring categories

Value	Count	Frequency (%)
Other Letter	2396	73.7%
Space Separator	598	18.4%
Dash Punctuation	206	6.3%
Other Punctuation	51	1.6%
Uppercase Letter	1	< 0.1%

Most frequent character per category

Other Letter

Value	Count	Frequency (%)
의	155	6.5%
및	138	5.8%
상	126	5.3%
환	118	4.9%
질	100	4.2%
증	79	3.3%
통	79	3.3%
장	77	3.2%
계	69	2.9%
기	55	2.3%
Other values (167)	1400	58.4%

Space Separator

Value	Count	Frequency (%)
	598	100.0%

Dash Punctuation

Value	Count	Frequency (%)
-	206	100.0%

Other Punctuation

Value	Count	Frequency (%)
,	51	100.0%

Uppercase Letter

Value	Count	Frequency (%)
B	1	100.0%

Most occurring scripts

Value	Count	Frequency (%)
Hangul	2396	73.7%
Common	855	26.3%
Latin	1	< 0.1%

Most frequent character per script

Hangul

Value	Count	Frequency (%)
의	155	6.5%
및	138	5.8%
상	126	5.3%
환	118	4.9%
질	100	4.2%
증	79	3.3%
통	79	3.3%
장	77	3.2%
계	69	2.9%
기	55	2.3%
Other values (167)	1400	58.4%

Common

Value	Count	Frequency (%)
	598	69.9%
-	206	24.1%
,	51	6.0%

Latin

Value	Count	Frequency (%)
B	1	100.0%

Most occurring blocks

Value	Count	Frequency (%)
Hangul	2396	73.7%
ASCII	856	26.3%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
	598	69.9%
-	206	24.1%
,	51	6.0%
B	1	0.1%

Hangul

Value	Count	Frequency (%)
의	155	6.5%
및	138	5.8%
상	126	5.3%
환	118	4.9%
질	100	4.2%
증	79	3.3%
통	79	3.3%
장	77	3.2%
계	69	2.9%
기	55	2.3%
Other values (167)	1400	58.4%

CODIAG_CD
Text

Distinct	80
Distinct (%)	80.0%
Missing	0
Missing (%)	0.0%
Memory size	932.0 B

Length

Max length	6
Median length	4
Mean length	4.01
Min length	3

Characters and Unicode

Total characters	401
Distinct characters	26
Distinct categories	2 ?
Distinct scripts	2 ?
Distinct blocks	1 ?

The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique	68 ?
Unique (%)	68.0%

Sample

1st row	D509
2nd row	E871
3rd row	K294
4th row	F99
5th row	K769

Value	Count	Frequency (%)
k769	5	5.0%
f329	5	5.0%
i109	3	3.0%
r074	3	3.0%
k291	2	2.0%
i638	2	2.0%
r1012	2	2.0%
r251	2	2.0%
r51	2	2.0%
e785	2	2.0%
Other values (70)	72	72.0%

Most occurring characters

Value	Count	Frequency (%)
0	54	13.5%
9	46	11.5%
1	42	10.5%
2	29	7.2%
4	26	6.5%
7	26	6.5%
R	25	6.2%
8	21	5.2%
6	21	5.2%
5	19	4.7%
Other values (16)	92	22.9%

Most occurring categories

Value	Count	Frequency (%)
Decimal Number	301	75.1%
Uppercase Letter	100	24.9%

Most frequent character per category

Uppercase Letter

Value	Count	Frequency (%)
R	25	25.0%
K	17	17.0%
I	14	14.0%
F	13	13.0%
E	8	8.0%
S	5	5.0%
N	4	4.0%
M	3	3.0%
H	2	2.0%
J	2	2.0%
Other values (6)	7	7.0%

Decimal Number

Value	Count	Frequency (%)
0	54	17.9%
9	46	15.3%
1	42	14.0%
2	29	9.6%
4	26	8.6%
7	26	8.6%
8	21	7.0%
6	21	7.0%
5	19	6.3%
3	17	5.6%

Most occurring scripts

Value	Count	Frequency (%)
Common	301	75.1%
Latin	100	24.9%

Most frequent character per script

Latin

Value	Count	Frequency (%)
R	25	25.0%
K	17	17.0%
I	14	14.0%
F	13	13.0%
E	8	8.0%
S	5	5.0%
N	4	4.0%
M	3	3.0%
H	2	2.0%
J	2	2.0%
Other values (6)	7	7.0%

Common

Value	Count	Frequency (%)
0	54	17.9%
9	46	15.3%
1	42	14.0%
2	29	9.6%
4	26	8.6%
7	26	8.6%
8	21	7.0%
6	21	7.0%
5	19	6.3%
3	17	5.6%

Most occurring blocks

Value	Count	Frequency (%)
ASCII	401	100.0%

Most frequent character per block

ASCII

Value	Count	Frequency (%)
0	54	13.5%
9	46	11.5%
1	42	10.5%
2	29	7.2%
4	26	6.5%
7	26	6.5%
R	25	6.2%
8	21	5.2%
6	21	5.2%
5	19	4.7%
Other values (16)	92	22.9%

DIAG_1ST_DO
Real number (ℝ)

Distinct	6
Distinct (%)	6.0%
Missing	0
Missing (%)	0.0%
Infinite	0
Infinite (%)	0.0%
Mean	2017.31

Minimum	2015
Maximum	2020
Zeros	0
Zeros (%)	0.0%
Negative	0
Negative (%)	0.0%
Memory size	1.0 KiB

Quantile statistics

Minimum	2015
5-th percentile	2015
Q1	2015
median	2018
Q3	2019
95-th percentile	2020
Maximum	2020
Range	5
Interquartile range (IQR)	4

Descriptive statistics

Standard deviation	1.8460714
Coefficient of variation (CV)	0.0009151154
Kurtosis	-1.660724
Mean	2017.31
Median Absolute Deviation (MAD)	1
Skewness	-0.18308288
Sum	201731
Variance	3.4079798
Monotonicity	Not monotonic

Histogram with fixed size bins (bins=6)

Value	Count	Frequency (%)
2019	37	37.0%
2015	32	32.0%
2018	10	10.0%
2017	8	8.0%
2016	7	7.0%
2020	6	6.0%

Minimum 10 values
Maximum 10 values

Value	Count	Frequency (%)
2015	32	32.0%
2016	7	7.0%
2017	8	8.0%
2018	10	10.0%
2019	37	37.0%
2020	6	6.0%

Value	Count	Frequency (%)
2020	6	6.0%
2019	37	37.0%
2018	10	10.0%
2017	8	8.0%
2016	7	7.0%
2015	32	32.0%

RID
DIAG_1ST_DO

DIAG_1ST_DO
RID

DIAG_1ST_DO
RID

Phik (φk)
Auto

Heatmap
Table

	RID	CODIAG_GRP1	CODIAG_CD	DIAG_1ST_DO
RID	1.000	0.000	0.368	0.000
CODIAG_GRP1	0.000	1.000	1.000	0.635
CODIAG_CD	0.368	1.000	1.000	0.719
DIAG_1ST_DO	0.000	0.635	0.719	1.000

Heatmap
Table

	RID	DIAG_1ST_DO
RID	1.000	0.057
DIAG_1ST_DO	0.057	1.000

Count
Matrix

A simple visualization of nullity by column.

Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

First rows
Last rows

	RID	CODIAG_GRP1	CODIAG_CD	DIAG_1ST_DO
0	1	혈액 및 조혈기관의 질환-빈혈-영양성 빈혈	D509	2015
1	2	내분비질환, 영양 및 대사-대사장애-수분, 전해질 및 산-염기균형의 기타 장애	E871	2020
2	3	소화계통의 질환-식도, 위 및 십이지장의 질환-위염 및 십이지장염	K294	2015
3	4	정신 및 행동장애-기타-기타	F99	2016
4	5	소화계통의 질환-간의 질환-간의 기타질환	K769	2016
5	6	정신 및 행동장애-기분장애-우울장애	F328	2015
6	7	순환계통의 질환-고혈압성 질환-고혈압	I109	2015
7	8	순환계통의 질환-기타 형태의 심장병-발작성 빈맥	I471	2015
8	9	손상, 중독 및 외인에 의한 특정 기타 결과-머리의 손상-두개내 손상	S0650	2019
9	10	증상, 징후와 임상 및 검사의 이상소견-순환계통 및 호흡계통의 증상 및 징후-목구멍 및 가슴의 통증	R074	2019

	RID	CODIAG_GRP1	CODIAG_CD	DIAG_1ST_DO
90	91	증상, 징후와 임상 및 검사의 이상소견-순환계통 및 호흡계통의 증상 및 징후-목구멍 및 가슴의 통증	R074	2019
91	92	비뇨생식계통의 질환-남성생식기관의 질환-전림선증식증	N400	2016
92	93	순환계통의 질환-고혈압성 질환-고혈압	I109	2015
93	94	정신 및 행동장애-불안장애-기타 불안장애	F419	2019
94	95	피부 및 피하조직의 질환-피부 및 피하조직의 기타 장애-피부 및 피하조직의 기타 장애	L84	2019
95	96	소화계통의 질환-간의 질환-간의 기타질환	K769	2015
96	97	내분비질환, 영양 및 대사-고지혈증-고지혈증	E785	2018
97	98	소화계통의 질환-식도, 위 및 십이지장의 질환-위염 및 십이지장염	K297	2016
98	99	소화계통의 질환-간의 질환-간의 섬유증 및 경변증	K7469	2020
99	100	내분비질환, 영양 및 대사-대사장애-용적고갈	E860	2018

Overview

Variables

Most occurring characters

Most occurring categories

Most frequent character per category

Other Letter

Space Separator

Dash Punctuation

Other Punctuation

Uppercase Letter

Most occurring scripts

Most frequent character per script

Hangul

Common

Latin

Most occurring blocks

Most frequent character per block

ASCII

Hangul

Most occurring characters

Most occurring categories

Most frequent character per category

Uppercase Letter

Decimal Number

Most occurring scripts

Most frequent character per script

Latin

Common

Most occurring blocks

Most frequent character per block

ASCII

Interactions

Correlations

Missing values

Sample