Dataset statistics
Number of variables | 4 |
---|---|
Number of observations | 100 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 3.4 KiB |
Average record size in memory | 35.3 B |
Variable types
Numeric | 2 |
---|---|
Text | 2 |
Dataset
Description | 알코올 사용 장애 환자들의 다양한 공존 질환의 진단명과 진단코드, 최초진단일, 진단 데이터가 포함됨. 주요 동반질환은 소화계통의 질환, 정신 및 행동장애, 내분비질환, 순환기계 질환 등이 포함됨. 진단코드는 ICD-11 코드와 SNOMED-CT 코드로 매핑됨. |
---|---|
Author | 가톨릭대학교 은평성모병원 |
URL | http://cmcdata.net/data/dataset/coexistence-disease-data-alcohol-use-disorder-eunpyeong |
RID has unique values | Unique |
Reproduction
Analysis started | 2023-10-08 18:55:38.290807 |
---|---|
Analysis finished | 2023-10-08 18:55:45.929273 |
Duration | 7.64 seconds |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
RID
Real number (ℝ)
UNIQUE
 
Distinct | 100 |
---|---|
Distinct (%) | 100.0% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 50.5 |
Minimum | 1 |
---|---|
Maximum | 100 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 1.0 KiB |
Quantile statistics
Minimum | 1 |
---|---|
5-th percentile | 5.95 |
Q1 | 25.75 |
median | 50.5 |
Q3 | 75.25 |
95-th percentile | 95.05 |
Maximum | 100 |
Range | 99 |
Interquartile range (IQR) | 49.5 |
Descriptive statistics
Standard deviation | 29.011492 |
---|---|
Coefficient of variation (CV) | 0.57448499 |
Kurtosis | -1.2 |
Mean | 50.5 |
Median Absolute Deviation (MAD) | 25 |
Skewness | 0 |
Sum | 5050 |
Variance | 841.66667 |
Monotonicity | Strictly increasing |
Value | Count | Frequency (%) |
1 | 1 | 1.0% |
65 | 1 | 1.0% |
75 | 1 | 1.0% |
74 | 1 | 1.0% |
73 | 1 | 1.0% |
72 | 1 | 1.0% |
71 | 1 | 1.0% |
70 | 1 | 1.0% |
69 | 1 | 1.0% |
68 | 1 | 1.0% |
Other values (90) | 90 |
Value | Count | Frequency (%) |
1 | 1 | |
2 | 1 | |
3 | 1 | |
4 | 1 | |
5 | 1 | |
6 | 1 | |
7 | 1 | |
8 | 1 | |
9 | 1 | |
10 | 1 |
Value | Count | Frequency (%) |
100 | 1 | |
99 | 1 | |
98 | 1 | |
97 | 1 | |
96 | 1 | |
95 | 1 | |
94 | 1 | |
93 | 1 | |
92 | 1 | |
91 | 1 |
CODIAG_GRP1
Text
Distinct | 66 |
---|---|
Distinct (%) | 66.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
Length
Max length | 71 |
---|---|
Median length | 47.5 |
Mean length | 32.52 |
Min length | 15 |
Characters and Unicode
Total characters | 3252 |
---|---|
Distinct characters | 181 |
Distinct categories | 5 ? |
Distinct scripts | 3 ? |
Distinct blocks | 2 ? |
Unique
Unique | 48 ? |
---|---|
Unique (%) | 48.0% |
Sample
1st row | 혈액 및 조혈기관의 질환-빈혈-영양성 빈혈 |
---|---|
2nd row | 내분비질환, 영양 및 대사-대사장애-수분, 전해질 및 산-염기균형의 기타 장애 |
3rd row | 소화계통의 질환-식도, 위 및 십이지장의 질환-위염 및 십이지장염 |
4th row | 정신 및 행동장애-기타-기타 |
5th row | 소화계통의 질환-간의 질환-간의 기타질환 |
Value | Count | Frequency (%) |
및 | 138 | 19.8% |
증상 | 44 | 6.3% |
검사의 | 25 | 3.6% |
임상 | 25 | 3.6% |
징후와 | 25 | 3.6% |
소화계통의 | 17 | 2.4% |
질환-간의 | 17 | 2.4% |
정신 | 14 | 2.0% |
순환계통의 | 14 | 2.0% |
기타 | 13 | 1.9% |
Other values (179) | 366 |
Most occurring characters
Value | Count | Frequency (%) |
598 | 18.4% | |
- | 206 | 6.3% |
의 | 155 | 4.8% |
및 | 138 | 4.2% |
상 | 126 | 3.9% |
환 | 118 | 3.6% |
질 | 100 | 3.1% |
증 | 79 | 2.4% |
통 | 79 | 2.4% |
장 | 77 | 2.4% |
Other values (171) | 1576 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 2396 | |
Space Separator | 598 | 18.4% |
Dash Punctuation | 206 | 6.3% |
Other Punctuation | 51 | 1.6% |
Uppercase Letter | 1 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
의 | 155 | 6.5% |
및 | 138 | 5.8% |
상 | 126 | 5.3% |
환 | 118 | 4.9% |
질 | 100 | 4.2% |
증 | 79 | 3.3% |
통 | 79 | 3.3% |
장 | 77 | 3.2% |
계 | 69 | 2.9% |
기 | 55 | 2.3% |
Other values (167) | 1400 |
Space Separator
Value | Count | Frequency (%) |
598 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 206 |
Other Punctuation
Value | Count | Frequency (%) |
, | 51 |
Uppercase Letter
Value | Count | Frequency (%) |
B | 1 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 2396 | |
Common | 855 | 26.3% |
Latin | 1 | < 0.1% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
의 | 155 | 6.5% |
및 | 138 | 5.8% |
상 | 126 | 5.3% |
환 | 118 | 4.9% |
질 | 100 | 4.2% |
증 | 79 | 3.3% |
통 | 79 | 3.3% |
장 | 77 | 3.2% |
계 | 69 | 2.9% |
기 | 55 | 2.3% |
Other values (167) | 1400 |
Common
Value | Count | Frequency (%) |
598 | ||
- | 206 | 24.1% |
, | 51 | 6.0% |
Latin
Value | Count | Frequency (%) |
B | 1 |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 2396 | |
ASCII | 856 | 26.3% |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
598 | ||
- | 206 | 24.1% |
, | 51 | 6.0% |
B | 1 | 0.1% |
Hangul
Value | Count | Frequency (%) |
의 | 155 | 6.5% |
및 | 138 | 5.8% |
상 | 126 | 5.3% |
환 | 118 | 4.9% |
질 | 100 | 4.2% |
증 | 79 | 3.3% |
통 | 79 | 3.3% |
장 | 77 | 3.2% |
계 | 69 | 2.9% |
기 | 55 | 2.3% |
Other values (167) | 1400 |
CODIAG_CD
Text
Distinct | 80 |
---|---|
Distinct (%) | 80.0% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 932.0 B |
Value | Count | Frequency (%) |
k769 | 5 | 5.0% |
f329 | 5 | 5.0% |
i109 | 3 | 3.0% |
r074 | 3 | 3.0% |
k291 | 2 | 2.0% |
i638 | 2 | 2.0% |
r1012 | 2 | 2.0% |
r251 | 2 | 2.0% |
r51 | 2 | 2.0% |
e785 | 2 | 2.0% |
Other values (70) | 72 |
Most occurring characters
Value | Count | Frequency (%) |
0 | 54 | |
9 | 46 | |
1 | 42 | |
2 | 29 | 7.2% |
4 | 26 | 6.5% |
7 | 26 | 6.5% |
R | 25 | 6.2% |
8 | 21 | 5.2% |
6 | 21 | 5.2% |
5 | 19 | 4.7% |
Other values (16) | 92 |
Most occurring categories
Value | Count | Frequency (%) |
Decimal Number | 301 | |
Uppercase Letter | 100 | 24.9% |
Most frequent character per category
Uppercase Letter
Value | Count | Frequency (%) |
R | 25 | |
K | 17 | |
I | 14 | |
F | 13 | |
E | 8 | 8.0% |
S | 5 | 5.0% |
N | 4 | 4.0% |
M | 3 | 3.0% |
H | 2 | 2.0% |
J | 2 | 2.0% |
Other values (6) | 7 | 7.0% |
Decimal Number
Value | Count | Frequency (%) |
0 | 54 | |
9 | 46 | |
1 | 42 | |
2 | 29 | |
4 | 26 | |
7 | 26 | |
8 | 21 | 7.0% |
6 | 21 | 7.0% |
5 | 19 | 6.3% |
3 | 17 | 5.6% |
Most occurring scripts
Value | Count | Frequency (%) |
Common | 301 | |
Latin | 100 | 24.9% |
Most frequent character per script
Latin
Value | Count | Frequency (%) |
R | 25 | |
K | 17 | |
I | 14 | |
F | 13 | |
E | 8 | 8.0% |
S | 5 | 5.0% |
N | 4 | 4.0% |
M | 3 | 3.0% |
H | 2 | 2.0% |
J | 2 | 2.0% |
Other values (6) | 7 | 7.0% |
Common
Value | Count | Frequency (%) |
0 | 54 | |
9 | 46 | |
1 | 42 | |
2 | 29 | |
4 | 26 | |
7 | 26 | |
8 | 21 | 7.0% |
6 | 21 | 7.0% |
5 | 19 | 6.3% |
3 | 17 | 5.6% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 401 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
0 | 54 | |
9 | 46 | |
1 | 42 | |
2 | 29 | 7.2% |
4 | 26 | 6.5% |
7 | 26 | 6.5% |
R | 25 | 6.2% |
8 | 21 | 5.2% |
6 | 21 | 5.2% |
5 | 19 | 4.7% |
Other values (16) | 92 |
DIAG_1ST_DO
Real number (ℝ)
Distinct | 6 |
---|---|
Distinct (%) | 6.0% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 2017.31 |
Minimum | 2015 |
---|---|
Maximum | 2020 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 1.0 KiB |
Quantile statistics
Minimum | 2015 |
---|---|
5-th percentile | 2015 |
Q1 | 2015 |
median | 2018 |
Q3 | 2019 |
95-th percentile | 2020 |
Maximum | 2020 |
Range | 5 |
Interquartile range (IQR) | 4 |
Descriptive statistics
Standard deviation | 1.8460714 |
---|---|
Coefficient of variation (CV) | 0.0009151154 |
Kurtosis | -1.660724 |
Mean | 2017.31 |
Median Absolute Deviation (MAD) | 1 |
Skewness | -0.18308288 |
Sum | 201731 |
Variance | 3.4079798 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
2019 | 37 | |
2015 | 32 | |
2018 | 10 | 10.0% |
2017 | 8 | 8.0% |
2016 | 7 | 7.0% |
2020 | 6 | 6.0% |
Value | Count | Frequency (%) |
2015 | 32 | |
2016 | 7 | 7.0% |
2017 | 8 | 8.0% |
2018 | 10 | 10.0% |
2019 | 37 | |
2020 | 6 | 6.0% |
Value | Count | Frequency (%) |
2020 | 6 | 6.0% |
2019 | 37 | |
2018 | 10 | 10.0% |
2017 | 8 | 8.0% |
2016 | 7 | 7.0% |
2015 | 32 |
RID | CODIAG_GRP1 | CODIAG_CD | DIAG_1ST_DO | |
---|---|---|---|---|
RID | 1.000 | 0.000 | 0.368 | 0.000 |
CODIAG_GRP1 | 0.000 | 1.000 | 1.000 | 0.635 |
CODIAG_CD | 0.368 | 1.000 | 1.000 | 0.719 |
DIAG_1ST_DO | 0.000 | 0.635 | 0.719 | 1.000 |
RID | DIAG_1ST_DO | |
---|---|---|
RID | 1.000 | 0.057 |
DIAG_1ST_DO | 0.057 | 1.000 |
RID | CODIAG_GRP1 | CODIAG_CD | DIAG_1ST_DO | |
---|---|---|---|---|
0 | 1 | 혈액 및 조혈기관의 질환-빈혈-영양성 빈혈 | D509 | 2015 |
1 | 2 | 내분비질환, 영양 및 대사-대사장애-수분, 전해질 및 산-염기균형의 기타 장애 | E871 | 2020 |
2 | 3 | 소화계통의 질환-식도, 위 및 십이지장의 질환-위염 및 십이지장염 | K294 | 2015 |
3 | 4 | 정신 및 행동장애-기타-기타 | F99 | 2016 |
4 | 5 | 소화계통의 질환-간의 질환-간의 기타질환 | K769 | 2016 |
5 | 6 | 정신 및 행동장애-기분장애-우울장애 | F328 | 2015 |
6 | 7 | 순환계통의 질환-고혈압성 질환-고혈압 | I109 | 2015 |
7 | 8 | 순환계통의 질환-기타 형태의 심장병-발작성 빈맥 | I471 | 2015 |
8 | 9 | 손상, 중독 및 외인에 의한 특정 기타 결과-머리의 손상-두개내 손상 | S0650 | 2019 |
9 | 10 | 증상, 징후와 임상 및 검사의 이상소견-순환계통 및 호흡계통의 증상 및 징후-목구멍 및 가슴의 통증 | R074 | 2019 |
RID | CODIAG_GRP1 | CODIAG_CD | DIAG_1ST_DO | |
---|---|---|---|---|
90 | 91 | 증상, 징후와 임상 및 검사의 이상소견-순환계통 및 호흡계통의 증상 및 징후-목구멍 및 가슴의 통증 | R074 | 2019 |
91 | 92 | 비뇨생식계통의 질환-남성생식기관의 질환-전림선증식증 | N400 | 2016 |
92 | 93 | 순환계통의 질환-고혈압성 질환-고혈압 | I109 | 2015 |
93 | 94 | 정신 및 행동장애-불안장애-기타 불안장애 | F419 | 2019 |
94 | 95 | 피부 및 피하조직의 질환-피부 및 피하조직의 기타 장애-피부 및 피하조직의 기타 장애 | L84 | 2019 |
95 | 96 | 소화계통의 질환-간의 질환-간의 기타질환 | K769 | 2015 |
96 | 97 | 내분비질환, 영양 및 대사-고지혈증-고지혈증 | E785 | 2018 |
97 | 98 | 소화계통의 질환-식도, 위 및 십이지장의 질환-위염 및 십이지장염 | K297 | 2016 |
98 | 99 | 소화계통의 질환-간의 질환-간의 섬유증 및 경변증 | K7469 | 2020 |
99 | 100 | 내분비질환, 영양 및 대사-대사장애-용적고갈 | E860 | 2018 |