Dataset statistics
Number of variables | 6 |
---|---|
Number of observations | 10000 |
Missing cells | 0 |
Missing cells (%) | 0.0% |
Duplicate rows | 0 |
Duplicate rows (%) | 0.0% |
Total size in memory | 566.4 KiB |
Average record size in memory | 58.0 B |
Variable types
Numeric | 2 |
---|---|
Text | 2 |
Categorical | 2 |
Dataset
Description | 한국산업안전보건공단에서 사용하는 표준 용어에 대한 정보로 용어명 도메인 유형구분, 도메인명, 데이터타입, 데이터 길이와 같은 컬럼을 제공합니다. |
---|---|
Author | 한국산업안전보건공단 |
URL | https://www.data.go.kr/data/15091964/fileData.do |
Reproduction
Analysis started | 2023-12-12 13:02:24.862928 |
---|---|
Analysis finished | 2023-12-12 13:02:26.434068 |
Duration | 1.57 second |
Software version | ydata-profiling vv4.5.1 |
Download configuration | config.json |
번호
Real number (ℝ)
UNIQUE
 
Distinct | 10000 |
---|---|
Distinct (%) | 100.0% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 9693.9196 |
Minimum | 2 |
---|---|
Maximum | 19464 |
Zeros | 0 |
Zeros (%) | 0.0% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 2 |
---|---|
5-th percentile | 958.9 |
Q1 | 4862.75 |
median | 9632.5 |
Q3 | 14568.25 |
95-th percentile | 18491.05 |
Maximum | 19464 |
Range | 19462 |
Interquartile range (IQR) | 9705.5 |
Descriptive statistics
Standard deviation | 5614.577 |
---|---|
Coefficient of variation (CV) | 0.57918544 |
Kurtosis | -1.1919924 |
Mean | 9693.9196 |
Median Absolute Deviation (MAD) | 4856.5 |
Skewness | 0.013073001 |
Sum | 96939196 |
Variance | 31523475 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
4119 | 1 | < 0.1% |
1159 | 1 | < 0.1% |
11500 | 1 | < 0.1% |
5964 | 1 | < 0.1% |
3485 | 1 | < 0.1% |
11995 | 1 | < 0.1% |
13677 | 1 | < 0.1% |
17076 | 1 | < 0.1% |
9862 | 1 | < 0.1% |
17909 | 1 | < 0.1% |
Other values (9990) | 9990 |
Value | Count | Frequency (%) |
2 | 1 | |
3 | 1 | |
6 | 1 | |
7 | 1 | |
8 | 1 | |
10 | 1 | |
13 | 1 | |
14 | 1 | |
17 | 1 | |
18 | 1 |
Value | Count | Frequency (%) |
19464 | 1 | |
19461 | 1 | |
19459 | 1 | |
19456 | 1 | |
19450 | 1 | |
19448 | 1 | |
19447 | 1 | |
19445 | 1 | |
19440 | 1 | |
19439 | 1 |
용어명
Text
Distinct | 9979 |
---|---|
Distinct (%) | 99.8% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
s마크기술분야명 | 2 | < 0.1% |
강사이메일암호화값 | 2 | < 0.1% |
ods처리유형구분코드 | 2 | < 0.1% |
건강적합율 | 2 | < 0.1% |
강의월또는연평균횟수 | 2 | < 0.1% |
강사한자성명 | 2 | < 0.1% |
가중사망지분율 | 2 | < 0.1% |
거래처담당자직위명 | 2 | < 0.1% |
가중치운영3영역값 | 2 | < 0.1% |
거절사유구분코드 | 2 | < 0.1% |
Other values (9969) | 9980 |
Most occurring characters
Value | Count | Frequency (%) |
드 | 2837 | 3.4% |
코 | 2753 | 3.3% |
자 | 2487 | 3.0% |
분 | 1981 | 2.4% |
사 | 1960 | 2.3% |
일 | 1722 | 2.1% |
구 | 1697 | 2.0% |
수 | 1607 | 1.9% |
명 | 1534 | 1.8% |
호 | 1429 | 1.7% |
Other values (519) | 63478 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 80548 | |
Decimal Number | 1838 | 2.2% |
Uppercase Letter | 451 | 0.5% |
Open Punctuation | 300 | 0.4% |
Close Punctuation | 300 | 0.4% |
Dash Punctuation | 23 | < 0.1% |
Lowercase Letter | 21 | < 0.1% |
Other Punctuation | 4 | < 0.1% |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
드 | 2837 | 3.5% |
코 | 2753 | 3.4% |
자 | 2487 | 3.1% |
분 | 1981 | 2.5% |
사 | 1960 | 2.4% |
일 | 1722 | 2.1% |
구 | 1697 | 2.1% |
수 | 1607 | 2.0% |
명 | 1534 | 1.9% |
호 | 1429 | 1.8% |
Other values (472) | 60541 |
Uppercase Letter
Value | Count | Frequency (%) |
S | 77 | |
P | 37 | 8.2% |
M | 37 | 8.2% |
B | 32 | 7.1% |
A | 28 | 6.2% |
R | 28 | 6.2% |
L | 25 | 5.5% |
O | 23 | 5.1% |
D | 23 | 5.1% |
E | 19 | 4.2% |
Other values (15) | 122 |
Decimal Number
Value | Count | Frequency (%) |
1 | 511 | |
2 | 430 | |
3 | 233 | |
4 | 171 | 9.3% |
5 | 129 | 7.0% |
0 | 120 | 6.5% |
6 | 90 | 4.9% |
7 | 60 | 3.3% |
8 | 51 | 2.8% |
9 | 43 | 2.3% |
Lowercase Letter
Value | Count | Frequency (%) |
i | 4 | |
e | 4 | |
g | 3 | |
w | 2 | |
n | 2 | |
p | 2 | |
m | 2 | |
l | 2 |
Open Punctuation
Value | Count | Frequency (%) |
( | 300 |
Close Punctuation
Value | Count | Frequency (%) |
) | 300 |
Dash Punctuation
Value | Count | Frequency (%) |
- | 23 |
Other Punctuation
Value | Count | Frequency (%) |
% | 4 |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 80548 | |
Common | 2465 | 3.0% |
Latin | 472 | 0.6% |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
드 | 2837 | 3.5% |
코 | 2753 | 3.4% |
자 | 2487 | 3.1% |
분 | 1981 | 2.5% |
사 | 1960 | 2.4% |
일 | 1722 | 2.1% |
구 | 1697 | 2.1% |
수 | 1607 | 2.0% |
명 | 1534 | 1.9% |
호 | 1429 | 1.8% |
Other values (472) | 60541 |
Latin
Value | Count | Frequency (%) |
S | 77 | |
P | 37 | 7.8% |
M | 37 | 7.8% |
B | 32 | 6.8% |
A | 28 | 5.9% |
R | 28 | 5.9% |
L | 25 | 5.3% |
O | 23 | 4.9% |
D | 23 | 4.9% |
E | 19 | 4.0% |
Other values (23) | 143 |
Common
Value | Count | Frequency (%) |
1 | 511 | |
2 | 430 | |
( | 300 | |
) | 300 | |
3 | 233 | |
4 | 171 | 6.9% |
5 | 129 | 5.2% |
0 | 120 | 4.9% |
6 | 90 | 3.7% |
7 | 60 | 2.4% |
Other values (4) | 121 | 4.9% |
Most occurring blocks
Value | Count | Frequency (%) |
Hangul | 80548 | |
ASCII | 2937 | 3.5% |
Most frequent character per block
Hangul
Value | Count | Frequency (%) |
드 | 2837 | 3.5% |
코 | 2753 | 3.4% |
자 | 2487 | 3.1% |
분 | 1981 | 2.5% |
사 | 1960 | 2.4% |
일 | 1722 | 2.1% |
구 | 1697 | 2.1% |
수 | 1607 | 2.0% |
명 | 1534 | 1.9% |
호 | 1429 | 1.8% |
Other values (472) | 60541 |
ASCII
Value | Count | Frequency (%) |
1 | 511 | |
2 | 430 | |
( | 300 | |
) | 300 | |
3 | 233 | |
4 | 171 | 5.8% |
5 | 129 | 4.4% |
0 | 120 | 4.1% |
6 | 90 | 3.1% |
S | 77 | 2.6% |
Other values (37) | 576 |
도메인유형구분
Categorical
Distinct | 3 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
일반 | |
---|---|
코드 | |
번호 |
Length
Max length | 2 |
---|---|
Median length | 2 |
Mean length | 2 |
Min length | 2 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | 일반 |
---|---|
2nd row | 일반 |
3rd row | 코드 |
4th row | 일반 |
5th row | 코드 |
Common Values
Value | Count | Frequency (%) |
일반 | 6310 | |
코드 | 2467 | 24.7% |
번호 | 1223 | 12.2% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
일반 | 6310 | |
코드 | 2467 | 24.7% |
번호 | 1223 | 12.2% |
도메인명
Text
Distinct | 182 |
---|---|
Distinct (%) | 1.8% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
Value | Count | Frequency (%) |
명vc200 | 1337 | |
구분코드vc20 | 1316 | |
코드vc15 | 1123 | |
일자vc8 | 759 | 7.6% |
여부vc1 | 667 | 6.7% |
금액dec | 616 | 6.2% |
내용vc2000 | 525 | 5.2% |
수dec | 450 | 4.5% |
일련번호dec10 | 292 | 2.9% |
번호vc11 | 254 | 2.5% |
Other values (172) | 2661 |
Most occurring characters
Value | Count | Frequency (%) |
C | 9902 | |
0 | 7747 | 12.1% |
V | 7575 | 11.8% |
2 | 3681 | 5.7% |
1 | 3183 | 5.0% |
드 | 2483 | 3.9% |
코 | 2470 | 3.8% |
D | 2320 | 3.6% |
E | 2319 | 3.6% |
5 | 1826 | 2.8% |
Other values (189) | 20680 |
Most occurring categories
Value | Count | Frequency (%) |
Other Letter | 23802 | |
Uppercase Letter | 22354 | |
Decimal Number | 18030 |
Most frequent character per category
Other Letter
Value | Count | Frequency (%) |
드 | 2483 | 10.4% |
코 | 2470 | 10.4% |
명 | 1436 | 6.0% |
분 | 1337 | 5.6% |
구 | 1317 | 5.5% |
일 | 1286 | 5.4% |
호 | 1236 | 5.2% |
번 | 1234 | 5.2% |
자 | 1039 | 4.4% |
수 | 830 | 3.5% |
Other values (168) | 9134 |
Uppercase Letter
Value | Count | Frequency (%) |
C | 9902 | |
V | 7575 | |
D | 2320 | 10.4% |
E | 2319 | 10.4% |
T | 96 | 0.4% |
M | 96 | 0.4% |
L | 17 | 0.1% |
U | 12 | 0.1% |
R | 8 | < 0.1% |
N | 5 | < 0.1% |
Decimal Number
Value | Count | Frequency (%) |
0 | 7747 | |
2 | 3681 | |
1 | 3183 | |
5 | 1826 | 10.1% |
8 | 798 | 4.4% |
3 | 265 | 1.5% |
4 | 240 | 1.3% |
9 | 158 | 0.9% |
6 | 67 | 0.4% |
7 | 65 | 0.4% |
Most occurring scripts
Value | Count | Frequency (%) |
Hangul | 23802 | |
Latin | 22354 | |
Common | 18030 |
Most frequent character per script
Hangul
Value | Count | Frequency (%) |
드 | 2483 | 10.4% |
코 | 2470 | 10.4% |
명 | 1436 | 6.0% |
분 | 1337 | 5.6% |
구 | 1317 | 5.5% |
일 | 1286 | 5.4% |
호 | 1236 | 5.2% |
번 | 1234 | 5.2% |
자 | 1039 | 4.4% |
수 | 830 | 3.5% |
Other values (168) | 9134 |
Latin
Value | Count | Frequency (%) |
C | 9902 | |
V | 7575 | |
D | 2320 | 10.4% |
E | 2319 | 10.4% |
T | 96 | 0.4% |
M | 96 | 0.4% |
L | 17 | 0.1% |
U | 12 | 0.1% |
R | 8 | < 0.1% |
N | 5 | < 0.1% |
Common
Value | Count | Frequency (%) |
0 | 7747 | |
2 | 3681 | |
1 | 3183 | |
5 | 1826 | 10.1% |
8 | 798 | 4.4% |
3 | 265 | 1.5% |
4 | 240 | 1.3% |
9 | 158 | 0.9% |
6 | 67 | 0.4% |
7 | 65 | 0.4% |
Most occurring blocks
Value | Count | Frequency (%) |
ASCII | 40384 | |
Hangul | 23802 |
Most frequent character per block
ASCII
Value | Count | Frequency (%) |
C | 9902 | |
0 | 7747 | |
V | 7575 | |
2 | 3681 | 9.1% |
1 | 3183 | 7.9% |
D | 2320 | 5.7% |
E | 2319 | 5.7% |
5 | 1826 | 4.5% |
8 | 798 | 2.0% |
3 | 265 | 0.7% |
Other values (11) | 768 | 1.9% |
Hangul
Value | Count | Frequency (%) |
드 | 2483 | 10.4% |
코 | 2470 | 10.4% |
명 | 1436 | 6.0% |
분 | 1337 | 5.6% |
구 | 1317 | 5.5% |
일 | 1286 | 5.4% |
호 | 1236 | 5.2% |
번 | 1234 | 5.2% |
자 | 1039 | 4.4% |
수 | 830 | 3.5% |
Other values (168) | 9134 |
데이터타입
Categorical
IMBALANCE
 
Distinct | 4 |
---|---|
Distinct (%) | < 0.1% |
Missing | 0 |
Missing (%) | 0.0% |
Memory size | 156.2 KiB |
VARCHAR | |
---|---|
NUMERIC | |
DATE | 96 |
CLOB | 9 |
Length
Max length | 7 |
---|---|
Median length | 7 |
Mean length | 6.9685 |
Min length | 4 |
Unique
Unique | 0 ? |
---|---|
Unique (%) | 0.0% |
Sample
1st row | VARCHAR |
---|---|
2nd row | VARCHAR |
3rd row | VARCHAR |
4th row | VARCHAR |
5th row | VARCHAR |
Common Values
Value | Count | Frequency (%) |
VARCHAR | 7576 | |
NUMERIC | 2319 | 23.2% |
DATE | 96 | 1.0% |
CLOB | 9 | 0.1% |
Length
Common Values (Plot)
Value | Count | Frequency (%) |
varchar | 7576 | |
numeric | 2319 | 23.2% |
date | 96 | 1.0% |
clob | 9 | 0.1% |
데이터길이
Real number (ℝ)
ZEROS
 
Distinct | 35 |
---|---|
Distinct (%) | 0.4% |
Missing | 0 |
Missing (%) | 0.0% |
Infinite | 0 |
Infinite (%) | 0.0% |
Mean | 182.9338 |
Minimum | 0 |
---|---|
Maximum | 4000 |
Zeros | 1684 |
Zeros (%) | 16.8% |
Negative | 0 |
Negative (%) | 0.0% |
Memory size | 166.0 KiB |
Quantile statistics
Minimum | 0 |
---|---|
5-th percentile | 0 |
Q1 | 4 |
median | 15 |
Q3 | 50 |
95-th percentile | 2000 |
Maximum | 4000 |
Range | 4000 |
Interquartile range (IQR) | 46 |
Descriptive statistics
Standard deviation | 540.22655 |
---|---|
Coefficient of variation (CV) | 2.9531259 |
Kurtosis | 16.853902 |
Mean | 182.9338 |
Median Absolute Deviation (MAD) | 14 |
Skewness | 3.9725137 |
Sum | 1829338 |
Variance | 291844.73 |
Monotonicity | Not monotonic |
Value | Count | Frequency (%) |
0 | 1684 | |
20 | 1485 | |
200 | 1357 | |
15 | 1145 | |
8 | 772 | |
1 | 702 | |
2000 | 595 | 5.9% |
10 | 536 | 5.4% |
50 | 325 | 3.2% |
11 | 254 | 2.5% |
Other values (25) | 1145 |
Value | Count | Frequency (%) |
0 | 1684 | |
1 | 702 | |
2 | 4 | < 0.1% |
3 | 11 | 0.1% |
4 | 118 | 1.2% |
5 | 192 | 1.9% |
6 | 63 | 0.6% |
7 | 1 | < 0.1% |
8 | 772 | |
9 | 142 | 1.4% |
Value | Count | Frequency (%) |
4000 | 49 | 0.5% |
2000 | 595 | |
1024 | 1 | < 0.1% |
1000 | 7 | 0.1% |
500 | 38 | 0.4% |
300 | 151 | 1.5% |
250 | 2 | < 0.1% |
200 | 1357 | |
100 | 134 | 1.3% |
64 | 3 | < 0.1% |
번호 | 도메인유형구분 | 데이터타입 | 데이터길이 | |
---|---|---|---|---|
번호 | 1.000 | 0.264 | 0.158 | 0.216 |
도메인유형구분 | 0.264 | 1.000 | 0.249 | 0.191 |
데이터타입 | 0.158 | 0.249 | 1.000 | 0.106 |
데이터길이 | 0.216 | 0.191 | 0.106 | 1.000 |
데이터타입 | 도메인유형구분 | |
---|---|---|
데이터타입 | 1.000 | 0.237 |
도메인유형구분 | 0.237 | 1.000 |
번호 | 데이터길이 | 도메인유형구분 | 데이터타입 | |
---|---|---|---|---|
번호 | 1.000 | 0.038 | 0.163 | 0.095 |
데이터길이 | 0.038 | 1.000 | 0.146 | 0.087 |
도메인유형구분 | 0.163 | 0.146 | 1.000 | 0.237 |
데이터타입 | 0.095 | 0.087 | 0.237 | 1.000 |
번호 | 용어명 | 도메인유형구분 | 도메인명 | 데이터타입 | 데이터길이 | |
---|---|---|---|---|---|---|
4118 | 4119 | 저장일자 | 일반 | 일자VC8 | VARCHAR | 8 |
10180 | 10181 | 절감여부 | 일반 | 여부VC1 | VARCHAR | 1 |
10463 | 10464 | 교육기관구분코드 | 코드 | 구분코드VC20 | VARCHAR | 20 |
1742 | 1743 | 기준일자 | 일반 | 일자VC8 | VARCHAR | 8 |
8075 | 8076 | 기간시간분류코드 | 코드 | 코드VC15 | VARCHAR | 15 |
7550 | 7551 | 대표이메일 | 일반 | 이메일VC50 | VARCHAR | 50 |
15038 | 15039 | 미디어제작일자 | 일반 | 일자VC8 | VARCHAR | 8 |
16917 | 16918 | 사업장공사장지점명 | 일반 | 명VC200 | VARCHAR | 200 |
13396 | 13397 | 문자메시지발송번호 | 번호 | 번호VC11 | VARCHAR | 11 |
12665 | 12666 | 수당종류코드 | 코드 | 코드VC15 | VARCHAR | 15 |
번호 | 용어명 | 도메인유형구분 | 도메인명 | 데이터타입 | 데이터길이 | |
---|---|---|---|---|---|---|
16246 | 16247 | 출장주관부서코드 | 코드 | 코드VC15 | VARCHAR | 15 |
9785 | 9786 | 제3실태문제점내용 | 일반 | 내용VC2000 | VARCHAR | 2000 |
1810 | 1811 | 관심분야명 | 일반 | 명VC200 | VARCHAR | 200 |
4338 | 4339 | 제12월계획문자값 | 일반 | 문자값VC50 | VARCHAR | 50 |
3448 | 3449 | 접수종료일자 | 일반 | 일자VC8 | VARCHAR | 8 |
16463 | 16464 | 점검의견상세내용 | 일반 | 상세내용VC4000 | VARCHAR | 4000 |
10268 | 10269 | 사회적협동조합제품목표금액 | 일반 | 금액DEC | NUMERIC | 0 |
10141 | 10142 | 제1하청사업자회사명 | 일반 | 명VC200 | VARCHAR | 200 |
8260 | 8261 | 사업장사업자등록번호 | 번호 | 사업자등록번호VC20 | VARCHAR | 20 |
5503 | 5504 | 재발급사유구분코드 | 코드 | 구분코드VC20 | VARCHAR | 20 |