Overview

Dataset statistics

Number of variables5
Number of observations10000
Missing cells647
Missing cells (%)1.3%
Duplicate rows599
Duplicate rows (%)6.0%
Total size in memory468.8 KiB
Average record size in memory48.0 B

Variable types

Categorical3
Text2

Dataset

Description지하수 기초조사 시설에 대한 내용입니다. - 구분, 관측소명, 주소, 원시자료명, 원시자료기관명 등을 제공합니다.
URLhttps://www.data.go.kr/data/15104454/fileData.do

Alerts

구분 has constant value ""Constant
Dataset has 599 (6.0%) duplicate rowsDuplicates
원시자료기관명 is highly overall correlated with 원시자료명High correlation
원시자료명 is highly overall correlated with 원시자료기관명High correlation
관측소명 has 647 (6.5%) missing valuesMissing

Reproduction

Analysis started2023-12-12 13:20:48.525851
Analysis finished2023-12-12 13:20:49.518333
Duration0.99 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

구분
Categorical

CONSTANT 

Distinct1
Distinct (%)< 0.1%
Missing0
Missing (%)0.0%
Memory size156.2 KiB
기초조사
10000 

Length

Max length4
Median length4
Mean length4
Min length4

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row기초조사
2nd row기초조사
3rd row기초조사
4th row기초조사
5th row기초조사

Common Values

ValueCountFrequency (%)
기초조사 10000
100.0%

Length

2023-12-12T22:20:49.581453image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category

Common Values (Plot)

2023-12-12T22:20:49.674296image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
ValueCountFrequency (%)
기초조사 10000
100.0%

관측소명
Text

MISSING 

Distinct62
Distinct (%)0.7%
Missing647
Missing (%)6.5%
Memory size156.2 KiB
2023-12-12T22:20:49.851716image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length6
Median length2
Mean length2.3118785
Min length2

Characters and Unicode

Total characters21623
Distinct characters89
Distinct categories5 ?
Distinct scripts2 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique14 ?
Unique (%)0.1%

Sample

1st row광주
2nd row인천
3rd row연기
4th row익산
5th row포항
ValueCountFrequency (%)
인천 1829
19.6%
광주 1662
17.8%
익산 1009
10.8%
칠곡 875
9.4%
마산,진해 600
 
6.4%
연기 513
 
5.5%
김해 436
 
4.7%
해남 363
 
3.9%
신안 297
 
3.2%
영덕지역 179
 
1.9%
Other values (52) 1590
17.0%
2023-12-12T22:20:50.250747image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
2203
 
10.2%
1834
 
8.5%
1829
 
8.5%
1662
 
7.7%
1662
 
7.7%
1405
 
6.5%
1009
 
4.7%
879
 
4.1%
875
 
4.0%
628
 
2.9%
Other values (79) 7637
35.3%

Most occurring categories

ValueCountFrequency (%)
Other Letter 20831
96.3%
Other Punctuation 600
 
2.8%
Dash Punctuation 76
 
0.4%
Close Punctuation 58
 
0.3%
Open Punctuation 58
 
0.3%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
2203
 
10.6%
1834
 
8.8%
1829
 
8.8%
1662
 
8.0%
1662
 
8.0%
1405
 
6.7%
1009
 
4.8%
879
 
4.2%
875
 
4.2%
628
 
3.0%
Other values (75) 6845
32.9%
Other Punctuation
ValueCountFrequency (%)
, 600
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 76
100.0%
Close Punctuation
ValueCountFrequency (%)
) 58
100.0%
Open Punctuation
ValueCountFrequency (%)
( 58
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 20831
96.3%
Common 792
 
3.7%

Most frequent character per script

Hangul
ValueCountFrequency (%)
2203
 
10.6%
1834
 
8.8%
1829
 
8.8%
1662
 
8.0%
1662
 
8.0%
1405
 
6.7%
1009
 
4.8%
879
 
4.2%
875
 
4.2%
628
 
3.0%
Other values (75) 6845
32.9%
Common
ValueCountFrequency (%)
, 600
75.8%
- 76
 
9.6%
) 58
 
7.3%
( 58
 
7.3%

Most occurring blocks

ValueCountFrequency (%)
Hangul 20831
96.3%
ASCII 792
 
3.7%

Most frequent character per block

Hangul
ValueCountFrequency (%)
2203
 
10.6%
1834
 
8.8%
1829
 
8.8%
1662
 
8.0%
1662
 
8.0%
1405
 
6.7%
1009
 
4.8%
879
 
4.2%
875
 
4.2%
628
 
3.0%
Other values (75) 6845
32.9%
ASCII
ValueCountFrequency (%)
, 600
75.8%
- 76
 
9.6%
) 58
 
7.3%
( 58
 
7.3%

주소
Text

Distinct8333
Distinct (%)83.3%
Missing0
Missing (%)0.0%
Memory size156.2 KiB
2023-12-12T22:20:50.694007image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length47
Median length42
Mean length19.1766
Min length7

Characters and Unicode

Total characters191766
Distinct characters406
Distinct categories9 ?
Distinct scripts3 ?
Distinct blocks2 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique7724 ?
Unique (%)77.2%

Sample

1st row전라남도 영암군 학산면 매월리
2nd row광주광역시 광산구 신동 334
3rd row인천광역시 강화군 송해면
4th row충청남도 연기군 서면 고복리 97-6
5th row전라북도 익산시 함라면 다망리 397
ValueCountFrequency (%)
인천광역시 1831
 
4.2%
광주광역시 1662
 
3.8%
경상북도 1515
 
3.5%
경상남도 1254
 
2.9%
전라북도 1180
 
2.7%
강화군 1122
 
2.6%
익산시 1009
 
2.3%
전라남도 964
 
2.2%
칠곡군 875
 
2.0%
광산구 726
 
1.7%
Other values (7500) 31288
72.0%
2023-12-12T22:20:51.335491image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
40671
21.2%
7017
 
3.7%
6748
 
3.5%
6278
 
3.3%
6232
 
3.2%
5235
 
2.7%
1 5067
 
2.6%
4389
 
2.3%
4364
 
2.3%
4253
 
2.2%
Other values (396) 101512
52.9%

Most occurring categories

ValueCountFrequency (%)
Other Letter 121397
63.3%
Space Separator 40671
 
21.2%
Decimal Number 25799
 
13.5%
Dash Punctuation 3767
 
2.0%
Open Punctuation 56
 
< 0.1%
Close Punctuation 54
 
< 0.1%
Other Punctuation 10
 
< 0.1%
Uppercase Letter 10
 
< 0.1%
Lowercase Letter 2
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
7017
 
5.8%
6748
 
5.6%
6278
 
5.2%
6232
 
5.1%
5235
 
4.3%
4389
 
3.6%
4364
 
3.6%
4253
 
3.5%
3833
 
3.2%
3758
 
3.1%
Other values (371) 69290
57.1%
Decimal Number
ValueCountFrequency (%)
1 5067
19.6%
2 3392
13.1%
3 2806
10.9%
4 2474
9.6%
5 2386
9.2%
6 2189
8.5%
7 2077
8.1%
8 1886
 
7.3%
9 1764
 
6.8%
0 1758
 
6.8%
Uppercase Letter
ValueCountFrequency (%)
L 3
30.0%
B 3
30.0%
F 1
 
10.0%
A 1
 
10.0%
T 1
 
10.0%
P 1
 
10.0%
Other Punctuation
ValueCountFrequency (%)
, 8
80.0%
/ 1
 
10.0%
. 1
 
10.0%
Lowercase Letter
ValueCountFrequency (%)
b 1
50.0%
e 1
50.0%
Space Separator
ValueCountFrequency (%)
40671
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 3767
100.0%
Open Punctuation
ValueCountFrequency (%)
( 56
100.0%
Close Punctuation
ValueCountFrequency (%)
) 54
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 121397
63.3%
Common 70357
36.7%
Latin 12
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
7017
 
5.8%
6748
 
5.6%
6278
 
5.2%
6232
 
5.1%
5235
 
4.3%
4389
 
3.6%
4364
 
3.6%
4253
 
3.5%
3833
 
3.2%
3758
 
3.1%
Other values (371) 69290
57.1%
Common
ValueCountFrequency (%)
40671
57.8%
1 5067
 
7.2%
- 3767
 
5.4%
2 3392
 
4.8%
3 2806
 
4.0%
4 2474
 
3.5%
5 2386
 
3.4%
6 2189
 
3.1%
7 2077
 
3.0%
8 1886
 
2.7%
Other values (7) 3642
 
5.2%
Latin
ValueCountFrequency (%)
L 3
25.0%
B 3
25.0%
b 1
 
8.3%
e 1
 
8.3%
F 1
 
8.3%
A 1
 
8.3%
T 1
 
8.3%
P 1
 
8.3%

Most occurring blocks

ValueCountFrequency (%)
Hangul 121397
63.3%
ASCII 70369
36.7%

Most frequent character per block

ASCII
ValueCountFrequency (%)
40671
57.8%
1 5067
 
7.2%
- 3767
 
5.4%
2 3392
 
4.8%
3 2806
 
4.0%
4 2474
 
3.5%
5 2386
 
3.4%
6 2189
 
3.1%
7 2077
 
3.0%
8 1886
 
2.7%
Other values (15) 3654
 
5.2%
Hangul
ValueCountFrequency (%)
7017
 
5.8%
6748
 
5.6%
6278
 
5.2%
6232
 
5.1%
5235
 
4.3%
4389
 
3.6%
4364
 
3.6%
4253
 
3.5%
3833
 
3.2%
3758
 
3.1%
Other values (371) 69290
57.1%

원시자료명
Categorical

HIGH CORRELATION 

Distinct47
Distinct (%)0.5%
Missing0
Missing (%)0.0%
Memory size156.2 KiB
인천지역지하수기초조사
1714 
광주지역 지하수 기초조사 보고서
1662 
익산지역 지하수 기초조사
1009 
칠곡지역 지하수 기초조사
875 
마산,진해 지하수 기초조사 보고서
600 
Other values (42)
4140 

Length

Max length33
Median length29
Mean length15.1244
Min length11

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row영암-강진지역지하수기초조사보고서(HG-1999-YA)
2nd row광주지역 지하수 기초조사 보고서
3rd row인천지역 지하수 기초조사
4th row연기지역 지하수 기초조사
5th row익산지역 지하수 기초조사

Common Values

ValueCountFrequency (%)
인천지역지하수기초조사 1714
17.1%
광주지역 지하수 기초조사 보고서 1662
16.6%
익산지역 지하수 기초조사 1009
10.1%
칠곡지역 지하수 기초조사 875
 
8.8%
마산,진해 지하수 기초조사 보고서 600
 
6.0%
연기지역 지하수 기초조사 513
 
5.1%
김해지역 지하수 기초조사 436
 
4.4%
해남지역지하수기초조사보고서 363
 
3.6%
신안지역 지하수 기초조사 297
 
3.0%
영천지역 지하수 기초조사 278
 
2.8%
Other values (37) 2253
22.5%

Length

2023-12-12T22:20:51.500777image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
기초조사 6942
25.3%
지하수 6766
24.7%
보고서 2957
10.8%
인천지역지하수기초조사 1714
 
6.2%
광주지역 1662
 
6.1%
익산지역 1009
 
3.7%
칠곡지역 875
 
3.2%
마산,진해 600
 
2.2%
연기지역 513
 
1.9%
김해지역 436
 
1.6%
Other values (50) 3965
14.5%

원시자료기관명
Categorical

HIGH CORRELATION 

Distinct14
Distinct (%)0.1%
Missing0
Missing (%)0.0%
Memory size156.2 KiB
건설교통부,한국수자원공사
3589 
건설교통부,한국수자원공사
1662 
건설교통부,한국수자원공사,대한광업진흥공사
1045 
건설교통부,한국수자원공사,대한공업진흥공사
600 
건설교통부,대한광업진흥공사
529 
Other values (9)
2575 

Length

Max length23
Median length22
Mean length15.6107
Min length7

Unique

Unique0 ?
Unique (%)0.0%

Sample

1st row한국자원연구소
2nd row건설교통부,한국수자원공사
3rd row건설교통부,한국수자원공사
4th row건설교통부,한국수자원공사,한국농촌공사
5th row건설교통부,한국수자원공사,대한광업진흥공사

Common Values

ValueCountFrequency (%)
건설교통부,한국수자원공사 3589
35.9%
건설교통부,한국수자원공사 1662
16.6%
건설교통부,한국수자원공사,대한광업진흥공사 1045
 
10.4%
건설교통부,한국수자원공사,대한공업진흥공사 600
 
6.0%
건설교통부,대한광업진흥공사 529
 
5.3%
건설교통부,한국수자원공사,한국지질자원연구원 521
 
5.2%
건설교통부,한국수자원공사,한국농촌공사 513
 
5.1%
한국자원연구소 483
 
4.8%
건설교통부,한국수자원공사,농업기반공사 436
 
4.4%
한국수자원공사 319
 
3.2%
Other values (4) 303
 
3.0%

Length

2023-12-12T22:20:51.659168image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Histogram of lengths of the category
ValueCountFrequency (%)
건설교통부,한국수자원공사 5251
52.5%
건설교통부,한국수자원공사,대한광업진흥공사 1278
 
12.8%
건설교통부,한국수자원공사,대한공업진흥공사 600
 
6.0%
건설교통부,대한광업진흥공사 529
 
5.3%
건설교통부,한국수자원공사,한국지질자원연구원 521
 
5.2%
건설교통부,한국수자원공사,한국농촌공사 513
 
5.1%
한국자원연구소 483
 
4.8%
건설교통부,한국수자원공사,농업기반공사 436
 
4.4%
한국수자원공사 319
 
3.2%
한국동력자원연구소 64
 
0.6%
Other values (2) 6
 
0.1%

Correlations

2023-12-12T22:20:51.781989image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
관측소명원시자료명원시자료기관명
관측소명1.0001.0001.000
원시자료명1.0001.0001.000
원시자료기관명1.0001.0001.000
2023-12-12T22:20:51.868053image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
원시자료기관명원시자료명
원시자료기관명1.0000.998
원시자료명0.9981.000
2023-12-12T22:20:51.976653image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
원시자료명원시자료기관명
원시자료명1.0000.998
원시자료기관명0.9981.000

Missing values

2023-12-12T22:20:49.325519image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2023-12-12T22:20:49.464741image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.

Sample

구분관측소명주소원시자료명원시자료기관명
5420기초조사<NA>전라남도 영암군 학산면 매월리영암-강진지역지하수기초조사보고서(HG-1999-YA)한국자원연구소
24108기초조사광주광주광역시 광산구 신동 334광주지역 지하수 기초조사 보고서건설교통부,한국수자원공사
37220기초조사인천인천광역시 강화군 송해면인천지역 지하수 기초조사건설교통부,한국수자원공사
16173기초조사연기충청남도 연기군 서면 고복리 97-6연기지역 지하수 기초조사건설교통부,한국수자원공사,한국농촌공사
35974기초조사익산전라북도 익산시 함라면 다망리 397익산지역 지하수 기초조사건설교통부,한국수자원공사,대한광업진흥공사
12444기초조사포항경상북도 포항시 신광면 냉수1리 258-2포항지역 지하수 기초조사건설교통부,한국수자원공사
23696기초조사광주광주광역시 서구 덕흥동 811-4광주지역 지하수 기초조사 보고서건설교통부,한국수자원공사
35910기초조사인천인천광역시 강화군 송해면 솔정리 687-2인천지역지하수기초조사건설교통부,한국수자원공사
53515기초조사인천인천광역시 중구 남북동 637인천지역지하수기초조사건설교통부,한국수자원공사
53657기초조사인천인천광역시 강화군 강화읍 월곳리 577-1인천지역지하수기초조사건설교통부,한국수자원공사
구분관측소명주소원시자료명원시자료기관명
43001기초조사인천인천광역시 강화군 길상면 길직리 583-4인천지역지하수기초조사건설교통부,한국수자원공사
54221기초조사인천인천광역시 강화군 강화읍 국화리 650인천지역지하수기초조사건설교통부,한국수자원공사
29105기초조사광주광주광역시 서구 농성동 481-24광주지역 지하수 기초조사 보고서건설교통부,한국수자원공사
62076기초조사김해경상남도 김해시 대동면 대감리김해지역 지하수 기초조사건설교통부,한국수자원공사,농업기반공사
45421기초조사칠곡경상북도 칠곡군 왜관읍 매원리 696-3칠곡지역 지하수 기초조사건설교통부,한국수자원공사
25683기초조사마산,진해경상남도 진해시 남양동 69번지마산,진해 지하수 기초조사 보고서건설교통부,한국수자원공사,대한공업진흥공사
40660기초조사인천인천광역시 강화군 길상면 선두리 970-1인천지역지하수기초조사건설교통부,한국수자원공사
52387기초조사인천인천광역시 강화군 강화읍 대산리 1269인천지역지하수기초조사건설교통부,한국수자원공사
3561기초조사해남전라남도 해남군해남지역지하수기초조사보고서건설교통부,대한광업진흥공사
44825기초조사익산전라북도 익산시 금마면 신용리 696익산지역 지하수 기초조사건설교통부,한국수자원공사,대한광업진흥공사

Duplicate rows

Most frequently occurring

구분관측소명주소원시자료명원시자료기관명# duplicates
505기초조사해남전라남도 해남군해남지역지하수기초조사보고서건설교통부,대한광업진흥공사328
349기초조사익산전라북도 익산시익산지역 지하수 기초조사건설교통부,한국수자원공사,대한광업진흥공사38
207기초조사신안전라남도 신안군 압해면 복용리신안지역 지하수 기초조사건설교통부,한국수자원공사,한국지질자원연구원28
0기초조사가남경기도한국수문지질도및보고서 가남지역(양화천유역)한국자원연구소25
206기초조사신안전라남도 신안군 압해면 동서리신안지역 지하수 기초조사건설교통부,한국수자원공사,한국지질자원연구원24
193기초조사신안전라남도 신안군신안지역 지하수 기초조사건설교통부,한국수자원공사,한국지질자원연구원22
513기초조사<NA>경상남도 거창군 거창읍 서변리거창지역 지하수 기초조사 보고서건설교통부,대한광업진흥공사22
470기초조사칠곡경상북도 칠곡군 약목면 덕산리칠곡지역 지하수 기초조사건설교통부,한국수자원공사19
439기초조사칠곡경상북도 칠곡군 기산면 영리칠곡지역 지하수 기초조사건설교통부,한국수자원공사16
442기초조사칠곡경상북도 칠곡군 기산면 행정리칠곡지역 지하수 기초조사건설교통부,한국수자원공사16