Overview

Dataset statistics

Number of variables3
Number of observations327
Missing cells358
Missing cells (%)36.5%
Duplicate rows10
Duplicate rows (%)3.1%
Total size in memory8.1 KiB
Average record size in memory25.4 B

Variable types

Unsupported1
Text2

Dataset

Description파일 다운로드
Author서울 교통공사
URLhttps://data.seoul.go.kr/dataList/OA-12036/F/1/datasetView.do

Alerts

Dataset has 10 (3.1%) duplicate rowsDuplicates
Unnamed: 0 has 327 (100.0%) missing valuesMissing
역명의 유래 has 11 (3.4%) missing valuesMissing
Unnamed: 2 has 20 (6.1%) missing valuesMissing
Unnamed: 0 is an unsupported type, check if it needs cleaning or further analysisUnsupported

Reproduction

Analysis started2024-04-17 13:34:25.304026
Analysis finished2024-04-17 13:34:25.832680
Duration0.53 seconds
Software versionydata-profiling vv4.5.1
Download configurationconfig.json

Variables

Unnamed: 0
Unsupported

MISSING  REJECTED  UNSUPPORTED 

Missing327
Missing (%)100.0%
Memory size3.0 KiB

역명의 유래
Text

MISSING 

Distinct270
Distinct (%)85.4%
Missing11
Missing (%)3.4%
Memory size2.7 KiB
2024-04-17T22:34:26.016960image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length16
Median length14
Mean length4.3227848
Min length2

Characters and Unicode

Total characters1366
Distinct characters257
Distinct categories8 ?
Distinct scripts3 ?
Distinct blocks4 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique232 ?
Unique (%)73.4%

Sample

1st row█ 1호선
2nd row역명
3rd row청량리(서울시립대입구)
4th row제기동
5th row신설동
ValueCountFrequency (%)
역명 9
 
2.8%
9
 
2.8%
동대문역사문화공원(ddp 3
 
0.9%
대림(구로구청 2
 
0.6%
약수 2
 
0.6%
삼각지 2
 
0.6%
교대(법원·검찰청 2
 
0.6%
사당 2
 
0.6%
영등포구청 2
 
0.6%
합정 2
 
0.6%
Other values (261) 290
89.2%
2024-04-17T22:34:26.362167image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
) 65
 
4.8%
( 65
 
4.8%
50
 
3.7%
50
 
3.7%
36
 
2.6%
32
 
2.3%
27
 
2.0%
26
 
1.9%
23
 
1.7%
20
 
1.5%
Other values (247) 972
71.2%

Most occurring categories

ValueCountFrequency (%)
Other Letter 1189
87.0%
Close Punctuation 65
 
4.8%
Open Punctuation 65
 
4.8%
Decimal Number 17
 
1.2%
Other Symbol 9
 
0.7%
Space Separator 9
 
0.7%
Uppercase Letter 9
 
0.7%
Other Punctuation 3
 
0.2%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
50
 
4.2%
50
 
4.2%
36
 
3.0%
32
 
2.7%
27
 
2.3%
26
 
2.2%
23
 
1.9%
20
 
1.7%
19
 
1.6%
18
 
1.5%
Other values (231) 888
74.7%
Decimal Number
ValueCountFrequency (%)
3 6
35.3%
4 3
17.6%
5 2
 
11.8%
7 1
 
5.9%
8 1
 
5.9%
9 1
 
5.9%
2 1
 
5.9%
6 1
 
5.9%
1 1
 
5.9%
Uppercase Letter
ValueCountFrequency (%)
D 6
66.7%
P 3
33.3%
Close Punctuation
ValueCountFrequency (%)
) 65
100.0%
Open Punctuation
ValueCountFrequency (%)
( 65
100.0%
Other Symbol
ValueCountFrequency (%)
9
100.0%
Space Separator
ValueCountFrequency (%)
9
100.0%
Other Punctuation
ValueCountFrequency (%)
· 3
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 1189
87.0%
Common 168
 
12.3%
Latin 9
 
0.7%

Most frequent character per script

Hangul
ValueCountFrequency (%)
50
 
4.2%
50
 
4.2%
36
 
3.0%
32
 
2.7%
27
 
2.3%
26
 
2.2%
23
 
1.9%
20
 
1.7%
19
 
1.6%
18
 
1.5%
Other values (231) 888
74.7%
Common
ValueCountFrequency (%)
) 65
38.7%
( 65
38.7%
9
 
5.4%
9
 
5.4%
3 6
 
3.6%
4 3
 
1.8%
· 3
 
1.8%
5 2
 
1.2%
7 1
 
0.6%
8 1
 
0.6%
Other values (4) 4
 
2.4%
Latin
ValueCountFrequency (%)
D 6
66.7%
P 3
33.3%

Most occurring blocks

ValueCountFrequency (%)
Hangul 1189
87.0%
ASCII 165
 
12.1%
Block Elements 9
 
0.7%
None 3
 
0.2%

Most frequent character per block

ASCII
ValueCountFrequency (%)
) 65
39.4%
( 65
39.4%
9
 
5.5%
3 6
 
3.6%
D 6
 
3.6%
4 3
 
1.8%
P 3
 
1.8%
5 2
 
1.2%
7 1
 
0.6%
8 1
 
0.6%
Other values (4) 4
 
2.4%
Hangul
ValueCountFrequency (%)
50
 
4.2%
50
 
4.2%
36
 
3.0%
32
 
2.7%
27
 
2.3%
26
 
2.2%
23
 
1.9%
20
 
1.7%
19
 
1.6%
18
 
1.5%
Other values (231) 888
74.7%
Block Elements
ValueCountFrequency (%)
9
100.0%
None
ValueCountFrequency (%)
· 3
100.0%

Unnamed: 2
Text

MISSING 

Distinct291
Distinct (%)94.8%
Missing20
Missing (%)6.1%
Memory size2.7 KiB
2024-04-17T22:34:26.657347image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Length

Max length247
Median length154
Mean length110.3355
Min length2

Characters and Unicode

Total characters33873
Distinct characters853
Distinct categories13 ?
Distinct scripts4 ?
Distinct blocks8 ?
The Unicode Standard assigns character properties to each code point, which can be used to analyse textual variables.

Unique

Unique282 ?
Unique (%)91.9%

Sample

1st row유래
2nd row청량리는 청량1동 61번지에 있는 사찰 청량사(淸凉寺)에서 지명이 유래되었고, 일찍부터 도성 사람들의 성외 피서 및 교외로 나가던 곳이며 이 때부터 청량동으로 불리게 되었다.
3rd row제기동은 조선 9대 왕인 성종이 풍농을 기원하기 위해 이 마을에 친경대, 즉 선농단을 만들어 왕이 친히 제사를 지내던 자리라는 데에서 동명의 기원을 두고 있다.
4th row신설동은 조선 중기 동부 숭신방(성외)에 새로 설치된 마을이므로 신설계라 부른데서 유래되었다. 즉 영조 27년(1751년)의 기록에 처음으로 신설계가 나타나고 있다.
5th row동묘는 삼국지의 명장 관우의 사당으로 정식 명칭은 동관왕묘이며, 임진왜란 뒤인 1604년(선조 32)에 세워졌다.
ValueCountFrequency (%)
78
 
1.0%
있다 55
 
0.7%
있는 52
 
0.7%
있어 48
 
0.6%
것이다 44
 
0.6%
조선 43
 
0.6%
하여 40
 
0.5%
붙여진 39
 
0.5%
때문에 38
 
0.5%
37
 
0.5%
Other values (4194) 7084
93.7%
2024-04-17T22:34:27.096009image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/

Most occurring characters

ValueCountFrequency (%)
7339
 
21.7%
1158
 
3.4%
580
 
1.7%
563
 
1.7%
562
 
1.7%
473
 
1.4%
. 470
 
1.4%
469
 
1.4%
442
 
1.3%
441
 
1.3%
Other values (843) 21376
63.1%

Most occurring categories

ValueCountFrequency (%)
Other Letter 24272
71.7%
Space Separator 7339
 
21.7%
Decimal Number 890
 
2.6%
Other Punctuation 735
 
2.2%
Close Punctuation 231
 
0.7%
Open Punctuation 230
 
0.7%
Final Punctuation 105
 
0.3%
Initial Punctuation 51
 
0.2%
Lowercase Letter 10
 
< 0.1%
Control 5
 
< 0.1%
Other values (3) 5
 
< 0.1%

Most frequent character per category

Other Letter
ValueCountFrequency (%)
1158
 
4.8%
580
 
2.4%
563
 
2.3%
562
 
2.3%
473
 
1.9%
469
 
1.9%
442
 
1.8%
441
 
1.8%
403
 
1.7%
403
 
1.7%
Other values (805) 18778
77.4%
Decimal Number
ValueCountFrequency (%)
1 228
25.6%
9 127
14.3%
0 91
 
10.2%
4 79
 
8.9%
3 78
 
8.8%
2 77
 
8.7%
6 54
 
6.1%
5 53
 
6.0%
8 53
 
6.0%
7 50
 
5.6%
Other Punctuation
ValueCountFrequency (%)
. 470
63.9%
, 227
30.9%
" 22
 
3.0%
' 10
 
1.4%
: 4
 
0.5%
! 1
 
0.1%
1
 
0.1%
Close Punctuation
ValueCountFrequency (%)
) 222
96.1%
6
 
2.6%
] 2
 
0.9%
1
 
0.4%
Open Punctuation
ValueCountFrequency (%)
( 221
96.1%
6
 
2.6%
[ 2
 
0.9%
1
 
0.4%
Math Symbol
ValueCountFrequency (%)
1
33.3%
< 1
33.3%
> 1
33.3%
Final Punctuation
ValueCountFrequency (%)
68
64.8%
37
35.2%
Initial Punctuation
ValueCountFrequency (%)
37
72.5%
14
 
27.5%
Lowercase Letter
ValueCountFrequency (%)
m 9
90.0%
k 1
 
10.0%
Space Separator
ValueCountFrequency (%)
7339
100.0%
Control
ValueCountFrequency (%)
5
100.0%
Other Symbol
ValueCountFrequency (%)
1
100.0%
Dash Punctuation
ValueCountFrequency (%)
- 1
100.0%

Most occurring scripts

ValueCountFrequency (%)
Hangul 23879
70.5%
Common 9591
28.3%
Han 393
 
1.2%
Latin 10
 
< 0.1%

Most frequent character per script

Hangul
ValueCountFrequency (%)
1158
 
4.8%
580
 
2.4%
563
 
2.4%
562
 
2.4%
473
 
2.0%
469
 
2.0%
442
 
1.9%
441
 
1.8%
403
 
1.7%
403
 
1.7%
Other values (620) 18385
77.0%
Han
ValueCountFrequency (%)
16
 
4.1%
14
 
3.6%
13
 
3.3%
10
 
2.5%
9
 
2.3%
7
 
1.8%
7
 
1.8%
7
 
1.8%
5
 
1.3%
5
 
1.3%
Other values (175) 300
76.3%
Common
ValueCountFrequency (%)
7339
76.5%
. 470
 
4.9%
1 228
 
2.4%
, 227
 
2.4%
) 222
 
2.3%
( 221
 
2.3%
9 127
 
1.3%
0 91
 
0.9%
4 79
 
0.8%
3 78
 
0.8%
Other values (26) 509
 
5.3%
Latin
ValueCountFrequency (%)
m 9
90.0%
k 1
 
10.0%

Most occurring blocks

ValueCountFrequency (%)
Hangul 23873
70.5%
ASCII 9428
 
27.8%
CJK 388
 
1.1%
Punctuation 156
 
0.5%
None 16
 
< 0.1%
Compat Jamo 6
 
< 0.1%
CJK Compat Ideographs 5
 
< 0.1%
CJK Compat 1
 
< 0.1%

Most frequent character per block

ASCII
ValueCountFrequency (%)
7339
77.8%
. 470
 
5.0%
1 228
 
2.4%
, 227
 
2.4%
) 222
 
2.4%
( 221
 
2.3%
9 127
 
1.3%
0 91
 
1.0%
4 79
 
0.8%
3 78
 
0.8%
Other values (17) 346
 
3.7%
Hangul
ValueCountFrequency (%)
1158
 
4.9%
580
 
2.4%
563
 
2.4%
562
 
2.4%
473
 
2.0%
469
 
2.0%
442
 
1.9%
441
 
1.8%
403
 
1.7%
403
 
1.7%
Other values (619) 18379
77.0%
Punctuation
ValueCountFrequency (%)
68
43.6%
37
23.7%
37
23.7%
14
 
9.0%
CJK
ValueCountFrequency (%)
16
 
4.1%
14
 
3.6%
13
 
3.4%
10
 
2.6%
9
 
2.3%
7
 
1.8%
7
 
1.8%
7
 
1.8%
5
 
1.3%
5
 
1.3%
Other values (171) 295
76.0%
Compat Jamo
ValueCountFrequency (%)
6
100.0%
None
ValueCountFrequency (%)
6
37.5%
6
37.5%
1
 
6.2%
1
 
6.2%
1
 
6.2%
1
 
6.2%
CJK Compat Ideographs
ValueCountFrequency (%)
2
40.0%
1
20.0%
1
20.0%
1
20.0%
CJK Compat
ValueCountFrequency (%)
1
100.0%

Missing values

2024-04-17T22:34:25.681138image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
A simple visualization of nullity by column.
2024-04-17T22:34:25.740087image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.
2024-04-17T22:34:25.798259image/svg+xmlMatplotlib v3.7.2, https://matplotlib.org/
The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.

Sample

Unnamed: 0역명의 유래Unnamed: 2
0<NA><NA><NA>
1<NA>█ 1호선<NA>
2<NA>역명유래
3<NA>청량리(서울시립대입구)청량리는 청량1동 61번지에 있는 사찰 청량사(淸凉寺)에서 지명이 유래되었고, 일찍부터 도성 사람들의 성외 피서 및 교외로 나가던 곳이며 이 때부터 청량동으로 불리게 되었다.
4<NA>제기동제기동은 조선 9대 왕인 성종이 풍농을 기원하기 위해 이 마을에 친경대, 즉 선농단을 만들어 왕이 친히 제사를 지내던 자리라는 데에서 동명의 기원을 두고 있다.
5<NA>신설동신설동은 조선 중기 동부 숭신방(성외)에 새로 설치된 마을이므로 신설계라 부른데서 유래되었다. 즉 영조 27년(1751년)의 기록에 처음으로 신설계가 나타나고 있다.
6<NA>동묘앞동묘는 삼국지의 명장 관우의 사당으로 정식 명칭은 동관왕묘이며, 임진왜란 뒤인 1604년(선조 32)에 세워졌다.
7<NA>동대문동대문은 흥인지문의 속칭으로 도성 4대문의 하나이다. 보물 제 1호로 지정된 동대문은 조선 초 태조 때에 세워졌지만 조선 말 고종 때 완전히 해체하여 바닥을 높인 다음 건축한 것이다. 이 문을 특별히 옹성으로 쌓은 것은 이곳의 지대가 낮아 외적을 방어하기 어렵기 때문이다.
8<NA>종로5가종로는 조선왕조 500년 동안 밤에는 인정, 새벽에는 파루를 쳐서 도성 8문을 여닫게 하는 종루가 있어 유래된 것이다. 이 거리에는 조선 초부터 시전이 있었던 번화가였으므로 일명 운종가로 칭한 서울의 중심가였다.
9<NA>종로3가종로는 조선왕조 500년 동안 밤에는 인정, 새벽에는 파루를 쳐서 도성 8문을 여닫게 하는 종루가 있어 유래된 것이다. 이 거리에는 조선 초부터 시전이 있었던 번화가였으므로 일명 운종가로 칭한 서울의 중심가였다.
Unnamed: 0역명의 유래Unnamed: 2
317<NA>봉은사서울특별시에서는 주변에 있는 코엑스 또는 봉은사 등의 가칭으로 부르고 있었다. 이 두 명칭에 대하여 강남구청 주민 선호도 조사 결과 봉은사역으로 결정되었고, 이는 지명위원회 심의도 거쳐 봉은사역으로 확정되었다.
318<NA>종합운동장종합운동장역은 주변이 원래 뽕밭이었으나 86 아시안게임과 88 서울올림픽 준비를 위해 각종 스포츠 시설인 주경기장과 야구장, 실내체육관, 수영장, 학생체육관, 보조경기장 등이 신축되며 종합운동장역으로 명명되었다.
319<NA>삼전삼전도의 굴욕이 있었던 지역으로서, 삼전도비가 세워져 있는 곳이다. 그 역사적 사건을 따서 삼전이라 칭하게 되었다.
320<NA>석촌고분역명 공모결과, 배명역이 가장 높았으나, 사립 중고등학교명이 역사명으로 된 사례가 없었으므로 해당 지역과 연관성이 뚜렷하고, 인근에 위치한 서울 석촌동 고분군 이름을 따서 석촌고분이라 지었다.
321<NA>석촌인근에 백제시대 적석총 고분이 있어 돌이 많으므로 석촌동이라 한 동명을 따라 석촌역이라 칭하였다.
322<NA>송파나루1960년대 말 강남 지역의 개발이 이루어지면서 샛강의 매립과 교량의 건설로 나루터의 기능이 상실되기 전, 서울과 광주(廣州)를 잇는 중요한 나루터로 땔나무와 담배 등을 서울에 공급하는 중요한 나루터 역할을 하였다.
323<NA>한성백제인근에 몽촌토성과 한성백제박물관이 있고, 몽촌토성이 풍납토성과 함께 백제의 수도인 하남 위례성이었다는 점을 감안하여 한성백제역으로 선정되었다.
324<NA>올림픽공원(한국체대)88올림픽을 계기로 형성된 올림픽공원과 올림픽기지촌 및 선수촌 아파트를 배경으로 역사가 위치함으로써 명명되었다.
325<NA>둔촌오륜강동구 둔촌동과 송파구 오륜동의 경계에 있어 양쪽 지명을 따아 둔촌오륜역으로 지정되었다.
326<NA>중앙보훈병원역 인근에 있는 중앙보훈병원에서 따온것으로, 중앙보훈병원역, 일자산역, 일자산보훈병원역 세가지 후보역명 중 선호도조사결과 중앙보훈병원역으로 결정되었다.

Duplicate rows

Most frequently occurring

역명의 유래Unnamed: 2# duplicates
9<NA><NA>11
5역명유래9
0교대(법원·검찰청)교대역은 인근에 서울교육대학이 있으므로 붙여진 이름이다. 이 역이 위치한 서초동(瑞草洞)은 예전에 이곳에 서리풀이 무성했기 때문에 유래된 것이다. 또한 법원, 검찰청이 있어 병기하여 부르고 있다.2
1군자(능동)옛날 어느 왕의 일행이 거동하다가 마침 이곳 남일 농장터에서 묵게 되었는데 그날 밤 동행하던 왕비가 옥동자를 낳았으므로 이곳을 군자동이라 하였다고 전하며 지금도 이곳을 명리궁터라고 부르기도 한다.2
2까치산봉제산(매봉산) 일대에는 예로부터 까치가 많이 서식하였으나 화곡동 개발계획에 따라 봉제산 중턱까지 주택이 들어서고 인구가 급증하면서 봉제산 일대의 까치들이 갈 곳이 없어지자 비교적 늦게 개발된 이곳 까치산(해발 73.5m)으로 몰려들게 되어 까치산이라는 산 이름이 생겨나게 되었다.2
3동대문역사문화공원(DDP)동대문역사문화공원역은 당초 동대문운동장으로 명명되다 2009년 옛 동대문운동장 부지에 동대문역사문화공원이 개장되면서 현재의 명칭으로 바뀌어 유지되고 있다.2
4시청시청역에 위치한 태평로는 1914년에 서소문동에 있던 중국 사신을 맞던 태평관의 이름을 따서 붙인 것이다. 명(明)의 사신이 오면 이 길을 거쳐 태평관에서 경복궁으로 들어갔다. 시청 본관이 인접해 시청역이라 한다.2
6종로3가종로는 조선왕조 500년 동안 밤에는 인정, 새벽에는 파루를 쳐서 도성 8문을 여닫게 하는 종루가 있어 유래된 것이다. 이 거리에는 조선 초부터 시전이 있었던 번화가였으므로 일명 운종가로 칭한 서울의 중심가였다.2
7충무로충무로는 임진왜란 때 명장 충무공 이순신의 시호를 붙인 것이다. 이순신 장군이 태어난 곳은 건천동 즉 현재의 인현동1가였으므로 이를 기념하기 위해 충무로로 지었다. 이곳은 남촌 또는 아랫대로 불리던 지역으로 사육신의 한 사람인 박팽년 외에 많은 명사들이 살았다.2
8태릉입구태릉은 불암산 남쪽 기슭에 위치한 사적 제201호로 조선 11대 중종의 계비이자 명종의 어머니인 문정왕후 윤씨의 능임(그 북쪽에는 조선 명종과 원순왕후의 능침인 태강릉이 있음).2