본문 바로가기

Content

보궐선거 득표율 반응형 지도 사용법

 

 

대표

 

 

웹 상에서 시도해볼 수 있는 인터랙티브 지도가 세상에 본격적으로 많아지기 시작한지 거의 10년이 다 되어간다. 뉴욕 타임즈 같은 해외의 언론사에서 한동안 다양한 시도를 했지만, 생각보다 사람들이 반응형 그래프나 지도 위에서 그리 오랜 시간을 보내지 않았던 것 같다. 그래서 그런지 데이터 저널리즘의 경우도 최근의 경향을 보면, 그저 단순히 한방향으로 마우스 휠을 긁어내리는 조작만으로 볼 수 있는 기사들을 많이 만들고 있다.

 

반응형 지도는 데이터를 좀 더 능동적으로 관찰하고 싶어하는 사람에게는 좋은 도구지만, 그렇지 않은 사람들에게는 복잡하고 쓸모없는 장난감일뿐이다. 그렇지만 또 어떤 사람들의 경우, 데이터에는 관심이 있는데 이용하는 방법에 익숙하지 않아서 이것저것 건드려보다가 그저 덮어두게 되는 대상이기도 하다. 이 글은 그런 사람들을 독자로 상정하고 써 봤다.

 

아래 링크는, 2021년 서울시장 보궐선거의 당선인인 오세훈 후보의 득표율을 지도 위에 행정동별로 표시한 지도다. 사실 2015년에 아파트 실거래가를 관찰해보려고 만든 지도인데, 간단한 수정을 통해 이번 선거 결과를 올려보았더니 그럭저럭 잘 돌아간다. 좀 더 선거지도답게 제대로 만들려면 행정동 경계도 넣어주는 등 좀 더 세심한 수정이 필요하겠지만, 그냥 시간 내에서 할 수 있는 만큼만 했다.

 

2021년 보궐선거 서울 오세훈 득표율

 

vuski.github.io

이 글에서는 이 지도를 조작하는 방법에 대해 설명한다. 사실, 지도의 조작법은 그리 복잡하지 않다. 여기저기서 zoom과 pan을 해보거나 점 위에 마우스를 올려보고, 회색 박스로 원하는 부분을 선택해보는 것 정도가 전부다. 아, 창 크기를 조절하면 전체 페이지를 새로고침 해야 다시 창 크기에 최적화된 화면으로 분할된다. 

이 간단한 방법을 몇 가지 예시를 들어 설명할텐데, 사실 '사용법'이라고 했지만, 당시에 이 지도를 만들 때 어떠한 필요가 있었고, 그래서 왜 그 기능을 지도에 추가했었는지에 대한 설명이기도 하다. 같은 이야기를 살짝 뒤집어서 일반화시켜보면, '이 반응형 지도로 관찰해볼 수 있는 것들' 정도가 되겠다.

 

 

화면 구성

 

우선 화면은 아래와 같이 이루어진다.

우측 하단 그래프에는 모든 데이터가 있다. 여기서 회색 박스를 옮기거나 가장자리를 끌어서 일정 부분을 선택할 수 있다.

우측 상단 그래프에는 선택된 영역이 확대되어 표시된다. 정해진 화면 영역에 외곽선 범위를 맞췄으므로, x축과 y축의 비례는 다소 달라진다.

지도에는 선택된 행정동들의 위치만 표시된다.

 

 

 

데이터 속성

 

데이터는 선관위에서 공개하는 행정동별 득표율 값을 아파트 매매 실거래가를 결합하여 사용했다.

아파트 매매 실거래가는 2020년 4월~2021년 3월말 까지의 12개월의 자료를 행정동별로 재집계한 후 단순 평균값을 계산해서 만들었다. 아파트 주소가 법정동 기반이므로 주소를 지오코딩하여 지도에 아파트별로 표시한 후, 행정동 경계를 이용하여 GIS상에서 공간 조인 연산을 했다. 

역시 QGIS 플러그인 Real Centroid 에서 행정동 경계의 내부 중심점을 구하여 지도 위에 표시할 좌표값으로 사용했다.

 

즉, 각각의 점들은 크게 4개의 속성을 갖는다. 행정동 이름, 행정동 좌표, 행정동의 아파트가격, 행정동의 오세훈 후보 득표율이다.

 

 

 

시작 : 산포도

 

 

산포도는 그리기 쉽지만, 쉬우면서도 두 개의 속성을 2차원 공간에 직관적으로 잘 보여주는 좋은 그래프다. 처음에 실거래가 데이터로 이 작업을 했을 때는 6000여 행의 데이터가 있었고 그래서 전체를 산포도위에 뿌려보면, 말 그대로 '분포'외에 다른 것들은 보기 힘들었다. 그래서 일정 부분을 선택해서 그래프를 확대해 볼 수 있도록 했다. 이 지도에도 422개의 점들이 있는데, 일부 구간에서 점들이 겹쳐 있기 때문에 개별적으로 관찰하기에는 다소 무리가 있다.

 

 

 

오른쪽 아래 그래프에서 마우스를 클릭한채로 드래그하여 일정 영역을 선택할 수 있다. 이제 해당 영역이 확대되어 위의 그래프와 지도에 선택적으로 표시된다. 

 

선택을 하는 동시에 얼마만큼을 선택했는지 곧바로 표시된다. 위에서는 26.07%다. 전체 분포에서 작은 영역임에도 불구하고 전체의 1/4이 넘는 행정동들이 속해 있음을 알 수 있다. 422*0.2607 = 110.01이므로 110개 행정동들이 선택되었음을 계산해볼 수 있다. 당시에는 선택된 점의 개수가 중요하지 않았는데, 대상이 행정동이라면 비율과 함께 동의 개수도 표시해주는 것면 더 좋을 것 같다.

 

 

 

그래프와 지도의 탐색

 

이제 좀 더 확대해서 보자.

선택된 부분 안에서 가장 낮은 가격대의 56%~57% 구간에 몇 개 점들이 뭉쳐 있는 것을 볼 수 있다.(위의 그림에서 빨간 점선으로 표시)

말하자면, 이런 질문을 해 볼 수 있겠다.

 

'실거래가와 투표율이 비슷한 곳은 공간적으로도 인접해 있을까?'

 

오른쪽 하단 그래프의 선택영역 조정만으로는 이렇게 작은 부분을 선택하기가 어려웠다. 그래서 오른쪽 위 그래프 상에서 zoom과 pan이 가능하도록 기능을 추가했다.

해당 부분을 끌어당기고 휠을 긁어서 선택할 수 있다.

 

 

 

 

 

 

이제 우측 하단 그래프상에서는 선택한 영역이 거의 보이지 않게 작아졌지만, 우측상단 그래프에서는 서로서로 잘 구분이 된다.

간혹 웹상의 어떤 인터랙티브 그래프들은 확대하면 점의 크기가 같이 커지는 경우도 있던데, 많은 경우 그렇게 하면 확대의 의미가 없다. 그저 노안을 위한 돋보기 정도랄까.

 

 

 

어떤 지역에 있는지 확인해보자.

 

화면 우측 상단에 '구 이름' 버튼을 누르면 자치구 이름을 볼 수 있다. 당시에 살짝 귀찮아서 내부 중심점들을 새로 따지 않고 그냥 평균으로 구했더니 양천구처럼 경계를 벗어난 경우도 있다. 꼭 내부 중심점으로 해주자.

 

도봉구와 노원구는 공간적으로 인접해있지만 , 송파구와 강동구는 이들과는 상대적으로 떨어져 있는 것을 확인할 수 있다. 이제 어떤 행정동인지 이름도 구체적으로 궁금해진다. 지도를 확대한 후 점들에 마우스를 올려보자.

 

 

 

송파구 방이2동. 득표율은 56.5%고, 아파트 매매 실거래가 평균은 5억 8000만원 정도다. 

지도 위의 점에 마우스를 올리는 순간 지도와 우측상단 그래프에서 동시 강조된다. 그래야 '데이터의 인접성'을 확인할 수 있다. 데이터가 '서로 가깝다'는 것은 데이터가 가진 속성들이 비슷함을 의미한다. 실제 지리공간 상에서 가까운 것도 인접했다고 말할 수 있지만 실거래가나 득표율이 비슷해도 서로 가깝다고 말할 수 있다.

 

우측 상단 그래프에서 보이는 여섯개의 인접한 데이터들은, 아래 그림처럼 실제 지리공간 상에서는 크게 두 개의 그룹으로 묶이게 된다.

 

 

 

데이터의 인접성을 좌표 공간에서 보고 싶을 수도 있다.

그래서, 우측 상단 그래프에서도 마우스를 올려놓음으로써 지도에서도 강조될 수 있도록 했다.

 

 

 

 

성내3동과 상계6.7동은 실거래가와 득표율은 비슷하지만, 지리적으로는 다소 떨어져 있다.

 

 

 

 

 

아래의 상도2동과 약수동은 득표율과 실거래가 모두 놀라울 정도로 비슷해서 그래프를 많이 확대해야 구분이 되지만, 지리적으로는 다소 떨어져 있다.

 

 

왜 그런지 궁금하면 직접 조사해보자. 그저 우연일 수도 있고, 파고들다 보면 재미있는 점이 나올 때도 있다. 

 

 

 

 

우측 상단 그래프에는 x축과 y축의 zoom과 pan 이동 기능도 넣었다. 

 

 

위의 그림처럼 같은 득표율 조건으로 실거래가를 좌우로 움직여 볼 수도 있고, 같은 실거래가 조건으로 득표율 구간을 바꿔볼 수도 있다. 휠을 긁어서 한쪽 범위만 바꿔볼 수도 있도록 했다.

 

 

이 기능을 사용하면, 득표율이 낮은 곳부터 높은 곳까지 공간 분포가 어떻게 되는지 탐색해 볼 수 있다.

 

 

아, 생각해보니 이건, 우측 하단 그래프에서 회색 박스를 직접 드래그하는게 더 편하다. 위의 방법으로는 미세한 조정이 가능한데, 전반적으로 빠르게 훑어보기에는 다소 힘이 든다.

 

득표율이 낮은 구간에서부터 높은 구간까지 y축으로 선택 영역을 움직여보면, 서울 가장자리부터 강남 3구로 올수록 전반적으로 득표율이 올라가는 것을 볼 수 있다. 물론 곳곳에 아웃라이어들도 있는데, 아웃라이어들을 탐색할 수 있다는 점이 바로 인터랙티브 방식의 시각화의 묘미이기도 하다.

 

 

 

 

 

점의 색상

 

 

점의 색상은 득표율 구간에 따라 다르게 두었다. 각 구간들이 의미있는 것은 아니고, 특정한 목적은 없었으므로 그냥 전체를 적당히 구분해서 계단식으로 급격하게 변하는 색상들로 표시했다. 목적에 따라 5% 구간으로 두거나, 422개 점들을 같은 개수로 구분하여 색상을 달리해 볼 수도 있겠다. 

 

그래서 색상이 있는 지도를 보면, 굳이 선택 영역을 드래그하지 않아도 득표율의 공간분포를 확인할 수 있다. 

 

 

우선 서측 지역이 상대적으로 득표율이 낮은 가운데 높은 지역 두 곳이 눈에 띈다. 보라색과 파란색이다. 어디인지 한번 살펴보자.

양천구 목5동과 영등포구 여의동이다. 목5동의 경우, 인접한 목2동과 15% 이상의 득표율 차이를 보인다.

 

 

 

지도에서 확인해 보면, 목2동은 아파트보다 다세대다가구 주택들이 많다. 목5동은 대부분 아파트지역으로, 재건축을 바라는 주민들과 쉽게 허가가 나지 않는 상황들이 종종 보도된 적 있다.

 

 

이제 동쪽으로 가보자.

 

송파구 쪽에도 비슷한 상황이 있다. 잠실7동의 경우 80.7%로 오세훈 후보의 득표율이 꽤 높은 편인데, 인접한 잠실본동과 삼전동 지역은 57%, 53%다. 점들이 동시에 강조되는 우측 상단에서 볼 수 있듯이 득표율이 꽤 낮은 편에 속한다.

 

 

지도에서 확인해보자.

 

잠실7동은 아파트 지역, 잠실본동과 삼전동은 다세대다가구 밀집 지역이다.

 

재미있지 않은가? 그래프의 좌표공간이 아니라 지도상에서 주거 형식과 같은 다른 정보들과 결합해서 관찰해 보니, 생각이 약간 달라진다. 분석에서 도달하게 되는 결론은, 가설을 어떻게 세운 후 어떤 변수들 간의 관계를 보는 것과 관련이 많다. x축에 실거래가를 y축에 득표율을 두고 그래프를 그려보면 두 변수의 상관관계가 무척 강한 것처럼 보인다. 사실 이 말은 '틀리다'고 할 수는 없는데, 이렇게 하나씩 관찰하면서 지도에 놓고 보면 단순히 가격이 높고 낮음의 문제라기보다 주거형식의 차이가 좀 더 큰 요인일 수도 있음을 감지하게 된다.

 

물론, 다세대다가구가 일반적으로 아파트보다 실거래가가 낮으므로, 여기서처럼 아파트 매매 실거래가만으로 제한하지 말고 모든 단독, 다세대, 연립 모든 매매가를 바탕으로 다시 그려봐도 여전히 비슷할 수 있다. 그렇지만, 이렇게 관찰을 통해 변수를 바꿔보고 도달하게 되는 결론과, 선택적으로 변수를 취한 후 그 변수 안에서만 도달하게 되는 결론은 많이 달라질 수 있다. 어떤 정책을 세워 좀 더 서울을 살기 좋게 만들고, 사람들의 마음을 얻을 것인지의 전략을 세우는데도 영향을 미칠 수 있다는거다.

 

 

 

 

아웃라이어

 

데이터 관찰에서는 아웃라이어(outlier)도 중요하다. 전체 그룹에서 동떨어져 있는 데이터는 그저 우연일 수도 있다. 때문에, 개별 인자들의 산포도라면 하나하나 모두 관찰하고 의미를 부여하는 것은 무리스럽겠지만, 아래의 산포도는 개별 인자들이 아니라 몇천개 이상의 집합체다. 여기에 우연이 어디 있겠는가. 어디엔가 이유는 있기 마련이다. 우연처럼 보인다면 찾지 못했을 뿐.

 

우선 몇 개 살펴보자. 가격이 상대적으로 비교적 낮은 구간에서 아파트 매매 평균가는 비슷한데 오세훈 후보 득표율이 높은 곳을 살펴보자.

 

중구 장충동, 종로구 종로5.6가동, 중구 광희동, 강남구 대치4동 등이다. 우선 장충동, 종로5.6가동, 광희동은 비교적 유권자 수가 적다. 그래도 2000 이상이 되는 사람들이 우연히 저렇게 다른 선택을 했다는건 이해하기 어렵다. 

 

세 지역의 또 다른 공통점은 아파트가 별로 없다는 점이다. 실제로 이 데이터에 사용된 장충동의 1년간 실거래가 데이터는 고작 다섯 건에 불과하다. 아하. 사실 나는 y축 방향의 아웃라이어들이라고 생각했지만, x축 방향의 아웃라이어인 것 같다. x축 방향의 값을 결정하는 실거래가가 1년동안 5건에 불과하므로, 아파트 매매 실거래가 만으로는 장충동의 위치가 그래프 상에서 딱 저 곳이라고 결정하기 어렵다는 말이다. 

 

대치4동 역시 사정은 비슷하다. x축의 아웃라이어일 수 있다는 말이다. 대치동 학원가이기도 한 이 곳에는 아파트가 많지 않고, 소위 말하는 '대단지'가 아니어서 주변보다 매매 평균가가 낮다.(그래도 7억은 넘는다!) 어쨌든 x축의 아웃라이어가 맞다면, 실거래가와 같은 거주 형식 이슈로는 득표율에 관한 차이를 설명하기 어렵다.

 

이렇게 아웃라이어인 것 같은 점들을 관찰하다보니, 저 위의 그래프에서 점들의 크기를 실거래가 건수에 따라 다르게 두면 좀 더 좋겠다는 생각이 든다. 그렇게 하면 저 그래프 상에서는 점들의 크기가 큰 것들에 조금 더 관심을 두고 관찰할 수 있게 된다. 점들의 크기가 작은 것, 즉 실거래가 건수가 많지 않은 것들이 중요하지 않다는 말이 아니라, 그것들은 또 다른 변수를 끌고 와서 상관성을 생각해봐야 한다는 말이다.

 

 

네개 다 딱히 할만한 이야기를 못 건졌으므로 몇개 더 찾아봤다.

 

중랑구 망우본동과 성북구 장위3동. 각각 1년간 아파트 매매 실거래가 197건과 92건으로, 적당한 양이 된다. 그러면서도 같은 실거래가 가격대에서 오세훈 후보 득표율이 높은 편이다.

 

 

찾아보니 망우본동은 작년 9월에 서울형 도시재생활성화 지역으로 선정된 곳이다.

시의 예산이 투입되어 지역을 고쳐준다고 했으나, 사람들이 불만을 가진 것일까? 간단한 검색만으로 깊은 사정을 알 수는 없으나, 조금 더 궁금한 사람이라면 여기서부터 출발해 볼 수는 있겠다.

 

 

이번에는 장위3동을 한번 보자.

장위3동의 경우는 재정비촉진지구이며, 일부 지역은 뉴타운 사업이 진행중인 곳과 겹친다. 이미 철거된 구역도 있는 등, 장위동은 재개발 이슈가 한창이다. 두 지역 다 주택 문제와 연관되어 보인다. 지도 위에서 마우스를 움직여보는 것 만으로 단정짓기는 어렵지만, 역시 질문은 만들어볼 수 있겠다.

 

"아파트 가격이든 재개발 이슈든, 선거의 결과가 왜 이렇게 주택과 관련된 문제와 연관성이 높아 보이는가?"

 

 

 

 

'좋은 질문' 을 위한 데이터 관찰

 

"빅데이터 홍수의 시대에 데이터를 어떻게 다루어야 할까요? 무엇을 준비해야 할까요?"

 

누군가 이렇게 묻는다면, 나는 이렇게 대답하겠다. (아, 물론 다른 영역은 잘 모르겠고, 도시나 사회현상에 대한 데이터 얘기다.)

 

"데이터의 양이 많아지면 데이터 엔지니어는 필요합니다. 그렇지만 데이터를 분석하는 사람들이 갖추어야 할 본질은 달라지지 않습니다"

 

거창하게 말하면 '본질'이지만, 그게 아주 특별한건 아니다. 도시 데이터란 숫자로 환원된 상태지만, 그 본질은 사회현상이다. 다시 말하자면, 어떤 과정의 결과로서 숫자로 남겨져 있을 뿐이지만, 그 바탕에는 사람들의 생각과 마음, 혹은 사람들과 사물들 상호간의 관계에 대한 이유가 자리잡고 있다는 말이다. 그럼 그걸 분석하려면 어떻게 해야 하냐고? 당연히 내용을 공부해야 한다. 흔히 말하는 '도메인 지식'이 필요하다. 물론 그게 전부는 아니다. 대상에 가까이 다가가 면밀히 관찰을 해야 한다.

 

 

데이터와 관련된 많은 일들은 목적성이 강하다. 자전거 대여소를 어디에 더 설치해야 하는가? 시내버스 노선은 어디에 놓아야 하는가? 교통사고가 많이 발생할 수 있는 지역은 어디인가(예측)? 처럼 일단 우리 사회에는 당장 자본을 투입해서 실행해야 하는데 좀 더 최적의 해법을 데이터를 통해 찾으려고 한다.

 

그래서 여러가지 데이터들을 늘어놓고 이런저런 방법론으로 분석하다보면 어느 정도의 최적 해를 구할 수 있다. 실제로 잘 작동될 수도 있다. 하지만 데이터가 담고 있는 가치는 그 이상이다. 그 가치를 잘 찾아내기 위한 출발점에서는 데이터에 대한 호기심이 필요하다. 왜 여기에서는 자전거를 많이 빌렸을까? 왜 저곳은 그렇지 않을까? 왜 여기에서는 교통사고가 많이 났을까? 

 

그 이유는 다른 변수들이 회귀시키는 어떤 경향 때문이 아니라, 도시 안에 존재하는 사물과 사람들의 관계 때문이다. 그러므로 호기심 뒤에 필요한 단계는 회귀분석이나 클러스터링이 아닌 바로 '관찰'이다. 유동인구가 많아서 자전거를 많이 빌렸을 수도 있지만, 대중교통이 약간 불편하거나, 목적지가 버스타기에는 애매하게 가깝고 걷기에는 애매하게 멀어서 그럴 수도 있다. 덜 빌린 장소를 가보면 경사가 급하거나 주로 가야 하는 곳에 대여소가 없어서 그렇거나, 혹은 사거리의 애매한 위치에 있어서 굳이 빌리려고 신호등을 기다려 건너지 않기 때문일 수도 있다. 교통사고의 경우에도 차량이 많이 다니는데 신호가 없어서 그럴 수도 있지만, 신호등도 있고 차량도 많지 않은데, 도로폭이 좁아서 심리적으로 무단횡단을 하게 만들어 그럴 수도 있다.

 

물론 방금 언급한 내용도 모두 데이터로 만들 수 있다. 이런 데이터가 이미 모두 잘 갖춰져 있다면, 데이터를 면밀히 관찰하면서 분석하는 것만으로도 좋은 해답을 이끌어낼 수 있다. 그러나 그런 경우는 아주 드물다. 데이터를 살펴보면서 데이터 상에 존재하지 않는 현상들도 잡아내서 가설로 끌고 들어올 수 있어야 하는데, 그건 분석기술만으로는 어렵다. 해당 영역에 대한 지식과 경험이 있어야 항상 보이는 부분 뿐만 아니라 작동하는 기계 뚜껑을 열고서 호기심과 의심을 가져갈 수 있다.

 

그러므로 데이터가 아무리 많고 분석 기술이 다양해져도, 도메인 지식은 여전히 매우 중요하다. 이상적인 상황은, 분석 기술에 능한 사람이 어떤 영역을 공부해서 분석하는 것보다, 특정 영역의 전문가가 분석 기술을 배워서 분석하는 것이라 생각한다. 좋은 해답을 얻으려면 좋은 질문을 만들어내는 것이 아주 아주 중요한데, 이 좋은 질문을 만드는 일이야말로 데이터의 내용을 들여다 볼 수 있는 영역의 전문성이 있어야 가능하고 그건 꽤 오랜 시간 동안 갈고 닦아야만 만들어질 수 있기 때문이다.

사실 질문과 지식과 전문성은 딱히 어떤게 먼저라고 말하긴 어렵다. 영역을 전문성을 갖추는 과정의 출발 지점에는 기본적인 지식의 습득이 필요하겠지만, 지속적으로 탐구해나가려면 현상을 관찰하면서 좋은 질문을 만들고, 그 질문에 대한 해답을 스스로 찾아나갈 수 있어야 한다. 해답을 찾기 위해서는 또 다른 지식과 경험이 필요할 수도 있다.

 

데이터 관찰을 빠르고 쉽게 할 수 있는 도구가 필요한 이유들이 바로 여기에 있다. 나는 데이터 시각화 도구가 필요한 이유는 '탐색 - 분석 - 결과 전달' 세 가지 단계 중, 첫 번째 단계인 탐색에 있다고 생각한다. 데이터의 양이 적으면 적은대로, 많으면 많은대로 이런저런 조건들을 바꿔보면서 빠르게 현상을 관찰할 수 있다면 생각도 연속적으로 흘러갈 수 있다. 조건들을 바꾸고 결과를 그려내기 위해 약간의 시간이 필요하다면, 혹은 도시데이터의 경우 어쩔 수 없이 인위적인 경계 단위들로 집계를 해서 봐야 한다면, 사고의 흐름이 끊기거나 지리적 인접성에서 오는 이유들을 놓쳐버릴 수도 있다. 어떤 부분을 깊게 파고 들어간 영역 전문가들이라면, 의심되는 여러가지 요인들을 빠른 시간 안에 되도록 많이 보지 못해 늘 아쉬워 할 것이라 생각한다.

 

데이터를 행정구역으로 집계하지 않고, 미끄러지듯 지도상에서 마우스를 옮겨가면서 집계해볼 수 있거나, 남녀의 구분이나 성별의 구분을 분할된 화면에서 바로바로 비교해볼 수 있고, 복잡한 데이터는 복잡한대로 그 속성들을 빠르게 변경해보거나 때로는 확대해서 자세히 보며 데이터에 담긴 현상을 관찰할 수 있다면, 곧바로 좋은 분석으로 이어질 수도 있고, 또 다른 질문들을 만들어 내면서 궁극적인 문제 해결에 한걸음 더 접근해갈 수 있다.

 

아직 우리 사회에는 '좋은 질문'들이 부족하다. 물론 당장 해결해야 하는 문제는 해결하더라도, 한 편으로 한 템포 느리게 데이터로 꾸준히 무엇을 해 볼 수 있다면, 그것은 끊임없이 관찰하면서 좋은 질문들을 만들어내는 일이라 생각한다. 

나는 선으로 표현된 '경향'보다는 하나하나의 점들이 살아 있는 산포도를 더 좋아하는데, 전체적인 흐름이 보이면서도 개별적인 내용들이 살아 있기 때문이다. 내가 데이터 시각화에 매력을 느끼는 이유도 바로 그 점에 있다. 데이터가 많은데 뭉쳐서  하나의 숫자로 봐야만 한다면 얼마나 억울한가. 관찰이라는 것은, 때로는 한 발짝 멀리서 관망해야 하기도 하지만 때로는 밀착해서 하나하나를 면밀히 조사해 볼 수도 있어야 한다. 힌트는 전체와 개별자 혹은 그 중간의 어디에선가 숨어서 기다리고 있을 수 있기 때문이다.

 

 

 

다시, 선거 지도 

 

선거 지도에서 출발했으니 다시 그리로 돌아가보자.

 

정권을 잡는 것이 목적인 사람에게는 이유야 어떻든 저 그래프에서 점들의 y값들을 전체적으로 높여서 다른 후보를 앞지르는 것이 중요할테다. 그런 목적으로 선거의 승리를 위해 전략을 세운다면, 득표율과 어떤 변수들의 상관관계를 발견해내는게 중요할 수 있겠다.

 

하지만 굳이 지도를 확대해서 여기는 왜 그럴까 저기는 왜 그럴까 여기는 붙어있는데 왜 다를까 그런 이야기를 짧게라도 꺼내본 건, 그리고 시각화 도구를 만들어서 누군가 필요한 사람이 한 번 더 써볼 수 있도록 설명한 이유의 저변에는, 정권을 잡은 이들이 좋은 '정치'를 했으면 하는 바램이 놓여 있다. 이렇게 표현하고 나니 재활용한 시각화 따위를 빌미로 쓸데없이 거창해보인다는 생각도 드는데, 그렇다면 아까의 표현으로 돌아가보겠다.

 

행정동이면 행정동별로, 투표소라면 투표소별로 선거의 결과로 데이터가 남았다. 누군가는 이 데이터를 관찰하면서 좋은 질문들을 만들어냈으면 좋겠다. 물론 여기서 만든건 변수 하나만 끌고 온 아주 작은 부분에 불과하지만, 수 많은 질문들 중 한 개의 시작점은 될 수 있을 것 같다.

왜 아파트에 사는 사람들은 오세훈 후보에게 더 표를 많이 주었을까? 지난 선거와는 무엇이 달라졌기 때문에 마음이 변했을까? 시장이 추진할 수 있는 수 많은 정책들 중에 왜 주택과 관련된 문제가 이렇게 결과에 지배적인 요인처럼 보일까? 단순히 주택의 문제일까 혹은 정파라는 편가르기가 복합적으로 뒤섞인 결과일까? 왜 우리는 이렇게 서울과 아파트를 갈구하는가? 수요와 공급 곡선이 존재하는 경제학의 그래프 공간 때문이 아니라, 지리적 공간에서의 해답이 서울밖에 없도록 달리고 있는 도시계획 때문은 아닐까? 

 

어떤 후보를 찍는다는건, 결국 그 사람이 좀 더 나의 생활을 우리의 사회를 좋게 만들어주었으면 하는 바램 때문이다. '총 득표수'라는 숫자의 기저에는 결국 개별 행위자에서 출발한 바램들이 놓여있다. 우리 사회의 누군가는 사회 현상을 관찰하면서 그 바램과 이유들을 찾아낼 수 있는 좋은 질문을 던지고, 또 해법은 다양한 정책적 실험들을 통해 함께 풀어볼 수 있었으면 좋겠다.

 

 

"에, 그러니까, 왜 이 지도를 만들고 사용법을 적었다고요?"

 

"아, 이 데이터 정말 재미있지 않나요? 저만 보기가 아까워서 그랬습니다"

 

아마도 끙끙대면서 인터랙티브한 데이터 시각화를 만들어 본 사람들이라면 비슷한 대답을 할 것 같다.