엑셀을 벗어나기 전에 — 공공 데이터 분석의 첫 단추
"데이터 분석을 해 보자"는 말이 나오면 대개 도구 이야기로 빠진다. 파이썬을 배워야 하나, 무슨 시각화 프로그램을 깔아야 하나. 그런데 막상 일이 막히는 지점은 도구가 아니라 그 앞에 있었다. 데이터가 분석할 수 있는 상태가 아니라는 것.
분석의 8할은 데이터를 정리하는 일이다
현업에서 받는 표는 사람이 보기 좋게 만들어져 있다. 셀이 병합되어 있고, 한 칸에 "서울 강남구(3건)"처럼 값과 설명이 같이 들어 있고, 같은 부서 이름이 "기획과", "기획 과", "기획팀"으로 제각각 적혀 있다. 사람 눈에는 다 같은 뜻이지만, 기계는 셋을 다른 값으로 센다. 합계가 어긋나는 일의 상당수가 여기서 생긴다.
그래서 분석을 시작하기 전에 표를 한 줄에 한 사건, 한 칸에 한 가지 값이 들어가도록 펴는 작업부터 한다. 지루하지만 이 단계를 건너뛰면 뒤에서 두 배로 돌아온다.
엑셀로 충분한 일이 생각보다 많다
피벗 테이블과 함수 몇 개로 풀리는 질문이라면 굳이 다른 도구로 옮길 이유가 없다. 내가 도구를 바꾼 건 세 가지 중 하나에 걸렸을 때였다. 파일이 무거워 엑셀이 버벅이기 시작할 때, 매달 같은 정리를 반복해 자동화가 필요할 때, 그리고 "이 숫자를 어떻게 뽑았는지" 6개월 뒤의 내가 재현할 수 없을 때.
마지막 이유가 의외로 컸다. 클릭으로 만든 결과는 과정이 남지 않는다. 같은 표를 다시 받았을 때 똑같이 처리했다고 장담하기 어렵다. 처리 과정을 코드나 절차로 적어 두면, 데이터가 갱신돼도 같은 결과를 다시 만들 수 있다.
숫자보다 질문이 먼저다
가장 자주 한 실수는 데이터를 받자마자 그래프부터 그린 것이다. 보기에는 그럴듯한데, 정작 "그래서 무엇을 결정하려는 건가"에 답하지 못하는 그림이 쌓였다. 지금은 분석 전에 한 문장을 먼저 적는다. "이 분석으로 어떤 판단을 내리고 싶은가." 이 문장이 분명하면 어떤 값을 봐야 하는지가 따라오고, 불필요한 그림을 그릴 일이 줄었다.
공공 데이터에는 빈칸, 이상값, 집계 기준이 바뀐 구간이 섞여 있다. 평균 하나로 뭉뚱그리면 그 안의 쏠림이 가려진다. 전체 평균이 비슷해 보여도 지역별로 갈라 보면 전혀 다른 그림이 나오는 경우가 많았다. 데이터를 믿되, 한 번은 의심하고 갈라 보는 습관이 도구보다 오래 남았다.