본문 바로가기

시각화/tableau 굿모닝 굿애프터눈

데이터 원본 설정하기: 데이터 해석기 사용 및 데이터 원본 필터 적용

태블로 굿모닝 굿애프터눈 책에서 제공하는 '201907_201907_연령별인구현황_월간.xlsx' 파일을 이용하여 실습하겠다.

 

원본 엑셀 파일을 들어가보면 실제 데이터는 5행부터 들어있다. 태블로에서 엑셀 파일을 바로 열면 우리가 원하는 데이터 필드명과 데이터 값들이 제대로 인식되지 않을 것이다.

 

 

이처럼 칼럼명이 총인구수, 연령구간인구수, ... 로 들어가지 않고 기본값인 F2, F3, ... 으로 설정되어 있다. 태블로가 이를 자동으로 처리하고 해석할 수 있도록 하는 기능이 '데이터 해석기'이다. 좌측의 '데이터 해석기 사용'을 체크표시 하겠다. 

 

 '데이터 해석기로 지워짐'이 체크표시 되고, 우리가 원하는 칼럼대로 자동으로 데이터가 정리됐다. 체크표시 아래 '결과를 검토하시오' 링크를 선택하면 엑셀 파일에서 어떻게 해석되었는지도 확인할 수 있다.

 

데이터는 각 행정기관의 성별과 연령대별 인구 분포를 나타내는데, 칼럼은 행정기관, 남 총 인구수, 남 연령구간 총 인구수, 남성 나이별 인구수, 여성 칼럼도 이하 동일하다. 전체 합계를 나타내는 남/녀의 총인구수, 연령구간 총인구수 칼럼은 숨기기 처리 해주었다. 

 

 

데이터를 성별, 나이대별 인구 분포가 아닌 행정기관 별로 인구 분포를 각각 보기 위해 나이대별 컬럼을 모두 선택하여 피벗을 만들어주었다.

 

피벗필드명 칼럼에 성별과 나이대가 함께 나와있으므로 사용자 지정 분할을 선택해서 칼럼을 두 개로 나누어 주겠다. 띄어쓰기를 기준으로 칼럼을 나누기 위헤 구분 기호 사용에 ' '을 넣어 주었다.

 

'100세 이상'의 값에서도 띄어쓰기가 있어서 여기서 불필요하게 칼럼이 나뉘었다. 

 

'계산된 필드 만들기'에서 나이대가 있는 칼럼과 '이상'이 속한 칼럼을 +로 이어주었다.

 

다음으로 행정기관 칼럼을 분할하겠다. '행정기관' 칼럼은 행정기관명 (행정기관코드)으로 구성되어 있는데, 일단 행정기관코드를 분리하기 위해 사용자지정분할에서 구분 기호 사용을 ' ('로 처리하였다. 

 

행정기관 - 분할1 칼럼과 행정기관 - 분할2 칼럼이 생성되었는데, 행정기관 - 분할2 칼럼에 불필요하게 ')'가 포함되어 있으므로, 여기서도 사용자지정 분할 > 구분기호 사용 > ')'을 선택한 뒤 생성된 분할 칼럼을 숨기기 처리 해준다. 

 

또한, 태블로 데이터 요약 화면에서는 확인되지 않지만, 시도, 시군구 뒤에 일반구도 있는 경우가 있다. 따라서 행정기관 - 분할 1을 띄어쓰기 기준으로 분할하면 시도, 시군구, 일반구의 세개의 칼럼이 생길 것이다.

 

 

사용자 지정 분할>구분기호사용 ' ' 으로 선택한다. 

 

결과적으로, 숨길 필드는 숨겨서 이와 같은 데이터가 생성된다.

 

 

우리 데이터는 행정기관 계층이 시도>시군구>일반구로 구성되어있고, 데이터에는 시도의 성별/나이에 대한 집계 -> 시도 별 시군구의 성별/나이에 대한 집계 -> 시군구 별 성별/나이에 대한 집계 순으로 정렬되어 있다. 따라서 일반구 필드가 null인 데이터는 시군구별 집계까지 완료된 데이터이고, 이것으로 인구 수를 시군구 기준으로만 볼 수 있다. 

=> 이를 '필터 추가'에서 확인하겠다. 

필터 추가>일반구 선택> 빈 값만 체크하면 일반구 필드에는 없는 값들만 나타난다.

 

 

 

또한, 시도의 성별/나이에 대한 집계도 필터 처리 해주겠다. 시군구 정보가 없고 시도에 대한 집계만 있는 데이터의 행정기관 코드는 모두 00000000으로 끝난다는 특징을 가지고 있다. 따라서 필터추가>행정기관 코드>와일드카드>00000000으로 끝나지 않는 것들만 필터링 해주었고 총 278개의 행정기관 코드 중 261개만 남게 되었다.