본문 바로가기

시각화/tableau 굿모닝 굿애프터눈

Tableau Prep: Tableau Prep을 통해 효율적으로 전처리하기

Tableau Prep은 데이터를 전처리 하는 데에 용이하다. 데이터를 흐름에 따라 도식화 하는 것이 용이하고, 데이터를 직접적으로 확인, 정리 할 수 있다. 또한, 형식이 서로 다른 데이터들을 서로 결합하였을 때도 쉽게 관리할 수 있다. 


태블로 굿모닝 굿애프터는 교재에서 제공하는 '시도_합계 출산율_1993-2018xlsx' 파일로 실습하겠다. 아래는 파일을 엑셀에서 열었을 때의 모습이다. 연도는 셀 합병이 되어있고 연도별 시도와 나이별 출산률과 집계로 구성된다. 

셀 합병은 태블로가 직접적으로 이해할 수 있는 형식이 아니므로, tableau prep에서 파일을 열고, 연결 패널에 있는 '데이터 해석기로 정리됨' 체크 박스를 선택한다. 

 

 

흐름 패널에서 데이터 테이블 우측의 + 버튼에서 '정리 단계'를 선택하면 하단에 프로필 패널데이터 그리드가 나타난다. 이처럼 tableu prep에는 직접 데이터를 편집하지 않아도 쉽게 시각화가 가능하다. 

 

피벗을 적용하고자 하는 필드를 '1993 20-24세'부터 '2018 합계출산율'을 모두 선택하여 피벗된 필드 창으로 drag and drop 해준다. 피벗 결과 창에 시도별 필드를 제외한 필드들이 '피벗1 이름'과 '피벗1 값'으로 정리된다.

 

 

피벗1 이름 필드의 전구 아이콘을 누르면 필드의 년도 값을 분할하기를 권장하고 있다. '적용'을 누르면 '피벗1 이름' 필드가 '피벗1 이름 - 분할1'과 '피벗1 이름 - 분할2' 필드로 분리된다.

'피벗 1 이름' 필드를 이제 사용하지 않기에 제거해주고, 각각 분할된 필드명을 연도와 나이로 변경한다. 

나이 필드의 '모의 연령별 출산율: 15-19세'가 있는데, 이는 다른 연령별 출산율과 다르지 않게 취급되므로 '15-19세'로 변경한다.

또한, '피벗1 값' 필드명을 '출산율'로 변경해준다. 

 

현재는 시도별 연도, 나이, 출산율이 같이 나오는데, 전국 단위의 출산율만 보고자 전국>이 항목만 유지를 선택한다. 

 

 

전국적인 연도, 나이별 출산율이 표시된다. 다만 필드명은 연도, 나이, 출산율로 지정되지 않은 상태이다. 이럴 땐 변경 내용에서 맨 마지막 항목인 '필드명 바꾸기>출산율'을 선택하면 필드명을 포함한 모든 변경 내용이 가장 최근 상태의 것으로 변경된다. 

 

 

전처리 과정이 모두 끝났으므로 해당 파일을 .hyper 형식으로 변경한 후 Tableau Desktop에서 불러와서 사용할 수 있게 해주어야 한다. 상단의 데이터 테이블에서 '출력'을 선택한다.

 

파일을 .hyper 형태로 선택하고 '흐름 실행' 버튼을 누른다. 파일은 내 Tableau Prep 리포지토리>데이터 원본 폴더 안에 디폴트로 저장이 된다. 

 

 

이렇게 전처리 완료된 파일을 Tableau Desktop에서 확인하겠다. 파일에 연결>자세히... 에서 파일을 불러왔다. 이 파일을 워크시트에서 다루기 좋은 형태로 바꿔주겠다.

 

시도별 필드에는 '전국'밖에 없으니 이 필드를 숨기기 해주고, 연도 필드는 날짜 데이터이므로 형식을 문자열이 아닌 날짜로 수정했다. 

 

이제 워크시트로 이동해서 년도와 나이별 출산율 테이블을 생성하겠다. 연도, 나이, 출산율을 더블클릭하여 시트에 올리면 자동적으로 텍스트 마크의 테이블이 생성된다. 

 

출산율의 변화를 시각적으로 표현하기 위해 마크 카드를 사각형으로 변경하고 출산율을 색상 마크에 올렸다. 출산율이 높을 수록 색상을 진하게 표시하기 위해 위와 같이 색상 범례를 설정했다. 

 

1900년대에는 25-29세의 출산율이 매우 높았던 것에 반해 최근으로 올 수록 30-34세로 산모의 나이가 높아지고 있음을 알 수 있다. 이 추세로 간다면 몇 년 뒤에는 35-39세의 출산이 더 많아질 수도 있을 것이다.