본문 바로가기

시각화/tableau 굿모닝 굿애프터눈

(47)
Google SpreadSheet로 웹데이터 크롤링하기: Wikipedia 데이터 불러오기 위키피디아에서 미국 메이저리그 야구장 리스트를 크롤링하여 Tableau로 불러오는 실습을 할 것이다. (태블로 굿모닝 굿애프터눈 도서 참조) https://en.wikipedia.org/wiki/List_of_current_Major_League_Baseball_stadiums List of current Major League Baseball stadiums - Wikipedia Wikimedia list article There are 30 stadiums in use by Major League Baseball (MLB) teams. The oldest ballpark is Fenway Park in Boston, home of the Boston Red Sox, which opened in 191..
Tableau Prep: Tableau Prep Builder로 데이터 결합하기 태블로 굿모닝 굿애프터눈 교재에서 제공하는 슈퍼스토어(2016~2019년, 반품, 지역 관리자) 파일을 이용하여 실습하겠다. (1) 주문 테이블 연결 Tableau Prep Builder를 열고 '데이터에 연결' 버튼을 눌러 슈퍼스토어_2016.xlsx 부터 슈퍼스토어_2019.xlsx 파일을 동시에 연다. 파일 4개에 대한 테이블이 표시되는데, 4개의 파일을 drag and drop으로 유니온 연결 해준다. 각 테이블에 대한 필드를 확인할 수 있는데, '불일치 필드'에서 알 수 있듯이, 주문_2019 테이블에는 필드명이 '할인율', '수익'이 아닌 '할인', '이익'으로 다르게 표시되어 있다. '일치하지 않은 필드만 표시'를 체크하면 2019년 테이블에는 할인율이 아닌 할인이, 수익이 아닌 이익으로 필..
Tableau Prep: Tableau Prep을 통해 효율적으로 전처리하기 Tableau Prep은 데이터를 전처리 하는 데에 용이하다. 데이터를 흐름에 따라 도식화 하는 것이 용이하고, 데이터를 직접적으로 확인, 정리 할 수 있다. 또한, 형식이 서로 다른 데이터들을 서로 결합하였을 때도 쉽게 관리할 수 있다. 태블로 굿모닝 굿애프터는 교재에서 제공하는 '시도_합계 출산율_1993-2018xlsx' 파일로 실습하겠다. 아래는 파일을 엑셀에서 열었을 때의 모습이다. 연도는 셀 합병이 되어있고 연도별 시도와 나이별 출산률과 집계로 구성된다. 셀 합병은 태블로가 직접적으로 이해할 수 있는 형식이 아니므로, tableau prep에서 파일을 열고, 연결 패널에 있는 '데이터 해석기로 정리됨' 체크 박스를 선택한다. 흐름 패널에서 데이터 테이블 우측의 + 버튼에서 '정리 단계'를 선택..
데이터 원본 설정하기: 데이터 해석기 사용 및 데이터 원본 필터 적용 태블로 굿모닝 굿애프터눈 책에서 제공하는 '201907_201907_연령별인구현황_월간.xlsx' 파일을 이용하여 실습하겠다. 원본 엑셀 파일을 들어가보면 실제 데이터는 5행부터 들어있다. 태블로에서 엑셀 파일을 바로 열면 우리가 원하는 데이터 필드명과 데이터 값들이 제대로 인식되지 않을 것이다. 이처럼 칼럼명이 총인구수, 연령구간인구수, ... 로 들어가지 않고 기본값인 F2, F3, ... 으로 설정되어 있다. 태블로가 이를 자동으로 처리하고 해석할 수 있도록 하는 기능이 '데이터 해석기'이다. 좌측의 '데이터 해석기 사용'을 체크표시 하겠다. '데이터 해석기로 지워짐'이 체크표시 되고, 우리가 원하는 칼럼대로 자동으로 데이터가 정리됐다. 체크표시 아래 '결과를 검토하시오' 링크를 선택하면 엑셀 파일..
데이터 원본 설정하기: 사용자 지정 분할 태블로에서 '분할'과 '계산된 필드 만들기'를 통해 필드를 분할할 수 있다. 오늘은 분할 방식으로 '스타벅스 구매목록.xlsx' 파일의 필드를 분할 처리 하겠다. 자료 출처: 태블로 굿모닝 굿애프터눈 (1) 데이터 원본 편집 -1) 사용자 지정 분할로 하나의 칼럼을 구분자를 기준으로 여러 칼럼으로 나누기 '스타벅스 구매목록.xlsx' 파일을 열어주니 데이터 원본 페이지에서 구매 번호, 아이템, 원가격, 결재금액, 쿠폰 사용 여부 칼럼을 확인할 수 있다. 아이템 칼럼에서 '-' 구분기호 앞에는 Iced 여부를, ')' 구분기호 앞에는 음료의 사이즈를, 그 뒤에는 음료의 종류를 알려준다. 이 구분기호를 기준으로 사용자 지정 분할을 수행하겠다. 아이템 칼럼의 삼각형 표시>사용자 지정 분할을 선택한다. 먼저, ..
데이터 원본 설정하기: 유니온(Union) 유니온(Union) 비슷한 포맷의 데이터를 Union으로 통합하면 한 테이블의 행을 다른 테이블에 추가하여 좌우가 아닌 상하로 테이블을 결합할 수 있다. (1) 유니온으로 년도 시트 연결하기 '서울날씨_최고기온.xlsx' 파일을 선택하여 파일을 연결하면, 1990년부터 2019년의 월,일간 날씨가 서로 다른 시트로 표시된다. 1990년 시트 아래 1991년부터 2019년 시트까지 유니온 방법으로 연결할 것이다. (i) 시트를 하나씩 붙이기 1990년 시트가 캔버스에 표시된 상태에서, 1991년 시트를 1990년 시트 하단 근처에 '유니온으로 테이블 끌기'가 표시될 때까지 끌어준 후 놓으면, 유니온으로 두 시트가 위아래로 붙여진다. (ii) 여러 시트 한 번에 붙이기 혹은 1990년 시트를 선택한 후 20..
데이터 원본 설정하기: 블렌딩(Blending) 블렌딩(Blending) 블렌딩은 데이터를 좌우로 붙인다는 점에서 조인 연결과 유사해 보인다. 하지만 조인 연결은 데이터를 연결한 후에 집계를 하지만, 블렌딩은 데이터 원본은 별도로 둔 상태에서 시트에서 데이터를 집계 한 다음 결합을 한다는 점에서 다르다. 아래의 상황에서 조인보다 블렌딩이 적합하다. 교차 데이터베이스 조인이 지원되지 않는 경우 데이터의 세부 수준이 다른 경우 데이터가 많은 경우 (조인으로 데이터를 연결하여 집계할 경우 성능에 상당한 영향을 끼칠 수 있기에, 데이터를 집계 후 연결하는 블렌딩이 적합할 수 있다.) 'SUPERSTORE_2019.xlsx' 파일을 선택하여 열어준다. 주문 일자를 열선반에 올리고 매출을 더블클릭하면, 주문 일자(년도) 별 매출 합계가 표시된다. 이제 'SUPE..
데이터 원본 설정하기: 교차 데이터베이스 조인 연결하기 - 달력(오른쪽 조인) 교차 데이터베이스 조인 연결 : 서로 다른 원본 데이터의 조인 연결 (1) 특정 날짜가 누락된 파일에서 캘린더 차트 만들어보기 'SUPERSTORE_201909.xlsx' 파일의 매출 시트를 열겠다. 2019년 9월 한달 동안의 주문 일자와 매출 합계가 총 28개의 행으로 표시되어 있다. 2019년 9월 한달의 캘린더 차트를 만들겠다. 좌측 테이블의 주문 일자를 마우스 우클릭을 한 채 선반에 올리면 올릴 수 있는 필드가 나온다. 열선반에 불연속 년월, 불연속 요일을, 행선반에 불연속 주를 올려서 달력 모양을 만들었다. 주문 일자를 우클릭하여 텍스트 마크에 불연속 일을 올렸다. 해당 데이터 원본에는 매장이 영업하지 않은 8일, 22일의 날짜가 표시되지 않았다. 해당 날짜도 캘린더에 표시하기 위해 임의로 날..