본문 바로가기

분류 전체보기

(150)
LSTM 실습: imdb 예제 import tensorflow as tf from tensorflow import keras from keras.datasets import imdb (X_train,y_train),(X_test,y_test) = imdb.load_data(num_words=10000) keras의 기본 제공 데이터셋에서 imdb 데이터를 불러온다. 이는 imdb 사이트의 영화 리뷰 데이터이다. print(X_train.shape) print(y_train.shape) print(X_test.shape) print(y_test.shape) (25000,) (25000,) (25000,) (25000,) train set과 test set 모두 25000개의 데이터를 가지고 있다. X_train은 25000개의 list..
KNU 한국어 감성사전: 논문 리뷰 KNU 한국어 감성사전 KNU 한국어 감성사전은 표준 국어 대사전의 뜻풀이의 감성을 Bi-LSTM으로 긍정 뜻풀이와 부정 뜻풀이로 분류했다. 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1 gram, 2 gram, 어구, 문형 등의 형태로 추출했다. 그 외에도 SenticNet, 감정동사, 감정사전, 신조어, 이모티콘으로 다양한 감성 어휘를 확장했다. 이렇게 구축된 감성사전은 특정 도메인의 감성 사전을 구축하는 데 기반이 되고 감성분석, 기계 학습을 위한 학습 데이터 세트의 구축에 용이하다. ex) '슬프다'라는 단어가 제품 리뷰에 있으면 부정적인 리뷰라고 생각할 수 있으나, 영화 리뷰에 있으면 영화에 대한 부정적인 평가라고 생각하기 어렵다..
Transformer: multihead attention을 중심으로 https://www.youtube.com/watch?v=Yk1tV_cXMMU 위 동영상을 참고하여 작성했습니다. Transformer의 구조 (1) Input Embedding (2) Positional Encoding (3) Encoder > Self multihead Attention (4) Add & Normalization (5) Feed Forward Neural Network (6) Decoder > Masked multihead Attention (7) (Encoder & Decoder) Multihead Attention (8) Linear & Softmax Layer Encoder과 Decoder transformer에서 encoder와 decoder은 같은 개수로 여러 층이 쌓여 있는..
Google SpreadSheet로 웹데이터 크롤링하기: Wikipedia 데이터 불러오기 위키피디아에서 미국 메이저리그 야구장 리스트를 크롤링하여 Tableau로 불러오는 실습을 할 것이다. (태블로 굿모닝 굿애프터눈 도서 참조) https://en.wikipedia.org/wiki/List_of_current_Major_League_Baseball_stadiums List of current Major League Baseball stadiums - Wikipedia Wikimedia list article There are 30 stadiums in use by Major League Baseball (MLB) teams. The oldest ballpark is Fenway Park in Boston, home of the Boston Red Sox, which opened in 191..
Tableau Prep: Tableau Prep Builder로 데이터 결합하기 태블로 굿모닝 굿애프터눈 교재에서 제공하는 슈퍼스토어(2016~2019년, 반품, 지역 관리자) 파일을 이용하여 실습하겠다. (1) 주문 테이블 연결 Tableau Prep Builder를 열고 '데이터에 연결' 버튼을 눌러 슈퍼스토어_2016.xlsx 부터 슈퍼스토어_2019.xlsx 파일을 동시에 연다. 파일 4개에 대한 테이블이 표시되는데, 4개의 파일을 drag and drop으로 유니온 연결 해준다. 각 테이블에 대한 필드를 확인할 수 있는데, '불일치 필드'에서 알 수 있듯이, 주문_2019 테이블에는 필드명이 '할인율', '수익'이 아닌 '할인', '이익'으로 다르게 표시되어 있다. '일치하지 않은 필드만 표시'를 체크하면 2019년 테이블에는 할인율이 아닌 할인이, 수익이 아닌 이익으로 필..
Tableau Prep: Tableau Prep을 통해 효율적으로 전처리하기 Tableau Prep은 데이터를 전처리 하는 데에 용이하다. 데이터를 흐름에 따라 도식화 하는 것이 용이하고, 데이터를 직접적으로 확인, 정리 할 수 있다. 또한, 형식이 서로 다른 데이터들을 서로 결합하였을 때도 쉽게 관리할 수 있다. 태블로 굿모닝 굿애프터는 교재에서 제공하는 '시도_합계 출산율_1993-2018xlsx' 파일로 실습하겠다. 아래는 파일을 엑셀에서 열었을 때의 모습이다. 연도는 셀 합병이 되어있고 연도별 시도와 나이별 출산률과 집계로 구성된다. 셀 합병은 태블로가 직접적으로 이해할 수 있는 형식이 아니므로, tableau prep에서 파일을 열고, 연결 패널에 있는 '데이터 해석기로 정리됨' 체크 박스를 선택한다. 흐름 패널에서 데이터 테이블 우측의 + 버튼에서 '정리 단계'를 선택..
데이터 원본 설정하기: 데이터 해석기 사용 및 데이터 원본 필터 적용 태블로 굿모닝 굿애프터눈 책에서 제공하는 '201907_201907_연령별인구현황_월간.xlsx' 파일을 이용하여 실습하겠다. 원본 엑셀 파일을 들어가보면 실제 데이터는 5행부터 들어있다. 태블로에서 엑셀 파일을 바로 열면 우리가 원하는 데이터 필드명과 데이터 값들이 제대로 인식되지 않을 것이다. 이처럼 칼럼명이 총인구수, 연령구간인구수, ... 로 들어가지 않고 기본값인 F2, F3, ... 으로 설정되어 있다. 태블로가 이를 자동으로 처리하고 해석할 수 있도록 하는 기능이 '데이터 해석기'이다. 좌측의 '데이터 해석기 사용'을 체크표시 하겠다. '데이터 해석기로 지워짐'이 체크표시 되고, 우리가 원하는 칼럼대로 자동으로 데이터가 정리됐다. 체크표시 아래 '결과를 검토하시오' 링크를 선택하면 엑셀 파일..
CNN 실습: fashion mnist 예제 import tensorflow as tf from tensorflow import keras import keras.datasets as d help(d) keras에서 제공하는 데이터셋은 boston_housing(보스턴 집값 예측), cifar(이미지 분류), mnist(손글씨 분류), fashion_mnist(의류 분류), imdb(영화 리뷰 감정 분류), reuters(뉴스 토픽 분류)가 있다. fmnist = keras.datasets.fashion_mnist (X_train,y_train),(X_test,y_test) = fmnist.load_data() print(X_train.shape) print(y_train.shape) print(X_test.shape) print(y_test.sh..