Dataset이란? Dataset은 데이터 항목을 나타내는 추상 class이다. Pytorch에서 DataLoader를 사용하려면, Dataset class를 상속받아 최소 두개의 method인 __len__(), __getitem__()를 override해야한다. * 데이터를 load하고 batch로 구성할 때 DataLoaser, Dataset을 사용하면, 전처리 및 로딩 과정이 효율적이고 간편해진다. Dataset object를 구성할 때 필요한 method # __init__() : 데이터셋의 초기화 매서드 - 데이터 경로, train, test set 정의 등 # __len__() : 데이터셋 크기를 반환함 - DataLoader에서 배치 처리를 위해 길이를 반환하는 것이 필요함 # __geti..

1. 데이터 준비하기 torchvision에 built-in 데이터셋인 CIFAR10 dataset에 CNN모델을 이용한 이미지 classification을 진행해보자. CIFAR10 dataset은 32x32사이즈, (비행기, 차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭)으로 총 10가지 카테고리로 분류된다. 각 카테고리별 6천개, 총 6만개의 이미지이고 training image 5만개, test image 1만개로 구성되어 있다. from torchvision.datasets import CIFAR10 from torchvision.transforms import transforms from torch.utils.data import DataLoader 아래 링크에서 CIFAR10이외에..

snowflake 공식 문서의 chapter6에서는 3가지 방법으로 snowflake에서 data를 loading하고 unloading하는 방법을 다룬다. data loading은 insert를 뜻하는데, 그 중 첫번째 방법을 사용해봤다. snowlight worksheet를 통해 SQL insert문 사용하기 classic console에서 snow wizard 사용하기 snowSQL에서 CLI (command-line interface) 사용하기 (1) row 하나씩 insert 하기 (INSERT INTO) : structured / semi-structured data INSERT INTO, VALUE절을 통해 insert할 수 있다. --CREATE TABLE CREATE OR REPLACE T..

pytorch의 tutorial 을 제가 가지고 있는 데이터셋에 적용해보았습니다. import torch from torch import nn import torch.utils.data as data from torchtext.vocab import build_vocab_from_iterator from torch.utils.data import Dataset, DataLoader import time from torch.utils.data.dataset import random_split from torchtext.data.functional import to_map_style_dataset 데이터 준비하기 dataframe을 이용해 torchtext.datasets에서 import한것과 같은 형태의 ..