Dataset이란? Dataset은 데이터 항목을 나타내는 추상 class이다. Pytorch에서 DataLoader를 사용하려면, Dataset class를 상속받아 최소 두개의 method인 __len__(), __getitem__()를 override해야한다. * 데이터를 load하고 batch로 구성할 때 DataLoaser, Dataset을 사용하면, 전처리 및 로딩 과정이 효율적이고 간편해진다. Dataset object를 구성할 때 필요한 method # __init__() : 데이터셋의 초기화 매서드 - 데이터 경로, train, test set 정의 등 # __len__() : 데이터셋 크기를 반환함 - DataLoader에서 배치 처리를 위해 길이를 반환하는 것이 필요함 # __geti..

1. 데이터 준비하기 torchvision에 built-in 데이터셋인 CIFAR10 dataset에 CNN모델을 이용한 이미지 classification을 진행해보자. CIFAR10 dataset은 32x32사이즈, (비행기, 차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭)으로 총 10가지 카테고리로 분류된다. 각 카테고리별 6천개, 총 6만개의 이미지이고 training image 5만개, test image 1만개로 구성되어 있다. from torchvision.datasets import CIFAR10 from torchvision.transforms import transforms from torch.utils.data import DataLoader 아래 링크에서 CIFAR10이외에..

pytorch의 tutorial 을 제가 가지고 있는 데이터셋에 적용해보았습니다. import torch from torch import nn import torch.utils.data as data from torchtext.vocab import build_vocab_from_iterator from torch.utils.data import Dataset, DataLoader import time from torch.utils.data.dataset import random_split from torchtext.data.functional import to_map_style_dataset 데이터 준비하기 dataframe을 이용해 torchtext.datasets에서 import한것과 같은 형태의 ..