[Pytorch] 데이터셋

728x90

파이토치 한국사용자 모임의 글을 보면서 공부한 내용을 정리한 글입니다.

파이토치는 다양한 데이터셋을 제공하며 이런 데이터셋들을 통해 모델을 만들어보고 성능을 측정하는데 사용할 수 있다.

Datasets — Torchvision 0.16 documentation

Shortcuts

pytorch.org

torchtext.datasets — Torchtext 0.16 documentation

Shortcuts

pytorch.org

torchaudio.datasets — Torchaudio 2.1.2 documentation

Docs > torchaudio.datasets > Old version (stable) Shortcuts

pytorch.org

데이터셋 불러오기

import torch
from torch.utils.data import Dataset
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt


training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

데이터셋은 라이브러리가 따로 존재하므로 문서를 보고 확인해보자.

Fashion-MNIST 데이터셋을 불러오는 코드를 분석해보자.

root : 학습/테스트 데이터가 저장되는 경로
train : 학습/테스트 데이터셋 여부
download : root에 데이터가 없는 경우 인터넷에서 다운로드
transform : transform과 target_transform은 특징(feature)과 정답(label) 변형(transform)을 지정한다.

Dataset에 리스트 처럼 indexing 할 수 있다.

labels_map = {
    0: "T-Shirt",
    1: "Trouser",
    2: "Pullover",
    3: "Dress",
    4: "Coat",
    5: "Sandal",
    6: "Shirt",
    7: "Sneaker",
    8: "Bag",
    9: "Ankle Boot",
}
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):
    sample_idx = torch.randint(len(training_data), size=(1,)).item()
    img, label = training_data[sample_idx]
    figure.add_subplot(rows, cols, i)
    plt.title(labels_map[label])
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")
plt.show()

사용자 정의 데이터셋 만들기

import os
import pandas as pd
from torchvision.io import read_image

class CustomImageDataset(Dataset):
    def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
        self.img_labels = pd.read_csv(annotations_file, names=['file_name', 'label'])
        self.img_dir = img_dir
        self.transform = transform
        self.target_transform = target_transform

    def __len__(self):
        return len(self.img_labels)

    def __getitem__(self, idx):
        img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
        image = read_image(img_path)
        label = self.img_labels.iloc[idx, 1]
        if self.transform:
            image = self.transform(image)
        if self.target_transform:
            label = self.target_transform(label)
        return image, label

사용자 정의 데이터셋은 반드시 3개의 함수를 구현해야 한다.

__init__ : 생성자, 이미지와 주석 파일이 포함된 디렉토리와 두가지 변형(transform, target_transform)을 초기화한다.
__len__ : 데이터셋의 샘플 개수를 반환
__getitem__ : 주어진 인덱스(idx)에 해당하는 샘플 데이터셋을 불러오고 반환, 인덱스를 기반으로 디스크에서 이미지의 위치를 식별하고, read_image를 사용하여 이미지를 텐서로 변환한 다음, self.img_labels의 csv 데이터로부터 해당하는 정답을 가져오고, transform 함수들을 호출한 뒤, 텐서 이미지와 라벨을 Python dict 형으로 반환한다.

DataLoader

DataLoader는 간단한 API로 Dataset의 복잡한 과정들을 추상화한 순회 가능한 객체이다.

Dataset은 데이터셋의 특징을 가져오고 하나의 샘플에 정답을 지정하는 일을 한번에 한다.
모델 학습 시 일반적으로 샘플들을 미니배치로 전달 -> epoch 마다 데이터를 다시 섞어 Overfitting 방지 -> Python의 multiprocessing을 사용해 데이터 검색속도를 높이려고 함.

from torch.utils.data import DataLoader

train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)
print(train_dataloader)
print(test_dataloader)

순회하기(iterate) : 각 순회는 train_features와 train_labels의 묶음(batch)를 반환, shuffle=True일 경우 모든 배치를 순회한 뒤 데이터를 섞는다.

# 이미지와 정답(label)을 표시합니다.
train_features, train_labels = next(iter(train_dataloader))
print(f"Feature batch shape: {train_features.size()}")
print(f"Labels batch shape: {train_labels.size()}")
img = train_features[0].squeeze()
label = train_labels[0]
plt.imshow(img, cmap="gray")
plt.show()
print(f"Label: {label}")

2. Dataset.ipynb

Colaboratory notebook

colab.research.google.com

728x90

저작자표시 변경금지

'AI > AI 라이브러리' 카테고리의 다른 글

[Pytorch] 모델 매개변수 최적화하기 (0)	2023.12.28
[Pytorch] Autograd (0)	2023.12.28
[Pytorch] 신경망 모델 구성하기 (0)	2023.12.27
[Pytorch] 변형(Transform) (0)	2023.12.27
[Pytorch] 파이토치 시작하기 (0)	2023.12.27

Pupbani's Lab

[Pytorch] 데이터셋

데이터셋 불러오기

사용자 정의 데이터셋 만들기

DataLoader

'AI > AI 라이브러리' 카테고리의 다른 글

티스토리툴바

[Pytorch] 데이터셋

데이터셋 불러오기

사용자 정의 데이터셋 만들기

DataLoader

'AI > AI 라이브러리' 카테고리의 다른 글

'AI/AI 라이브러리' Related Articles

티스토리툴바