Pytorch 入門時間 & Wandb

type

status

date

slug

summary

前言

我是誰

我們當初用到的套件（各給個簡介）

有需要都可以幫忙

今天主要的主題

複習 pdm

Pytorch 基礎時間

安裝 Pytorch

PyTorch

Run PyTorch locally or get started quickly with one of the supported cloud platforms

https://pytorch.org/

官網可以選擇你的裝置和需求，就會有他提供的 pip install code

MNIST手寫辨識(Pytorch version) - HackMD

# MNIST手寫辨識(Pytorch version) 此文章是介紹MNIST手寫辨識的作法及知識，分為兩個版本，一個為Pytorch版本，另一個為Tensorflow版本，觀念的部分大致相同，比較

https://hackmd.io/@Maxlight/SkuYB0w6_

目前的 code

下載 MNIST

這個部分會把資料下載下來

transform: ToTensor()

你可以使用以下程式碼真的把 tensor print 出來

將資料轉換為 ToTensor() 格式是為了將圖像資料轉換為PyTorch所需的張量形式，以便進行後續的數據處理和模型訓練。ToTensor() 轉換將圖像資料轉換為範圍在0到1之間的浮點數張量。

以下是一個簡單的示例，展示如何將一張圖片轉換為 ToTensor() 格式：

這樣的轉換可以幫助您將圖像資料準備好，以便在PyTorch中進行處理和訓練。如果您有任何其他問題或需要進一步的說明，請隨時告訴我。

基本上就是把 jpg 之類的圖片，轉換成以下的二維向量的形式

5. 數據處理

Dataloader

裡面主要只是設定關於這個 dataset 的一些參數

畢竟這邊是 mnist ，所以做 dataloader 很方便

假如要把自己的資料處理成 dataloader 要查一下

GPT 提供的一些教學資料

這裡有幾篇教學文章，詳細說明了如何將自定義資料轉換成 PyTorch 的 DataLoader：

PyTorch 官方教程：這篇文章介紹了如何編寫自定義數據集、數據加載器和轉換。它詳細說明了如何繼承 torch.utils.data.Dataset 並實現必要的方法，如 __len__ 和 __getitem__，以便將自定義數據集與 DataLoader 一起使用。[1]

Medium 教學文章：這篇文章展示了如何創建自定義數據集和數據加載器。文章提供了實際的程式碼範例，展示了如何在主函數中創建自定義數據集的實例，並使用 DataLoader 進行數據加載。[2]

Squash.io 教學文章：這篇教學文章詳細介紹了如何為自定義圖像數據集實現自定義數據加載器。文章提供了從創建數據集實例到使用 DataLoader 的完整步驟和程式碼範例。[3]

Towards Data Science 教學文章：這篇文章專注於如何使用 PyTorch 的 Dataset 和 DataLoader 處理自定義文本數據。它介紹了如何使用 pandas 來管理數據，並展示了如何創建自定義數據集類別和數據加載器。[4]

這些資源應該能幫助您了解如何將自定義數據轉換為 PyTorch 的 DataLoader。如果您有任何其他問題或需要進一步的說明，請隨時告訴我。

處理 test data

我們一個一個看

將測試數據轉換為浮點型並進行正規化。這裡使用 torch.unsqueeze 函數將測試數據的維度從 (N, 28, 28) 調整為 (N, 1, 28, 28)，其中 N 是樣本數。原因是因為 CNN 需要有通道數（如 RGB 是 3）

轉換前轉換後想像

您說得對，讓我重新檢查並更正之前的說明。

在處理圖像數據時，特別是灰度圖像和 RGB 圖像，應該注意通道的維度位置。以下是正確的說明和模擬結果：

灰度圖像

對於灰度圖像，原始數據形狀為 (N, 28, 28)，我們希望將其轉換為 (N, 1, 28, 28)，這樣每個樣本有一個單獨的通道。

模擬結果：

RGB 圖像

對於 RGB 圖像，原始數據形狀為 (N, H, W, 3)，我們希望將其轉換為 (N, 3, H, W)，這樣每個樣本有三個通道（紅色、綠色、藍色）。

假設原始數據形狀為 (2, 3, 28, 28)，即兩個樣本，每個樣本有三個通道，每個通道的大小為 28x28。

模擬結果：

在這個例子中，RGB 圖像本身已經有三個通道，因此不需要使用 torch.unsqueeze 來增加維度。

希望這樣的模擬能幫助您理解轉換前後具有三個通道的張量的外觀。如果您有任何其他問題或需要進一步的說明，請隨時告訴我。

接著將數據類型轉換為 torch.FloatTensor，並將像素值除以255進行正規化。最後，僅保留前2000個樣本。

6. 建立 CNN

看一下這個架構是三小

7. optimization & loss function

就不要開搞就好

8. training

9. testing

Wandb

簡介

Wandb 是一個協助機器學習「監測」的工具

試想一個問題：當今天的 model 要持續 24 小時學習新的資料，那我們要怎麼確保它的學習狀況

因此 Wandb 是要來解決這個問題

以下主要會介紹 Wandb 的基本功能，為了方便說明和想像，主要會用 MNIST 數字手寫辨識來說明

另外下面是官方的教學連結，主要使用 Pytorch

Track experiments | Weights & Biases Documentation

Try in a Colab Notebook here →

https://docs.wandb.ai/tutorials/experiments

另外以下是 Docs

W&B Docs | Weights & Biases Documentation

https://docs.wandb.ai/

從註冊到開始

從官網註冊之後，參考第一頁的樣子

先將 wandb 的部分裝好

登入以及跑測試的程式碼

觀察程式碼以及 terminal

💡

Wandb 也有 Docker 版本，但我後來在使用 Docker 版本時遇到了一些 bug （印象中是分享的網址會出問題），因此我後來使用的是官網的

名詞簡介

project：

run：

Artifact：

結合剛剛的手寫辨識＆主要功能

我們依照官網給出的範例，結合剛剛的手寫辨識，讓大家了解 Wandb 的主要功能

The following tutorials take you through the fundamentals of Weights & Biases for machine learning experiment tracking, model evaluation, hyperparameter tuning, model and dataset versioning, and more.