写点什么

昇腾 910-PyTorch 实现 Vggnet 图像分类

  • 2025-05-24
    上海
  • 本文字数:4347 字

    阅读完需:约 14 分钟

PyTorch 实现 Vggnet 图像分类

本实验主要介绍了如何在昇腾上,使用 pytorch 对经典的 Vggnet 模型在公开的 CIFAR10 数据集进行分类训练的实战讲解。内容包括 Vggnet 模型创新点介绍Vggnet 网络架构剖析Vgg 网络模型代码实战分析等等。


本实验的目录结构安排如下所示:


  • Vggnet 网络模型创新点介绍

  • Vggnet 的网络架构剖析

  • Vggnet 网络模型代码实现分析

  • Vggnet 网络用于 cifar 数据集分类实战

Vggnet 网络模型创新点介绍

  • vgg 采用小卷积核堆叠来达到大卷积核的方式,与大卷积核达到相同效果的同时产生的参数更小。

  • 相比于 alexnet 的池化层采用 size=3 的池化核,vgg 池化层采用 size=2 的池化核,能够更有效地提取特征。

  • 有 11、13、16 与 19 层四种可选层数的网络结构,Vgg 网络的层数更深。

Vggnet 的网络架构剖析


VGGNet 的网络结构‌由多个卷积层和池化层组成,最后接三个全连接层经 softmax 输出。VGGNet 有多个变种,包括 VGG11、VGG13、VGG16 和 VGG19,数字代表网络的层数,分别对应图中从左到右的 A(A_LRN)、B、C(D)与 E。


本次实验以实现 VGG11 网络为例进行介绍,其包含 8 个卷积层和 5 个池化层,其配置如下:输入层为 224x224x3 的彩色图像;经过多个 3x3 的卷积核和 ReLU 激活函数;最大池化层使用 2x2 的窗口和步长为 2;最后是三个全连接层,分别包含 4096、4096 和 1000 个神经元,最后一个全连接层使用 softmax 激活函数‌。


注意本文实现的任务是 cifir 10 分类任务,因此后续三个全连接层不是 4096 与 1000,而是改成了 512 与 10。


‌VGGNet 的创新点和影响‌主要体现在其深度和网络结构的创新上,VGGNet 是首批将图像分类错误率降到 10%以内的模型之一,证明了增加网络的深度能够显著提升性能。此外,VGGNet 在 2014 年的 ILSVRC 竞赛中取得了优异成绩,推动了深度卷积网络在计算机视觉领域的发展‌。

Vggnet 网络代码实现分析


通过对 VGG 系列整体架构的分析发现,网络差异模块在图中均已用红框标出;从图中分析不难发现差异点在于每一个框内卷积层数不等,但是每一块中卷积层的卷积核与通道数均是相等的。


基于此,代码实现可以通过定义一个'blockVGG'函数,通过入参'covLayerNum'来构建组件不同卷积块。


import torchimport torch.nn as nndef blockVGG(covLayerNum, inputChannel, outputChannel, kernelSize):    layer = nn.Sequential()    layer.add_module('conv2D1', nn.Conv2d(inputChannel, outputChannel, kernelSize, padding=1))    layer.add_module('relu-1', nn.ReLU())    layer.add_module('Dropout0', nn.Dropout(0.5))    for i in range(covLayerNum - 1):        layer.add_module('conv2D{}'.format(i), nn.Conv2d(outputChannel, outputChannel, kernelSize, padding=1))        layer.add_module('relu{}'.format(i), nn.ReLU())        layer.add_module('Dropout{}'.format(i + 1), nn.Dropout(0.5))  # Dropout to solve over-fit problem    layer.add_module('max-pool', nn.MaxPool2d(2, 2))    return layer
复制代码


在 blockVGG 基础模块已经定义好的基础上,结合 VGG 模型网络图,我们可以定义一个 VGG11 网络,总共定义了 5 个'blockVGG'块分别用'layer1~5'表示。需要注意的是在论文的全连接层中定义的是三层,而'layer6'中这里全连接层中只定义了两层,这是因为在送入到网络全连接层以前经过了'view',该操作相当于将卷积层的输入进行了 resize 操作,该操作减少了参数量的同时又能够使网络可以适配任意 size 的图形输入,但是这样操作可能会带来精度的损失(用户可以根据实际实验情况,动态修改验证效果,这里不作进一步的讨论)。


class VGG11(nn.Module):    def __init__(self):        super().__init__()        self.layer1 = blockVGG(1, 3, 64, 3)        self.layer2 = blockVGG(1, 64, 128, 3)        self.layer3 = blockVGG(2, 128, 256, 3)        self.layer4 = blockVGG(2, 256, 512, 3)        self.layer5 = blockVGG(2, 512, 512, 3)        self.layer6 = nn.Sequential(            nn.Linear(512, 100),            nn.ReLU(),            nn.Linear(100, 10),        )
def forward(self, x: torch.Tensor): # 执行卷积神经网络部分 x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.layer5(x) # 执行全连接部分 x = x.view(x.shape[0], -1) x = self.layer6(x) return x
复制代码

Vggnet 网络用于 cifir 数据集分类实战

基于上述搭建好的网络模型,我们现在就可以正式来使用该模型开始训练 cifir 数据集。


导入昇腾 npu 相关库 transfer_to_npu、该模块可以使能模型自动迁移至昇腾上。


import torch_npufrom torch_npu.contrib import transfer_to_npu
复制代码


torchvision 模块中集成了一些当今比较流行的数据集、模型架构和用于计算机视觉的常见图像转换功能,torchvision 模块中含有本次实验所需要的 CIFAR 数据集,因此导入该模块用于数据集的下载。tqdm 是用于训练过程中训练进度条,便于我们能够清晰的看到整个训练过程。


import torchvisionimport torchvision.transforms as transformsfrom tqdm import tqdm
复制代码


数据集预处理功能定义: 对图像数据集进行不同程度的变化,包括裁剪、翻转等方式增加数据的多样性,防止过拟合现象的出现,以增强模型的泛化能力。


调用了 torchvision 中的 transform 库中的 compose 方法,使用裁剪(RandomCrop)、翻转(RandomHorizontalFlip)等组合成 tensor 形式后并对 tensor 进行正则化(Normalize)。


transform_train = transforms.Compose([    transforms.RandomCrop(32, padding=4),    transforms.RandomHorizontalFlip(),    transforms.ToTensor(),    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),])transform_test = transforms.Compose([    transforms.ToTensor(),    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),])
复制代码


cifar 数据集共有 60000 张彩色图像,这些图像是 32*32,分为 10 个类,每类 6000 张图。有 50000 张用于训练,构成了 5 个训练批,每一批 10000 张图;另外 10000 用于测试,单独构成一批。测试批的数据里,取自 10 类中的每一类,每一类随机取 1000 张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同,总的来看训练批,每一类都有 5000 张图。



数据集加载: torchvision 中集成了一些通用的开源数据集,其中也包含 cifar,此处通过 torchvision 函数加载 cifar 数据集到工作目录上的指定路径,如果已经下载好了,会直接校验通过,不会二次进行下载。


trainset = torchvision.datasets.CIFAR10(    root='/home/ma-user/work/resnet50Experiments/dataset/cifar-10-batches-py', train=True, download=True, transform=transform_train)trainloader = torch.utils.data.DataLoader(    trainset, batch_size=128, shuffle=True)testset = torchvision.datasets.CIFAR10(    root='/home/ma-user/work/resnet50Experiments/dataset/cifar-10-batches-py', train=False, download=True, transform=transform_test)testloader = torch.utils.data.DataLoader(    testset, batch_size=100, shuffle=False)classes = ('plane', 'car', 'bird', 'cat', 'deer',           'dog', 'frog', 'horse', 'ship', 'truck')
复制代码


训练模块: 根据传入的迭代次数'epoch'开始训练网络模型,这里需要在 model 开始前加入'net.train()',使用随机梯度下降算法是将梯度值初始化为 0('zero_grad()'),计算梯度、通过梯度下降算法更新模型参数的值以及统计每次训练后的 loss 值(每隔 100 次打印一次)。


def train(epoch):    net.train()    train_loss = 0.0    epoch_loss = 0.0    for batch_idx, (inputs, targets) in enumerate(tqdm(trainloader, 0)):        inputs, targets = inputs.to(device), targets.to(device)        optimizer.zero_grad()        outputs = net(inputs)        loss = criterion(outputs, targets)        loss.backward()        optimizer.step()        lr_scheduler.step()
train_loss += loss.item() epoch_loss += loss.item()
if batch_idx % 100 == 99: # 每100次迭代打印一次损失 print(f'[Epoch {epoch + 1}, Iteration {batch_idx + 1}] loss: {train_loss / 100:.3f}') train_loss = 0.0 return epoch_loss / len(trainloader)
复制代码


测试模块: 每训练一轮将会对最新得到的训练模型效果进行测试,使用的是数据集准备时期划分得到的测试集,每类约为 1000 张。


def test():    net.eval()    test_loss = 0    correct = 0    total = 0    with torch.no_grad():        for batch_idx, (inputs, targets) in enumerate(tqdm(testloader)):            inputs, targets = inputs.to(device), targets.to(device)            outputs = net(inputs)            loss = criterion(outputs, targets)
test_loss += loss.item() _, predicted = outputs.max(1) total += targets.size(0) correct += predicted.eq(targets).sum().item() return 100 * correct / total
复制代码


主功能调用模块: 该模块用于开启模型在指定数据集(cifar)上训练,其中定义了硬件设备为昇腾 npu(device = 'npu'),定义了损失函数为交叉熵损失'CrossEntropyLoss()',梯度下降优化算法为 SGD 并同时指定了学习率等参数。


import torch.optim as optimdevice = 'npu'net = VGG11()net = net.to(device)criterion = nn.CrossEntropyLoss()optimizer = optim.SGD(net.parameters(), lr=1.0, weight_decay=5e-4)lr_scheduler = torch.optim.lr_scheduler.OneCycleLR(optimizer,0.1,steps_per_epoch=len(trainloader),                                                   epochs=150,div_factor=25,final_div_factor=10000,pct_start=0.3)
复制代码


训练与测试的次数为 60 次,这里用户可以根据需要自行选择设置更高或更低,每个 epoch 的测试准确率都会被打印出来,如果不需要将代码注释掉即可。


for epoch in range(60):    epoch_loss = train(epoch)    test_accuray = test()    print(f'\nTest accuracy for AlexNet at epoch {epoch + 1}: {test_accuray:.2f}%')    print(f'Epoch loss for AlexNet at epoch {epoch + 1}: {epoch_loss:.3f}')
复制代码

Reference

[1] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

用户头像

还未添加个人签名 2024-12-19 加入

还未添加个人简介

评论

发布
暂无评论
昇腾910-PyTorch 实现 Vggnet图像分类_永荣带你玩转昇腾_InfoQ写作社区