输入“/”快速插入内容

Task3：数据增强，提升模型表现

2024年7月4日创建

3256

3801

💡

教研者说：

之前我们探讨了deepfake任务以及常见的网络结构。今天，我们将聚焦于数据增强方法，这是一项关键的技术，可以让您学会各种数据变换操作。数据增强不仅是深度学习训练过程中的重要环节，而且在参赛时也是提高模型精度的重要策略。​

通过对训练数据进行多样化的变换，我们可以模拟更真实的世界场景，从而帮助模型更好地泛化，这在提升模型在未见数据上的表现方面起着至关重要的作用。在竞赛和实际应用中，精心设计的数据增强方案往往能够成为获胜的关键。​

✏️

实操代码地址

•

[九月]Deepfake-FFDI-图像赛题 ch3 Modified by Hong: https://www.kaggle.com/code/chg0901/deepfake-ffdi-ch3-modified-by-hong

•

[九月]Deepfake-FFDI-plot_transforms_illustrations: https://www.kaggle.com/code/chg0901/deepfake-ffdi-plot-transforms-illustrations

•

original：https://www.kaggle.com/finlay/deepfake-ffdi-ch3

Part1 数据增强基础

数据增强是一种在机器学习和深度学习领域常用的技术，尤其是在处理图像和视频数据时。数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。数据增强涉及对原始数据进行一系列的变换操作，生成新的训练样本。这些变换模拟了真实世界中的变化，对于图像而言，数据增强包括例如视角、光照、遮挡等情况，使得模型能够学习到更加鲁棒的特征表示。​

common.docs_name - LarkCCM_Docs_Menu_Image

如果数据增强的变换操作与目标任务的实际场景不符，比如在不需要旋转的图像任务中过度使用旋转，那么这些变换可能会引入无关的噪音。此外过度的数据增强，比如极端的亮度调整、对比度变化或大量的噪声添加，可能会导致图像失真，使得模型难以学习到有效的特征。​

在之前的代码中我们使用PyTorch框架来加载和增强图像数据：

1.
图像大小调整：使用transforms.Resize((256, 256))将所有图像调整到256x256像素的尺寸，这有助于确保输入数据的一致性。​

2.
随机水平翻转：transforms.RandomHorizontalFlip()随机地水平翻转图像，这种变换可以模拟物体在不同方向上的观察，从而增强模型的泛化能力。​

3.
随机垂直翻转：transforms.RandomVerticalFlip()随机地垂直翻转图像，这同样是为了增加数据多样性，让模型能够学习到不同视角下的特征。​

4.
转换为张量：transforms.ToTensor()将图像数据转换为PyTorch的Tensor格式，这是在深度学习中处理图像数据的常用格式。​

5.
归一化：transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])对图像进行归一化处理，这里的均值和标准差是根据ImageNet数据集计算得出的，用于将图像像素值标准化，这有助于模型的训练稳定性和收敛速度。​

代码块

train_loader = torch.utils.data.DataLoader(​
    FFDIDataset(train_label['path'].head(1000), train_label['target'].head(1000), ​
            transforms.Compose([​
                        transforms.Resize((256, 256)),​
                        transforms.RandomHorizontalFlip(),​
                        transforms.RandomVerticalFlip(),​
                        transforms.ToTensor(),​
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])​
        ])​
    ), batch_size=40, shuffle=True, num_workers=4, pin_memory=True​
)​
​
val_loader = torch.utils.data.DataLoader(​
    FFDIDataset(val_label['path'].head(1000), val_label['target'].head(1000), ​
            transforms.Compose([​
                        transforms.Resize((256, 256)),​
                        transforms.ToTensor(),​
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])​
        ])​
    ), batch_size=40, shuffle=False, num_workers=4, pin_memory=True​
)​

Task3：数据增强，提升模型表现​

Task3：数据增强，提升模型表现