SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

公众号ID计算机视觉研究院

https://pmc.ncbi.nlm.nih.gov/articles/PMC12557887/

计算机视觉研究院专栏

Column of Computer Vision Institute

辣椒卷叶复合体的田间规模评估是一项重大诊断挑战,由于辣椒卷叶病毒(ChiLCV)和螨类侵染都会产生视觉上重叠的症状,未经培训的人员难以区分。这种诊断混淆常常导致杀虫剂或杀螨剂的不当使用,从而造成经济损失和环境问题。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

PART/1

概述

为了解决这一问题,我们提出了SCA-MobiPlant,这是一种改善的MobileNetV3-Small模型,集成了新颖的多阶段挤压-激励坐标注意力(SCA)融合机制,旨在准确区分这些表面类似的症状并对该病害进行准确的田间评估。

结果

所提出的模型有效关注包括叶片纹理、叶柄伸长和不规则卷曲模式在内的细微诊断特征,以实现可靠的分类。多阶段SCA融合模块表现出卓越的性能,通过K=5交叉验证实现了99.64%的准确率、99.61%的准确率、99.64%的召回率和99.62%的F1分数,优于卷积块注意力模块(CBAM)和坐标注意力(CA)等其他注意力模块。梯度加权类激活映射(Grad-CAM)为模型的决策过程提供了视觉可解释性。与最先进的架构(包括EfficientNetB0、ResNet50、VGG19和YOLO高级系列)进行的比较评估,证实了所提出模型在移动部署方面的计算效率。

结论

最终系统(称为SCA-MobiPlant)已成功在智能手机上实现,同时配备了病害发生率(DI)计算模块,能够对该病害进行快速且准确的田间评估。这有助于制定适当的干预策略,同时最大限度地减少不必要的农药使用。该研究突出了轻量级、注意力增强型模型在现实世界植物病害诊断中的潜力,特别是在资源受限的农业环境中。

PART/2

背景

为了准确检测和诊断植物病害,深度学习算法(如卷积神经网络(CNN))被用于基于图像的病害分类,利用分层特征提取实现植物病害的稳健识别。先进的CNN架构,包括VGG、GoogleNet、AlexNet、ResNet和MobileNet,增强了病原体识别能力。先进的目标检测算法,包括YOLO系列和基于Transformer的模型(ViTs),通过目标定位和实例分割能力,实现了对图像中多个目标的直接检测。虽然这些方法超级适合病害严重程度分析,但它们需要大量的图像标注,给缺乏植物病理学专业知识的人员带来了显著负担。所有这些算法尽管在受控环境中实现了85-96%的准确率,但在田间部署时面临背景重叠、环境因素、数据集有限和对病害复杂性理解不足的挑战。此外,高计算需求和有限的模型可移植性阻碍了这些算法在移动应用等边缘设备中的实际应用。此外,这些算法在边缘设备上的实施一般需要在尺寸、功耗和计算约束方面进行修改或调整。MobileNetV3是一种增强型轻量级CNN架构,在计算效率和分类准确率之间取得了平衡,使其适合田间部署。为移动和嵌入式视觉应用设计的MobileNetV3结合了硬件感知网络架构搜索和NetAdapt算法,以实现小尺寸、低延迟和调整后的功耗。尽管它在许多视觉任务上已经高效且准确,但有几种策略可进一步提高其准确率,特别是针对作物病害检测、医疗成像或其他专业领域的定制任务。最近的创新纳入了注意力机制(SE、CBAM)和混合模型(CNN-RNN、基于Transformer的模型),以提高时空理解,特别是对于具有季节趋势的病害。注意力机制(AM)已被用于植物病害检测和鉴定,在水稻、番茄、苹果和辣椒中,通过使网络关注受病害影响的区域。注意力机制有助于关注输入图像中“什么”和“哪里”很重大,从而增强可解释性并在复杂或嘈杂环境中高效提取相关特征。挤压-激励块(SE)和卷积块注意力机制(CBAM)通过使网络关注重大通道或特征图并抑制不太有用的通道或特征图,协助聚焦输入图像,从而提高神经网络的表明能力。坐标注意力(CA)是一种轻量级且强劲的注意力机制,通过将位置信息嵌入通道注意力来改善特征表明。它的提出是为了克服其他注意力机制(如挤压-激励和CBAM)的局限性,这些机制在全局聚合特征时往往会丢失准确的位置(空间)信息。

由病毒侵染以及粉虱和蓟马传播的卷叶症状使管理决策所需的即时识别变得困难。虽然粉虱和蓟马传播植物病毒,但侵染会导致嫩叶卷曲。本研究旨在开发一个准确且新颖的辣椒卷叶数据集,以及一个资源高效的深度学习模型用于病害检测。目标是在保持高分类准确率的同时优化计算成本,并将模型与病害发生率(DI)计算模块集成,使其适合基于智能手机的田间部署,用于流行病学调查。在本实验中,提出并测试了两个假设。第一,我们接受注意力机制提高病害识别和预测准确率的零假设。其次,注意力机制协助模型聚焦植物图像中显示病害迹象的特定部分,从而提高性能和可解释性。

提出的基于MobileNetV3的分类模型结合视觉注意力机制,成功检测ChiLCV侵染,将其与螨类侵染区分开来。该模型部署在智能手机上,并与一个模块连接,用于病害发生率的单株估计,这是任何监测程序中快速病害评估所需的。

PART/3

新算法框架解析

该图像数据集(RGB)是通过实验装置生成的,用于训练结合注意力机制(AM)的MobileNetV3模型。选择注意力机制的最佳组合,并将其部署在智能手机系统中,该系统具有用于辣椒卷叶发生率一键式评估的用户界面。

卷叶症状与图像数据集的制备

为制备图像数据集,将约3000株易感Pusa Jwala品种的幼苗种植在陶盆中(土壤由60%的壤土、20%的沙子和20%的堆肥组成)。每盆保留一株幼苗,置于温室条件下。每周提供霍格兰营养液,以确保植株正常生长。对于健康植株样本,约1000株幼苗在播种后15天用吡虫啉(0.01%)喷雾处理,并置于单独的温室 chamber 中。对于病毒感染的植株样本,将100株幼苗置于虫笼(200目)中,释放10头带毒粉虱(研究所的繁殖设施);粉虱在感染ChiLCV的植株 chamber 中饲养,随后按照 suction 方法释放。每个虫笼有10个重复,每个重复100株幼苗,分别接种,每个虫笼释放10头带毒粉虱。接种后10天,用吡虫啉(0.01%)喷雾处理虫笼中的幼苗,以消除媒介昆虫。为确认粉虱的病毒传播,从接种粉虱的虫笼中随机采集叶片,并使用由ACI设计的ChiLCV特异性引物进行RPA检测,针对ChiLCV马哈拉施特拉分离株(FP2:5'
ggagaataggcggaatcccctttaatttga3'和RP7:5'
ctcgcaacgaccgatatgccaggcaatca3')(补充材料1)。剩余的1000株幼苗被移栽到研究所的实验田(IARI,新德里,28°38'30″N 77°10'15″E,246 m),以允许自然螨类侵染,从而进行 mite attack 比较。典型的螨类侵染症状在与作者在实则验装置中解释的症状比较后得到确认。

移栽后45天,使用Motorola edge 40 neo智能手机(由Motorola Mobility LLC设计和制造)从固定高度(距冠层顶部40 cm)拍摄健康植株、病毒感染植株和螨类侵染植株的RGB图像。该手机配备50 MP摄像头,光圈f/1.8。生成的图像分辨率为3072×4096像素。共拍摄约705张健康图像、812张病毒感染图像和758张螨类感染图像。螨类侵染一般导致叶片向下卷曲、叶柄伸长、坏死以及整体植株矮化,叶片常变小并畸形。相比之下,病毒感染的特征是不规则卷曲和植株矮化,但缺乏螨类危害典型的坏死和叶柄伸长症状。

数据处理与增强

对图像进行适当裁剪,以避免因图像中存在多个目标而造成模型干扰。初始数据集包含 3类(健康、病毒感染和螨类侵染)的2275张图像。为增加数据集的规模,采用了以下增强方法:通过增强操作(随机翻转、随机旋转(±20%)、随机平移、随机亮度(±20%)、随机缩放(最高0.2)、随机模糊和灰度转换(图1)),数据集规模增加至10,939张图像。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

随后将所有图像调整为224×224像素的分辨率,并按80:10:10的比例分别划分为训练集、测试集和验证集。另一方面,对于YOLO模型和RF-DETECTR,使用LabellImg工具以YOLO标注格式对原始数据集进行标注,输入图像调整为640×640像素。

辣椒卷叶检测改善分类模型的构建

MobileNetV3网络模型 MobileNetV3是一种增强型轻量级卷积神经网络(CNN),具有深度可分离卷积,该卷积由两个组件构成:深度卷积和逐点卷积。深度卷积对每个输入通道应用单个卷积滤波器,而逐点卷积通过1×1卷积核组合这些通道的输出。与标准卷积相比,这种方法显著降低了计算复杂度。它保留了MobileNetV1中引入的深度可分离卷积和MobileNetV2中的线性瓶颈残差结构,在降低计算成本的同时提高了性能。MobileNetV3利用神经架构搜索(NAS)来优化全局网络结构,并通过NetAdapt算法确定卷积滤波器和通道的最佳数量,进一步提高模型效率。此外,MobileNetV3引入了两项关键创新:挤压-激励(SE)注意力块和h-swish激活函数。SE块在训练过程中为特征图分配自适应权重,使网络能够强调重大的特征通道并抑制不太有用的通道。h-swish激活函数定义为:

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

取代swish函数以最小化计算成本。这里,ReLU6确保输出被限制在[0, 6]范围内,减少了复杂计算的需求。对于下采样,MobileNet使用卷积层而非传统池化操作,改善了目标与背景的区分。层的详细规格和配置,包括SE块的战略性放置和激活函数,见补充表1。

表1

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

在本研究中,为了在田间层面更准确地检测该病害,尝试通过修改来提高基础模型的性能,并利用ImageNet的预训练权重,以最少的计算资源实现更快的训练。

注意力模块(AM)的选择

采用结合不同注意力模块的MobileNetV3_Small,以提高准确率并降低计算需求。

MobileNetV3 Small 附加 SE 模块

挤压-激励(SE)模块通过两个关键操作——挤压和激励,动态重新校准通道维度的特征响应,从而增强网络的表明能力。

这种机制使网络能够聚焦于与任务相关的特征,从而提高模型性能和特征表明能力。在本实验中, MobileNetV3-Small输出的最终特征图经过了额外的SE操作(采用较高的缩减比r=16),以增强通道注意力,同时保持较低的计算开销。之后通过全局平均池化(GAP)进行空间维度缩减,并利用带批归一化和dropout的密集层实现更精准、稳定且优化的分类(图2a、b)。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

图2

MobileNetV3_Small 结合 CA 模块

坐标注意力(CA)模块通过整合空间坐标来增强通道注意力,并提高网络捕捉长程依赖的能力,且计算开销低。与传统注意力机制不同,传统注意力机制会将空间维度折叠为通道描述符,而CA通过方向池化保留位置数据,分别对高度和宽度注意力进行编码。它将输入特征张量X∈R^C×H×W}处理为关键维度保持的输出 Y ,维持对目标定位等任务至关重大的空间敏感性。CA采用双分支结构:特征图分别沿高度/宽度轴进行处理,然后通过分组卷积和批归一化进行变换。生成的注意力图经sigmoid函数归一化后,重新映射到原始维度,以实现针对性的特征重新校准。通过定向编码空间信息并使用轻量级操作,CA在平衡准确的上下文建模和最小计算成本方面表现出色,能够在资源受限的环境中实现实时部署。与传统注意力机制不同,CA使用高度和宽度方向的均值池化来保留位置数据,这些数据被连接后通过分组卷积(groups = 32)处理,并应用H-Swish激活和批归一化。生成的特征被分割为单独的高度/宽度注意力图(由1×1卷积和sigmoid激活生成),与原始维度拼接,然后逐元素乘以输入(图2c)。为提高效率,中间通道维度按系数r =进行缩减。

MobileNetV3 small 结合 CBAM 模块

卷积块注意力模块(CBAM)是一种轻量且强劲的注意力机制,可无缝集成到CNN架构中,由通道注意力模块(CAM)和空间注意力模块(SAM)组成。通道注意力模块通过沿空间维度(高度和宽度)计算全局最大池化和全局平均池化来增强特征表明,生成两个一维通道描述符。这些描述符通过具有两个全连接层的共享多层感知机(MLP)进行处理,其输出在逐元素求和后应用sigmoid激活函数。生成的注意力权重与原始特征图逐元素相乘,产生精细化的特征图F'。随后,空间注意力模块通过沿通道维度应用全局最大池化和全局平均池化来精细化F',生成两个单独的空间特征图。这些图沿通道维度拼接后,通过7×7卷积以捕捉空间依赖关系。输出经过sigmoid激活函数处理,生成的注意力权重与F'逐元素相乘,产生最终的增强特征图F',如图3所示。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

图3

挤压-激励协调注意力

挤压-激励坐标注意力(SCA)机制是原始坐标注意力(CA)方法的增强版本,引入了若干架构改善。关键创新在于通道注意力模块,其中传统的单路径全连接(FC)层被双并行FC路径(fc1和fc2)取代。这些独立路径先处理全局平均池化后的特征,再将其输出拼接并输入最终的FC层以生成通道权重。该设计通过16的瓶颈缩减比在保持效率的同时增强了跨通道交互。空间注意力组件通过两阶段过程进行类似的精细化处理。第一,通过单独的池化操作沿高度和宽度维度聚合特征。这些池化后的特征被拼接,并通过带批归一化和h-swish激活的分组卷积层(groups = 32)处理。生成的表明被拆分为空间组件,再通过带sigmoid激活的专用卷积层进一步精细化,以产生最终的注意力权重。

完整的 SCA机制协同结合了这些空间和通道注意力组件。空间注意力第一通过特定于高度和宽度的加权强调相关区域,而通道注意力随后突出语义重大的特征。这种双重注意力策略使模型能够动态关注关键空间位置及其通道层面的重大性,显著增强特征辨别力(图4a)。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

图4

h-swish激活函数进一步优化了计算效率,使该模块特别适用于资源受限的部署场景。

提出的 MobileNetV3_Small 模型

本研究通过针对性的实验配置,系统地研究了注意力机制对 MobileNetV3 架构的影响,探索了 MobileNetV3-Small 的修改方案。不同的注意力机制,包括卷积块注意力模块(CBAM)、标准挤压-激励(SE)、坐标注意力(CA)和挤压-激励坐标注意力(SCA),在最终特征图上进行测试,确保每种配置相互排斥,以隔离其个体影响。在一项实验中,通过在骨干网络的不同阶段集成四个挤压-激励坐标注意力(SCA)模块,增强了 MobileNetV3 架构,形成了提出的 SCA-MobiPlant 模型。

这些模块被战略性地放置,以处理不同抽象层次的特征提取:早期阶段(第一个瓶颈块之后,生成 56×56×16 的特征)、中间阶段(第三个瓶颈块之后,28×28×40)、晚期阶段(第六个瓶颈块之后,14×14×48),以及一个额外阶段(最终瓶颈块之后,7×7×96)。这种多阶段放置在保留空间和通道层面关系的同时,实现了分层特征融合。对于早期和中间阶段,特征图通过步幅分别为 s=4(早期阶段)和 s=2(中间阶段)的单独卷积层进行下采样,将其空间维度降低到与晚期阶段分辨率(14×14)匹配。晚期阶段的特征直接处理,而额外阶段的输出在融合前进行上采样。所有调整大小的特征——下采样的早期阶段(14×14×48)和中间阶段输出(14×14×48)、原始晚期阶段(14×14×48)以及上采样的额外阶段(14×14×96)特征——被拼接以形成统一的多尺度表明(图 4b)。

训练过程采用Adam优化器,并尝试不同的损失函数以优化策略。通过这些实验,评估了SCA模块在特征提取中的作用及其对MobileNetV3性能的增强效果。这种系统的方法使我们能够评估多阶段注意力融合如何改善分层特征学习和预测准确率。

为了评估最终改善模型的计算效率和诊断性能,我们将其与广泛采用的架构——ResNet50、EfficientNetB0、MobileNetV3、VGG19、先进的YOLO系列(YOLOv8n、YOLOv9c和YOLOv10m)以及基于Transformer的RF-DETR——在关键指标(分类准确率、准确率、召回率、F1分数、训练时间、参数数量和模型大小)上进行了比较分析。这些模型使用预训练权重以实现更好的收敛性,并在包含健康、病毒感染和螨类感染图像的训练数据集上进行微调。

损失函数的选择

训练过程采用Adam优化器,并系统地评估了多种损失函数,包括分类交叉熵(CCE)、稀疏分类交叉熵(SCCE)和多项式损失,以优化特征融合和分类性能。

迁移学习

本研究通过优化MobileNetV3架构以诊断辣椒卷叶复合体,解决了训练数据有限和计算约束的双重挑战。利用预训练的ImageNet权重进行迁移学习,以减轻过拟合风险,同时加速模型收敛。这种方法在诊断精度和计算效率之间取得平衡,使模型在不同的叶片形态和成像条件下都能表现出稳健的性能。通过使用领域特定数据对MobileNetV3模型进行校准微调,所开发的框架能够以最少的资源高可靠性地检测辣椒叶片中细微的症状变化。为了评估训练方法的影响,在使用迁移学习的同时,针对三种不同的训练条件进行了对比实验:未冻结(完全可训练)或冻结基础模型配置,以及从头开始训练。

预测类别的视觉验证

梯度加权类激活映射(Grad-CAM)技术用于提供视觉解释,了解图像中哪些区域对模型预测很重大,特别是在图像分类和目标检测中。Grad-CAM的工作原理是,第一执行前向传播以从最后一个卷积层获取特征图。然后,计算目标类别分数相对于这些特征图的梯度。对这些梯度进行全局平均以获得重大性权重,然后使用这些权重对特征图进行加权。对加权后的特征图求和,并通过ReLU传递以仅突出显示与类别相关的正区域。最后,调整生成的热力图大小并叠加在输入图像上,以可视化模型为进行预测所关注的区域。

评估指标

为评估辣椒卷叶复合体检测的诊断性能,通过以下关键指标评估模型效能:准确率、准确率、召回率和F1分数。

测试环境

该模型通过PyTorch深度学习框架在Google Colaboratory的云计算环境中进行训练。所有网络架构均接受尺寸为224×224×3的输入图像,并利用预训练的ImageNet权重进行迁移学习。采用未冻结基础模型的方法,允许整个网络在微调过程中可训练(表1)。

模型训练150个epoch,批量大小为32,并采用早停策略(patience=25)以防止过拟合。优化器采用Adam,学习率衰减为LR=0.0005,且每1000步进行指数衰减(衰减率=0.9)。引入批归一化以稳定训练,对3个类别采用稀疏分类交叉熵损失。为确保对模型性能进行稳健评估,我们采用了K=5的K折交叉验证。

模型在智能手机中的部署

所选模型被转换为 TensorFlow lite(.TFLite)格式,用于基于智能手机的部署。Android应用程序在Android Studio(koala 2024.1.2)平台上设计,配备6 GB GPU(Nvidia RTX 4050)、32 GB内存和第13代i7处理器,使用Android SDK版本34以提供用户友善的界面,用于选择和处理图像。主菜单包含“选择”、“拍摄”和“预测”选项。“选择”选项允许通过文件选择器选择单张图像,“拍摄”选项允许用户拍摄即时图像,这些图像会显示在图像视图中。点击“预测”按钮后,用户可以查看预测结果。此外,用户可以通过集成的导航菜单进入“病害发生率”模块,在该模块中,用户可以通过多选文件选择器选择多张图像,以更大规模地计算发生率。在“病害发生率”选项下,感染类别通过一个公式计算,该公式思考了被分类为感染的图像比例。

该应用程序的工作流程如图 5 所示。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

PART/4

实验及可视化

不同注意力机制下的模型性能

对 MobileNetV3-Small结合五种不同的注意力模块组合进行评估,以在准确率、准确率、召回率和F1分数方面实现更优性能。SCA和SE模块表现出卓越性能,准确率超过97%,而CBAM和CA模块的准确率为95-96%。基准MobileNetV3-Small模型准确率为94.16%,这凸显了通过纳入注意力机制所实现的显著改善。模块筛选的初始阶段显示,MobileNetV3-Small+SCA的准确率为97.27%,略高于MobileNetV3-Small+SE的97.25%准确率,同时其参数规模比MobileNetV3-Small+SE模块更小(补充表2)。

表2

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

对训练准确率和验证损失的比较分析进一步揭示了不同注意力模块的拟合和泛化行为(图6a、b)。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

使用梯度加权类激活映射(Grad-CAM)来可视化预测结果,图像的高亮区域表明改善的MobileNetV3-Small网络能够有效分类和识别与训练图像类别相关的特定区域(图9)。

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

图9

通过分析每个叶片样本类别的特征提取和比较结果,很明显,该模型专注于分类的不同特征:叶片表面的颜色和光滑纹理是识别健康类别的优先特征(图9a);目标叶片的叶柄伸长和向下卷曲是检测螨类类别的关键特征(图9b);不规则叶片卷曲是病毒类别的主要指标(图9c)。这些可视化结果与检测辣椒卷叶复合体的既定质量分类标准高度吻合,证明了该模型在准确识别和分类叶片状况方面的有效性。

有相关需求的你可以联系我们!

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

END

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

转载请联系本公众号获得授权

SCA-MobiPlant:面向辣椒卷叶复合体精准田间检测的智能手机部署式多阶段注意力融合模型

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

© 版权声明

相关文章

暂无评论

none
暂无评论...