小米(智驾方案)
小米(智驾方案)
2024年10月24日修改
端到端自动驾驶工作原理
1.1、视觉感知层
计算机视觉中物体检测任务的架构通常包含以下组成部分:
💾
1.
Input: 输入是一幅或多幅图像,可能经过预处理以适应模型的需求,例如归一化、缩放等。
2.
Backbone:特征提取网络的核心部分,负责从输入图像中提取高层次的特征。它通常基于经典的卷积神经网络(CNN)结构,比如AlexNet、VGGNet、ResNet,这些网络通过一系列卷积层和池化层逐层抽象并压缩信息。
3.
Neck:在主干网络之后,这部分网络对不同层级的特征进行整合与优化,有时称为“中间层”或“特征融合层”。
4.
Detection Head:此部分用于预测最终的物体位置和类别。在特征提取(骨干)之后,提供输入的特征图表示。
5.
Output:输出通常是物体检测的结果,包括每个对象的类别标签、置信度分数以及精确的边界框坐标。
附件不支持打印