基于摄像头构建的感知和检测系统,以较低的成本和较高的分辨率实现目标检测。通过六个单目相机生成的鸟瞰图(BEV)特征可进行目标检测。其中,BEV特征包含物体的位置和尺度,适用于各种自动驾驶任务。BEV检测器通常与深度预训练的图像骨干相结合,但是两者直接连接并不能突出2D特征与3D特征的对应关系。为了解决以上问题,使用通道注意力对输出特征图加权调整提议特征通道,并与深度估计模块相结合,突出了2D与3D特征的关系;通过时序叠加融合方式解决了继承式融合方式中过去信息逐渐丢失的问题,保证了模型能够充分利用历史信息。在NuScenes数据集上进行了广泛的实验,结果表明归一化累计得分(NDS)达到了0.604,比BEVFormer模型提升了0.035,验证了模型的有效性。