级监管机制【泡泡图灵智库】LEAStereo：用于深度立体匹配的网络结构搜索深圳将

和知讯科技网 2023-09-15 1

泡泡图灵智库，实施分级、分类差异化监管，带你精读机器人顶级会议文章

标题：Hierarchical Neural Architecture Search for Deep Stereo Matching

作者：Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, Yuchao Dai, Xiaojun Chang,Tom Drummond1, Hongdong Li, Zongyuan Ge

机构：Faculty of Engineering, Monash University

来源：NeurIPS 20

编译：GUOCHENG

审核: wyc

这是泡泡图灵智库推送的第662篇文章，积极使用政策指南、沙盒技术等监管工具，欢迎个人转发朋友圈；其他机构或自媒体如需转载，逐步完善人工智能领域监管机制。IT之家了解到，后台留言申请授权

摘要

家好，欧盟在今年早些时候发表了一份提案，今天为家带来的文章是

Hierarchical Neural Architecture Search

for Deep Stereo Matching

为了减少在神经网络设计中的工作，该提案将人工智能相关活动分为“最低、有限、高、不可接受”四个等级，神经体系结构搜索(NAS)已成功地应用于各种高级视觉任务，按照等级进行不同程度的监管。目前国内还没有像欧盟这样的监管措施，例如分类和语义分割。NAS算法的基本思想很简单，深圳有望开创先河，使网络能够在一组网络模块之间进行选择，建立人工智能分级监管机制，找到一种适合该任务的最佳架构。但是，以更好应对人工智能技术引发的社会风险。举报/反馈，到目前为止，NAS并没有在低级几何视觉任务（如立体匹配）获得成功。主要由于以下几点原因：人工设计最先进的深度立体匹配网络已经足够复杂。计算资源无法满足直接将NAS应用于如此庞的网络结构。在本文中，通过将特定于任务的先验知识整合到网络结构搜索框架中，提出了第一个用于深度立体匹配的端到端分层NAS框架。该方法遵循深度立体声匹配的标准流程（特征提取－特征量构建－密集匹配），并优化了整个体系结构。实验表明，搜索到的网络结构优于所有最新的深度立体匹配架构，在KITTI stereo 2012, 2015和Middlebury基准测试中，其准确性均名列第一；在SceneFlow数据集上，其准确性、网络的小和推理速度也得到了显着提高。该代码可在LEAStereo上获得。

代码地址：https://github.com/XuelianCheng/LEAStereo

主要工作与贡献

通过利用体积立体匹配流程，利用搜索网络自动为Feature Net和Matching Net选择最佳结构。与以前只有一个编码器/解码器架构的NAS算法不同，该算法能够搜索两个网络结构，特征图小，特征量小以及输出差异小。与仅搜索单元级别结构的AutoDispNet不同，该方法允许网络搜索单元级别结构和网络级别结构（例如，单元的排列）。综上所述，通过将几何知识整合到神经体系结构搜索中，实现了第一个用于深度立体匹配的端到端分层NAS框架。与在非常的搜索空间中的搜索架构相比，不仅降低了对搜索架构中计算资源的需求，而且还实现了更好的性能。

算法流程

１.整体框架

图１：LEAStereo网络结构

2.方法

2.1 Task-specific Architecture Search Space

将立体匹配的几何方法嵌入到网络结构搜索中的网络由四个主要分组成：2D feature net ，用于提取本地图像特征；4D feature volume；3D matching net，用于从级联特征中计算和汇总匹配成本；以及一个soft-argmin layer，用于将计算出的成本量投影到视差图。由于仅特征网络和匹配网络包含可训练的参数，因此我们利用NAS技术搜索这两个子网。我们的网络的总体结构如图１所示。

2.2 Cell Level Search Space

cell被定义为NAS中的核心可搜索单元。根据[27]，我们将一个单元定义为具有N个节点的完全连接的有向无环图（DAG）。我们的单元格包含两个输入节点,一个输出节点和三个中间节点。对于第1层，输出节点为Cl，输入节点为其前两层（Cl-2，Cl-1）的输出节点。令O为一组候选操作（例如

2D convolution, skip connection)。在体系结构搜索期间，中间节点s（j）的功能描述为：

在搜索阶段结束时，通过选择节点之间最可能的操作来选择离散的体系结构。与[27，25]不同，我们只需要搜索一种类型的 cells即可找到特征和匹配的网络，因为空间分辨率的变化由我们的网络级搜索处理。DARTS [27]在某种意义上说具有僵化的搜索机制，即节点Cl-2; Cl-1; 要求C1具有相同的空间和通道尺寸。相反，该方法允许网络为每个cell选择不同的分辨率。为了处理相邻单元中分辨率的差异，首先检查其分辨率，如果不匹配，则通过上采样或下采样相应地对其进行调整。

2.3 Network Level Search Space

我们将网络级搜索空间定义为单元的排列，它控制着单元之间的特征维数和信息流的变化。参考[18]，该方法在预定义的L层网格中找到一条最佳路径，如图２所示。将一个标量与该网格中的每个灰色箭头相关联，用β表示这个标量的集合，考虑到每个cell中的滤波器数量，当特征张量的高度和宽度减半时将滤波器数量加倍。

在网络级搜索空间中，我们需要设置两个超参数：最小空间分辨率、层数。根据经验，观察到将最小空间分辨率设置为输入图像的1/24可以在广泛的基准范围内工作。在此基础上，提出下采样率为1/24的四级网格,最小的特征图为输入小的1/24。与相比，降采样到1/3将消除两次上采样的需求，在 feature net，有一个三层的stem结构，它的第一层是stride为3的3×3卷积层，然后是3×3的stride=2的卷积。

将注意力转到层数上，已经从经验上观察到，对于feature net 选择LF = 6，对matching net 于匹配网选择LM = 12，可以在网络的计算负载和性能之间达到良好的平衡。有趣的是，这比手工制作深度立体匹配网络的一些最新进展要小得多。例如，GA-Net [24]使用具有沙漏结构的33个卷积层提取特征。

类似于在节点之间找到最佳操作，我们将使用一组搜索参数β来搜索网格，以便在其中找到一条路径以最程度地减少损失。网格级别中的每个单元都可以接收来自同一级别，低于一个级别和高于一个级别（如果存在后两者）的前一个单元的输入。

图2：搜索空间。左侧是单元级搜索空间，右侧是网络级搜索空间，左侧的红色虚线表示残差连接。

2.4　Loss Function and Optimization

由于可以端到端地搜索和训练网络，因此直接在输出视差图上监督，从而可以一起搜索特征网络和匹配网络。训练时使用smooth L1损失函数损失，因为它对于视差不连续和离群值具有鲁棒性。给定真实差异dgt，损失函数定义为：

连续relaxation后，可以优化网络的权重w和体系结构参数α；β通过bi-level 优化。分别用α和β参数化单元结构和网络结构。为了加快搜索过程，我们使用一阶近似[18]，为了避免过度拟合，对w、β和α使用两个不相交的训练集分别优化。我们也对 w、β和α进行交替优化；

在train1通过

更新网络参数w

在train2通过

更新网络架构参数α; β

当优化收敛时，我们通过保留每个节点的所有非零操作中的前两个最作来解码离散单元结构，并通过找到具有最概率的路径来离散网络结构。

实验结果

1.实施细节

采用SceneFlow数据集[3]作为源数据集来分析架构搜索结果。然后，通过SceneFlow数据集搜索到的架构，对KITTI 2012 [29]，KITTI 2015 [30]和Middlebury 2014 [31]基准进行架构评估。在消融研究中，分析了改变搜索空间以及不同搜索策略的影响。

我们在Pytorch实施LEAStereo网络。随机裁剪是这项工作中使用的唯一数据增强方法。搜索架构10个epoch：前三个epoch用于初始化super-network的权重w并避免不良的最小值结果；其余epoch更新架构参数α, β。使用SGD优化器，其动量为0.9，余弦学率从0.025下降到0.001，权重衰减为0.0003。整个架构搜索优化在NVIDIA V100 GPU上约需要10 GPU days

2.深度估计结果

在KITTI stereo 2012, 2015和Middlebury基准测试中，其准确性均名列第一；在SceneFlow数据集上，其准确性、网络的小和推理速度也得到了显着提高。

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

光驱硬盘启动怎么设置

windows10怎么绘图

为什么android加载图片oom