旷视科技首席科学家孙剑：如何打造云、端、芯上的视觉计算（含30张PPT）|CCF-GAIR2018“九游体育”

时间：2026-06-17

本文摘要：按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，(公众号：)、香港中文大学（深圳）主办，获得了深圳市宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。

九游体育

关于旷视科技首席科学家孙剑：如何打造云、端、芯上的视觉计算（含30张PPT）|CCF-GAIR2018“九游体育”，下面从多个角度归纳核心要点，方便读者快速参考。视觉是目前仅次于的一个感官方式，因为中国有十分多的摄像头，依托赋能这些视觉传感器，我们可告诉人和车的属性，理解交通和地域情况。其中一个很最重要的应用于是公共安防，即如何用赋能亿万摄像头来帮助城市安全性和高效运转。

在末端上的应用于更加多，第一个就是手机。vivo V7 是第一款海外上市旗舰机，配备了我们的人脸关卡技术，还有小米 Note 3 的人脸关卡。该方法从一张图片里面提取数百个 Feature，去人工构成一些诸如 SIFT/HOG 的 Descriptor，编码取得高维向量之后，再行赠送给 SVM 分类器，这是深度自学之前最差的方法。

对人脸也类似于。我以前的研究组也用某种程度方法做到过人脸关键点提取，取得高维 Feature，这也是当时最差的人脸识别方式，但是它有两个大缺点：第一，这个方法整体上就是指输出向量到另外高维向量的非线性转换，这个向量的转换次数是受限的，如果确实算数它的非线性转换也就三、四次，变多了是敢的，性能会增强；语音辨识的输出和输入更为单一，核心目标是把一段语音变为一句文字。相对于语音辨识来说，计算机视觉应用面十分普遍。

我们取得 COCO 2017 冠军的论文是 MegDet。最后讲解一些我们做到的基于云、末端、芯上的商业应用于。

COCO 能够对人展开检测，也能够提取特征，我们也在研究后者的工作（Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun.Cascaded Pyramid Network for Multi-Person Pose Estimation.CVPR 2018.），萃取人体骨架，依托骨架回应人体运动，展开不道德分析，这样比必要分析图片展开不道德训练更加有效地。其中最核心的是分类问题，因为它是后面三个任务的核心和基础。只不过，人工智能一经常出现时，计算机视觉也问世了。我们去年在安防展览公布了一款智能人像抓拍机——MegEye-C3S，把 DorefaNet 跑完在 FPGA 上，再行放在照相机里，这是业界第一款仅有画幅（1080p）、仅有帧亲率（30fps）人脸动态检测抓拍机。

今天我们是分系统，根据系统的特性设计有所不同的网络。往北下应当怎么做呢？我们坚信下一代不会有一个“MetaNet”，统一解决问题各个服务上的神经网络设计和优化的问题。当然这么说道较为抽象化，只不过明确谈我们想要做到的是“赋能亿万摄像头”。

日常生活和各个行业中有很多的摄像头，比如说手机、安防、工业、零售、无人车、机器人、家庭、无人机、医疗、遥测等等。在这些地方，大多摄像头还没有智能化，我们的愿景是使这些摄像头有智能，不管是在云、末端还是在芯片上；我们要建构智能大脑来解读智能摄像头输出的大量信息。我们明确提出的 DorefaNet 是第一个对梯度也做到分析的研究工作，从而可以进一步让我们在 FPGA 甚至 ASIC 上训练。

在这些设备上计算出来量是一方面，但是它的内存采访容许更大，DorefaNet 这种方法可以做更佳。右图是我们在 ImageNet 上获得的 1 位，2 位，4 位和 6 位分析精度下的最差分类结果。2012 年开始有各种各样的神经网络结构经常出现。去年，ResNet 顺利应用于 DeepMind 的 AlphaGo Zero 系统中，用一个40 或 80 层的网络就可教给从棋盘图像到落子方位这样一个高度简单的同构，这十分让人惊讶。

如果从计算出来平台的看作这些工作，大约可以分为三类：第一类是在“云”上，像 GoogleNet、ResNet，其目标是向着最低精度方向回头，有 GPU、TPU 可以训练十分大的模型，来获知我们的理解边界；第二类平台是在“末端”上，尤其是一些嵌入式设备，这些设备上的计算能力，内存采访都有容许，但很多现实的场景就是如此，那你怎么去做到这上面的研究工作呢？还有一种说明把 ResNet 看作是指数多个有所不同深度网络的构建。一种是把 ResNet 和 RNN 关联一起，指出假如有 Weight Share， ResNet 可以看做是一种 RNN。用“构建”这个词只不过有些问题，因为一般我们做到构建算法不牵头训练，但这里面整个 ResNet 里指数多个网络是牵头训练的，所以很难定义它是不是构建。

你不会在有所不同行业或场景中面对各种各样有所不同的任务，这也让计算机视觉沦为一个相当大并快速增长迅速的学术领域（今年计算机视觉年会 CVPR 与会人超过将近 7000 人），也问世出有众多的杰出创业公司。但计算机视觉系统的输入要非常丰富很多，你必须告诉图像/视频里面的物体、运动、场景，其中有什么人、人的方位、不道德、表情、注意力等等。80 年代，早期的神经网络也顺利运用在人脸和手写数字辨识上，但是仅限于这两个领域。2001 年有一个叫做 ViolaJones 的人脸检测的方法，它趁此机会定义一组 Haar 小波基，然后通过机器学习的方法自学 Harr 小波基的人组来回应图像。

这个方法的益处是引进自学来结构图像回应，坏处是它限定版在这个小波基上，对有结构的物体夸奖，对没结构的物体就不一定适合了。大约在 2000 - 2012 年，在深度自学之前最风行的回应是 Local Feature-based。

计算机视觉的核心问题还包括分类、检测、拆分，分别是对一张图、一张图的有所不同区域和一张图的每个像素做到辨识。另外若是输出的是视频，我们还必须利用时间关系做到辨识；我们在线下零售，必须用图像感官来做到数字化。线上零售是数字化的，可以根据数字化的用户统计资料信息或者个人信息做到用户画像、大数据分析，协助提高新零售效率。

第二，其中大多数参数是人工设计的，还包括 Feature，但人设计简单系统的能力是受限的。今天的主流方法是深度神经网络，这两个特性就被转变了，整个非线性转换十分宽，可以进一步做到十分多次，所以系统的回应能力十分强劲；第二是所有的参数牵头训练。旷视科技正式成立至今早已 7 年，仍然专心于计算机视觉领域。去年，旷视取得了两个十分好的荣誉，MIT 票选的 2017 年度十大突破性技术中旷视科技的“刷脸缴纳技术”榜上有名，这是中国公司的技术第一次获得此奖；旷视去年也已完成了新一轮 4.6 亿美金的融资，用作做到更佳、更加认识的研究和商业落地。

MIT 也将不觉视列入 2017 年度全球五十大最聪明公司的第 11 位。计算机视觉有一个先驱人物叫 David Marr，他在 80 年代初期明确提出了 Primal Sketch 方法，以及一个研究计算机视觉的大框架，指出图像应当再行检测 Edge，然后出有 2 ½ Dsketch 和 3D 模型。但是 MIT 教授 Marvin Minsky 抨击说道你这个理论很好，但是忽视了核心问题的研究——如何阐释一张图像。

和其它方法比起，在完全相同的精度下，ShuffleNet 在现实设备上的速度要比 AlexNet 慢 20 倍左右。这是我们去年专为手机设计的 ShuffleNet，它在 CPU/ARM 上效果十分好；如果在 GPU 上，它的性能并很差，因为 CPU 和 GPU 的特性不过于一样，这里面有很多原因，比如卷积的设计，Group 卷积等等，我就不赘述了。去年何恺明有一项工作叫 ResNeXt，它在 3x3 的基础上引进分组卷积的方法，可以进一步很好地优化卷积的有效性；谷歌的 MobileNet 是一个 3x3 分层卷积的方式，每个层各卷各的，这种方式十分有效地，特别是在低端设备上。ShuffleNet 融合分组卷积和分层卷积的思想，对 1×1 Conv 分组；但是若是只分组的话，组间的信息会互相交换，这样不会影响特征自学，由此来看我们通过引进 Shuffle 操作者，让有所不同分组的信息更佳地互相交换，然后做到 3×3 的分层卷积，再行返回 1×1 分组卷积，这就是 ShuffleNet 的核心思想。

我们告诉整个网络训练所谓凸的优化问题，假如是这种不光滑的损失函数，训练很难跑出局部大于；当是右图右边用于 ResNet 的情况，就可以较为更容易地达一个很好的局部大于。最近研究指出，局部大于区域的面积和平缓性和一个方法的推展能力十分强劲涉及。多层 ResNet 自学高度非线性同构的能力十分强劲。

九游体育

这两点让深度神经网络确实需要获得十分好的效果，也还包括当时我们在微软公司明确提出的 152 层的残差网络 ResNet，第一次在 ImageNet 上多达了人的性能。ResNet 为什么需要工作呢？到今天也没一个具体答案，当然有很多说明。谷歌在去年明确提出 MobileNet 运营在移动末端设备上，旷视科技去年明确提出 ShuffleNet，其目标是说道如何在一个等价计算出来量的设备上获得最差的效果。

一个网络的最基本结构是多个 3×3 的卷积，ResNet 特了一个函数调用相连，我们在 ResNet 中还引进一个 Bottleneck 结构，再行做到 1×1，再行做到 3×3，再行返回 1×1，这样可以提升卷积的效率。以下为孙剑演说全文，展开了不转变本意的编辑。目前人工智能一般区分为感官和理解两块，这一张图可以进一步看见计算机视觉在人工智能领域所处的方位，绿色回应技术上有重大突破或者应用于落地比较成熟期、橙色和黄色回应还须要重大突破。深度神经网络的办法填补了手工设计特征的缺失，整个非线性转换可以做到十分多次，换句话说可以很深，所以特征回应能力十分强劲，并且可以自动地牵头训练所有参数。

孙剑博士在微软公司时明确提出 152 层的 ResNet，第一次在 ImageNet 大规模图像分类任务上多达了人的能力。接着，孙剑博士从计算机站点的角度对经常出现的各种神经网络结构展开了分类：GoogleNet、ResNet 在“云”上；上述分类问题网络设计必须考虑到有所不同的平台，其它问题多是以分类为基础，比如说检测，右图是检测最近几年的发展路程，从 R-CNN 到我们明确提出的 SPP-Net，到 Fast R-CNN，再行到我们明确提出的 Faster R-CNN，它们都是再行应用于基础分类网络，然后建构有所不同的物体检测框架。检测方面的目前最有权威性的竞赛是 COCO，检测精度用 mAP 来回应，越高就越好。2015 年我们在微软公司亚洲研究院用 ResNet 做了 37.3，旷视研究院去年参与了这个竞赛，获得第一名的成绩 52.5（评分 100 分），又前进了一大步。

最直观的说明是说道当你的非线性转换层数十分多，邻接两层转换的差异就十分小，与其必要自学这个同构，不如自学同构的变化，这样的方式竟然整个自学过程，尤其是训练优化过程显得更容易。还有一个说明来自该论文（Kaiming He，Xiangyu Zhang，Shaoqing Ren，Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.）的第二作者张祥雨，他指出 ResNet 的整个自学过程是一个由深到浅的动态过程，在训练初期等效训练一个浅层网络，在训练后期等效训练一个深层网络。MobileNet 以及旷视明确提出的 ShuffleNet 归属于“末端”这一类；BNN、XNOR Net 和旷视明确提出的 DorefaNet 则是在“芯”上。针对目前分平台设计涉及网络的现状，孙剑坚信未来不会有一个“MetaNet 经常出现，需要统一解决问题各个平台上的神经网络设计和优化问题”。

最后，孙剑非常简单讲解了旷视在云、末端、芯三个平台上的计算机视觉应用于，还包括人脸识别、车辆辨识、人脸缴纳、智慧安防、智慧金融、城市大脑、仓储物流、新零售等。还有一些同行明确提出的说明。论文第一作者何恺明有另外一个更加“科学”的说明，他指出整个训练过程相等于深度自学的梯度上升过程中，尤为艰难的梯度消失问题被 ResNet 解决问题了，该说明也公开发表在 ECCV 2016 的一篇论文（Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Identity Mapping in Deep Residual Networks. ECCV 2016.）中，并在该论文中第一次训练了一个 1001 层的神经网络。

涉及文章：对话旷视科技：请求姚期智复职是为本质创意，未来想要沦为国内首家上市的纯人工智能公司旷视科技子公司落户杭州，重点射击智能安防业务CVPR 2018 | 8篇论文、10+Demo、双料挑战赛冠军，旷视科技引发CVPR产学研交流热潮原创文章，予以许可禁令刊登。下文闻刊登须知。在云上，旷视科技最先发售了面向开发者的 www.faceplusplus.com 的 AI 云服务。

九游体育

第二个云服务产品是 www.FaceID.com，这是目前仅次于的在线身份认证平台，为互联网金融、银行、上下班等行业获取在线身份认证服务。第三个十分大的云服务产品是城市大脑，它的核心是结合很多的传感器，提供大量信息，最后作出决策。

我个人较为尊重的一种说明是 Iterative Refinement，它是说道网络初期的层自学回应，后期很多层大大递归和 Refine 这个回应。这跟人解读看图识字很相近，一个不更容易解读的东西你要看一会，是基于当前一些已看内容的解读，重复看才能看懂。还有从从优化观点的说明，如果不必 ResNet 这种结构，系统的损失函数不会十分坑坑洼洼和高低不平，所以很难优化。

不光是人脸关卡，还包括人脸 AI 照相机的场景辨识，动态告诉你在拍电影什么，更佳地调节照相机参数，还可以做到人脸三维重建，自动构建 3D 光效。另外一个很有意思的应用于是深圳和杭州的肯德基分店，消费者可以必要刷脸点餐，这些图是我在现场刷脸缴纳喝到一杯果汁的过程。

第二个是新零售，利用图像感官系统，能把线下的人、货、场的过程数字化。孙剑博士在CCF-GAIR现场演说旷视科技首席科学家、研究院院长孙剑博士为大家带给为题 “云、末端、芯上的视觉计算出来”的精彩演说。孙剑指出，计算机视觉非常简单谈就是使机器能看，旷视科技期望需要做“赋能亿万摄像头”，让应用于在所有领域的摄像头都不具备智能，不管是在云、末端还是在芯上。计算机视觉的发展史就是研究如何回应图像的历史。

这个方法把 Channel 再行一分为二，并把每个分支用非常简单的结构来做到，然后在用 Shuffle 操作者拆分 Channel，这样做到的根源是我们在网络设计中找到的一些基本指导原则，比如说我们必须均衡的卷积而不是稠密的卷积，更为规整的卷积而不是零乱的卷积。今年我们设计了 ShuffleNet v2，也就是第二版，舍弃分组卷积的思想，引进 Channel Split 和 Channel Shuffle 人组的新方法。

较低精度方法是指神经网络的权重或转录值用较低精度回应，比如 1 位，2 位，4 位。当可以用较低精度回应两个向量，那么卷积计算出来就可以通过芯片上非常简单的位运算已完成计算出来。

旷视科技自创办就仍然在问“假如机器能自动解读一张图像或者一段视频，我们能做到什么？非常简单来讲，计算机视觉就是让机器能看。计算机视觉的早期图像回应模型是 Part-based，比如人体可分解成头、胳膊、腿；人脸可以分解成眉毛、眼睛、鼻子，这样就可以通过 Part 这种组合式的方法回应物体。当一个物体有结构，这种组合式方法很适合，但很多大自然场景的物体没这么强劲的结构就不适合了。深度自学风行之前，最差的办法是基于特征的，从图像里提取特征，再行展开分析；但是这个方法有两个大缺点：首先，该方法已完成的非线性转换次数十分受限；其二，大多数参数都是人工设计的，还包括 Feature。

按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，(公众号：)、香港中文大学（深圳）主办，获得了深圳市宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作系统。6 月 30 日，计算机视觉专场举办，会场现场满座，不少听众车站着听得完了长达数小时的演说。上午场的议题为“计算机视觉前沿与智能视频”，由香港科技大学RAM-LAB 主任刘明参演主持人。

在他的串联下，香港科技大学教授权龙、旷视科技首席科学家、研究院院长孙剑、云从科技牵头创始人姚志强、臻诸法科技 CEO 任鹏、云飞励天首席科学家王孝宇以及商汤牵头创始人林达华等学界、业界大咖展开了 6 场深度共享，既有计算机视觉技术的前沿研究动态，也有涉及技术落地的明确方向。我们协助 vivo 和小米在 iPhoneX 公布之前发售了人脸关卡手机。

华为荣耀 V10 和 7C 手机某种程度用于了我们的技术。华为为什么请求孙杨做到代言人？因为他长年游泳，指纹早已磨光了，必需用人脸关卡才能很好地用于手机。这项工作目前在 CPU 和 GPU 上都取得了最差的精度和速度；不光在小模型，在大模型上某种程度获得了十分好的效果，上图最后一行是说道 ShuffleNet v2 目前在计算出来量只有 12.7G Flops 情况下在 ImageNet 上获得了十分低的精度。我们还必须将神经网络运营在芯片上，这不光对网络结构设计有拒绝，还要对网络内部精度的回应做到容许，现在最风行的方法是做到较低精度化，比如 BNN 和 XNOR Net，还有旷视科技明确提出的 DorefaNet。

因此，围绕旷视科技首席科学家孙剑：如何打造云、端、芯上的视觉计算（含30张PPT）|CCF-GAIR2018“九游体育”的选择与使用，还需要结合实际情况进行判断。

本文关键词：九游体育

本文来源：九游体育-www.9youglobals.com