裸手玩VR、线稿变3D人、充电宝上跑AI…旷视大秀(2)

栏目导航

期刊信息

刊名：生产力研究
主办：山西省社会科学报刊社
主管：山西省社会科学院
ISSN：1004-2768
CN：14-1145/F
语言：中文
周期：月刊
影响因子：0.391695
被引频次：127341
数据库收录：
中文核心期刊(2008);CSSCI中文社科引文索引(2006-2007);中国人文社会科学核心期刊(2018);期刊分类：应用经济

您现在所在位置：主页 > 综合新闻 >

裸手玩VR、线稿变3D人、充电宝上跑AI…旷视大秀(2)

来源：生产力研究 【在线投稿】栏目：综合新闻时间：2022-07-18

【作者】网站采编

【关键词】

【摘要】比如，自动驾驶3D检测新算法BEVDepth，能极大增强深度感知能力，打造助力自动驾驶决策的视觉3D检测新标杆；基于物体点的半监督检测算法 PointDETR，在物

比如，自动驾驶3D检测新算法BEVDepth，能极大增强深度感知能力，打造助力自动驾驶决策的视觉3D检测新标杆；基于物体点的半监督检测算法 PointDETR，在物体上标一个点即可获得框的标注结果，可有效解决漏标和多标等问题；目标检测器AnchorDETR，通过一个锚点就能检测多个物体，性能全面超越目前主流的DETR模型，该论文已被人工智能顶级会议AAAI-2022收录。

研究员讲解道，过去，文字输出3D人物往往需耗费数小时甚至数十小时。本次，旷视通过多种体素编码方法，并利用多尺度的语义判别器，优化了 text2mesh* 生成模型，大幅缩短模型生成的时间，只需几分钟即可。

旷视研究院算法量产负责人周而进

可以看一组数据：旷视研究院在历次计算机视觉世界顶级赛事中赢得42项世界冠军，连续三年获得世界上最权威的视觉图像理解大赛COCO的多项冠军。根据招股书，截至2020年9月30日其拥有576项专利权，还参与制订了近20项人工智能相关的国家、行业及团体标准，并赢得了90余个全国和全行业奖项。

2、词语生成3D人物，画稿变动画

即使无法定义中国AI生产力“天花板”，但这个研究院可能是最接近“天花板”的一个团体。

可以看到，走过11年，旷视正将算法生产力从点扩展到算法链，至今，正在锻造一个体系化、规模化算法生产机器。

那么在这四大方向，旷视在最近一年有哪些成果呢？张祥雨对此进行了解读。

输入文本或添加想要二次创作的图片，就可以自动生成画作。之所以名为“薄荷里”，是因为有时候生成的画作很合理，有时候不合理。这一应用采用对抗神经网络，能大幅降低了人们创作视觉作品的门槛。

根据介绍，AIS平台是一个零代码自动化算法生产力工具平台。有一个比喻可以形象地理解这一平台，就像孙悟空可以拔出毫毛生出很多猴子一样，我们可以让AI去生成AI。

3、打开小程序，人人都能拥有一个AI画师

在现场，我们看到用一个充电宝，就跑起了一个名为ResNet-18的AI模型微调训练，平均功率仅为 2.36W。

很多人都知道，旷视研究院是旷视科技的核心研发根据地，是全球规模领先的计算机视觉研究院。可以说，这一研究员团体代表着中国面向世界的AI最前沿和新鲜的人才面貌。

旷视还提出一个自动驾驶感知的新思路，一个名为PETR系列的新网络，其前期工作发表在今年的ECCV 2022上。这一网络几乎没有人工设计的成分，将可能极大地简化自动驾驶视觉AI系统设计。

这句话收录在《史蒂夫·乔布斯传》中，也成为解释苹果公司持续繁荣几十年，成为全球市值第一公司的密码。

现场工作人员告诉我们，这是旷视技术人每年最重要的日子，20多个代表过去一年公司最佳AI技术研究的Demo（样例）从海量项目中脱颖而出，由缔造成果的研究员们自己来讲演。

1、裸手玩VR，提前体验元宇宙

在进门第一个展台，旷视展出了一款VR裸手交互Demo。扔掉手柄，裸手操作VR该有多酷炫？这个Demo展示了通过相机捕捉手部的运动状态，实现虚拟世界的复杂交互，可以说是让人提前体验了一把元宇宙。

除了词语能变3D人，平面的手绘人物画也能变为3D动画。一位旷视研究员手绘了4张卡通人物的不同侧面图，基于旷视自研的CoNR模型，就能生成活灵活现的卡通动画人。

很多产业人知道，旷视自创立布局消费物联网、城市物联网、供应链物联网三大块业务。其创立以来在数亿部手机里落地图像识别、超画质等AI技术；为百余座国内城市、十余个国家和地区提供城市物联网解决方案……这些成果为旷视打上了安防、智能手机等标签。

再来看看备受关注的自动驾驶感知大模型。

旷视本次展出了让AI根据几个词语生成3D人物的Demo，比如输入达尔文，AI就按照他的理解在几分钟内生成一个3D达尔文形象。

7月的第二个周末，在北京市海淀区的金隅智造中心500多平米展厅中，有20多位90后研究员正在展示他们近来的AI研究成果：VR裸手交互、跑在充电宝上的AI模型训练、自动驾驶3D检测新算法、根据组词创作的AI画师……现场参观者很多，分别来自旷视各部门及伙伴公司。

从这一角度，张祥雨解读了旷视基础模型科研的重点分为四个主要的方向。

他解释道，“大”主要是指AI大模型，即：利用大数据、大算力和大参数量，提高模型的表达能力。AI视觉系统通常要面对复杂的应用场景和多种的任务，因此直接途径就是提高模型本身的表达能力，也就是所谓的“大”。

文章来源：《生产力研究》网址: http://www.sclyjzz.cn/zonghexinwen/2022/0718/1402.html

上一篇：关注基础科学研究就是关心人类未来发展--2022基
下一篇：中国音数协敖然：游戏科技生产力成为数字经济