裸手玩VR、线稿变3D人、充电宝上跑AI…旷视大秀(2)
【作者】网站采编
【关键词】
【摘要】比如,自动驾驶3D检测新算法BEVDepth,能极大增强深度感知能力,打造助力自动驾驶决策的视觉3D检测新标杆;基于物体点的半监督检测算法 PointDETR,在物
比如,自动驾驶3D检测新算法BEVDepth,能极大增强深度感知能力,打造助力自动驾驶决策的视觉3D检测新标杆;基于物体点的半监督检测算法 PointDETR,在物体上标一个点即可获得框的标注结果,可有效解决漏标和多标等问题;目标检测器AnchorDETR,通过一个锚点就能检测多个物体,性能全面超越目前主流的DETR模型,该论文已被人工智能顶级会议AAAI-2022收录。
研究员讲解道,过去,文字输出3D人物往往需耗费数小时甚至数十小时。本次,旷视通过多种体素编码方法,并利用多尺度的语义判别器,优化了 text2mesh* 生成模型,大幅缩短模型生成的时间,只需几分钟即可。
旷视研究院算法量产负责人周而进
可以看一组数据:旷视研究院在历次计算机视觉世界顶级赛事中赢得42项世界冠军,连续三年获得世界上最权威的视觉图像理解大赛COCO的多项冠军。根据招股书,截至2020年9月30日其拥有576项专利权,还参与制订了近20项人工智能相关的国家、行业及团体标准,并赢得了90余个全国和全行业奖项。
2、词语生成3D人物,画稿变动画
即使无法定义中国AI生产力“天花板”,但这个研究院可能是最接近“天花板”的一个团体。
可以看到,走过11年,旷视正将算法生产力从点扩展到算法链,至今,正在锻造一个体系化、规模化算法生产机器。
那么在这四大方向,旷视在最近一年有哪些成果呢?张祥雨对此进行了解读。
输入文本或添加想要二次创作的图片,就可以自动生成画作。之所以名为“薄荷里”,是因为有时候生成的画作很合理,有时候不合理。这一应用采用对抗神经网络,能大幅降低了人们创作视觉作品的门槛。
根据介绍,AIS平台是一个零代码自动化算法生产力工具平台。有一个比喻可以形象地理解这一平台,就像孙悟空可以拔出毫毛生出很多猴子一样,我们可以让AI去生成AI。
3、打开小程序,人人都能拥有一个AI画师
在现场,我们看到用一个充电宝,就跑起了一个名为ResNet-18的AI模型微调训练,平均功率仅为 2.36W。
很多人都知道,旷视研究院是旷视科技的核心研发根据地,是全球规模领先的计算机视觉研究院。可以说,这一研究员团体代表着中国面向世界的AI最前沿和新鲜的人才面貌。
旷视还提出一个自动驾驶感知的新思路,一个名为PETR系列的新网络,其前期工作发表在今年的ECCV 2022上。这一网络几乎没有人工设计的成分,将可能极大地简化自动驾驶视觉AI系统设计。
这句话收录在《史蒂夫·乔布斯传》中,也成为解释苹果公司持续繁荣几十年,成为全球市值第一公司的密码。
现场工作人员告诉我们,这是旷视技术人每年最重要的日子,20多个代表过去一年公司最佳AI技术研究的Demo(样例)从海量项目中脱颖而出,由缔造成果的研究员们自己来讲演。
1、裸手玩VR,提前体验元宇宙
在进门第一个展台,旷视展出了一款VR裸手交互Demo。扔掉手柄,裸手操作VR该有多酷炫?这个Demo展示了通过相机捕捉手部的运动状态,实现虚拟世界的复杂交互,可以说是让人提前体验了一把元宇宙。
除了词语能变3D人,平面的手绘人物画也能变为3D动画。一位旷视研究员手绘了4张卡通人物的不同侧面图,基于旷视自研的CoNR模型,就能生成活灵活现的卡通动画人。
很多产业人知道,旷视自创立布局消费物联网、城市物联网、供应链物联网三大块业务。其创立以来在数亿部手机里落地图像识别、超画质等AI技术;为百余座国内城市、十余个国家和地区提供城市物联网解决方案……这些成果为旷视打上了安防、智能手机等标签。
再来看看备受关注的自动驾驶感知大模型。
旷视本次展出了让AI根据几个词语生成3D人物的Demo,比如输入达尔文,AI就按照他的理解在几分钟内生成一个3D达尔文形象。
7月的第二个周末,在北京市海淀区的金隅智造中心500多平米展厅中,有20多位90后研究员正在展示他们近来的AI研究成果:VR裸手交互、跑在充电宝上的AI模型训练、自动驾驶3D检测新算法、根据组词创作的AI画师……现场参观者很多,分别来自旷视各部门及伙伴公司。
从这一角度,张祥雨解读了旷视基础模型科研的重点分为四个主要的方向。
他解释道,“大”主要是指AI大模型,即:利用大数据、大算力和大参数量,提高模型的表达能力。AI视觉系统通常要面对复杂的应用场景和多种的任务,因此直接途径就是提高模型本身的表达能力,也就是所谓的“大”。
文章来源:《生产力研究》 网址: http://www.sclyjzz.cn/zonghexinwen/2022/0718/1402.html