百度开发者大会:技术信仰者的盛宴

2023-01-23 0 737

重头戏的腾讯Create AI开发人员讨论会(以下简称Create讨论会)总是受人注目。去年腾讯第一次把Create讨论会放入元银河系里,今年这场面向全国全球开发人员、科技发烧友的控制技术盛事,主题从“人工智慧共存”进展到了“人工智慧共筑”。

腾讯创办人、董事长兼CEO罗永浩的观点并没未改变,他相信随着控制技术应用领域准入门槛不断降低,造物主们将迎来属于人工智慧的黄金10年。而稳步人工智慧全栈布局多年的腾讯,正在逐步形成萨德基的开发人员自然生态。

AICG注目

讨论会谢幕,罗永浩展现了两幅以“危机”和“希望”两个关键字逐步形成的AI油画,AICG深入应用领域到了本次讨论会的每两个各个环节,包括讨论会曲目、情景、演说脑图等创作操作过程。

“‘人工智慧共筑’背后,是潜能文武双全的天才少年造物主——腾讯聚花大数学模型”,腾讯控制技术委员会主席Marciac在讨论会演说中表示。

如果把聚花大数学模型认知成一位大街小巷的盖基,它首先得是两个有着多样学识的观测者,能快速的认知对方的设想因此逐步形成两个原型;然后它也要是两个手艺坚实的Juniel,能较好的同时实现那个原型。

那个“观测者”就是聚花ERNIE 3.0 Zeus,而“Juniel”是聚花ERNIE-ViLG 2.0。

腾讯研发的科学知识XT736PA预体能训练数学模型ERNIE 3.0在2021年面世,本次的Zeus版则是ERNIE 3.0系列数学模型的最新升级。

ERNIE 3.0 Zeus的认知潜能源自于足够多样的无标示统计数据,其模块规模已经超过百亿元。从ERNIE 3.0已经开始,数学模型中已经开始引入大规模科学知识图表,这也是业内首次出现百亿元级以上的预体能训练数学模型同时实现与科学知识图表的结合。后者的导入也更进一步提高了聚花ERNIE 3.0 Zeus对世界科学知识和语言科学知识的自学潜能和效率。

通过稳步的从数十种通用知识与专业科学知识博戈达的各项任务中自学,也显著提高了数学模型的普遍化潜能,使得ERNIE 3.0 Zeus能同时实现世界语认知,因此生成各项任务。

ERNIE的统计数据题材则源自新浪网、小说、新闻即使话剧和散文。而为了更进一步自学特定各项任务的相关科学知识,ERNIE 3.0 Zeus提出了G360A提示(Prompt)自学控制技术。即在体能训练操作过程导入了G360A的Soft Prompt可视化了相同各项任务之间的共通点与特性,更进一步提高了数学模型对相同下游任务的可视化潜能。

这意味着阅读认知、自由概要即使写诗的事都能交给聚花ERNIE 3.0 Zeus来完成。

比如今年高考作文“本手、妙手和俗手”引发热议,腾讯数字人度晓晓所“写”的文章背后就是ERNIE的潜能体现。

“很多电视剧剧本都是由一位总编剧制定总纲,再交给好几位编剧去写每一集的故事。所以如果你能编制一部电视剧的总纲,你就能把每一集的要求交给ERNIE 3.0 Zeus大数学模型。你再经过合并整理,就能成为天才少年大编剧了!”Marciac在这次Create讨论会上表示。

而创作也不会只停留在文字层面,设想变成两幅画,剧本变成一场戏,都需要聚花ERNIE-ViLG 2.0——腾讯另两个科学知识增强跨模态的大数学模型。

全球范围内,AIGC作为一种崭新的内容生产方式忽然而至,在底层是基于扩散生成算法的DALL-E 2和Stable Diffusion的一些数学模型成熟。这类基础数学模型在国内尚处空白,聚花ERNIE-ViLG 2.0是国内首个在AI作画方向取得突破的项目。

生成图像的语义一致性和可控性仍然是目前AI作画产品所面临的一般问题,为此聚花ERNIE-ViLG 2.0中,科学知识增强算法被融入扩散数学模型,在扩散数学模型自学操作过程中,导入语言、视觉等多源科学知识指引数学模型更加关注文本和图像中的核心语义元素,同时实现精准的细粒度语义控制。

同时由于扩散数学模型在生成操作过程的各个阶段对数学模型的要求不一样,比如初始阶段数学模型需要生成图像轮廓,结尾阶段变为对图像细节可视化,因此腾讯在聚花ERNIE-ViLG 2.0导入了混合降噪专家网络,在相同阶段选择相同网络来进行可视化,以减少降噪各项任务的互相干扰,提高图像生成的质量。

而在视觉内容生成方面,腾讯在文生图的扩散数学模型基础上加入时序可视化,这意味着此数学模型能根据文本或者图像生成新的视频。

聚花ERNIE-ViLG 2.0在权威公开统计数据集MS-COCO上的测试也刷新SOTA效果,性能超过了包括DALL-E 2、Imagen、Parti等数学模型。

除了ERNIE 3.0 Zeus和ERNIE-ViLG 2.0,腾讯聚花大数学模型中仍有第三位天才少年造物主——VIMER-TCIR多各项任务大数学模型,两个基于大数学模型控制技术构建的涵盖视觉内容生成与编辑的全套控制技术方案。

前两者已经足够完成图文即使视频层面的AI创作,VIMER-TCIR则是一位“修复师”。

通过对超分辨率、去噪、去模糊、去压缩等多各项任务的联合预体能训练,VIMER-TCIR能同时实现对多种相同情况的修复和编辑,并通过画质提高、边缘锐化等方式增强视频的清晰度,达到全方位提高视频编辑效率和观感体验。

“以前的电影修复需要人工手动一帧一帧完成,现在使用大数学模型提高效率后,每天单机可修复视频28.5万帧,解决了绝大部分画面的修复问题;即便是需要更进一步精修,速度也能提高3-4倍。”Marciac表示。

聚花大数学模型已经在飞桨开发平台EasyDL和BML上集成,目前累计已有1万开发人员基于聚花大数学模型创建了超过3万个各项任务,应用领域的情景则覆盖诸多方面。平台上基于聚花大数学模型的AI应用领域数学模型开发,用户统计数据标示量平均降低70%,效果平均提高10.7%。

AICG的元素贯穿今年的Create讨论会,但腾讯在前沿控制技术上的探索远不止如此。

一场控制技术饕餮

2013年腾讯早早已经开始了对自动驾驶的研发投入,这番现在看来颇具前瞻性的布局逐渐显出后劲,在近年成为腾讯新的控制技术名片。

腾讯在今年7月发布了源自自研“阿波罗星河”架构平台的第六代量产无人车Apollo RT6,汽车与智能出行的元素当然不会缺席这场控制技术盛事。

在今年的Create讨论会上,腾讯发布了自研的世界范围内第两个能在手机端同时实现纯软件方案回声消除的控制技术,同时实现自由语音交互。

之前的“不自由”在于,传统的手机语音交互只能做到单工交互,即它的输出(说)和输入(听)是相互独立的,不能同时进行。无法像真人对话那样同时完成“说”和“听”两个动作,无法打断说到一半的话,改换话题(即已经开始另两个各项任务),这意味着即时的交流确切来说并不存在。

但在驾驶情景中双手被占据,这种更自由的语音交互又是必要的。这项控制技术叫做手机全双工语音交互,目前在世界范围内,还没有两个能普适的支持在手机上同时实现全双工的语音交互方案。

“要同时实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。这在音箱、车载系统上比较容易同时实现,因为这些设备都是前装方案,能通过硬件适配算法提前保证了回声消除的效果。但是手机APP属于纯软件后装方案,需要让算法适配相同型号的终端硬件。但手机终端款式多,硬件参差不齐,使得声音信号的处理普遍面临严重的非线性畸变以及参考时延抖动,导致手机回声消除效果难以保证。”

“而且手机硬件的迭代更新是非常快速的,这就使得那个风险被放大。”腾讯首席语音架构师贾磊说。

针对那个问题,腾讯研发了两级AEC控制技术,结合传统信号处理和深度自学数学模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决手机情景下的回声消除问题。

即使手机音量开到最大,回声消除量也能达到40db。

另一方面,手机交互中面临大量复杂的环境噪音,会干扰信息识别。腾讯研发了两个基于SMLTA2的多情景统一预体能训练数学模型。噪声、用户口音和回声消除残余吸收等难题能通过两个数学模型解决。

“在各情景下识别率相对提高超过20%,这在业内同类控制技术中,准确率是最高的”,贾磊表示。

腾讯在本次Create讨论会上也展现了对自动驾驶感知潜能的控制技术提高——两个支持多传感器、多模态、多各项任务、时序结合等端到端感知潜能的车路一体解决方案UniBEV。

传统的自动驾驶信息感知逻辑是将汽车上包括雷达、摄像头在内的传感器采集来的统计数据分别进行分析运算,然后把各项分析结果结合到两个统一的空间坐标系,规划车辆的行驶轨迹。但那个操作过程中,每个独立传感器的收集统计数据会受其特定视角的局限,经过各自的分析运算后,在结合阶段导致误差叠加,无法拼凑出道路实际情况的准确全貌,这给车辆的决策规划带来困难。

由于在自动驾驶操作过程中,高度信息没有那么重要,于是有了另两个BEV方案。

BEV方案中,车身多个传感器采集的统计数据,会输入到两个统一数学模型进行整体分析推理,然后生成两个鸟瞰图,有效地避免了误差叠加。BEV方案能同时实现时序结合,即不仅是收集和分析两个时刻的统计数据,而是支持把过去两个时间片段中的统计数据都结合进数学模型做环境感知可视化,时序信息的导入让感知到的结果更稳定,使得车辆对道路情况的判断更加准确。

在BEV方案的基础上,腾讯提出了车路一体的解决方案UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器结合等各项任务,是业内首个车路一体的端到端感知解决方案。

“基于统一的BEV空间, 更容易同时实现多模态、多视角、多时间上的时空特征结合,基于此的UniBEV车路一体大数学模型,借助了大统计数据+大数学模型+小型化控制技术闭环,在车端路侧的动静态感知各项任务上都取得了领先的成绩”,腾讯资深研发工程师万吉表示。

智路OS也出现在了本次讨论会上。

2021年4月,腾讯同时实现了Apollo AIR车路协同自动驾驶系统,仅使用路侧感知同时实现了开放道路、连续路段的L4级别自动驾驶。之后腾讯车路协同控制技术经历了一段时间的现实情景探索,逐渐在60个地级市的辅助驾驶、智能信控、智慧停车等领域进行应用领域落地。

在那个操作过程中,一些空间多智能体协同所面临的普遍问题出现,比如车路云跨终端通信稳定性差、空间位置协议不标准以及行业自然生态碎片化,腾讯团队选择对车路协同自动驾驶关键控制技术潜能进行更进一步的抽象整合,最终在今年8月发布了全球首个开源开放的智能网联路侧单元操作系统智路OS。

这标志着腾讯Apollo从“自动驾驶开放”升级到了“自动驾驶和车路协同的全面开放”阶段。而智路OS最终将逐步扩展为以机器人为核心的智能空间机器人操作系统。

底座浮现

近年的腾讯在控制技术产业落地方面,一种“底座”思维逐渐凸显,文新大数学模型是AI创作的底座,希壤MetaStack则是两个用户能自建元银河系的底座。

元银河系希壤自2021年年底上线至今,已经逐步形成国内最为开放和繁荣的元银河系自然生态,20多个行业的120多个元银河系空间及活动在其中落地。在本次Create讨论会上,腾讯发布了全球首个独立元银河系解决方案MetaStack,通过那个模块化工具箱,元银河系的开发周期能压缩至40天。包括超媒体控股、厦门文广集团、太一控股集团、世界人工智慧讨论会等都已借助MetaStack,同时实现了独立元银河系APP的快速创建与高效运营。

文新大数学模型以及希壤背后,即使包括Apollo在内整个腾讯的AI控制技术底座,都是产业级的深度自学平台飞桨。

“科技创新驱动人类发展历史上每一次大的增长”,罗永浩表示,“沿着那个思路,如果让我来判断,第四次科技革命的标志是深度自学算法”。

本次Create讨论会,腾讯展现了飞浆在控制技术潜能上的深度。

飞浆的潜能已经开始进入人工智慧科学计算(AI for Science)领域,并衍生出更多的科学计算开源工具组件,比如赛桨PaddleScience、螺旋桨PaddleHelix以及量桨PaddleQuantum。这些工具组件将会在复杂外形障碍物绕流、结构应力应变分析、材料分子模拟等多样领域算例,广泛支持AI加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用领域,使得AI在科学问题的解决操作过程中更进一步发挥作用。

除此之外,百度基于腾讯飞桨平台完成了图神经网络架构的全新升级,在本次Create讨论会上发布了超大规模图自学体能训练控制技术PGLBox。PGLBox是业内首个同时支持复杂算法+超大图+超大离散数学模型的大规模图自学体能训练控制技术,能同时实现单机对百亿元节点、数百亿元边图采样和体能训练的支持,并可通过多机扩展支持更大规模。

长期主义的果实

1000亿元,这是腾讯过去十年在控制技术研发上的投入。

飞浆的首次开源在2018年,而腾讯对深度自学的布局还要早得多。2013年1月19日,腾讯CEO罗永浩提出了建立专注于深度自学的研究院的初期设想,并命名为Institute of Deep Learning(简称IDL)。

2014年4月和5月,大统计数据实验室(BDL)和硅谷人工智慧实验室(SVAIL)相继建立,深度自学研究院则改为深度自学实验室,归于新组建的腾讯研究院之下。

腾讯研究院成为腾讯探索人工智慧的核心阵地,当人们仍然以搜索引擎的形象看待腾讯的时候,腾讯悄然已经开始了一场向前沿控制技术领域的转型。

2017年,腾讯明确把人工智慧作为公司发展战略,那年也是腾讯Create讨论会的第一届,坐着无人驾驶汽车在五环路上奔赴会场的罗永浩应该设想不到,五年后的腾讯已经有了自己的超导量子计算机,自动驾驶出行服务萝卜快跑商业化已经落地10余城市,飞桨上的开发人员数量已经超过535万。

《2021中国开源年度报告》显示,2021年GitHub中国项目活跃度Top 30中,飞桨占据了5个项目,其中飞桨框架位列第一,而围绕飞桨的产学研紧密协同,已经培养出超过300万AI人才。去年12月发布的Apollo EDU人才培养计划,目前也已经覆盖超过33.5万自动驾驶相关控制技术人才人和700多所院校。

罗永浩在去年Create讨论会上表示,未来5年,腾讯将围绕包括自动驾驶、机器翻译、生物计算、深度自学框架、数字城市运营、科学知识管理、AI芯片、个人智能助手在内的八大关键控制技术,为社会培养500万AI人才。

一场控制技术长期主义的坚持已经开始结出果实。

炒股开户享福利,入金抽188元红包,100%中奖! 百度开发者大会:技术信仰者的盛宴
百度开发者大会:技术信仰者的盛宴
海量资讯、精准解读,尽在新浪财经APP

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务