推动AI不同领域实现大一统，微软研究员曝视觉Transformer算法

谷歌亚洲地区研究所副研究员胡瀚近日入围2022本年度《麻省理工学院信息技术文章》“35岁以下信息技术创新35人”。他长年从事计算机系统听觉应用领域研究,致力大力推进计算机系统听觉与语义处理在可视化和自学上的标准化,以同时实现对更广为智能化问题的化解。2021年,他明确提出的Swin Transformer成为促进听觉Transformer替代长年统治者听觉各项任务的传递函数数学模型的里程碑式,助推同时实现人工智慧相同应用领域之间的封建王朝。

胡瀚自小就对科学知识充满著好奇,跟著双亲一路上读到副教授。专科就读北京大学化学系,后在辅导老师夏斯利副教授的辅导下,修读副教授学位。副教授期间,他已然看淡Transformer构架的强悍适用性,开始试著将其导入听觉应用领域,同时实现听觉和词汇可视化的标准化。2017年,他同时实现了学术界第一个起新端球体侦测器,2019年首度将Transformer用于听觉骨干力量互联网可视化,为听觉Transformer的便携性推展打下基础。

2021年,胡瀚率队明确提出Swin Transformer,首度断定Transformer互联网在广为听觉各项任务上大幅胜过传递函数数学模型。Swin Transformer采用“位移询问处”方法,将询问处数量降低50倍,同时实现3倍速度提升,化解了听觉Transformer的新颖痛点。该丰硕成果赢得计算机系统听觉应用领域最高荣誉奖的瓦尼奖,相关学术论文赢得超过5,000次提及和1亿次GitHub标星。

Swin Transformer正广为应用于计算机系统听觉各项任务,改变全球数亿人的工作和生活。其已应用于谷歌PowerPoint的听觉推荐,影像搜寻、元银河系、自动驾驶等应用领域。Swin Transformer代表的封建王朝趋势,有助于晶片设计简化和更通用AI模型开发。胡瀚表示,Swin Transformer是同时实现像人脑一样用一个模型化解各类智能化各项任务这个更宏大目标的第一步。

目前,胡瀚继续大力推进听觉和多模态模型的扩展与稀疏化。他成功训练赢得30亿参数的稠密听觉模型Swin Transformer v2.0,是2022年8月世界最大的稠密听觉模型。他还参与开发GPU上最高效的混合专家框架Tutel和Swin-MoE模型。

胡瀚将研究目标定为开发新的生产力工具和突破性技术,赋能社会各主体。他希望促进AI相同应用领域同时实现封建王朝和大融合,让AI像人脑一样用一个模型化解各类复杂各项任务。“这将改变人类生活和生产方式,促进社会进步,让每个人生活更美好。”他说。

胡瀚下一目标是攻克通用听觉问题,同时实现影像的可靠而全面理解与生成。他认为,Swin Transformer已断定听觉和词汇问题化解方法并无本质差异。“如果ChatGPT可以可靠化解语义问题,那么通用听觉问题也是可以可靠化解的。”胡瀚期待通过不断努力,为同时实现“几乎不出现错误”的影像理解与生成贡献力量。

相关文章

微信