每当深夜里时,你打开腾讯云音乐创作,或玩游戏刷乐评人,或看现场直播闲谈,享受着以心谈心的放松畅快。在这背后,有一群控制技工Grandvaux地探索着,只为让“黄背”越来越懂你。
“不同于一般的闲聊文档或图片,音乐创作本身是布吕马统计数据,具备若干特点,统计数据层次非常多。而1.8亿月活海量数据使用者的音乐创作相关统计数据,带来的排序量、所推荐量、参数体量都巨大无比。”腾讯云音乐创作机器学习平台控制技术项目组意识到,在这样复杂问题面前,现代机器学习方式渐渐无力招架。
此外,云音乐创作的现场直播销售业务兴起,商品化表现良好,项目组的重担更重了,“现场直播犯罪行为与音乐创作犯罪行为差异甚大,这意味着排序量与难度进一步增加。”压力之下,该项目组将目光推往“图数学模型”,并最终选择应用腾讯飞桨PGL图数学模型控制技术来插值升级云音乐创作的所推荐控制系统。
所推荐控制系统为何须要图数学模型?
做为全球知名音乐创作社区,腾讯云音乐创作在繁荣发展的同时,其所推荐控制系统面临五大难题:涵盖音乐创作、选曲、Mlog、现场直播、雨圈、静态等的多域统计数据;海量数据使用者产出的Sierentz统计数据;超30万音乐创作人发布曲目,超28亿使用者造成选曲,27%使用者交流/生产文档构成的静态统计数据条码。
现代的机器学习方式须要严格制定一套规范来提取样品,逐一指定样品的各个特点。但云音乐使用者造成的多域统计数据,可能会有二个特点,加上近2亿的使用者体量以及高频的静态更新,必须进行天量的排序,机器学习方式的训练效率因此大受约束,变得十分低效率。
而图数学模型控制技术的硬性较细,把每个使用者当做点,使用者的条码做为边,不同使用者之间如前所述点和边的关联形成网,在此基础上可视化分析,因此能更高效率地表观、甄选某一类使用者。比如,当两位新来的陈晓东,同样爱听某些亲子活动曲目时,她们在“图”中就有T02达的相连,模型会根据这些相连关系学习出合适的表观,并把这些亲子活动曲目所推荐给相似的使用者群体。
事实上,图数学模型已经成为目前互联网企业高效率表观使用者与文档结构的关键控制技术。既能如前所述使用者在曲目、选曲、静态、Mlog等各各方面的跨域犯罪行为联合可视化;又能全力支持多种犯罪行为非空,如紧抓使用者在曲目各方面的播映、雅雷犯罪行为;并全力支持写入使用者结点的肖像特点与文档结点的类型特点;还全力支持灵活扩展,如适用音乐创作销售业务情景的图数学模型应用能很方便地迁移改造用来支持现场直播销售业务情景。
飞桨PGL图数学模型的五大领先能力
市面上提供图数学模型控制技术的厂商不少,说起选择腾讯飞桨PGL的原因,腾讯云音乐创作机器学习平台控制技术项目组总结了三点:飞桨PGL全力支持Sierentz统计数据的全图存储、非空检索、高效率图学习五大领先能力。
项目组曾经尝试过多家国内外顶级厂商的图数学模型控制技术,其中两家国际大厂的产品没有现成的分布式编程范式,无法高效率地处理Sierentz图模型训练当中遇到的图存储、分布式训练等问题,在单机层面顶多全力支持到千万级别或亿级别,而到了百亿甚至千亿级别,只有飞桨PGL挺住了。
据介绍,云音乐创作的统计数据体量非常庞大,统计数据关系即使经过裁剪也高达千亿级别以上。而飞桨PGL控制技术,原生全力支持分布式图存储和分布式采样,可将图的特点存储在不同的Server上,也全力支持将不同非空的采样分布式处理,并如前所述PaddlePaddle Fleet API来完成分布式训练,实现在分布式的“瘦排序结点”上加速排序,因而能够为云音乐创作处理高达百亿级别的大体量统计数据。
不仅如此,飞桨PGL实现了极低成本的大体量图存储,这让腾讯云音乐创作控制技术项目组非常认可。“飞桨PGL的分布式图存储方案比较灵活,适合云音乐创作,能快速搭起二个分布式网络,无需专业统计数据库存储底层能力,存储成本降低70%+。”在4亿结点与400亿边统计数据这样的情景下,飞桨PGL的分布式图引擎资源,以60弹性结点(4CPU,16GB)的配置,可提供比中心化统计数据库更简单、更灵活的存储服务。
再者,他们项目组还体验到飞桨PGL的另一个优点,即灵活的非空检索模式。飞桨PGL不仅预置常用模式,同时联动分布式图存储引擎,全力支持自定义非空检索模式,更符合销售业务实际需求,使用起来更顺手更高效率。
飞桨PGL给腾讯云音乐创作控制技术项目组印象最深的一次是,用不到30多台闲置老旧CPU机器在1天内训练完100个epoch数百亿边的LightGCN模型。这在业内人士听来可能会有些不可思议。“要是换成过去那种单机方案很难实现,因为内存早已爆掉了,无法存储这么巨大的图。”项目组成员介绍道,也许还有其他方案能实现,但飞桨PGL的方案,性价比极高,适合大体量应用。云音乐创作的所推荐控制系统采用飞桨PGL控制技术后,在冷门曲目分发、云村广场、陌生人一起听等多个细分销售业务情景的效率都有不同程度的显著提升,最高甚至提升了近一倍。
可以说,飞桨PGL所提供的全力支持Sierentz统计数据的极低成本全图存储、灵活非空检索、高效率图学习等能力,在云音乐创作的工业实践中真正用下来,发现都是能够满足实际须要的。这正是飞桨平台源于产业实践,更适合产业应用的最好证明。
飞桨PGL图数学模型打开应用新空间
如前所述Sierentz复杂统计数据的使用者与文档理解是许多互联网文档企业所面临的共同课题。而飞桨PGL图数学模型控制技术在腾讯云音乐创作的成功落地,佐证了自身做为企业可用的高性价比Sierentz图数学模型方案的强大实力,将助力这些企业高效率、低成本地表观使用者与文档,创建完善精准所推荐机制,做使用者的“知
接下来腾讯云音乐创作机器学习控制技术项目组还将立足云音乐创作的实践,探索图数学模型控制技术与AI的深度融合创新,如构建音乐创作社区的使用者和文档理解中台,以及如前所述知识图谱的图神经网络落地应用;并计划与飞桨一起反哺开源社区,助推图数学模型控制技术在产业界广泛落地。


