五分钟读懂SIGIR 2017前沿技术研究成果

2023-05-27 0 1,012

穆萨妹编者按:SIGIR是展现自动提取应用领域新技术和新丰硕成果的世界顶级国际性全会。 SIGIR 2017 那时揭幕,去年腾讯共计三篇该文被讨论会收录于。

附注为被收录于该文精粹文本详述。

一、如前所述机率PEX数学模型的网购配搭发送

学术论文镜像:

https://arxiv.org/pdf/1707.08113.pdf

这篇该文中,他们对B2C应用领域网络营销发送情景展开下载量的强化。网络营销发送情景和现代B2C所推荐情景有许多类似于的地方性,但也有所不同。具体来说,网络营销发送的下载量受美术设计负面影响非常大,和使用者间接有关的美术设计的下载量会显著低于通用型的发送美术设计;其二,每天网络营销发送多于三个展现秦石,即使对发送货品的精确度明确要求更高。

为化解第二个难题,他们展开“网购配搭”情景的所推荐。网购配搭情景发送三个和使用者扬皮尔区买货品的配搭货品,比如说当使用者买了高阶珠子后对上好药材展开发送(右图第三个发送重要信息)。网购配搭的益处是美术设计中能显出使用者扬皮尔区货品,最新消息能和使用者创建两极化的attachment,提高最新消息关上率。

五分钟读懂SIGIR 2017前沿技术研究成果

为找寻配搭货品对,他们表述如下表所示三个分项:

1)与此同时买回平均分(Co-Purchase Graph)

五分钟读懂SIGIR 2017前沿技术研究成果

2) 看了又买平均分(View-and-then-Purchase Graph)

五分钟读懂SIGIR 2017前沿技术研究成果

第二个分项衡量了三个货品之间的互补性(complementarity),第三个分项衡量了三个货品的替代性(substitutivity)。网购配搭情景下,他们希望找寻高互补性、低替代性的货品对展开所推荐。因此,他们把货品对“配搭性”的得分表述为

五分钟读懂SIGIR 2017前沿技术研究成果

这个平均分是他们所推荐数学模型中的三个重要特征

为了化解所推荐准确性的难题。他们对使用者分层展开更细致的刻画。他们的主要思想是如前所述使用者行为对使用者的向量表示(Embeddings)展开学习,然后他们用这些向量表示对使用者的行为展开预测。向量表示能理解为对使用者在高维度的三个量化的抽象表示。

向量表示的益处是能更精准,更灵活的对目标展开表达。举个例子,他们对使用者的描述不仅仅局限于年龄、消费能力等人能Intuitively容易想到的维度,人工智能能自动从消费者数据中学习到更全面更抽象的维度,比如说使用者对所推荐平台的依赖程度,使用者对选择货品的创新性等。

使用者向量的学习他们采用的是机率PEX数学模型(Probabilistic Latent ClassModeling)。具体来说他们表述使用者点击数学模型如下表所示,

五分钟读懂SIGIR 2017前沿技术研究成果

这个数学模型分为两层,第一层是PEX用来刻画使用者在高维度下的分层,采用多维逻辑回归分类的形式。

五分钟读懂SIGIR 2017前沿技术研究成果

第二层是下载量预测数学模型。他们这里选择了三个二维逻辑回归数学模型。不过能很容易的扩展使用深度神经网络。

五分钟读懂SIGIR 2017前沿技术研究成果

他们要在已知使用者特征和点击数据的条件下估计数学模型参数。他们采用经典的EM(Expectation-Maximization)算法。

EM算法需要先求解Q函数,

五分钟读懂SIGIR 2017前沿技术研究成果

为强化 Q函数他们对参数展开迭代强化如下表所示,

五分钟读懂SIGIR 2017前沿技术研究成果

上面三个更新很容易通过Gradient Decent方法求解。

右图是他们对求解数学模型的三个解释。他们发现高活跃使用者更加看中自己的倾向,预测数学模型的权重在使用者偏好类的特征中高(high model weights on user preference features);低活跃使用者更加依赖于平台的所推荐,更喜欢平台选择的配搭性好的货品,预测数学模型权重在货品配搭性的特征权重高(high model weights on )。这能直观的理解为深度使用者在选择货品上更有自己主见,而新手更依赖与平台。

五分钟读懂SIGIR 2017前沿技术研究成果

目前该工作在线上取得了不错的效果,网购配搭的发送所推荐情景上看到~50%下载量的提高。

更广义的来讲,这项技术给行业带来的益处的是能更精准和全面的刻画使用者,进一步推广能用来描述货品、资讯、视频等其他目标。该技术能帮助使他们的网络营销所推荐更友好(了解使用者),与此同时从商业上提高转化率(高下载量)。

二、GAN在自动提取应用领域的应用——IRGAN

学术论文镜像https://arxiv.org/abs/1705.10513

Information RetrievalIR)的典型难题是给出一些查询词(query),返回三个排序的文档列表(documents),但IR的应用范围能扩展到文档检索、网页搜索、所推荐系统、QA问答系统和个性化广告等等。在IR的理论或数学模型应用领域,有两种典型的思维方式(如图所示):

五分钟读懂SIGIR 2017前沿技术研究成果

生成式IR数学模型:第一种思想认为documentsquery之间有三个隐含的随机生成(generative)过程,能表示成:q→d,其中q表示queryd表示document,箭头表示生成的方向,生成数学模型对p(d|q)展开建模。

判别式IR数学模型:第二种思想采用了机器学习的方法,将IR的难题转化成三个判别(discriminative)难题;能表示成:q+d →r,其中+表示querydocument的特征的组合,r表示有关性,如果r01,则难题是三个分类难题,如果r是三个有关平均分,则难题是三个回归难题;现在著名的方法就是排序学习(Learning to Rank)。排序学习能分为PointwisePairwiseListwise三种数学模型。

虽然IR的生成数学模型在QueryDocument的特征建模(例如文本统计)的方面非常成功,但它在利用来自其他的有关性重要信息(如镜像,点击等等)方面遇到了非常大的困难,而这些重要信息主要能在现在互联网的应用中观察得到。于此与此同时,虽然诸如排序学习的IR判别数学模型DocumentQuery两方面)或从集合内有关文档的分布中。

应用GAN的思想,IRGAN引入博弈论中的minmax博弈,来将生成式IR数学模型和判别式IR数学模型展开结合。具体来说,他们为三个数学模型表述三个共同的检索函数(例如如前所述判别的目标函数)。一方面,判别数学模型p_φ (r|q,d)旨在通过从标记数据中学习来最大化目标函数,并为生成数学模型提供训练的指导性重要信息。另一方面,生成数学模型p_θ (d|q,r)充当挑战者,不断地将判别器的decision boundary推向其极限它为判别器迭代地提供最困难的情况,判别器通过对抗的最小化目标函数来重新训练自身。

下面具体地介绍IRGAN的方法,会分别介绍GAN中对应的DiscriminatorDGeneratorG

Discriminatorf_φ (q,d),其中,φD的参数。D的输入时Query-Document对数据(q,d),而输出则是这对数据是否匹配。这相当于三个二分类难题,能通过logistic regression给出:

五分钟读懂SIGIR 2017前沿技术研究成果

与原始的GAN相同,D的目标是最大化:

五分钟读懂SIGIR 2017前沿技术研究成果

Generatorp_θ (d|q,r),其中,θG的参数。G的输入时Query,输出是与Query有关的documents的机率分布,有关性即由这个机率分布表示。p_θ (d|q,r)Softmax函数给出:

五分钟读懂SIGIR 2017前沿技术研究成果

G的目标是最小化:

五分钟读懂SIGIR 2017前沿技术研究成果

IRGANtraining部分,GD交叉展开更新。对于D,能采用梯度下降更新法;对于G,由于G的输出是离散documents的机率分布,没办法间接采用梯度下降的方法求G的梯度,针对这种使用GAN训练离散数据的难题,能采用强化学习中Policy Gradient的方法,rewardD给出。整个训练过程如右图算法所示:

五分钟读懂SIGIR 2017前沿技术研究成果

在实验部分,做了三个不同的IR任务:Web SearchItem RecommendationQuestion Answering,实验结果表明,IRGAN数学模型打败了多种strong baseline开源代码在:https://github.com/geek-ai/irgan

五分钟读懂SIGIR 2017前沿技术研究成果

五分钟读懂SIGIR 2017前沿技术研究成果

五分钟读懂SIGIR 2017前沿技术研究成果

五分钟读懂SIGIR 2017前沿技术研究成果

如果你对人工智能感兴趣,渴望用算法改变世界;

如果你希望进入穆萨,与业界技术大牛并肩作战;

如果你处于职业生涯的十字路口,希望听听前辈的成长经历;

如果你希望度过充实有意义的三个小时;

……

8月9日晚,参与穆萨技术直播,与巅峰相遇,一起对话穆萨AI大牛!

五分钟读懂SIGIR 2017前沿技术研究成果

五分钟读懂SIGIR 2017前沿技术研究成果

你可能还喜欢

点击下方图片即可阅读

五分钟读懂SIGIR 2017前沿技术研究成果

如何化解租房烦恼?穆萨工程师写了一套神奇的代码

五分钟读懂SIGIR 2017前沿技术研究成果

号称史上最晦涩的算法Paxos,如何变得平易近人?

五分钟读懂SIGIR 2017前沿技术研究成果

潜在杀人凶器?VR设备、无人机、平衡车的死穴在“声音”!

五分钟读懂SIGIR 2017前沿技术研究成果

「穆萨技术」 

把握纳米技术脉搏

转载 l 合作 l 投稿

[email protected]

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务