type
status
date
slug
summary
tags
category
icon
password
DIN
1️⃣论文出处
2️⃣论文解读
3️⃣模型结构

4️⃣解决问题
论文要解决的问题是:从用户有丰富的历史行为中捕捉用户兴趣
用户兴趣的特点有:
- 多样性(Diversity) 即用户在线上购物时往往同时表现出多种兴趣,这个很好理解,例如从一个年轻妈妈的历史行为中,可以看到她的兴趣非常广泛:羊毛衫、帆布包、耳环、童装、奶粉等等。
- 局部聚焦(Local Activation)即用户是否会点击推荐给他的某一件商品,往往是基于他之前的部分兴趣,而非所有兴趣。例如,对一个热爱游泳与吃零食的用户,推荐给他一个泳镜,他是否会点击与他之前购买过泳裤、泳衣等行为相关,但与他之前买过冰淇淋、旺仔牛仔等行为无关。
总结:DIN针对当前候选广告局部地激活用户的历史兴趣,赋予和候选广告相关的历史兴趣更高的weight,从而实现Local Activation,而weight的多样性同时也实现了用户兴趣的多样性表达。
5️⃣损失函数 | 目标函数 | 公式推导
DIN使用Logistic Loss作为目损失函数,最终的目标函数形式如下:

其中S是训练集,N表示数据量
6️⃣代码实现
7️⃣论文细节
模型训练技巧:
Adaptive Regularization / Mini-batch Aware Regularization(MAR)
问题:当参数量非常大,模型很复杂时,非常容易过拟合
解决方案:采取自适应正则,即每次mini-batch,只在非0特征对应参数上计算L2正则(针对特征稀疏性),且正则强度与特征频次有关,频次越高正则强度越低,反之越高。
Data Adaptive Activation Function (Dice)
PRelu的固定折点(hard rectified point)是0,作者把PRelu做了一个改进,让曲线中间光滑变化,使得光滑方式也跟数据分布有关。
动机:使激活函数随数据分布变化动态地调整 rectified point(虽说是动态调整,其实它也把rectified point限定在了数据均值)
8️⃣总结

- Author:liamtech
- URL:https://liamtech.top/article/10f9746b-4e13-801f-a136-f81460762a8c
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!