「Deep & Cross Network for Ad Click Predictions」- 论文摘要

1、前言

特征工程是许多预测模型成功的关键，但需要人工进行特征工程的提取，DNNs能自动学习组合特征，但是也会学到无用的组合特征。本文提出Deep&Cross Network(DCN)模型，不仅保持了DNNs模型的优势，而且能够有效的学习bounded-degree的组合特征，尤其DCN模型会在每一层都实现cross feature，不需要人工特征工程。

2、Introduction

CTR预估是一个大规模的问题。在做特征工程时如果能探索到少量的cross feature，这会产生一个好的预测结果。但是大规模的稀疏特征，对于特征的探索产生了极大的挑战。

本文提出一个新颖的网络结构，cross network，其主优势：

在多个层都实现了自动化的cross feature，也不需要进行人工特征工程
最高的多项式度在每一层增加，并由层深度决定。网络由度数的所有交叉项组成，直到最高，其系数都不同。
cross network内存效率高，并且利于实现
本文的实验结果显示，DCN的logloss小于DNN，且其参数数量几乎少一个数量级

3、DEEP & CROSS NETWORK (DCN)

结构图：

「Deep & Cross Network for Ad Click Predictions」- 论文摘要

3.1、Embedding and Stacking Layer

由于输入是存在sparse feature（离散特征）和dense feature（连续特征）的数据，加上categorical feature的one-hot，这导致了数据更加的稀疏且维度高，所以我们需要进行embedding降维处理，Embedding Vector：

x_{embed, i } = Wembed, i^{x_i}

。其中xi为输入的二值向量中第i个category，最后我们对所有的Embedding Vector以及dense feature进行stacking，即：

x_0 = \begin{bmatrix} x^T_{embed,1}, &..., & x^T_{embed,k},&x^T_{dense} \end{bmatrix}

然后将x0输入到下一个网络。

3.2、Cross Network

cross network由cross layers组成，每一层有如下公式：

x_{l+1} = x_0x^T_lw_l+b_l+x_l = f(x_l, w_l, b_l) +x_l

，xl为第l层cross layer，wl，bl为第l层的权重和偏差（参数）。cross操作如图所示：

「Deep & Cross Network for Ad Click Predictions」- 论文摘要

3.3、Deep Network

全连接层，公式：

3.4、Combination Layer

将cross network以及deep network的输出结果进行concat，然后将结果送入logits layer，对于二分类问题：

p = \sigma ([x^T_{L_1}, h^T_{L_2}]w_{logits})

4、CROSS NETWORK ANALYSIS

4.1、Polynomial Approximation

多项式公式：

P_n({x}) = \begin{Bmatrix} & \sum_\alpha w_\alpha x^{\alpha_1}_1x^{\alpha_2}_2 ... x^{\alpha_d}_d | 0 \leq |\alpha | \leq n , \alpha \in N^d \end{Bmatrix}

。在cross network中实际上进行的是多项式乘法操作得到cross feature。

cross network的第l层与第l+1层的关系，

x_{i+1} = x_0x^T_iw_i+x^i

，x0为embedding层的输出，第l层的输出为

gl(x_0) = x^T_lw_l

，gl(x0) reproduces polynomials

\begin{Bmatrix} \sum_\alpha c_\alpha (w_0,...,w_l) x_1^{\alpha_1}x_2^{\alpha_2}....x_d^{\alpha_d} | 0\leq |\alpha|\leq l+1,\alpha \in N^d \end{Bmatrix}

，其中

c_\alpha = M_\alpha \sum_{i\in B_\alpha } \sum_{j\in P_\alpha } \prod ^{|\alpha|}_{k=1}w^{(j_k)}_{i_k}

4.2、Generalization of FMs

cross network的参数思想来源于FM模型，FM模型是进行二阶组合特征，degree为2，二阶表达式为权重W乘上xixj，其中W等于i,vj>，FM只能做到两阶的特征组合。而在DCN中可以完成任意多阶的组合，阶数与cross的深度一致，并且其参数复杂度与阶数是线性关系。

d \cdot L_c \cdot 2

，d为输入向量的大小，Lc为cross的深度。

5、总结

DCN模型的输入基本为连续特征(Dense Feature)和id类的离散特征(Sparse Feature),同时将会离散特征处理成embedding特征，这样就可以通过理解为模型的输入是一个连续的向量x0
根据提供的DCN网络结构图，其右侧部分是传统的DNN模型，其中每个全连接层都使用RELU激活函数, 把输入特征通过多个全连接层之后特征变得更加高阶。
左侧部分则是DCN的核心Cross层,每一层的特征都由其上一层的特征进行交叉组合，并且会吧上一层的原始特征重新加回来。这样既能做特征组合，又能保留低阶原始特征，而且还随着Cross层的增加，是可以生成任意高阶的交叉组合特征。
最终会将DNN模型和Cross模型输出的向量进行concat起来之后过一把LR进行点击率预测。

本作品采用《CC 协议》，转载必须注明作者和本文链接

文章！！首发于我的博客Stray_Camel(＾Ｕ＾)ノ~ＹＯ。

娃哈哈店长

见习助教 494 声望

当学习养成习惯，我的博客https://boywithacoin.cn/

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

「Deep & Cross Network for Ad Click Predictions」- 论文摘要

1、前言

2、Introduction

3、DEEP & CROSS NETWORK (DCN)

3.1、Embedding and Stacking Layer

3.2、Cross Network

3.3、Deep Network

3.4、Combination Layer

4、CROSS NETWORK ANALYSIS

4.1、Polynomial Approximation

4.2、Generalization of FMs

5、总结

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

「Deep & Cross Network for Ad Click Predictions」- 论文摘要

1、前言

2、Introduction

3、DEEP & CROSS NETWORK (DCN)

3.1、Embedding and Stacking Layer

3.2、Cross Network

3.3、Deep Network

3.4、Combination Layer

4、CROSS NETWORK ANALYSIS

4.1、Polynomial Approximation

4.2、Generalization of FMs

5、总结

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录