<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 神经协同过滤框架

Fig.1 Neural collaborative filtering framework

输入层包括一个用户u和一个项目i，利用one-hot编码转化为二值化稀疏向量 ${{{v}}_u}$和 ${{{v}}_i}$，将 ${{{v}}_u}$和 ${{{v}}_i}$通过嵌入层映射得到一个稠密向量 ${{{p}}_u}$和 ${{{q}}_i}$，分别表示用户的特征和项目的特征. 其中， ${{{p}}_u} = {{{P}}^{\rm{T}}}{{{v}}_u}$， ${{{q}}_i} = {{{Q}}^{\rm{T}}}{{{v}}_i}$， ${{P}} \in {{\bf{R}}^{M \times K}}$， ${{Q}} \in {{\bf{R}}^{N \times K}}$分别为用户与项目的潜在向量矩阵，M、N分别为用户的个数和项目的个数，K为潜在空间的大小.

在神经协同过滤层，从线性与非线性的角度分别对用户-项目建模，最后结合这2个模型的隐藏层的输出作为最后的输出结果.

此过程形式上可以描述为

(1) $ {{Z} ^{{\rm{GMF}}}} = {{p}}_u^{\rm{G}} \odot {{q}}_i^{\rm{G}}, $

(2) $ {Z ^{{\rm{MLP}}}}\! \!=\! {\alpha _X}\left( {{{W}}_X^{\rm{T}}\left( {{\alpha _{X - 1}}\!\left( \!{ \cdots {\alpha _2}\!\left(\! {{{W}}_2^{\rm{T}}{{\left[ {{{p}}_u^{\rm{M}},{{q}}_i^{\rm{M}}} \right]}^{\rm{T}}}\!\! + {{{b}}_2}}\! \right) \ldots } \right)} \right) +\! {{{b}}_X}}\! \right), $

(3) $\widehat {{y_{ui}}} = \sigma \left( {{{{h}}^{\rm{T}}}{{\left[ {{Z ^{{\rm{GMF}}}},{Z ^{{\rm{MLP}}}}} \right]}^{\rm{T}}}} \right).$

式中： ${{p}}_u^{\rm{G}}$与 ${{p}}_u^{\rm{M}}$分别为广义矩阵分解（general matrix factorization，GMF）和MLP部分的用户嵌入；同样地， ${{q}}_i^{\rm{G}}$和 ${{q}}_i^{\rm{M}}$分别为项目的嵌入；σ和α_X分别为输出层与隐藏层的激活函数；W_X和b_X分别为X层的权重矩阵与偏置向量；h为GMF与MLP模型之间的权衡参数.

接下来学习模型参数. 一般来说，对于显性反馈使用均方根误差损失，而对于隐性反馈则使用交叉熵损失^[21]. 此模型是针对隐性反馈建立的，所以，选择交叉熵损失函数（式（4））来学习模型参数，得到最终的预测评分矩阵，以便于进行推荐：

(4) $L = - \mathop \sum \limits_{\left( {u,i} \right)\text{ϵ}\gamma \cup {\gamma ^ - }} \left[{y_{ui}}\log \;\widehat {{y_{ui}}} - \left( {1 - {y_{ui}}} \right)\log\; \left( {1 - \widehat {{y_{ui }}}} \right)\right].$

式中：γ为交互矩阵中观察到的项，γ⁻为消极实例，可将未观察的全体样本视为消极实例，也可以采取抽样的方式将其标记为消极实例.

2.2. NCF应用于餐馆地址推荐

NCF方法是一个通用的推荐方法，对用户-项目交互矩阵进行直接建模，完全取代了基于MF，或将MF作为通用模型特例用于生成用户和项目的潜在特征的方法. 与最先进的MF方法（如eALS和BPR）和基准方法（如ItemPop和ItemKNN）在MovieLens和Pinterest数据集进行比较，结果表明了NCF的显著效果. 本节利用该方法进行餐馆类别地址的推荐.

地址块内存在某餐馆或者地址块内不存在某餐馆的现象可以视为餐馆类别与地址的交互. 若M和N分别表示餐馆类别和地址的数量，定义餐馆类别-地址交互矩阵 ${{Y}} \in {{\bf{R}}^{M \times N}}$，每个元素y_ui值为1，表示在这个地址i上，存在着类别为u的餐馆，而y_ui=0则表示在地址i上，目前还不存在类别为u的餐馆. 最后，在获得餐馆类别与地址交互的数据后便可直接应用NCF方法来进行餐馆类别地址推荐.

3. 改进的神经协同过滤商业选址方法

考虑到餐馆类别与地址的固有属性，本文在NCF的基础上加以改进，得到商业选址方法—NeuMF-RS. 本章首先介绍基于神经协同过滤进行商业选址的一般框架，主要介绍改进的推荐方法—NeuMF-RS.

3.1. 商业选址框架

从推荐系统的角度，基于神经协同过滤的商业选址的框架如图2所示.

图 2

图 2 基于神经协同过滤的商业选址框架

Fig.2 Framework of commercial site recommendation based on neural collaborative filtering

1）数据：此层是数据源层，是指从爬取的原始餐馆和POI数据，经过经纬度匹配，得到如式（5）所示的餐馆类别与地址的交互数据.

2）方法：此层是研究中最核心的一部分，指出了本文为餐馆类别推荐地址所用的方法，可以形式化为

(5) ${Z ^{{\rm{SVD}}}} = f\left( {{{{P}}^{\rm{T}}}{{{v}}_u},{{{Q}}^{\rm{T}}}{{{v}}_i}{\rm{|}}{{P}},{{Q}},{\theta _f}} \right),$

(6) ${Z ^{{\rm{MLP}}}} = g\left( {{{{P}}^{\rm{T}}}{{{v}}_u},{{{Q}}^{\rm{T}}}{{{v}}_i}{\rm{|}}{{P}},{{Q}},{\theta _g}} \right),$

(7) $ \widehat {{y_{u\iota}}} = \sigma \left( {{{{h}}^{\rm{T}}}{{\left[ {{Z ^{{\rm{SVD}}}},{Z ^{{\rm{MLP}}}}} \right]}^{\rm{T}}}} \right). $

式中： ${{P}} \in {{\rm{R}}^{M \times K}}$和 ${{Q}} \in {{\rm{R}}^{N \times K}}$分别为餐馆类别和地址的潜在空间矩阵， ${{{v}}_u}$和 ${{{v}}_i}$分别为u和i经过one-hot编码后的向量； ${\theta _f}$和 ${\theta _g}$分别为SVD（singular value decomposition，SVD）模型和MLP模型交互函数f和g的参数；h为SVD与MLP模型之间的权重；σ为激活函数.

由于评分二值化，选择交叉熵损失函数（式（4））来学习模型参数，然后得到最终的预测评分矩阵.

3）推荐：对某餐馆类别的所有地址进行评分，并据此推荐Top-N个地址.

3.2. 推荐算法—NeuMF-RS

本文方法是在NCF的基础上设计的，主要是考虑到餐馆类别、地址的固有属性. 有的餐馆类别很广泛，普遍存在；而有的餐馆类别仅是出现在繁华地区。对于地址块，有的地址属于重要位置，此地址块内餐馆较多，但有的地址则比较偏僻，餐馆数量与种类较少. 因此，本文添加餐馆类别与地址的偏置来提高推荐的准确性，推荐算法如图3所示.

图 3

图 3 基于神经协同过滤改进的NCF-RS模型

Fig.3 NCF-RS model based on neural collaboative filtering

使用p_u和q_i分别作为嵌入层输出的值 ${{{P}}^{\rm{T}}}{{{v}}_u}$和 ${{{Q}}^{\rm{T}}}{{{v}}_i}$，在SVD层，可以得到：

(8) $\begin{array}{l} {Z ^{{\rm{SVD}}}} = f\left( {{{{P}}^{\rm{T}}}{{{v}}_u},{{{Q}}^{\rm{T}}}{{{v}}_i}{\rm{|}}{{P}},{{Q}},{\theta _f}} \right) = {{{b}}_u} + {{{b}}_i} + {{p}}_u^{\rm{S}} \odot {{q}}_i^{\rm{S}}. \end{array}$

式中：b_u为餐馆类别的偏置，b_i为地址的偏置， ${{p}}_u^S$和 ${{q}}_i^S$分别为线性刻画的餐馆类别与地址的潜在向量. 在MLP层，定义不变，同式（2）. 最后，可以得到：

(9) $\widehat {{y_{ui}}} = \sigma \left( {{{{h}}^{\rm{T}}}{{\left[ {{Z ^{{\rm{GMF}}}},{Z ^{{\rm{MLP}}}}} \right]}^{\rm{T}}}} \right),$

(10) $\sigma \left( x \right) = \frac{1}{{1 + {{\rm{e}}^{ - x}}}}.$

本文基于keras^①实现了NeuMF-RS，并选用自适应矩估计（Adam）^[16]的方法来优化目标函数（式（4））. 模型优化之后，参数确定，可以用训练好的模型预测每个餐馆类别对所有地址的预测评分，据此评分可以为每个餐馆类别推荐地址.

① https://keras.io/.

算法一中给出了NeuMF-RS算法的伪代码，包括训练、测试与预测阶段.

算法一：NeuMF-RS算法

输入：餐馆类别与地址的交互矩阵

输出：餐馆类别与地址的预测评分矩阵

1） %训练模型

2）初始化模型参数；

3）利用式（8）、（2）、（9）计算训练集中每个实例的预测评分值；

4）通过最小化（4）优化模型的参数；

5） %测试模型

6）利用训练的模型预测测试集的预测评分，评估推荐的性能，并记录最好的推荐性能时模型的参数；

7） %预测

8）利用记录的模型参数得到餐馆类别与地址的预测评分矩阵；

9）结束

4. 实验验证

4.1. 实验数据

本文研究使用神经协同过滤的方法为餐馆类别推荐地址，需要大量的餐馆数据. 从图4上可以看到北京餐馆分布广泛、数量极大，因此，本文选择大众点评网^②上的北京餐馆数据进行爬取，获得11 653条数据. 接着，利用高德地图API^③爬取了北京市的地址块POI信息. 当划分地址块时，若将区域划分为较大块，则餐馆类别与地址的交互较多，数据稀疏性小，从而推荐系统的准确性较高，但是推荐的目标地址不明确，需要进一步确定具体地址. 然而若将区域划分为较小块，则数据稀疏性大，推荐系统的准确性较低。因此，本文最终选择1 000 m×1 000 m的区域作为一个地址块的大小.

② http://www.dianping.com/.

③ http://lbs.amap.com/api/javascript-api/summary/.

图 4

图 4 北京市所有餐馆的热力图

Fig.4 Heat map of restaurants in Beijing

本文将餐馆类别与地址块交互个数大于20个的地址块保留，以防止数据稀疏性大，因此最终的数据包括35种餐馆类别、1 270个地址块，餐馆类别与地址块的之间有9 625次交互，餐馆类别与地址块的矩阵稀疏度为88.53%.

4.2. 基准方法

为了评估改进的NeuMF-RS方法的推荐性能，将其与以下推荐方法进行比较：

1）Item-KNN^[13]是基于项目的CF方法，通过不同方法计算项目相似度并获取推荐列表.

2）NeuMF-RS-SVD为NeuMF-RS方法中的SVD部分，即NeuMF-RS中的线性部分.

3）SVD^[12]考虑了偏置项的MF，利用均方损失函数来进行优化.

4）DMF^[20]带有神经网络的深度MF模型，将用户和项目利用深度神经网络分别映射到相同的低维空间，通过计算相似度来进行预测评分.

5）NCF^[8]提出了一个GMF与MLP的双通道混合模型. 线性和非线性独立的建模、用户与项目独立的嵌入，均使得推荐的模型更加灵活，性能更加稳健、卓越. 详见第2.1节.

4.3. 实验设置

为了评估项目推荐的性能，本文采用leave-one-out^[8]方法评估，即：对于每一个餐馆类别，随机选择一次交互作为测试集，并将其余的作为训练集. 由于每个餐馆类别的地址选项太多，随机选择100个不与餐馆类别交互的地址，并将要测试的地址排列在这100个地址中.

排名列表的性能由命中率^[8]（hitting rate，HR）和归一化折扣累积增益^[8]（normalized discounted cumulative gain，NDCG）来衡量. HR表示推荐的前N个项目能够命中用户实际偏好的比例. 而NDGG则表明了推荐列表的排名质量.

在参数设置方面，首先用高斯分布（平均值为0，标准偏差为0.01）随机初始化模型参数，然后使用Adam来学习NeuMF-RS模型的参数. 分别测试MLP层的层数[0，1，2，3，4]，学习率[0.001，0.005，0.01，0.05，0.1]，梯度批次[32，64，128，256，512]，采样率[4，8，16，32，64]和平衡因子[0.2，0.4，0.5，0.6，0.8]. 实验结果表明：当MLP层数为3层，学习率为0.005，梯度批次为512，采样率为32，平衡因子为0.5时，推荐的性能最佳.

4.4. 实验结果

本文首先研究推荐系统性能和潜在因子大小之间的关系. 一般来说，潜在因子越大，说明映射到的潜在向量包含的信息越多，准确度更高. 但是也存在过拟合现象，如图5、6所示，NeuMF-RS、DMF、MF-BPR方法中HR@10、NDCG@10均随着潜在因子K的增加而增加，但在潜在因子K=80时，DMF、MF-BPR在HR和NDCG指标上均有所降低.

图 5

图 5 推荐性能HR@10随潜在因子的变化

Fig.5 Recommendation performance of HR@10 varies with predictive factors

图 6

图 6 推荐性能NDCG@10随潜在因子的变化

Fig.6 Recommendation performance of NDCG@10 varies with predictive factors

总体来看，改进的NeuMF-RS方法对于餐馆类别的地址推荐效果更优、性能更好. 对于Item-KNN，本文测试不同的相邻尺寸作为潜在因素并报告最佳性能. 与最相近的NCF方法相比，改进的NeuMF-RS方法添加了餐馆类别与地址的偏置，推荐性能更优，虽然，从图5可知，当K=10时，NeuMF方法推荐性能更好，但是这已经是该方法的最优性能，而此时NeuMF-RS方法还没有达到其最优性能. 此外，当K=20时，虽然HR@10与NDCG@10尚未达到最高，仍然会随着潜在因子K的变大而变大，但是它增加的幅度较小，消耗的训练时间长. 因此，本文选择K=20作为餐馆类别地址推荐系统的潜在因子.

当K=20时，NeuMF-RS取得最佳推荐性能，本研究在此情况下测试推荐性能随推荐长度的变化，测试结果如图7、8所示. 可以看出，NeuMF-RS方法优于深度学习方法（NCF、NeuMF-RS-SVD和DMF），并且平均来说，在HR指标上比NCF、NeuMF-RS-SVD和DMF分别提高了9.2%、10.8%和17.5%，在NDCG指标上分别提高了11.6%、9.5%和21.4%；同时明显优于其他没有深度学习的CF方法（Item-KNN和SVD），表明了本文的NeuMF-RS方法在餐馆类别推荐系统上的可行性与有效性.

图 7

图 7 推荐性能HR随推荐列表长度的变化

Fig.7 Recommendation performance of HR varies with length of recommendation list

图 8

图 8 推荐性能NDCG随推荐列表长度的变化

Fig.8 Recommendation performance of NDCG varies with length of recommendation list

5. 结　论

本文基于神经协同过滤方法提出了新的用于商业选址的神经协同过滤方法NeuMF-RS，将深度学习应用于选址推荐，解决了餐馆类别与地址块固有属性的问题. 在真实数据集上的验证结果表明：NeuMF-RS明显优于其他的选址推荐方法，表明NeuMF-RS用于商业选址推荐的可行性与有效性. 但NeuMF-RS存在冷启动的问题，即只能在历史的地址块上进行推荐，并不能评估其他新的地址块，因此后续研究将考虑添加餐馆类别的特征、地址块的特征来得到类别与地址块的表示，从而解决冷启动的问题，提高推荐的准确度.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LIAN J, ZHANG F, XIE X, et al. Restaurant survival analysis with heterogeneous information [C] // Proceedings of the 26th International Conference on World Wide Web Companion. Perth: IW3C2, 2017: 993-1002.

DOI:10.1016/j.apgeog.2013.03.005 [本文引用: 1]

[2]

ROIG-TIERNO N, BAVIERA-PUIG A, BUITRAGO-VERA J, et al

The retail site location decision process using GIS and the analytical hierarchy process

[J]. Applied Geography, 2013, 40: 191- 198

[3]

XU M, WANG T, WU Z, et al. Demand driven store site selection via multiple spatial-temporal data [C] // Proceedings of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. Burlingame: ACM, 2016: 40.

[4]

KARAMSHUK D, NOULAS A, SCELLATO S, et al. Geo-spotting: mining online location-based services for optimal retail store placement [C] // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. Chicago: ACM, 2013: 793-801.

[5]

CHEN L, ZHANG D, PAN G, et al. Bike sharing station placement leveraging heterogeneous urban open data [C] // Proceedings of the 2015 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Osaka: ACM, 2015: 571-575.

[6]

CUO B, LI J, ZHENG V W, et al

CityTransfer: Transferring Inter-and Intra-City knowledge for chain store site recommendation based on multi-source urban data

[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2018, 1 (4): 135

[7]

ZHANG S,YAO L,SUN A X,et al

Deep learning based recommender system: a survey and new perspectives

[J]. ACM Computing Surveys (CSUR), 2019, 52 (1): 5

[8]

HE X, LIAO L, ZHANG H, et al. Neural collaborative filtering [C] // Proceedings of the 26th International Conference on World Wide Web Companion. Perth: International World Wide Web Conferences Steering Committee, 2017: 173-182.

[本文引用: 8]

[9]

CHIEN Y H, GEORGE E I. A Bayesian model for collaborative filtering [C] // AISTATS. [S.l.]: [s.n.], 1999.

DOI:10.1023/B:VLSI.0000027485.11890.15 [本文引用: 2]

[10]

BROWNING J, MILLER D J

A maximum entropy approach for collaborative filtering

[J]. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, 2004, 37 (2/3): 199- 209

[11]

KOREN Y, BWLL R, VOLINSKY C

Matrix factorization techniques for recommender systems

[J]. Computer, 2009, 42 (8): 30- 37

DOI:10.1109/MC.2009.263 [本文引用: 1]

[12]

TOROSLU Ġ H. A singular value decomposition approach for recommendation systems [D]. Ankara: METU, 2010: 1-67.

[13]

SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms [C] // Proceedings of the 10th international conference on World Wide Web. Hong Kong: ACM, 2001: 285-295.

[14]

GETOOR L, SAHAMI M. Using probabilistic relational models for collaborative filtering [C] // Workshop on Web Usage Analysis and User Profiling. [S.l.]: WEBKDD, 1999: 1-6

[15]

SHI Y, LARSON M, HANJALIC A

Collaborative filtering beyond the user-item matrix: A survey of the state of the art and future challenges

[J]. ACM Computing Surveys (CSUR), 2014, 47 (1): 3

[16]

KINGMA D P, Ba J. Adam: A method for stochastic optimization [J]. arXiv preprint. arXiv: 1412.6980, 2014.

[17]

ELKAHKY A M, SONG Y, HE X. A multi-view deep learning approach for cross domain user modeling in recommendation systems [C] // Proceedings of the 24th International Conference on World Wide Web. Florence: IW3C2, 2015: 278-288.

[18]

WANG H, WANG N, YEUNG D Y. Collaborative deep learning for recommender systems [C] // Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney: ACM, 2015: 1235-1244.

[19]

MA W J. Deep learning meets recommendation systems [EB/OL]. NYC Data Science Academy. (2017-01-24). [2018-12-17]. https://nycdatascience.com/blog/student-works/deep-learning-meets-recommendation-systems/.

[20]

XUE H J, DAI X, ZHANG J, et al. Deep matrix factorization models for recommender systems [C] // Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: AAAI, 2017: 3203-3209.

[21]

RENDLE S, FREUDENTHALER C, GANTHER Z, et al. BPR: Bayesian personalized ranking from implicit feedback [C] // Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence. Montreal: AUAI, 2009: 452-461.