<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 用户社区子群需求聚类模型的研究流程

Fig.1 Research process of user community subgroup demand clustering model based on complex networks

1.1. 用户评论数据获取及意象词汇甄选

电商平台的发展推动用户输出海量评论信息，同时也反映出大量用户的潜在需求信息^[17]，可借此开展集群偏好判断，挖掘消费者偏好差异性，达到用户子群需求聚类的研究目的^[18]. 用户信息的获取方式涉及网页数据爬取技术，相比于问卷调查，该方法回收效率更高且内容信息更丰富，能够为精准描述用户特征提供数据来源.

在数据获取方面，基于Scrapy爬虫模型可以对电商平台进行精准的用户评论信息获取^[19]，相关流程如图2所示. 符合信息公开性、非侵入性、非商业性的网络爬虫由人工转为机器自动的信息整合操作，完善了网络爬虫技术中立工具的规范性^[20]. 当利用网络爬虫获取用户评论信息时，须针对用户自然评论语句编码，目标样本X₁的评论信息域为

图 2

图 2 网络爬虫技术流程

Fig.2 Web crawler technology flow

(1) $ {S_1} = \left\{ {{X_{1 \text{-} 1}}, \;{X_{1 \text{-} 2}},\; {X_{1 \text{-} 3}},\; \cdots , \;{X_{1 \text{-} n}}} \right\}. $

式中：X_1-n为X₁的第n条评论信息，S₁为非空集. 全体用户评论信息域为

(2) $ S = \left\{ {S_1,\; S_2,\; \cdots ,\;\left. {S_m} \right\}} \right.. $

式中：S_m为第m个样本包含的用户评论信息. 在本研究中，取m的最大值为121，表示筛选的121款水壶样本. 用户在线评论具有非结构化文本属性（评论内容长短不一，且存在口语化表述特征），会产生大量离散化信息，基于词典的Jieba分词处理可以实现词性过滤，加速用户评论内容收敛. 为此，使用该方法对全体分析样本评论信息域S进行分词处理，处理结果存储于集合P，表示为

(3) $ P = \left\{ {{P_1},\; {P_2},\; \cdots ,\; {P_i}} \right\}. $

式中：i为分词处理结果编号，取i的最大值为14 657.

PageRank算法^[21]能够利用网页链接间的从属关系构建庞杂的有向图，通过迭代排序确定网页的优先等级. 如图3所示为有向链路网络生成示意图，其中用户评论分词结果为独立节点，词汇从属关系为生成边的条件，即依据分词排序建立有向链路. 基于PageRank算法，迭代计算词汇节点的重要度值，表示为

图 3

图 3 有向链路网络示意图

Fig.3 Schematic diagram of directed link network

(4) $ S({p_i}) = (1 - d)+d\sum\limits_{j \in {{\rm{In}}}({V_i})} {\frac{1}{{\left| {{{\rm{Out}}}({V_j})} \right|}}} S({p_j}). $

式中：S(p_i)为分词i的重要度值，初始值设定为1；In(V_i)为指向分词i的邻接分词集合数量；Out(V_j)为分词j指向其他邻接分词集合的数量；d为阻尼系数，通常取d=0.8^[22]. 迭代循环计算全体分词的PageRank值，满足收敛条件时，输出S(p_i)作为词汇描述集的初始值，通过设定阈值筛选出用户需求的特征词汇集V={v₁, v₂, v₃, ···, v_z}，其中z为筛选出的特征词汇个数，对应的PageRank值记作R={r₁, r₂, r₃, ···, r_z}.

1.2. 面向用户评论的需求聚类模型

传统K-Means算法可以高效、便捷地实现目标聚类，但随机选取初始化质心会产生限定用户的强局部收敛数据，因此初始质心的设定质量决定了聚类效果. 复杂网络社区利用网络连通图表示非线性的个体用户关系，通过图的网络指标属性量化用户聚类制约关系，聚类效果较K-Means更好，即利用网络中介中心性指标输出分类子群间协同因素，使用户大群体决策规律透明化.

如图4所示为无向加权网络生成过程，如图5所示为用户聚类和模块划分过程. 基于图论(graph theory)的OCDL通过网络的边属性开展相似性判断，将原始有向网络转化为新的无向加权网络，通过计算新网络中各节点的度完成层次聚类，实现网络模块社区划分，即输出针对包含重叠节点的最优聚类识别结果. 改进的OCDL分为以下5个步骤.

图 4

图 4 无向加权网络的生成过程

Fig.4 Generation process of undirected weighted network

图 5

图 5 聚类和模块划分过程

Fig.5 Clustering and module division process

1) 构建目标有向网络. 有向网络G=(V, E)，其中E为网络节点连边集合. 参考各用户评论分词结果排序建立有向评论链路，组合全体用户评论链路构建目标有向网络，独立及重复节点不存在自身连接，仅记录出现频次.

2) 转换特征词汇无向网络. 依据现有节点数量，判别各节点间无向网络的连边条件，能够为网络转换提供限定. 虽然有向网络借助实体链路的方向性反映信息传播路径，例如航空网络、合作网络、蛋白质网络等，但用户信息往往不具备明确的线性指向关系，而是以相对复杂的社区属性共存. 可以通过计算已构建的目标有向网络边相似度，将其转换为符合社区属性的无向网络. 通过目标有向网络中节点的指向关系建立邻接矩阵：

(5) $ {\boldsymbol{R}} = \left[ {\begin{array}{*{20}{c}} {{r_{11}}}& \cdots &{{r_{1j}}} \\ \vdots & & \vdots \\ {{r_{i1}}}& \cdots &{{r_{ij}}} \end{array}} \right]. $

保留网络连接数据.如果v_i指向v_j，则记r_ij=1；否则记为0. 网络中边的链路距离反映边的相似度. 通过目标有向网络中边的链路距离可以计算节点间的关联程度，即链路距离路径越短，共现占比越高，隶属于相同模块的概率越高，其聚类效果越理想. 如图6所示为网络中的边相似度关系计算示意图，边相似度函数值越高，表示用户特征词汇连接越紧密，表示为

图 6

图 6 有向网络的边相似度计算

Fig.6 Edges similarity calculation of directed network

(6) $ S\left( {{e_{il}},\; {e_{jk}}} \right) = \alpha {S_n}\left( {{e_{il}}, \;{e_{jk}}} \right)+\beta d\left( {{e_{il}},\;{e_{jk}}} \right). $

式中：S_n(e_il, e_jk)为边e_il与边e_jk的连接紧密度， d(e_il, e_jk)为e_il到e_jk的距离， $\alpha $、 $\;\beta $均为权值参数. e_il与e_jk的连接紧密度表示为

(7) $ {S_n}\left( {{e_{il}},\;{e_{jk}}} \right) = \frac{{[{n_ - }\left( i \right) \cap {n_ - }\left( j \right)] + \left[ {{n_ + }\left( l \right) \cap {n_ + }\left( k \right)} \right]}}{{\left[ {{n_ - }\left( i \right) \cap {n_ - }\left( j \right)} \right] + \left[ {{n_ + }\left( l \right) \cup {n_ + }\left( k \right)} \right]}}. $

式中： ${n_-}(i)$为第i个词汇节点指向的相邻节点数， ${n_+}(l)$为第l个词汇节点的相邻节点数. e_il到e_jk的距离表示为

(8) $ d\left( {{e_{il}}, \;{e_{jk}}} \right) = \left[ {\frac{{2n_{\rm{dia}} - \left( {{s}_{ij}+{s}_{ki}} \right)}}{{2n_{{\rm{dia}}}}}} \right]\delta \left( {{d_{lj}}, {d_{ki}}} \right). $

式中：n_dia为网络直径内的节点数，即整体网络最短路径包含的词汇数；s_ij为词汇节点i到j的最短路径包含的词汇数量与直径的差值；d_lj为词汇节点l与j的间距； $ \delta ({d_{lj}}, {d_{ki}}) $为判别函数:

(9) $\delta\left(d_{l j},\; d_{k i}\right)=\left\{\begin{array}{l} 1,\;\;\; d_{l j}^2+d_{k i}^2 \neq 0； \\ 0,\;\;\; d_{l j} d_{k i}=0. \end{array}\right. $

通过式(6)~(9)计算无向网络中节点的连边相似性，获得相应的用户特征词汇无向网络.

3) 更新无向网络中各节点权值. 在概率论中，Softmax函数通过对分类结果赋予概率值的方法，避免了仅以数据极大值进行线性判断的局限性，被广泛应用于非线性数据的标准化处理. 本研究将式(4)计算的各节点PageRank值作为网络中节点的权值，利用Softmax函数对PageRank数据集R进行标准化处理，表示为

(10) $ w\left( {{v_i}} \right) = \frac{{{e^{{r_i}}}}}{{\displaystyle\sum\nolimits_{i = 1}^n {{e^{{r_i}}}} }}. $

式中：r_i为节点v_i的PageRank值，w(v_i)为标准化处理后的节点权值. 通过连边相似性计算，用户特征词汇无向网络连边结构得以更新，结合新生成的连边计算更新节点权值.

(11) $ W({v_i}) = w({v_i})+\sum\nolimits_{{v_i} \in v} {w(v_i^*)} . $

式中： $v_i^*$为与节点v_i连接的邻居节点. 本研究通过式(10)、(11)更新无向网络全体节点的权值.

4) 无向网络边权值计算. 网络连边强度反映节点之间的紧密关系，若2个词汇存在链路关系，则连边强度加1，统计全部链路强度信息.

(12) $ w({e_{ij}}) = \frac{{f({e_{ij}})}}{{\displaystyle\sum\nolimits_{i = 1}^n {f({e_{ij}})} }}. $

式中：w(e_ij)为节点v_i与v_j连边的权值，f(e_ij)为节点v_i与v_j连边强度， $ \sum\nolimits_{ i = 1}^{ n} {f({e_{ij}})} $为整体网络的连边强度. 依据式(12)，采用基于图论的层次聚类算法进行聚类.

5) 检验社区集群划分信度. 模块度Q用于衡量传统无向网络的模块划分质量. 针对本研究提出的无向加权网络，在Q值计算基础上加入边权值计算，提升模块划分效果. 改进后的模块度判别函数表示为

(13) $ {Q_{{\rm{od}}}} = \sum\limits_{i = 1}^k {\left\{ {\left( {{{\omega _i} \bigg/ \sum\limits_{i = 1}^k {{\omega _i}} }{{}}} \right) - {{\left[ {\sum\limits_{j = 1}^k {\left( {{{\psi _{ij}}\bigg/ \sum\limits_{i = 1}^k {{\omega _i}} }{{}}} \right)} } \right]}^2}} \right\}} . $

式中：k为网络划分的模块数； $ {\omega _i} $为模块i内边权数值和， $ {\psi _{ij}} $为模块i与j的互连边权数值和.

2. 聚类模型网络更新预测

2.1. 用户需求交互链路更新

节点链路关系的变更催生网络的动态演化特性，针对链路预测的相关研究为社区聚类演化提供了理论基础. 在加权社会网络链路预测中，通过多路径节点相似性(similarity based on transmission nodes of multipath, STNMP)^[23]计算，增强量化相邻用户子群间的潜在关联，可以输出精准的更新链路，益于判断用户子群的发展趋势.

节点相似性是链路预测的重要度量指标之一. 相似度越高的节点间往往具有越大的连边可能性，其处于模块间重叠社区的概率也越高. 在网络节点路径的相似性计算中，为了解决数据的稀疏性问题，采用加权Jaccard距离^[24]进行度量，

(14) $ {\rm{lsim}}\;({v_i}, {v_j}) = \sum\limits_{{N_{ij}} \in {N^*}({v_i}) \cap {N^*}({v_j})} {\frac{{w({e_{ik}})+w({e_{kj}})}}{{W({v_i})+W({v_j}) - w({e_{ij}})}}} . $

式中：lsim (v_i, v_j)为意象节点对(v_i, v_j)最短路径的边权相似度，N_ij为连通v_i与v_j的节点集，N ^*(v_i)为节点v_i的邻居集. 网络链路包含传播路径信息. 考虑到非邻居节点间的链路具有复杂性和多样性，进行路径的相似度计算，以筛选符合网络更新的链路，避免过拟合状态下的无效链路预测. 依据式(14)计算边权相似度，

(15) $ \begin{split} S_{ L_k} ={\rm{lism}}\;({v_i}, {v_1}) \times {\rm{lism}}\;({v_1}, {v_2}) \times \cdots \times {\rm{lism}}\;({v_r}, {v_j}). \\ \end{split} $

式中：S_{L_k}为由节点链路{v_i, v₁, v₂, ···, v_r, v_j}组成的路径L_k(v_i, v_j)的路径相似性得分. 由于复杂的网络图具有较强的连通性，v_i与v_j间可能存在多条连接，路径k仅反映该路径对v_i与v_j的全局相似性的数值大小. 为了提高预测路线的精准性，须计算全局路线来确定预测链路，即进行多路径节点相似性计算. 将连接v_i到v_j的所有路径组成的集合记作L={l₁, l₂, ···, l_p}，计算多路径相似度

(16) $ {S_{\rm{T}}}(v_i, v_j) = \sum\nolimits_{k = 1}^p {S _{L_k}} .$

式中：S_T(v_i, v_j)为连接v_i与v_j的所有路径对于节点(v_i, v_j)的相似性贡献总和. 利用式(15)、(16)，可以得到总体路径与其中一条路径的相似性得分比值，以确立更新后的链路，实现用户社区子群需求聚类演化链路预测.

2.2. 链路精准度及网络社区更新结果验证

随机划分训练集和测试集的无监督评价模型验证方法能够快速地输出预测结果，但训练集在判别条件上受限于原有聚类主题，对更新网络预测适用性较差，即新连边概率难以验证AUC可以验证预测链路信度. 如果不考虑网络自身连接，n个节点的网络的边的上限集合U由 $n \times (n - 1)/2$条边组成，E^u为潜在构成链路的边， ${E^{\rm{u}}} = U - E$，同时将E划分为训练集E^tr和测试集E^te，满足 $ E = {E^{{\rm{tr}}}} \cup {E^{{\rm{te}}}} $且 $ {E^{{\rm{tr}}}} \cap {E^{{\rm{te}}}} =\varnothing $. 随机在E^te、E^u中各选一条边，对比路径相似性得分，独立比较n次后，计算AUC，计算式为

(17) $ {{\rm{AUC}}} = n^{-1}({{n'+0.5n''}}). $

式中： $n'$为E^te得分大于E^u的次数， $n''$为得分相同的次数.

3. 实例验证

3.1. 水壶评论数据获取及特征词汇甄选

以水壶的用户在线评论为研究案例，详细阐述用户购买决策的聚类过程. 涉及水壶产品销售的线上平台较多，为了避免重复数据干扰实验结果，从淘宝、京东购物平台获取用户信息，选取上述电商平台的2022年度水壶销售数据. 采集内容包括评论文本、满意度打分、购买时间、产品款式、商品效果图等5类信息，涵盖影响用户购买行为发生的主要决策条件. 剔除重复产品后，甄选出121款水壶样本，保留17 811条有效评论，以“.CSV”格式存储表示用户需求信息，使用Jieba分词工具进行自动化分词处理，以构建用户需求词典. 部分商品效果图如图7所示. 部分爬取的原始用户评论数据包含评论文本、购买日期、样本编号m，如表1所示. 设定检索步长Max Len=5，部分评论分词处理结果如表2所示.

图 7

图 7 商品效果图(部分)

Fig.7 Products renderings (partial)

表 1 用户评论文本数据爬取结果(部分)

Tab.1 User comment text data crawling results (partial)

评论文本	购买日期	m
真的很好用，对商品非常满意，特别实用.	2022-01-10	1
这个很小巧，烧水速度很快，几乎没啥声音自带的功能也很多.	2022-03-01	1
$ \vdots $	$ \vdots $	$ \vdots $
颜值挺高的，白色很耐看也很配居家使用，准备再入手一个放在办公室.	2022-01-09	121
保温效果不错，容量的话稍微有点小，刚够自己一个人一早上的量.	2022-05-02	121

表 2 用户评论文本分词结果(部分)

Tab.2 User comment text word segmentation results (partial)

评论文本	分词结果	m
真的很好用，对商品非常满意，特别实用.	好用、满意、实用	1
这个很小巧，烧水速度很快，几乎没啥声音自带的功能也很多.	养生壶、小巧、烧水、速度、功能	1
$\vdots $	$\vdots $	$\vdots $
颜值挺高的，白色很耐看也很配居家使用，准备再入手一个放在办公室	颜值、白色、居家、办公室	121
保温效果不错，容量的话稍微有点小，刚够自己一个人一早上的量.	保温、容量、小	121

为了筛选符合用户需求的特征词汇，结合语境对评论分词进行词性过滤，最终确定4类基本词性: 动词(Verb)、形容词或序数词(JJ)、形容词(Adj)、名词(Noun). 依据各评论中词汇出现次序的从属关系确立评论链路，逐条整合全部评论数据，构建各词性约束下的有向网络图，辅助进行下一步的特征词汇提取工作，如图8所示为所选4类词性的链路网络. 利用式(4)计算不同词性下的PageRank值，为了消除低频无意义词汇噪点，保留4类词性中排名前80%的词汇作为特征词汇，构建水壶用户评论描述特征集，部分筛选结果如表3所示. 依据表3构建用户描述特征集V，消除冗余词汇的同时保留了大量用户诉求信息，为构建特征词汇无向网络提供精准可靠的数据来源.

图 8

图 8 4类词性链路网络

Fig.8 Four types of part-of-speech link networks

表 3 筛选后的特征词汇(部分)

Tab.3 Filtered feature vocabulary (partial)

词性	词汇数量	特征词汇
动词 (Verb)	573	保温、购买、控制、清洗、···、操作、优化、密封
形容词或序数词 (JJ)	206	唯一、自动、实用、主要、···、大、同样
形容词(Adj)	306	方便、漂亮、简约、干净、···、精致、透明、便捷
名词 (Noun)	472	质量、功能、外观、速度、···、价格、时尚、恒温

3.2. 水壶评论特征词汇无向加权网络模型

用户需求的量化受个体及环境的多维因素影响，须构建无向加权网络以明晰用户决策模式. 利用网络全局性及子群的收敛性消除单一属性划分导致的需求割裂问题. 通过设定检索步长为1，排除词汇自身连接，保留146个强链路关系节点，依据评论次序建立有向目标网络，利用式(5)计算得到146×146的邻接矩阵R，部分数据如表4所示. 将网络节点连边的相似度作为4类词性组建的意象词汇无向网络的连边条件，利用式(6)~(9)将特征词汇邻接矩阵转换为连边相似性矩阵，以反映连接强度. 相似度值较高的节点连边建立强连接，相似度值较低的建立弱连接，所建立的无向网络表征用户购买决策关联信息. 针对已确定的146个特征词汇，利用式(4)迭代计算输出收敛的PageRank值，使用式(10)对其进行标准化处理，部分数据如表5所示. 针对新构建的无向网络结构特征，利用式(11)更新节点权值，其结果如表6所示. 为了进一步量化网络信息关联属性，利用式(12)计算无向网络连边权值，保留146个特征词汇的1 000条连边信息，部分计算结果如表7所示，建立的评论特征词汇无向加权网络如图9所示.

表 4 特征词汇无向网络邻接矩阵(部分)

Tab.4 Adjacency matrix of feature vocabulary undirected network (partial)

V	v₁	v₂	v₃	v₄	v₅	v₆	···	v₁₄₆
v₁	0	1	1	1	1	1	···	0
v₂	1	0	1	1	1	1	···	0
$\vdots $	$\vdots $	$\vdots $	$\vdots $	$\vdots $	$\vdots $	$\vdots $		$\vdots $
v₁₄₆	0	0	0	0	0	0	···	0

表 5 特征词汇PageRank值及标准化(部分)

Tab.5 Feature vocabulary PageRank values and standardization (partial)

V	R	w(vi)
v₁	0.012 261	0.006 886
v₂	0.018 427	0.006 929
v₃	0.012 443	0.006 887
v₄	0.018 449	0.006 929
$ \vdots $	$\vdots $	$\vdots $
v₁₄₆	0.004 226	0.006 831

表 6 节点权值更新结果(部分)

Tab.6 Node weight updated results (partial)

V	W(v_i)	V	W(v_i)
v₁	2.301 981	v₄	4.324 156
v₂	3.901 660	$ \vdots $	$ \vdots $
v₃	1.609 552	v₁₄₆	0.288 848

表 7 节点连边权值(部分)

Tab.7 Weight of edges between nodes (partial)

E	w(e_ij)	E	w(e_ij)
v₁-v₂	0.240 561	v₁-v₆	0.138 447
v₁-v₃	0.061 063	v₁-v₇	0.043 440
v₁-v₄	0.236 022	$ \vdots $	$ \vdots $
v₁-v₅	0.072 965	v₁₄₆-v₁₃₈	0.046 154

图 9

图 9 评论特征词汇无向加权网络

Fig.9 Undirected weighted network of comment feature vocabulary

基于图论的层次聚类能够实现评论特征词汇的快速聚类分析. 依据加权网络结构，结合最小生成树方法将146个特征词汇划分成7个评论社区，邀请5名工业设计专家和3名深度访谈用户对评论社区特征进行讨论，得出7类用户购买行为决策维度：产品质感、造型设计、服务性、实用性、操控性、安全性、体验感. 采用Jaccard距离计算连接强度. 其中社区内部采用实线连接，反映特征词汇间映射关系；社区间采用虚线连接，映射产品描述维度之间的制约关联条件，以此对完整的用户评论信息关系进行可视化描述. 使用最小生成树的方法，消除网络图中因连线数量过大导致聚类结果可读性差的问题. 无向加权网络特征词汇聚类结果如图10所示，用户购买行为发生的7类决策维度信息如表8所示.

图 10

图 10 特征词汇无向加权网络聚类结果

Fig.10 Undirected weighted network clustering results of feature vocabulary

表 8 用户购买行为发生的决策维度

Tab.8 Decision dimension of user purchase behavior

编号	用户购买行为决策维度	特征词汇
01	产品质感（触觉）	包装/透明度/手感/玻璃/质感/···/家庭/通透
02	造型设计（视觉）	材质/外观/款式/漂亮/大气/高端/···/ 时尚/样子
03	服务性（性价比）	质量/物流/价格/品牌/品质/···/便宜/ 性价比
04	实用性	容量/效果/方便/难易/清洗/特色/···/ 快捷/热水
05	操控性	方式/菜单/操作/简单/温度/···/功能/ 性能
06	安全性	安全/气味/味道/塑料/密封性/用料/···/ 瑕疵/精细
07	体验感	大方/简洁/简约/美观/造型/精致/···/小巧/样式

如图11所示，构建产品样本与决策维度映射关系，进行交叉汇总. 其中底部横坐标表示样本编号，顶部树状图反映各样本间树状聚类关系；右侧为7类决策维度，左侧表示决策维度树状聚类关系；图中色块纯度反映关联程度r_da. 交叉汇总图可以辅助设计师筛选各决策维度的参考样本，以便他们进行方案优化设计. 以“操控性”为例，样本17在造型设计上可作为参考样本，借鉴其形态及要素特征开展产品形态设计能够极大满足用户“操控性”的需求. 利用式(13)计算网络社区划分的Q_od值进行信度检验，其中模块1~7的内部边权值总和分别为4.417 533、0.964 068、9.773 802、5.658 013、1.543 370、4.207 739、3.153 114. 模块与模块间互连边权值的和如表9所示，计算得到Q_od=0.72. 网络结构中模块度Q的计算结果截图如图12所示，其中解析度反映聚类数量的精准度，取值越接近1，结果越理想. 模块度反映聚类效果，当Q∈[0.3，0.7]时，认为达到理想的网络聚类效果^[25]. 本实验设定解析度为1.0，Q=0.36，聚类结果为7类，与所构建的无向加权网络聚类结果一致. 采用改进后的OCDL，计算得Q_od=0.72，相比模块度Q=0.36，检验数值精度增加0.36，能够较好地提升用户特征词汇的聚类效果.

图 11

图 11 样本及决策维度交叉汇总

Fig.11 Cross-summarization of sample and decision dimensions

表 9 模块间互连边权值

Tab.9 Interconnect edge weights between modules

模块编号	ψ_ij
模块编号	模块1	模块2	模块3	模块4	模块5	模块6	模块7
模块1	—	0.016 668 619	0.086 354 438	0.069 068 441	0.016 313 308	0.087 846 043	0.006 154 762
模块2	0.016 668 619	—	0.013 357 219	0.004 687 216	0.006 308 408	0.016 572 784	0.022 698 338
模块3	0.086 354 438	0.013 357 219	—	0254 936 1	0.047 531 501	0.039 625 591	0.013 705 564
模块4	0.069 068 441	0.004 687 216	0.254 936 1	—	0.031 339 468	0.101 056 076	0.038 998 219
模块5	0.016 313 308	0.006 308 408	0.047 531 501	0.031 339 468	—	0.019 495 627	0.003 386 003
模块6	0.087 846 043	0.016 572 784	0.039 625 591	0.101 056 076	0.019 495 627	—	0.046 899 991
模块7	0.006 154 762	0.022 698 338	0.013 705 564	0.038 998 219	0.003 386 003	0.046 899 991	—

图 12

图 12 网络模块度计算结果截图

Fig.12 Calculated screenshot of network modularity

3.3. 水壶用户子群演化聚类结果

网络图中固定的节点数量限定了连边总数的上限，通过式(14)~(16)计算节点间路径相似度实现链路预测，其中预测网络的新增链路集合E^*共有139条链路，利用边权值计算方法计算新增链路权值，部分结果如表10所示. 利用特征词汇无向加权网络模型对预测网络进行基于图属性的层次聚类，结果如图13所示. 分析预测网络聚类结果，将用户购买行为决策维度确定为5类，通过专家讨论分别对各维度包含的特征词汇进行总结，得出相应的描述维度为产品质感(触感)、实用性、衍生功能、造型设计(视觉)、体验感. 预测的用户购买行为决策维度结果如表11所示.

表 10 新增链路权值(部分)

Tab.10 New edges weights between nodes (partial)

E^*	w(e_ij)	E^*	w(e_ij)
v₁-v₂₄	0.05	v₂-v₇₂	0.09
v₁-v₁₀₀	0.43	v₂-v₁₀₂	0.08
v₁-v₁₀₇	0.24	$ \vdots $	$ \vdots $
v₂-v₉	0.07	v₁₃₀-v₁₃₄	0.03

图 13

图 13 特征词汇无向加权预测网络聚类结果

Fig.13 Undirected weighted prediction network clustering results of feature vocabulary

表 11 用户购买行为决策维度的预测结果

Tab.11 Prediction results of user purchase behavior decision dimension

编号	用户购买行为决策维度	特征词汇
01	产品质感（触觉）	手感/透明度/包装/质量/ 买/···/密封/干净
02	实用性	大小/容量/方便/烧水/ 购买/···/实用/声音
03	衍生功能	保温/效果/时间/温度/ 手机/···/蓝牙/手机
04	造型设计(视觉)	外观/好看/做工/材质/ 功能/···/精致/大气
05	体验感	便携/特色/设计/安装/ 过滤/···/塑料/把手

3.4. 水壶用户社区子群需求演化结果对比验证

链路预测精度和聚类效果均影响用户社区子群需求演化结果输出的可信度. 使用AUC衡量链路精度，由式(17)得到本实验的AUC=0.86，远高于0.5^[26]，相较于随机生成边的方法，AUC具有更高的可信度. 链路曲线下面积的计算结果如图14所示. 图中，R_FP为错误识别率，R_TP为正确识别率. Q_od可以反映社区子群划分信度，预测网络计算得到Q_od=0.69，相比传统模块度计算结果Q=0.33，改进的OCDL满足子群最佳聚类效果，明显提升了数值验证信度. 结果表明，利用链路预测方法可以有效解决用户需求演化预测问题.

图 14

图 14 链路曲线下面积的计算结果

Fig.14 Area under curve calculation result of link

4. 讨　论

由实验结果可知，改进后的OCDL对无向加权网络具有更精准的模块识别能力. 原因是传统模块度Q反映网络划分后的模块集团边占比问题，忽略了网络边权值信息，仅以连边数量比值验证聚类效果. 本研究构建的评论特征词汇无向加权网络隶属于社会网络，考虑到将用户评论特征词汇作为网络节点会导致连边数量繁多且存在重复连边的情况，若采用无权模块 $Q$值计算方法会陷入以连边数量判别社区划分质量的误区，忽略网络边权值差异对用户购买行为决策聚类效果的影响. 通过水壶案例验证，利用式(12)将边数量信息转换为边权值信息，计算得到特征词汇无向加权网络Q_od=0.72，明显高于模块度Q=0.36，结果表明，以边属性开展相似性判断的网络连边权值方法利于提升模块划分的精度，能够确定最佳聚类k值，辅助评论特征词汇无向加权网络开展用户购买决策维度的聚类.

在自然语言处理的研究领域，无监督的机器学习借助特征词汇的上下文关系，开展主题的提取和聚类，揭示分析文本内的潜在变量及隐藏结构. 其中基于潜在狄利克雷分布(latent Dirichlet allocation, LDA)的主题模型，无论是对文本潜在主题的解释层面还是数据运算能力方面，都具有优异的处理效果^[27]. 为了验证特征词汇无向加权网络聚类结果的可靠性，使用LDA主题模型对用户购买行为决策维度聚类结果进行一致性检验，LDA主题模型聚类结果如图15所示. 图中，N_T为主题聚类数量，η为困惑度值，η越小聚类效果越理想；圆圈面积反映模块成分占比，深色柱状条代表选中模块的主要特征词统计结果；利用“手肘图”方法确定当N_T=7时，主题聚类效果最佳，与特征词汇无向加权网络聚类结果在主题数量上具有一致性. 对比分析表8中的各决策维度与LDA各聚类主题发现，二者存在大量相近的特征词汇，表明改进的OCDL可以针对用户购买行为输出较为准确的决策维度.

图 15

图 15 潜在狄利克雷分布主题模型验证决策维度聚类结果

Fig.15 Latent Dirichlet allocation topic model verifies decision dimension clustering results

特征词汇无向加权网络的Q=0.36，Q_od=0.72，二者均高于预测网络的Q=0.33，Q_od=0.69. 分析导致预测数据偏低的原因：作为检验社区聚类效果的重要衡量指标之一，模块度的数值越大，网络中社区结构越趋于“内紧外松”. 本研究对现有节点基于网络边相似性进行链路预测，侧重挖掘由群体间信息交流导致聚类主题发生变化的因素，随着用户的意见交换，预测网络“内紧”结构将会削弱，产生新的网络结构，即用户群将析出潜在需求组成新的购买决策维度. 因此预测网络中Q、Q_od是对新网络社区聚类效果的检验，不涉及原始网络，其Q、Q_od在数值上的降低不代表预测网络聚类效果低于特征词汇无向加权网络聚类效果.

网络图结构包含的信息数据具有明确的权值关系，可以反映各聚类结果间的非线性关系，研究结果有助于设计师多角度全面把握具有突出贡献的特征词汇. 例如，由图10中“造型设计(视觉)”聚类结果可知，在“造型设计(视觉)”购买决策维度的宏观层面，用户的直接需求集中于产品的“外观、颜色、材质”层面，设计师应着力于产品外观样式的变化，以满足用户对“大气”“高端”“时尚”等感性词汇的理解，引导购买决策行为的发生；“造型设计(视觉)”购买决策维度同时以“材质”为连接枢纽，综合产品“材质—操作方式”“材质—安全”“材质—容量”的协同价值，分别与“操控性”“安全性”“实用性”购买决策之间存在跨维度微观关联.本研究提出的加权网络链路预测，是对实际购买用户之间的需求信息传播的模拟，目的是探究当下用户需求信息的聚类效果以及需求发展趋势. 与现有方法对比，本研究方法具备丰富的数据基数，网络连边结构保留了潜在需求关联特性, 为需求动态发展提供预测. 例如，由图10、13可知，用户购买行为决策维度由初始的7类转化为5类，其中产品质感、造型设计、实用性、体验感等4个购买决策维度得以延续，属于相对稳定的需求，产品的服务性(性价比)、操控性、安全性决策维度转变为衍生功能需求，属于待开发的需求. 未来在开展水壶设计时，可以在优化4个稳定需求的基础上，将衍生功能维度作为创新设计的切入点，例如开发智能温控、手机交互及智慧监测等功能，推进产品的智能化设计.

STNMP算法受初始节点数量限制，本研究主要针对现有网络的新、旧链路的产生与消失进行集群聚类的动态预测. 考虑流行元素对产品造型设计的时效性价值，其延续周期较短，不利于用户深层次需求的转化预测. 因此，本研究在构建预测网络时未加入新节点，面向用户短期购买决策维度的预测效果有待进一步验证. 在用户需求交互链路更新中，对于用户评论按月份建立时间序列集合D={D₁, D₂, ···, D_n}，其中D_n为第n月份用户评论中所包含的特征词汇. 利用式(14)~(16)计算时序集不同时间段的各节点相似度，并对计算结果进行均值化处理，以获取完整的链路更新结果，避免主观设定预测时序范围造成的用户显性需求集中表达而隐性需求表达不完全的问题. 为了精准判断预测结果的有效期限，使用爬虫工具重新爬取2018—2021年的水壶购买评价信息，并按季度存储. 以1—3月、1—6月、1—9月、1—12月作为时间跨度，利用LDA主题模型计算不同时间跨度内的用户需求数量，用户需求预测结果有效期检验结果如表12所示. 表中，N_TP为预测网络主题聚类数量。当时间跨度为1年（1—12月）时，除2020年实际需求聚类数量和预测数量存在差异外，其余结果均一致，整体预测效果具有良好的解释性. 线上评论数据还受商业环境影响，伪用户评论会对聚类结果造成严重影响，甚至使用户需求预测失去价值. 前期甄选数据的真实性制约着聚类模型的可靠性，本研究对伪用户评论的判别主要采用一致性文本、指定词汇、人工判别相结合的方法. 随着数据量的增加，今后的研究将开发自动化数据处理程序，以减轻工作任务并提升数据信度.

表 12 用户需求预测结果有效期检验结果

Tab.12 User demand forecast result validity test

年度	时间跨度	N_T	N_TP
2022	1—3月	7	4
	1—6月	5	7
	1—9月	6	5
	1—12月	—	—
2021	1—3月	7	4
	1—6月	5	3
	1—9月	6	3
	1—12月	4	4
2020	1—3月	3	6
	1—6月	7	5
	1—9月	6	8
	1—12月	7	6
2019	1—3月	4	6
	1—6月	6	8
	1—9月	5	6
	1—12月	5	5
2018	1—3月	5	—
	1—6月	6	—
	1—9月	6	—
	1—12月	4	—

5. 结　语

本研究针对用户购买行为决策的多指标非线性融合特质，借助复杂网络重叠模块识别和链路预测相关理论，模拟用户固有特性与群体效应相互作用推动设计需求动态变化的规律，实现用户社区聚类结果输出及其动态演变结果预测. 1）利用评论大数据信息构建无向加权网络，确定用户购买行为决策维度，提升了决策维度的一致性和聚类模型的泛化能力. 2）利用网络多路径相似度计算，更新网络链路结构，输出用户决策维度动态调整结果，为明晰用户需求转变提供关键特征词汇量化数据，辅助设计师精准判断市场需求. 3）通过案例研究验证预测预网络的精度，输出用户决策转变结果，为用户需求预测提供新的思路及研究方法. 下一步研究工作：1)本研究分别利用Matlab和Gephi软件进行基于图属性的层次聚类和网络参数计算，后续将整合开发操作环境，优化操作界面并内嵌数据转换模块，提升数据处理的连贯性与可读性，通过参数调节快速输出可视化结果. 2)在用户子群演化聚类结果预测中，借助现有节点调整新旧连边，更新网络结构，模拟用户需求的变化发展；实际决策过程受井喷流行元素影响，须进一步结合时效性热点验证短期消费决策预测维度的信度.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张发明, 朱姝琪

社会网络环境下基于群体一致性的概率语言多属性大群体决策方法

[J]. 系统管理学报, 2022, 31 (4): 679- 688

ZHANG Fa-ming, ZHU Shu-qi

Probabilistic language multi-attribute large group decision-making method based on group consistency in social network analysis

[J]. Journal of Systems and Management, 2022, 31 (4): 679- 688

DOI:10.13196/j.cims.2010.04.3.luoshj.009 [本文引用: 1]

[2]

罗仕鉴, 朱上上, 应放天, 等

产品设计中的用户隐性知识研究现状与进展

[J]. 计算机集成制造系统, 2010, 16 (4): 673- 688

LUO Shi-jian, ZHU Shang-shang, YING Fang-tian, et al

Statues and progress of research on users’ tacit knowledge in product design

[J]. Computer Integrated Manufacturing Systems, 2010, 16 (4): 673- 688

DOI:10.13196/j.cims.2010.04.3.luoshj.009 [本文引用: 1]

[3]

林丽, 任丽, 阳明庆, 等

基于改进加权协同过滤的集群用户黑箱个性意象预测

[J]. 浙江大学学报: 工学版, 2022, 56 (4): 803- 808

LIN Li, REN Li, YANG Ming-qing, et al

Prediction of black-box personality image of cluster users based on improved weighted collaborative filtering

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (4): 803- 808

DOI:10.1126/science.286.5439.509 [本文引用: 1]

[4]

WATTS D J, STROGATZ S H

Collective dynamics of ‘small-world’ networks

[J]. Nature, 1998, 393: 440- 442

DOI:10.1038/30918 [本文引用: 1]

[5]

BARABASI A L, ALBERT R

Emergence of scaling in random networks

[J]. Since, 1999, 286 (5439): 509- 512

[6]

郑文萍, 刘美麟, 杨贵

一种基于节点稳定性和邻域相似性的社区发现算法

[J]. 计算机科学, 2022, 49 (9): 83- 91

DOI:10.11896/jsjkx.220400146 [本文引用: 1]

ZHENG Wen-ping, LIU Mei-lin, YANG Gui

Community detection algorithm based on node stability and neighbor similarity

[J]. Computer Science, 2022, 49 (9): 83- 91

DOI:10.11896/jsjkx.220400146 [本文引用: 1]

[7]

杨延璞, 龚政, 兰晨昕, 等

工业设计决策网络构建及其动态演化仿真

[J]. 浙江大学学报: 工学版, 2021, 55 (12): 2298- 2306

YANG Yan-pu, GONG Zheng, LAN Chen-xin, et al

Construction of industrial design decision-making network and its dynamic evolution simulation

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (12): 2298- 2306

DOI:10.3969/j.issn.1001-4268.2022.05.010 [本文引用: 1]

[8]

杨旭华, 王磊, 叶蕾, 等

基于节点相似性和网络嵌入的复杂网络社区发现算法

[J]. 计算机科学, 2022, 49 (3): 121- 128

DOI:10.11896/jsjkx.210200009 [本文引用: 1]

YANG Xu-hua, WANG Lei, YE Lei, et al

Complex network community detection algorithm based on node similarity and network embedding

[J]. Computer Science, 2022, 49 (3): 121- 128

DOI:10.11896/jsjkx.210200009 [本文引用: 1]

[9]

柯建坤, 许忠好

Louvain算法与K均值聚类算法的比较研究

[J]. 应用概率统计, 2022, 38 (5): 780- 790

KE Jian-kun, XU Zhong-hao

A comparative study of Louvain algorithm and K-means clustering algorithm

[J]. Chinese Journal of Applied Probability and Statistics, 2022, 38 (5): 780- 790

DOI:10.3969/j.issn.1001-4268.2022.05.010 [本文引用: 1]

[10]

李乾瑞, 郭俊芳, 黄颖, 等

基于突变—融合视角的颠覆性技术主题演化研究

[J]. 科学学研究, 2022, 39 (12): 2129- 2139

DOI:10.3969/j.issn.1003-2053.2022.12.003 [本文引用: 1]

LI Qian-rui, GUO Jun-fang, HUANG Ying, et al

Topic evolution research of disruptive technology based on mutation and fusion perspective

[J]. Studies in Science of Science, 2022, 39 (12): 2129- 2139

DOI:10.3969/j.issn.1003-2053.2022.12.003 [本文引用: 1]

[11]

ANDREA L, SANTO F, KERTESZ J, et al

Detecting the overlapping and hierarchical community structure in complex networks

[J]. New Journal of Physics, 2009, 11: 033015

DOI:10.1088/1367-2630/11/3/033015 [本文引用: 1]

[12]

PANTHADEEP B, PINAKI M

A survey of density based clustering algorithms

[J]. Frontiers of Computer Science, 2020, 15 (1): 139- 165

DOI:10.3969/j.issn.1008-0821.2022.09.004 [本文引用: 1]

[13]

段庆锋, 陈红, 刘东霞, 等

基于LSTM模型与加权链路预测的学科新兴主题成长性识别研究

[J]. 现代情报, 2022, 42 (9): 37- 48

DUAN Qing-feng, CHEN Hong, LIU Dong-xia, et al

Identifying growth of discipline topics using LSTM and weighted link prediction

[J]. Journal of Modern Information, 2022, 42 (9): 37- 48

DOI:10.3969/j.issn.1008-0821.2022.09.004 [本文引用: 1]

[14]

杨延璞

基于犹豫模糊语言术语集和粒子群优化算法的产品造型设计感性评价方法

[J]. 图学学报, 2021, 42 (4): 680- 687

YANG Yan-pu

Kansei evaluation method of product form design based on hesitant fuzzy linguistic term sets and particle swarm optimization

[J]. Journal of Graphics, 2021, 42 (4): 680- 687

[15]

刘琳岚, 宋修洋, 陈宇斌

基于网络表示学习的机会网络链路预测

[J]. 北京邮电大学学报, 2022, 45 (4): 64- 69

LIU Lin-lan, SONG Xiu-yang, CHEN Yu-bin

Link prediction in opportunistic networks based on network representation learning

[J]. Journal of Beijing University of Posts and Telecommunications, 2022, 45 (4): 64- 69

DOI:10.11897/SP.J.1016.2022.01598 [本文引用: 1]

[16]

杨智勇, 许倩倩, 何源, 等

半监督AUC优化的Boosting算法及理论

[J]. 计算机学报, 2022, 45 (8): 1598- 1617

YANG Zhi-Yong, XU Qian-qian, HE Yuan, et al

Boosting-based semi-supervised AUC optimization: theory and algorithm

[J]. Chinese Journal of Computers, 2022, 45 (8): 1598- 1617

DOI:10.11897/SP.J.1016.2022.01598 [本文引用: 1]

[17]

娄策群, 李罗佶, 王雪莹

基于Kano模型的B2C电商平台信息服务功能研究

[J]. 现代情报, 2021, 41 (4): 26- 35

DOI:10.3969/j.issn.1008-0821.2021.04.004 [本文引用: 1]

LOU Ce-qun, LI Luo-ji, WANG Xue-ying

Research on information service function of B2C E-commerce platform based on Kano model

[J]. Journal of Modern Information, 2021, 41 (4): 26- 35

DOI:10.3969/j.issn.1008-0821.2021.04.004 [本文引用: 1]

[18]

景瑶, 郭斌, 王柱, 等

基于群体智能挖掘的个性化商品评论呈现方法

[J]. 浙江大学学报: 工学版, 2017, 51 (4): 675- 681

JING Yao, GUO Bin, WANG Zhu, et al

CrowdReview: personalized product review presentation based on crowd intelligence mining

[J]. Journal of Zhejiang University: Engineering Science, 2017, 51 (4): 675- 681

[19]

陆蔚华, 倪祎寒, 蔡志彬, 等

用户评论数据驱动的产品优化设计方法

[J]. 计算机辅助设计与图形学学报, 2022, 34 (3): 482- 490

LU Wei-hua, NI Yi-han, CAI Zhi-bin, et al

User review data-driven product optimization design method

[J]. Journal of Computer-Aided Design and Computer Graphics, 2022, 34 (3): 482- 490

[20]

苏青

网络爬虫的演变及其合法性限定

[J]. 比较法研究, 2021, (3): 89- 104

SU Qing

Evolution of web crawling and conditions for its legitimacy

[J]. Journal of Comparative Law, 2021, (3): 89- 104

DOI:10.7544/issn1000-1239.2021.20200757 [本文引用: 1]

[21]

GU K, FAN Y, DI Z

Signed pageRank on online rating systems

[J]. Journal of Systems Science and Complexity, 2022, 35: 58- 80

DOI:10.1007/s11424-021-0124-2 [本文引用: 1]

[22]

鲍阳, 杨志斌, 杨永强, 等

基于限定中文自然语言需求的SysML模型自动生成方法

[J]. 计算机研究与发展, 2021, 58 (4): 706- 730

BAO Yang, YANG Zhi-bin, YANG Yong-qiang, et al

An automated approach to generate SysML models from restricted natural language requirements in chinese

[J]. Journal of Computer Research and Development, 2021, 58 (4): 706- 730

DOI:10.7544/issn1000-1239.2021.20200757 [本文引用: 1]

[23]

郭景峰, 刘苗苗, 罗旭

加权网络中基于多路径节点相似性的链接预测

[J]. 浙江大学学报: 工学版, 2016, 50 (7): 1347- 1352

GUO Jing-feng, LIU Miao-miao, LUO Xu

Link prediction based on similarity of nodes of multipath in weighted social networks

[J]. Journal of Zhejiang University: Engineering Science, 2016, 50 (7): 1347- 1352

[24]

赵文涛, 张烁

稀疏数据下基于用户偏好的协同过滤算法

[J]. 重庆邮电大学学报: 自然科学版, 2021, 33 (4): 669- 674

ZHAO Wen-tao, ZHANG Shuo

Collaborative filtering algorithm based on user preference in sparse data

[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2021, 33 (4): 669- 674