异质信息网络的互信息最大化社区搜索
Community search with mutual information maximization over heterogeneous information networks
通讯作者:
收稿日期: 2022-07-28
基金资助: |
|
Received: 2022-07-28
Fund supported: | 国家自然科学基金资助项目(62062066,61762090,31760152,61966036,62266050,62276227);云南省基础研究计划重点资助项目(202201AS070015);云南省高校物联网技术及应用重点实验室资助项目;云南大学研究生科研创新基金资助项目(2021Y024);云南省中青年学术和技术带头人后备人才资助项目(202205AC160033) |
作者简介 About authors
王亚峰(1998—),女,硕士生,从事数据挖掘、社区搜索研究.orcid.org/0000-0002-5944-2888.E-mail:
针对现有社区搜索方法难以处理复杂多样的搜索要求及在高维稀疏的异质信息网络(HINs)中难以融合网络结构和节点属性来度量节点间相关性的不足,提出异质信息网络互信息最大化社区搜索问题,给出互信息最大化的社区定义,设计相应的搜索方法(互信息最大化社区搜索,CSMIM). 将用户的搜索要求定义为查询约束,利用带查询约束的深度图互信息最大化(QC-DGI)模型融合网络结构、语义和节点属性信息获得节点嵌入,有效地计算节点间的互信息. 根据给定的查询信息,利用互信息最大化准则搜索目标社区. 为了提高搜索结果的准确率,提出基于用户反馈的优化策略,实现互信息从全局到局部的个性化计算. 在真实数据集上进行大量实验,实验结果表明所提方法能够有效地根据搜索要求挖掘出给定节点所在的社区,相比具有代表性的基线方法有更高的准确率.
关键词:
Existing community search methods are difficult to deal with the complex and diverse search requirements of users and difficult to integrate network structure and node attributes to measure the correlation between nodes in high-dimensional and sparse heterogeneous information networks (HINs). In order to solve the problems, the community search problem of mutual information maximization over HINs was proposed, the definition of community with mutual information maximization was given, and a corresponding community search method, community search with mutual information maximization (CSMIM) was designed. The user's search requirements were defined as query constraints, and a query constraint deep graph infomax (QC-DGI) model was proposed to learn node embedding by extracting the structure, semantics and node attribute information in HINs to effectively calculate the mutual information between nodes. Then, according to the given query information, the mutual information maximization criterion was used to search the target community. In addition, an optimization strategy based on user feedback was proposed to realize the personalized calculation of mutual information from global to local, so as to improve the accuracy of search results. Finally, extensive experiments on real HINs dataset were performed, and experimental results prove that the proposed method can effectively search the community of a given node according to the search requirements, and has higher accuracy than the representative baseline methods.
Keywords:
本文引用格式
王亚峰, 周丽华, 陈伟, 王丽珍, 陈红梅.
WANG Ya-feng, ZHOU Li-hua, CHEN Wei, WANG Li-zhen, CHEN Hong-mei.
不同于通过社区发现[3]获取网络中的所有社区,社区搜索[4]的目标是在大型网络中针对用户给定的查询请求返回满足条件的社区,为用户提供个性化的服务. 目前,在HINs中,已经提出了使用(k,
针对HINs节点和边类型的多样性以及信息的丰富性特点,HINs中的社区搜索涉及几个问题:1)如何处理用户复杂多样的搜索要求;2)如何全面地提取HINs中的结构、语义和属性信息以有效地计算节点间的相关性.
元路径[1]抽取了HINs的子结构,表达了多种对象间特定的语义关系,因此,针对问题1),本研究把每个搜索要求表示为一条元路径,并将其定义为查询约束,用于处理用户复杂多样的搜索要求.针对问题2),本研究利用互信息作为节点间融合网络结构和节点属性信息的相关性指标. 互信息(mutual information, MI)是衡量随机变量之间多维关系的综合度量,能够捕捉到变量间的非线性统计相关性[10-13],在社会网络分析中得到了应用,比如, CommDGI[14](deep community graph infomax)模型在社区检测中利用互信息最大化范式度量社区互信息;异质深度图互信息最大化[2] (heterogeneous deep graph infomax, HDGI)模型利用互信息融合网络结构和节点属性信息度量异质图局部与全局间的相关性. 基于CommDGI和HDGI的思想,本研究设计了应用于HINs的带查询约束的深度图互信息最大化(query constraint deep graph infomax, QC-DGI)模型,通过全面地提取HINs中的结构、语义和属性信息获得节点嵌入来计算节点间的互信息,同时使获得的节点嵌入包含查询约束的特征,有助于更精准地搜索出满足用户需求的社区.
互信息越大的节点间的相关性越高,同一社区中的节点间应具有较高的互信息. 因此,本研究提出异质信息网络的互信息最大化社区搜索问题,给出互信息最大化的社区定义,设计相应的社区搜索方法,互信息最大化社区搜索(community search with mutual information maximization, CSMIM),根据给定的查询信息,利用QC-DGI模型和社区互信息最大化准则定位目标社区. 此外,社区搜索是一个过程化问题,在搜索社区过程中,用户可以根据每次搜索的结果进行调整,使搜索结果更加满足用户需求. 根据用户对社区的反馈,提出基于用户反馈训练局部互信息的交互式社区搜索优化策略,能更加精准地度量节点间的互信息,提高搜索结果的准确率.
1. 基本概念及问题定义
1.1. 基本概念
定义1 异质信息网络HINs[1]. HINs定义为一个具有对象类型映射函数
图 1
定义3 元路径[1]. 元路径定义为在网络模式
定义4 互信息[12]. 给定2个随机变量
式中:
1.2. 问题论述
为了说明社区搜索问题的局限性和定义的合理性,以图1中的IMDB网络为例进行论述.
例1. 假设导演兼演员
基于社区结构(k,
1.3. 问题定义
给定异质信息网络
在HINs中,2个相邻节点可以通过不同类型的元路径连接. 元路径本质上抽取了HINs的子结构,体现了路径所包含的语义信息,因而成为HINs分析中的基本语义捕捉方法[1]. 本研究将用户的搜索要求基于元路径概念定义为查询约束.
定义5 查询约束. 查询约束是在网络模式上定义的基于特定约束的扩展元路径,可以表示为
本研究将查询约束表示为
定义6 基于查询约束的带权邻接矩阵. 若节点
定义7
图 2
社区搜索是一个过程化问题,可以通过逐步加入节点定位结果社区[11]. 比如,在例1中,若当前已经搜索出社区{
定义8 社区互信息. 给定一个社区
式中:
定义9 互信息最大化社区. 对于网络
条件1)要求查询顶点位于目标社区中,并且与基于(k,
2. 互信息最大化社区搜索
2.1. CSMIM框架
CSMIM的基本框架如图3所示. CSMIM方法分为2个阶段. 在第1阶段完成HINs的表示学习,通过带查询约束的无监督节点嵌入模型QC-DGI来学习节点的低维向量表示. 在第2阶段,CSMIM首先基于学习到的节点低维向量表示计算互信息,然后使用社区互信息最大化搜索算法来定位包含查询节点的目标社区.
图 3
图 3 互信息最大化社区搜索方法框架
Fig.3 Illustration of community search with mutual information maximization
2.2. 节点嵌入模型QC-DGI
图 4
图 4 带查询约束的深度图互信息最大化模型框架
Fig.4 Framework of query constraints deep graph infomax model
在QC-DGI模型中,将异质信息网络
2.2.1. 基于查询约束的节点表示编码器
为了捕获节点信息,基于查询约束的节点编码器具有2级结构. 首先,根据每个基于查询约束的带权邻接矩阵
在QC-DGI中,使用图卷积网络(graph convolutional network, GCN)[18]作为获取节点嵌入的编码器组件
式中:
通过学习可以获得基于查询约束的节点表示集
基于不同查询约束的表征的重要性将通过共享注意向量
式中:
使用不同查询约束的权重作为嵌入聚合的线性组合系数,以得到最终的局部特征:
QC-DGI的学习目标是最大化局部表示和全局表示之间的互信息[16].
2.2.2. 基于鉴别器的互信息
负样本的生成会影响模型捕获的结构信息,因此需要高质量的负样本精确地保留结构信息,敦促学习的节点表示更好地捕捉图中不同节点的结构相似性. 负样本
在变换过程中,保持负样本邻接矩阵
式中:WG为图级互信息最大化的参数矩阵.
根据Jensen-Shannon散度和互信息之间的关系[16],可以利用鉴别器的二进制交叉熵损失最大化互信息:
2.3. 基于互信息最大化的社区搜索
基于QC-DGI学习到的节点嵌入,计算候选节点与当前社区之间的互信息,并提出一个基于互信息最大化的社区搜索算法(mutual information maximum, MI-MAX).
2.3.1. 社区互信息度量
则
2.3.2. 互信息最大化搜索算法
利用互信息指标衡量节点是否属于社区,融合节点属性、网络结构和语义信息推断社区中成员的相关性,如果节点属于社区,节点特征与社区特征应尽可能相似,即该节点与社区中节点的互信息应尽可能高. 在社区搜索中,首先根据查询约束集生成满足需求的
算法1 MI-MAX
输入:异质信息网络
输出:包含节点
1. 初始化
2. while
3.
4. for each
5.
6. end for
7. find
8. if
9. add
10. else
11. break;
12. end if
13. end while
14. return
在算法1中,首先初始化目标社区
3. 社区搜索方法优化
3.1. 交互式互信息最大化社区搜索
通常,社区搜索是一个逐步优化的过程,用户可以根据每次定位的结果进行调整. 为了使搜索结果更加精准,本研究设计了异质信息网络的用户交互式互信息最大化社区搜索方法(interactive community search with mutual information maximization, ICSMIM),其基本框架如图5所示. ICSMIM搜索通过多轮迭代完成. 第1轮依据CSMIM方法定位社区,用户可以依据定位的社区标记出希望在社区中或不在社区中的节点,生成标记节点集,基于标记节点集指导下一轮的训练和搜索;接下来的每一轮,根据用户反馈,ICSMIM都会通过训练一个有监督的鉴别器
图 5
图 5 用户交互式互信息最大化社区搜索方法框架
Fig.5 Illustration of interactive community search with mutual information maximization
3.2. 局部互信息最大化
在CSMIM中,通过使用模型QC-DGI训练的鉴别器
式中:WC为社区级互信息最大化的参数矩阵.
利用鉴别器的二进制交叉熵设计损失函数,最大化标签节点集中希望在社区中的节点与查询节点q之间的局部互信息,使得网络中与希望在社区中节点相似的节点和查询节点q之间的互信息尽量大,而与不希望在社区中节点相似的节点和q之间的互信息尽量小.
式中:
基于鉴别器
在ICSMIM中,互信息的度量从全局细化到了局部,通过训练最大化用户标记的节点与初始查询节点
4. 实验评估
4.1. 实验设置
表 1 实验所使用的数据集参数
Tab.1
数据集 | 节点类型 | Nn | 边类型 | Ne | Nf |
ACM | Paper(P) Author(A) Subject(S) | 3 025 5 835 36 | Paper-Author Paper-Subject | 9 744 3 025 | 1 870 |
IMDB | Movie(M) Actor(A) Director(D) Keyword(K) | 4 275 5 431 2 082 7 313 | Movie-Actor Movie-Director Movie-Keyword | 12 838 4 280 20 529 | 6 334 |
DBLP | Author(A) Paper(P) Conference(C) Term(T) | 4 057 | Author-Paper Paper-Conference Paper-Term | 19 645 14 328 88 420 | 334 |
14 328 | |||||
20 | |||||
8 789 |
ICS-GNN[11]是一个基于图神经网络的交互式社区搜索方法. 此方法用子图上训练的图神经网络推断节点分数,然后以用户交互的方式发现目标社区. 由于ICSMIM是一个交互式的互信息最大化社区搜索方法,本研究通过与ICS-GNN对比,以验证在交互式社区搜索中,以互信息作为度量节点间融合网络结构和节点属性的相关性指标的有效性. 但ICS-GNN是应用于同质信息网络的方法,为了能与其对比,在实验中根据查询约束生成的邻接矩阵来构造同质图,基于此同质图来搜索社区.
FastBCore[5]是一个基于社区结构(k,
3)评价指标. 为了测量通过不同方法发现的社区质量,采用了4种测量方法.
(a)局部模块度[20](modularity). 用于量化社区紧密性,即社区结构的内聚度,社区的局部模块度越高表明社区结构越内聚.
(b)社区相似度[5](PathSim). 采用PathSim度量社区成员间的结构相似度,社区的PathSim越大表明社区的结构相似度越高.
(c)精确度[5](precision). 用于度量搜索出的社区的准确率,衡量结果社区与真实社区之间的差异性,精确度越高表明结果社区与真实社区越接近.
(d)社区互信息(MI). 用于度量社区成员间融合网络结构、语义信息和节点属性信息的相关性.
4)实现细节. 模型QC-DGI中将节点表示的维度设置为512,
4.2. 社区搜索方法评估
4.2.1. 案例分析
通过一个案例分析来验证CSMIM方法能够较好地应对用户复杂多样的社区搜索要求,根据在不同查询约束下得到的搜索结果验证方法的有效性,对比方法为FastBCore[5].
社区搜索结果如表2所示,每一行的内容表示在不同的查询约束条件下的搜索结果,其中涉及3个查询约束集(AMA;AMA和
表 2 不同查询约束下的社区搜索结果对比
Tab.2
方法 | 查询约束: AMA | 查询约束: AMA, | 查询约束: AMA, AMDMA, AMKMA, |
FastBCore | Fionnula F, Matthew S, Elizabeth M, James E, A.J. Buckley, Frances F, Kim D等 714人 | Null | Null |
CSMIM | Fionnula F, Matthew S, Elizabeth M, James E, A.J. Buckley, Frances F, Kim D等 30人 | Fionnula F, Matthew S, Elizabeth M, Johnny D, A.J. Buckley, Frances F, Kim D等 30人 | Fionnula F, Matthew S, Elizabeth M, Johnny D, Dennis Q, Xzibit, Toby J等 30人 |
当查询约束为AMA时,FastBCore算法对应的搜索结果几乎包含CSMIM的搜索结果,表明在同等条件下,CSMIM可以找出与FastBCore算法相似甚至更加精确的结果,该结果验证了CSMIM方法的有效性. 针对例1,成立一个演员小组,查询约束为AMA,
4.2.2. 社区搜索方法性能分析
为了评估ICSMIM的效率,测试不同方法之间的查询效率. 如图6所示为所有数据集上的搜索时间t. 可以看出,在社区搜索问题中,ICSMIM的平均查询时间远低于其他方法的.
图 6
为了解决异质信息网络的互信息最大化搜索问题,提出社区搜索方法CSMIM以及改进方法ICSMIM. 如图7所示为改进前、后的方法在社区搜索任务上的性能. 图中,Mod为结果社区的局部模块度,Pre为准确率,PS为结构相似度,MI为互信息,ACM、DBLP、IMDB为数据集,且各指标的数值是对2种算法进行30轮社区搜索后取得的均值. 可以发现,与只考虑全局网络互信息的方法CSMIM不同,在加入了用户的反馈和社区互信息的训练后,ICSMIM的社区搜索性能得到了很大的改进,搜索出的结果社区的各个指标都有所提升.
图 7
如表3所示为在3个数据集上利用不同方法搜索出的结果社区在局部模块度、准确率、结构相似度和互信息指标上的比较结果. 与其他方法相比,ICSMIM在所有数据集上都表现出色. 与ICS-GNN相比每个指标都有显著提高,这是因为当互信息在重建表示中起到重要作用时,嵌入模型可以捕获更多的全局结构信息和节点属性特征,而基于监督损失的GNN过分强调直接近邻[18];另一方面,这也表明基于同质信息网络的方法直接应用到异质信息网络中的局限性,尽管实验中ICS-GNN是基于异质信息网络生成的同质网络搜索社区,但仍会忽略网络的异质性信息. 与FastBCore相比,虽然FastBCore搜索出的社区模块度和结构相似度更高,但FastBCore简化了异质性社区搜索问题,只考虑了顶点的度和结构凝聚性,完全忽略了图形中的语义信息和节点的属性相似度,因此在社区精确度上远低于ICSMIM.
表 3 不同社区搜索方法的性能对比
Tab.3
数据集 | 方法 | Pre | Mod | PS | MI |
ACM | FastBCore | 0.330 | 0.90 | 0.044 | 11.490 |
ICS-GNN | 0.938 | 0.43 | 0.237 | 14.195 | |
ICSMIM | 0.952 | 0.53 | 0.260 | 14.209 | |
DBLP | FastBCore | 0.280 | 0.88 | 0.178 | 7.340 |
ICS-GNN | 0.825 | 0.49 | 0.190 | 16.320 | |
ICSMIM | 0.852 | 0.59 | 0.193 | 16.340 | |
IMDB | FastBCore | 0.345 | 0.93 | 0.007 | 10.960 |
ICS-GNN | 0.515 | 0.35 | 0.046 | 13.257 | |
ICSMIM | 0.570 | 0.45 | 0.049 | 13.262 |
4.3. 社区搜索方法CSMIM的组件分析
4.3.1. 参数分析
如图8(a)~(d)所示为3个数据集上不同社区大小Scom的各指标结果. 可以看出,随着社区大小不断增加,各指标的值呈现出降低的趋势,社区越大,准确率之类的指标越可能减低,因此对于不同的应用背景应该按照需求合理定义社区大小.
图 8
4.3.2. 嵌入模型分析
为了验证QC-DGI模型的性能,在ICSMIM方法中用以下模型替换QC-DGI,根据搜索出的社区的精确度、模块度、相似度和互信息来分析模型.
1)DGI[15]. 深度图互信息最大化(deep graph infomax)为面向同质信息网络的无监督学习模型,为了能与其对比,在实验中,从查询约束生成的邻接矩阵来构造同质图,基于此图来学习节点表示.
2)HDGI[2]. 面向HINs的无监督学习模型,HDGI是利用图卷积网络捕捉局部表示的方法.
3)HGAT[2]. 面向HINs的基于互信息的无监督学习模型,是HDGI的变体,与HDGI不同的是,HGAT利用注意力机制学习局部表征.
4)HAN[19]. 面向HINs的有监督学习模型,用语义注意力机制从元路径中捕获节点信息.
如图9(a)~(d)所示为3个数据集上用不同模型搜索出的社区的各指标结果. 可以观察到QC-DGI优于其他模型. 首先,QC-DGI优于只考虑元路径的HDGI,表明在社区搜索任务中,考虑内容特征和约束信息更有利于互信息的度量和搜索出满足要求的社区. 与方法DGI相比,QC-DGI的性能也更好,这证明了HINs中的语义信息非常重要,不能直接忽略. QC-DGI还优于针对异质信息网络设计的监督模型HAN,原因是HAN在学习表征的过程中没有训练互信息最大化的过程,表明互信息能够很好地度量异质信息网络节点间的相关性. 从QC-DGI和HGAT之间的比较来看,QC-DGI有更好的性能,这是因为图注意力机制严格限于节点的直接邻域,考虑层次依赖性的图卷积比图注意力机制能看得更远.
图 9
4.3.3. 搜索算法分析
为了验证搜索算法MI-MAX的有效性,在ICSMIM方法中,用以下搜索算法定位社区,并从社区的精确度之类的各个指标来分析搜索算法.
1)BFS-only. 只考虑结构信息,利用广度优先搜索(breadth first search,BFS)算法搜索社区.
2)MI-MAX. 本研究所提算法1.
3)BFS-MI(breadth first search-mutual inform- ation). 先利用广度优先策略搜索社区,然后从候选节点集中选择与社区的互信息较大的节点交换出社区内与社区的互信息较小的节点,逐步提高社区互信息,同时保持社区的连通性的改进算法.
如图10(a)~(d)所示为3个数据集上用不同搜索算法搜索出的社区的各指标结果. 可以看出,MI-MAX在社区精确度上取得了最佳性能. BFS-only搜索出的社区结构内聚,但社区精确低,表明只考虑结构特征是不够的. BFS-MI搜索出的社区各指标都取了折中,在对精确度影响较小的情况下,有效地缓解了算法MAX-MI结构相关性弱的问题.
图 10
5. 结 语
本研究提出互信息最大化社区搜索方法来支持异质信息网络中的社区搜索. 从定义合理的社区出发,通过QC-DGI模型融合HINs的网络结构、语义信息和节点属性学习节点表示来计算互信息,并设计能高效、精确地搜索目标社区的算法. 其次,引入了交互式框架来优化社区搜索,能根据用户的反馈,更加精准地度量节点间的互信息,使得结构社区适应不同的用户需求,提高社区搜索结果的准确度. 在3个真实数据集上进行大量的实验,实验结果表明,基于互信息最大化原理的社区搜索方法在时间开销和社区结果上具有优势. 作为利用互信息最大化原理搜索社区的方法,CSMIM为社区搜索提供了一种很有前途的解决方案.
目前,异质信息网络的社区搜索问题还处在一个探索的阶段,如何利用互信息原理,解决搜索节点类型与目标社区节点类型不一致的问题是下一步须研究的方向,如例1中根据导演或关键性类型节点搜索出一个演员类型社区. 另外,目前大多数的异质信息网络社区方法只能搜索出节点类型相同的同质社区,在异质信息网络研究工作中,社区的异质性也不能忽视,搜索出包含多种节点类型的异质社区同样是一个值得研究的问题.
参考文献
异质信息网络分析与应用综述
[J].DOI:10.13328/j.cnki.jos.006357 [本文引用: 5]
A survey of heterogeneous information networks analysis and applications
[J].DOI:10.13328/j.cnki.jos.006357 [本文引用: 5]
A survey of community search over big graphs
[J].DOI:10.1007/s00778-019-00556-x [本文引用: 1]
Effective and efficient community search over large heterogeneous information networks
[J].
复杂条件下的社区搜索方法
[J].DOI:10.13328/j.cnki.jos.005699 [本文引用: 1]
Approaches to community search under complex conditions
[J].DOI:10.13328/j.cnki.jos.005699 [本文引用: 1]
Effective and efficient relational community detection and search in large dynamic heterogeneous information networks
[J].DOI:10.14778/3401960.3401969 [本文引用: 2]
ICS-GNN: lightweight interactive community search via graph neural network
[J].DOI:10.14778/3447689.3447704 [本文引用: 4]
Equitability, mutual information, and the maximal information coefficient
[J].DOI:10.1073/pnas.1309933111 [本文引用: 1]
异质信息网络表征学习综述
[J].DOI:10.11897/SP.J.1016.2022.00160 [本文引用: 1]
Heterogeneous information network representation learning: a survey
[J].DOI:10.11897/SP.J.1016.2022.00160 [本文引用: 1]
Exploring local community structures in large networks
[J].DOI:10.3233/WIA-2008-0147 [本文引用: 1]
/
〈 |
|
〉 |
