As an important form of expressing the relationship among entities, graph networks have been widely used in data analysis, relational reasoning, and information services. For these applications, how to reasonably represent network characteristic information is the primary task of network analysis research. Graph embedding technology solves the problem of how to efficiently and reasonably map massive, heterogeneous, and complex high-dimensional graph data to low-dimensional vector space while still retaining the original data feature information. This paper aims to survey the algorithm and research progress of graph embedding in recent years, analyze the development status of this field, and explore the direction for subsequent research. First, it reviews the principle and basic theory of graph embedding technology, then systematically investigates the current mainstream graph embedding algorithms, including graph embedding approaches based respectively on dimensionality reduction, matrix decomposition,network topology,neural network, generative adversarial network, and hypergraph. Then we show the application scenarios of graph embedding technology and introduce the commonly used test data sets and evaluation criteria. Finally, we highlight the future research trends and directions of graph embedding, such as dynamic graph embedding, graph embedding scalability and interpretability.
LIU Hualing, ZHANG Guoxiang, MA Jun. Research progress of graph embedding algorithms. Journal of Zhejiang University(Science Edition)[J], 2022, 49(4): 443-456 doi:10.3785/j.issn.1008-9497.2022.04.008
早期,图数据量小、结构常规且维度较低,往往将图嵌入作为一种降维技术。首先将基于邻域的一组n个D维节点构建为一个相似图,然后将图的节点嵌入至d (dD)维向量空间,使相互链接的节点彼此更靠近,如拉普拉斯特征图和局部线性嵌入(locally linear embedding,LLE)[1],主要用于解决可伸缩性,其时间复杂度为O(|V|2)[8]。
2010年后,图嵌入研究转向可扩展的技术领域,以迎合并较好地利用实际网络数据的稀疏性。文献[1]运用邻接矩阵的近似分解,提出了大规模信息网络嵌入方法(large-scale information network embedding,LINE)[1],尝试通过保留一阶和二阶邻近度,扩展LINE,通过通用的奇异值分解(singular value decomposition,SVD)处理相似度矩阵,从而保留其高阶邻近度[6]。结构化深度网络嵌入(structural deep network embedding,SDNE)通过自动编码器嵌入节点并捕获其高度非线性的依存关系[9]。此类可伸缩方法的时间复杂度为O(|V|2)。
节点邻近矩阵分解法[21]则通过最小化目标函数,并利用矩阵分解计算低维空间中的节点邻近度,其中, W 为节点间的邻近矩阵,Y为节点的嵌入,Yc为上下文节点的嵌入。此外,HSCA[22]模型是对TADW模型的改进,基于skip-gram和hierarchical softmax学习分布式单词表示,HSCA的目标函数式为
。
其中,第1项,使TADW的矩阵分解误差最小化;第2项,对 W 和 H 施加低级约束,并用参数λ进行协调;最后的正则化项,强制网络中邻近点间的结构同质化。该方法将使连接的节点在网络表示中彼此更接近。
基于DeepWalk改进的算法,其概率模型和目标函数普遍难以解释如何保留图的高阶相似性。为解决此类问题,文献[23]提出了GraRep模型,通过邻接矩阵相乘k次得到第k阶过度矩阵 Ak,定义过度概率,并由skip-gram模型和负采样方法定义损失函数,使嵌入结果保留了嵌入空间中图的高阶相似性。而HOPE[6]模型在计算高阶相似性时保留了非对称传递性,非对称传递性指有向图之间特定的相关性。文献[6]对几种高阶近似性的计算方法,如卡兹指数法[24]、基于PageRank的方法、共同邻居法和Adamic-Adar法进行了实验,其中节点i的嵌入表达可通过分解邻近矩阵 S 求得,再用SVD方法等选取前K个特征值,对矩阵 S 进行分解。
2.3 基于网络拓扑结构信息的图嵌入算法
较著名的图嵌入算法为DeepWalk[25],借鉴自然语言处理中重要的词嵌入算法word2vec,通过随机游走将图嵌入转化为词嵌入问题。从每个节点出发若干次,用均匀采样方式选择当前节点的邻接节点,并作为下一步的节点进行随机游走,当游走路径达到规定长度时,停止本次游走,然后将这些节点序列作为训练样本输入skip-gram模型进行训练,得到节点的嵌入表达。因此,可将DeepWalk视为一种连接序列嵌入和图嵌入的过渡方法,其目标是最大化随机游走序列 S 中顶点对的平均对数概率,使具有相似邻域(具有较大的二阶相似度)的节点共享相似的嵌入。其目标函数为
LINE[1]是一种基于邻域相似假设的算法,与DeepWalk使用DFS构造邻域不同,LINE可看作是一种用广度优先搜索(breath first search,BFS)构造邻域算法。在现实世界网络中,相互联系的节点通常表现为较相似或向量距离接近,LINE算法将其定义为一阶近邻,用于描述相邻顶点之间的局部相似度;二阶近邻则用2个节点间的共同邻居度量,描述节点与邻域的关系。LINE算法分别对所有具有一阶近邻关系和二阶近邻关系的节点对进行概率建模,通过最小化其概率分布和经验分布的KL散度,得到2个嵌入;由不同目标函数训练的2个嵌入向量连接每个顶点,可更好地表示输入图。LINE通过捕捉网络中的一阶近邻关系和二阶近邻关系,更完整地描述网络,其适用于有向图、无向图、有权图和无权图。
带有连边信息的增强图嵌入(enhanced graph embedding with side information,EGES)[32]模型于2018年由阿里巴巴推出,其基本思想是在嵌入过程中引入带权重的补充信息,解决冷启动问题。该模型是为解决推荐问题而推出的一款基于DeepWalk算法的改进模型,面向推荐系统找回阶段,其核心任务是计算物品间的相似度。文献[32]根据用户历史行为构建物品图,然后用DeepWalk学习每个物品的嵌入表示,即基图嵌入(base graph embedding,BGE),同时为解决少量或无交互行为物品的准确表示问题,提出了使用连边信息增强其学习表示过程,并针对不同连边的贡献度,提出了一种用于学习带有连边信息的嵌入表示的加权机制。EGES并无复杂的理论创新,但给出了能融合多种嵌入表示的算法,解决了因某类信息缺失出现冷启动的问题,是一种实用性较强的图嵌入算法。
近年来,随着社交网络图嵌入应用的激增,简单的图网络已不足以表示真实网络中的复杂信息,真实网络中节点间的关系远较顶点到顶点的连边关系复杂,与传统的图网络不同,超图网络中边的度可能大于2,且所有相关节点通过超边连接形成超节点,一个超图可用尺寸为的入射矩阵 H 表示[37]。对每对超级节点均通过共享的事件顶点建立连接。因此,超图可更好地表示网络图中的社区结构,超边的这些特性使得超图更具挑战性,表2为图与超图的特性对比。超图的嵌入表示学习是近年来的研究热点,其为社会网络建模提供了有力的工具,由于超图算法可用于许多其他方式难以实现的嵌入应用场景,且超图可看作是简单图的一种变体,只要对传统图的嵌入算法稍加修改便可将其应用于超图嵌入[38-39]。
Table 2
表2
表2图与超图的特性对比
Table 2 Comparison of characteristics between graphs and hyper-graphs
为评估图重构和连接预测任务中嵌入方法的性能,用Pr@k和平均精度均值(mean average precision,MAP)作为评价指标,常用Micro-F1、Macro-F1作为节点分类指标,用标准化互信息(normalized mutual information,NMI)作为评价节点聚类效果指标。指标定义如下:
[C]// Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: Association for Computing Machinery, 2016: 1105-1114. DOI:10. 1145/2939672.2939751
[C]// Proceedings of the 24th International Conference on World Wide Web. Florence: International World Wide Web Conferences Steering Committee, 2015: 1067-1077. DOI:10.1145/2736277.2741093
[C]// Proceedings of the 22th International Conference on World Wide Web. Rio de Janeiro: Association for Computing Machinery, 2013: 37-48. DOI:10.1145/2488388. 2488393
[C]// Proceedings of the 17th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2004: 1569-1576. doi:10.1145/1015330.1015348
[C]// Proceedings of the 5th International Conference on Neural Information Processing Systems. San Francisco: Morgan Kaufmann Publishers Inc, 1992: 580-587.
Graph embedding discriminant analysis on Grassmannian manifolds for improved image set matching
[C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011: 2705-2712. DOI:10.1109/CVPR.2011.5995564
Relational learning via collective matrix factorization
[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2008: 650-658. DOI: 10.1145/1401890.1401969
GraRep: Learning graph representations with global structural information
[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne: Association for Computing Machinery, 2015: 891-900. DOI:10.1145/2806416.2806512
DeepWalk: Online learning of social representations
[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2014: 701-710. DOI:10.1145/2623330.2623732
[C]// Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: Association for Computing Machinery, 2016: 1225-1234. DOI:10.1145/2939672.2939753
[C]// Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: Association for Computing Machinery, 2016: 855-864. DOI:10.1145/2939672.2939754
Learning deep network representations with adversarially regularized autoencoders
[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. London: Association for Computing Machinery, 2018: 2663-2671. DOI:10.1145/3219819.3220000
Billion-scale commodity embedding for e-commerce recommendation in Alibaba
[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. London: Association for Computing Machinery, 2018: 839-848. DOI:10.1145/3219819.3219869
Heterogeneous hypergraph embedding for graph classification
[C]// Proceedings of the 14th ACM International Conference on Web Search and Data Mining. Virtual Event: Association for Computing Machinery, 2021: 725-733. DOI:10.1145/3437963.3441835
[C]// Proceedings of the 32th AAAI Conference on Artificial Intelligence and 30th Innovative Applications of Artificial Intelligence Conference and 8th AAAI Symposium on Educational Advances in Artificial Intelligence. New Orleans: AAAI Press, 2018, 53: 426-433. doi:10.1609/aaai.v32i1.11266
Heterogeneous network embedding via deep architectures
[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney: Association for Computing Machinery, 2015: 119-128. DOI:10. 1145/2783258.2783296
Cross view link prediction by learning noise-resilient representation consensus
[C]// Proceedings of the 26th International Conference on World Wide Web. Perth: International World Wide Web Conferences Steering Committee, 2017: 1611-1619. DOI:10. 1145/3038912.3052575
Capped LP-NORM graph embedding for photo clustering
[C]// Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam: Association for Computing Machinery, 2016: 431-435. DOI:10. 1145/2964284. 2967257
[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8827-8836. DOI:10.1109/CVPR. 2018.00920
[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney: Association for Computing Machinery, 2015: 1365-1374. DOI:10.1145/2783258.2783417
Struc2vec: Learning node representations from structural identity
[C]// Proceedings of the 23th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. HaliFax: Association for Computing Machinery, 2017: 385-394. DOI:10. 1145/3097983.3098061
... 定义1 图可表示为G(V,E),其为由边和顶点所构成的一个集合,图G的邻接矩阵 S 包含边的非负权重.若节点和互不连接,则其连边的.对无向加权图,其,通常将边缘权重视为节点和之间的相似性度量,边缘权重越大,2个节点越相似[1]. ...
... 早期,图数据量小、结构常规且维度较低,往往将图嵌入作为一种降维技术.首先将基于邻域的一组n个D维节点构建为一个相似图,然后将图的节点嵌入至d (dD)维向量空间,使相互链接的节点彼此更靠近,如拉普拉斯特征图和局部线性嵌入(locally linear embedding,LLE)[1],主要用于解决可伸缩性,其时间复杂度为O(|V|2)[8]. ...
... 2010年后,图嵌入研究转向可扩展的技术领域,以迎合并较好地利用实际网络数据的稀疏性.文献[1]运用邻接矩阵的近似分解,提出了大规模信息网络嵌入方法(large-scale information network embedding,LINE)[1],尝试通过保留一阶和二阶邻近度,扩展LINE,通过通用的奇异值分解(singular value decomposition,SVD)处理相似度矩阵,从而保留其高阶邻近度[6].结构化深度网络嵌入(structural deep network embedding,SDNE)通过自动编码器嵌入节点并捕获其高度非线性的依存关系[9].此类可伸缩方法的时间复杂度为O(|V|2). ...
... [1],尝试通过保留一阶和二阶邻近度,扩展LINE,通过通用的奇异值分解(singular value decomposition,SVD)处理相似度矩阵,从而保留其高阶邻近度[6].结构化深度网络嵌入(structural deep network embedding,SDNE)通过自动编码器嵌入节点并捕获其高度非线性的依存关系[9].此类可伸缩方法的时间复杂度为O(|V|2). ...
... LINE[1]是一种基于邻域相似假设的算法,与DeepWalk使用DFS构造邻域不同,LINE可看作是一种用广度优先搜索(breath first search,BFS)构造邻域算法.在现实世界网络中,相互联系的节点通常表现为较相似或向量距离接近,LINE算法将其定义为一阶近邻,用于描述相邻顶点之间的局部相似度;二阶近邻则用2个节点间的共同邻居度量,描述节点与邻域的关系.LINE算法分别对所有具有一阶近邻关系和二阶近邻关系的节点对进行概率建模,通过最小化其概率分布和经验分布的KL散度,得到2个嵌入;由不同目标函数训练的2个嵌入向量连接每个顶点,可更好地表示输入图.LINE通过捕捉网络中的一阶近邻关系和二阶近邻关系,更完整地描述网络,其适用于有向图、无向图、有权图和无权图. ...
... 2010年后,图嵌入研究转向可扩展的技术领域,以迎合并较好地利用实际网络数据的稀疏性.文献[1]运用邻接矩阵的近似分解,提出了大规模信息网络嵌入方法(large-scale information network embedding,LINE)[1],尝试通过保留一阶和二阶邻近度,扩展LINE,通过通用的奇异值分解(singular value decomposition,SVD)处理相似度矩阵,从而保留其高阶邻近度[6].结构化深度网络嵌入(structural deep network embedding,SDNE)通过自动编码器嵌入节点并捕获其高度非线性的依存关系[9].此类可伸缩方法的时间复杂度为O(|V|2). ...
... 基于DeepWalk改进的算法,其概率模型和目标函数普遍难以解释如何保留图的高阶相似性.为解决此类问题,文献[23]提出了GraRep模型,通过邻接矩阵相乘k次得到第k阶过度矩阵 Ak,定义过度概率,并由skip-gram模型和负采样方法定义损失函数,使嵌入结果保留了嵌入空间中图的高阶相似性.而HOPE[6]模型在计算高阶相似性时保留了非对称传递性,非对称传递性指有向图之间特定的相关性.文献[6]对几种高阶近似性的计算方法,如卡兹指数法[24]、基于PageRank的方法、共同邻居法和Adamic-Adar法进行了实验,其中节点i的嵌入表达可通过分解邻近矩阵 S 求得,再用SVD方法等选取前K个特征值,对矩阵 S 进行分解. ...
... 模型在计算高阶相似性时保留了非对称传递性,非对称传递性指有向图之间特定的相关性.文献[6]对几种高阶近似性的计算方法,如卡兹指数法[24]、基于PageRank的方法、共同邻居法和Adamic-Adar法进行了实验,其中节点i的嵌入表达可通过分解邻近矩阵 S 求得,再用SVD方法等选取前K个特征值,对矩阵 S 进行分解. ...
... 早期,图数据量小、结构常规且维度较低,往往将图嵌入作为一种降维技术.首先将基于邻域的一组n个D维节点构建为一个相似图,然后将图的节点嵌入至d (dD)维向量空间,使相互链接的节点彼此更靠近,如拉普拉斯特征图和局部线性嵌入(locally linear embedding,LLE)[1],主要用于解决可伸缩性,其时间复杂度为O(|V|2)[8]. ...
LINE: Large-scale information network embedding
1
2015
... 2010年后,图嵌入研究转向可扩展的技术领域,以迎合并较好地利用实际网络数据的稀疏性.文献[1]运用邻接矩阵的近似分解,提出了大规模信息网络嵌入方法(large-scale information network embedding,LINE)[1],尝试通过保留一阶和二阶邻近度,扩展LINE,通过通用的奇异值分解(singular value decomposition,SVD)处理相似度矩阵,从而保留其高阶邻近度[6].结构化深度网络嵌入(structural deep network embedding,SDNE)通过自动编码器嵌入节点并捕获其高度非线性的依存关系[9].此类可伸缩方法的时间复杂度为O(|V|2). ...
Relational learning via collective matrix factorization
1
2008
... 节点邻近矩阵分解法[21]则通过最小化目标函数,并利用矩阵分解计算低维空间中的节点邻近度,其中, W 为节点间的邻近矩阵,Y为节点的嵌入,Yc为上下文节点的嵌入.此外,HSCA[22]模型是对TADW模型的改进,基于skip-gram和hierarchical softmax学习分布式单词表示,HSCA的目标函数式为 ...
Homophily, structure, and content augmented network representation learning
1
2016
... 节点邻近矩阵分解法[21]则通过最小化目标函数,并利用矩阵分解计算低维空间中的节点邻近度,其中, W 为节点间的邻近矩阵,Y为节点的嵌入,Yc为上下文节点的嵌入.此外,HSCA[22]模型是对TADW模型的改进,基于skip-gram和hierarchical softmax学习分布式单词表示,HSCA的目标函数式为 ...
GraRep: Learning graph representations with global structural information
1
2015
... 基于DeepWalk改进的算法,其概率模型和目标函数普遍难以解释如何保留图的高阶相似性.为解决此类问题,文献[23]提出了GraRep模型,通过邻接矩阵相乘k次得到第k阶过度矩阵 Ak,定义过度概率,并由skip-gram模型和负采样方法定义损失函数,使嵌入结果保留了嵌入空间中图的高阶相似性.而HOPE[6]模型在计算高阶相似性时保留了非对称传递性,非对称传递性指有向图之间特定的相关性.文献[6]对几种高阶近似性的计算方法,如卡兹指数法[24]、基于PageRank的方法、共同邻居法和Adamic-Adar法进行了实验,其中节点i的嵌入表达可通过分解邻近矩阵 S 求得,再用SVD方法等选取前K个特征值,对矩阵 S 进行分解. ...
A new status index derived from sociometric analysis
1
1953
... 基于DeepWalk改进的算法,其概率模型和目标函数普遍难以解释如何保留图的高阶相似性.为解决此类问题,文献[23]提出了GraRep模型,通过邻接矩阵相乘k次得到第k阶过度矩阵 Ak,定义过度概率,并由skip-gram模型和负采样方法定义损失函数,使嵌入结果保留了嵌入空间中图的高阶相似性.而HOPE[6]模型在计算高阶相似性时保留了非对称传递性,非对称传递性指有向图之间特定的相关性.文献[6]对几种高阶近似性的计算方法,如卡兹指数法[24]、基于PageRank的方法、共同邻居法和Adamic-Adar法进行了实验,其中节点i的嵌入表达可通过分解邻近矩阵 S 求得,再用SVD方法等选取前K个特征值,对矩阵 S 进行分解. ...
DeepWalk: Online learning of social representations
1
2014
... 较著名的图嵌入算法为DeepWalk[25],借鉴自然语言处理中重要的词嵌入算法word2vec,通过随机游走将图嵌入转化为词嵌入问题.从每个节点出发若干次,用均匀采样方式选择当前节点的邻接节点,并作为下一步的节点进行随机游走,当游走路径达到规定长度时,停止本次游走,然后将这些节点序列作为训练样本输入skip-gram模型进行训练,得到节点的嵌入表达.因此,可将DeepWalk视为一种连接序列嵌入和图嵌入的过渡方法,其目标是最大化随机游走序列 S 中顶点对的平均对数概率,使具有相似邻域(具有较大的二阶相似度)的节点共享相似的嵌入.其目标函数为 ...
Billion-scale commodity embedding for e-commerce recommendation in Alibaba
2
2018
... 带有连边信息的增强图嵌入(enhanced graph embedding with side information,EGES)[32]模型于2018年由阿里巴巴推出,其基本思想是在嵌入过程中引入带权重的补充信息,解决冷启动问题.该模型是为解决推荐问题而推出的一款基于DeepWalk算法的改进模型,面向推荐系统找回阶段,其核心任务是计算物品间的相似度.文献[32]根据用户历史行为构建物品图,然后用DeepWalk学习每个物品的嵌入表示,即基图嵌入(base graph embedding,BGE),同时为解决少量或无交互行为物品的准确表示问题,提出了使用连边信息增强其学习表示过程,并针对不同连边的贡献度,提出了一种用于学习带有连边信息的嵌入表示的加权机制.EGES并无复杂的理论创新,但给出了能融合多种嵌入表示的算法,解决了因某类信息缺失出现冷启动的问题,是一种实用性较强的图嵌入算法. ...
... 近年来,随着社交网络图嵌入应用的激增,简单的图网络已不足以表示真实网络中的复杂信息,真实网络中节点间的关系远较顶点到顶点的连边关系复杂,与传统的图网络不同,超图网络中边的度可能大于2,且所有相关节点通过超边连接形成超节点,一个超图可用尺寸为的入射矩阵 H 表示[37].对每对超级节点均通过共享的事件顶点建立连接.因此,超图可更好地表示网络图中的社区结构,超边的这些特性使得超图更具挑战性,表2为图与超图的特性对比.超图的嵌入表示学习是近年来的研究热点,其为社会网络建模提供了有力的工具,由于超图算法可用于许多其他方式难以实现的嵌入应用场景,且超图可看作是简单图的一种变体,只要对传统图的嵌入算法稍加修改便可将其应用于超图嵌入[38-39]. ...
Hypergraph neural networks
3
2019
... 近年来,随着社交网络图嵌入应用的激增,简单的图网络已不足以表示真实网络中的复杂信息,真实网络中节点间的关系远较顶点到顶点的连边关系复杂,与传统的图网络不同,超图网络中边的度可能大于2,且所有相关节点通过超边连接形成超节点,一个超图可用尺寸为的入射矩阵 H 表示[37].对每对超级节点均通过共享的事件顶点建立连接.因此,超图可更好地表示网络图中的社区结构,超边的这些特性使得超图更具挑战性,表2为图与超图的特性对比.超图的嵌入表示学习是近年来的研究热点,其为社会网络建模提供了有力的工具,由于超图算法可用于许多其他方式难以实现的嵌入应用场景,且超图可看作是简单图的一种变体,只要对传统图的嵌入算法稍加修改便可将其应用于超图嵌入[38-39]. ...
Learning with hypergraphs: Clustering, classification, and embedding
2
2007
... 近年来,随着社交网络图嵌入应用的激增,简单的图网络已不足以表示真实网络中的复杂信息,真实网络中节点间的关系远较顶点到顶点的连边关系复杂,与传统的图网络不同,超图网络中边的度可能大于2,且所有相关节点通过超边连接形成超节点,一个超图可用尺寸为的入射矩阵 H 表示[37].对每对超级节点均通过共享的事件顶点建立连接.因此,超图可更好地表示网络图中的社区结构,超边的这些特性使得超图更具挑战性,表2为图与超图的特性对比.超图的嵌入表示学习是近年来的研究热点,其为社会网络建模提供了有力的工具,由于超图算法可用于许多其他方式难以实现的嵌入应用场景,且超图可看作是简单图的一种变体,只要对传统图的嵌入算法稍加修改便可将其应用于超图嵌入[38-39]. ...