文章快速检索     高级检索
  浙江大学学报(理学版)  2018, Vol. 45 Issue (2): 196-204  DOI:10.3785/j.issn.1008-9497.2018.02.010
0

引用本文 [复制中英文]

陈永佩, 杜震洪, 刘仁义, 张丰, 王炼刚. 一种引入实体的地理语义相似度混合计算模型[J]. 浙江大学学报(理学版), 2018, 45(2): 196-204. DOI: 10.3785/j.issn.1008-9497.2018.02.010.
[复制中文]
CHEN Yongpei, DU Zhenhong, LIU Renyi, ZHANG Feng, WANG Liangang. A hybrid geo-semantic similarity measurement model introducing geographic entities[J]. Journal of Zhejiang University(Science Edition), 2018, 45(2): 196-204. DOI: 10.3785/j.issn.1008-9497.2018.02.010.
[复制英文]

基金项目

国家自然科学基金资助项目(41671391, 41471313);测绘地理信息公益性行业科研专项(201512024);国家科技基础性工作专项(2012FY112300)

作者简介

陈永佩(1992-),ORCID:http://orcid.org/0000-0001-5596-1210,女, 硕士, 主要从事地理信息集成与互操作相关技术研究

通信作者

张丰,ORCID:http://orcid.org/0000-0003-1475-8480,E-mail:zfcarnation@zju.edu.cn

文章历史

收稿日期:2016-12-12
一种引入实体的地理语义相似度混合计算模型
陈永佩1,2 , 杜震洪1,2 , 刘仁义1,2 , 张丰1,2 , 王炼刚1,2     
1. 浙江大学 浙江省资源与环境信息系统重点实验室, 浙江 杭州 310028;
2. 浙江大学 地理信息科学研究所, 浙江 杭州 310027
摘要: 针对现有地理语义相似度计算模型欠考虑实体层次影响因素问题, 提出了一种引入实体的地理语义相似度混合计算模型.该模型在已有研究基础上, 综合分析了语义相似度概念间的关系、本体结构、属性和实体的几何特征等影响因素, 并用各影响因素的综合相似度结果度量地理概念间的语义相似度.最后, 通过计算土地利用类型概念语义相似度验证了模型的有效性.
关键词: 本体    语义相似度    地理实体    土地利用类型    
A hybrid geo-semantic similarity measurement model introducing geographic entities
CHEN Yongpei1,2, DU Zhenhong1,2, LIU Renyi1,2, ZHANG Feng1,2, WANG Liangang1,2     
1. Zhejiang Provincial Key Lab of GIS, Zhejiang University, Hangzhou 310028, China;
2. Department of Geographic Information Science, Zhejiang University, Hangzhou 310027, China
Abstract: Although some computational models for geo-semantic similarity measurement have been proposed in literature, these models overlook the effect of geospatial entities on similarity.This paper presents a geo-semantic similarity measurement approach that extends the existing approaches by computing geometric feature similarity of geospatial entities.This approach is based on comprehensive analysis of factors on ontology structure, properties of concept and geometric features similarity for geospatial entities.An assessment calculating the semantic similarity of the concept of land use types is carried out to verify the validity of this approach.
Key words: ontology    sematic similarity    geographic entities    land use types    
0 引言

随着地理信息语义层次互操作的日趋频繁, 地理数据的语法异构与语义异质对地理信息互操作过程的影响不可忽视, 如何有效度量地理信息的语义相似度显得越来越重要[1].目前, 国内外对语义相似度计算模型的研究成果大致可分为基于结构的语义相似度计算模型[2-3]、基于内容的语义相似度计算模型[4-5]、基于属性的语义相似度计算模型[6]和混合式语义相似度计算模型[7-8].混合式语义计算模型综合考虑了前3种算法中的影响因素, 也是语义相似度模型研究发展的主要趋势.近年来, 国内外的研究成果基本都是对上述方法的拓展和改进.文献[9]将概念层次结构描述为概念向量模型, 通过向量间的余弦相似度计算概念间的语义相似度; 文献[1]通过属性枚举法描述概念的语义本质, 深入分析不同类别属性值间相似度的计算方法, 提出了一种基于属性的语义相似度计算模型; 文献[8]通过综合分析概念的语义距离、属性和概念间的关系, 得到一种混合式语义相似度模型.总体来说, 现阶段的语义相似度计算模型大多是在本体的基础上, 仅通过综合概念间的关系、本体结构和概念属性等因素来度量语义相似度, 忽视了实体层次对语义相似度的影响.

在地理空间领域, 实体不仅具有属性特征, 还具有很重要的几何特征.属于不同概念下的地理实体通常在几何特征上具有明显的差异, 例如“河流水面”的条带状和“湖泊水面”的坑状.当人们在判断地理概念之间相似度的时候, 通常会考虑实体几何特征之间的差异.因此, 实体几何特征相似度作为空间认知的一部分, 也可作为地理语义相似度计算的一个影响因素.本文将在现有的对相似度影响因素分析的基础上, 引入实体的几何特征因素, 对地理语义相似度进行综合评价.

1 影响语义相似度的因素

本体因其能够准确描述概念含义和概念之间的内在关联, 已成为词语语义相似度研究的基础[10].本体是哲学上的概念, 指客观现实的抽象本质.地理信息本体是指地理信息科学领域不同层次、不同应用方向地理空间信息概念的内涵和层次关系及其语义标识[11].即将现实世界中的地理现象抽象为概念、概念之间的关系、概念属性和属于概念的实体集合.在已有研究的基础上, 结合实体的几何特征因素, 得到本体中影响地理概念间的语义相似度主要因素.

1.1 概念间的关系

地理概念之间有多种关系, 包括同义关系、上下位关系、部分与整体关系、拓扑关系、方位关系等.一般来说, 同义关系表示2个概念是相同的, 即语义相似度为1;上下位关系体现概念之间的相似度, 其他关联关系体现概念之间的相关度.RESNIK[5]阐述了语义相似度和相关度的关系, 认为语义相似度是语义相关度的一种特例, 所以, 本文的语义相似度计算不考虑语义相关性的影响因素, 概念间的关系只考虑同义关系和上下位关系.其中上下位关系可通过本体结构表达, 利用本体结构进行相似度计算.

1.2 本体结构

本体通常以概念树为组织结构, 本体层次树可根据现有的分类体系进行构建.概念在本体层次树中的位置可体现该概念的抽象程度和含信息量的大小.因此, 可通过概念的深度和密度进行相似度计算.概念的深度指概念所在节点到根节点的距离.深度越深, 概念所代表的含义越具体.概念的密度是指概念所在节点的直接子节点个数.密度越大, 概念被细分的程度越高.

1.3 概念的属性

概念的属性可直接表达概念代表的含义和特性, 2个概念共有属性越多则越相似, 2个概念对于同属性的取值越接近则越相似.

1.4 实体的几何特征

实体的几何特征作为地理现象的重要性质, 影响人类对地理概念的认知, 也是影响概念间相似度的重要因素.一般来说, 属于某一地理概念下的实体会以群体形式存在, 因此需要对空间群体的几何特征进行计算和对比.文献[12]通过引入空间统计分析的有关概念, 利用空间群体目标几何特征指标之间的相似度来描述空间群体目标之间的相似度.本文将结合文献[12]中的方法, 利用实体群体几何特征指标的统计值对实体群体的几何特征进行描述, 实体几何特征相似度越高, 则概念间的语义越相似.

2 引入实体的语义相似度混合计算模型 2.1 基于本体结构的相似度计算

概念间深度和密度的相似度计算采用张兰芳[13]提出的方法, 设有AB 2个概念, CAB的公共父节点, 则AB之间的概念深度和概念密度相似度计算为

$ {\rm{Si}}{{\rm{m}}_{{\rm{depth}}}}\left( {A,B} \right) = \frac{{{\rm{depth}}\left( A \right) + {\rm{depth}}\left( B \right) + {\rm{depth}}\left( C \right)}}{{3 \times {\rm{depth}}\left( {{\rm{tree}}} \right)}}, $ (1)
$ {\rm{Si}}{{\rm{m}}_{{\rm{density}}}}\left( {A,B} \right) = \frac{{{\rm{density}}\left( A \right) + {\rm{density}}\left( B \right) + {\rm{density}}\left( C \right)}}{{3 \times {\rm{density}}\left( {\max } \right)}}, $ (2)

式(1)中depth(tree)为本体层次树的深度, 即层次树中所有概念节点深度的最大值; 式(2)中density(max)为层次树中所有概念节点密度的最大值.

基于本体结构的相似度计算需综合概念的深度和密度2个因素的相似度, 为

$ {\rm{Si}}{{\rm{m}}^{{\rm{stucture}}}}\left( {A,B} \right) = \alpha {\rm{Si}}{{\rm{m}}_{{\rm{depth}}}}\left( {A,B} \right) + \left( {1 - \alpha } \right){\rm{Si}}{{\rm{m}}_{{\rm{density}}}}\left( {A,B} \right), $ (3)

式(3)中的权重应根据本体结构的具体情况确定.

2.2 基于属性的相似度计算

AB 2个概念分别拥有属性集合P(A)和P(B), 属性pi有以下3种情况:

(1) 如果piP(A)且piP(B), 或者piP(B)且piP(A), 则属性pi占据一定权重, 且ABpi属性上的相似度为0.

(2) 如果piP(A)且piP(B), 则属性pi不给予考虑, 不占有权重.

(3) 如果piP(A)且piP(B), 则对于属性pi, 概念A取值为pai, 概念B取值为pbi, 相似度Sim(pai, pbi)按照具体属性类型计算.基于属性的相似度公式为

$ \begin{array}{l} {\rm{Si}}{{\rm{m}}^{{\rm{property}}}}\left( {A,B} \right) = {\omega _1}{\rm{Sim}}\left( {{p_{a1}},{p_{b1}}} \right) + \\ \;\;\;\;\;\;\;\;\;\;\;\;{\omega _2}{\rm{Sim}}\left( {{p_{a2}},{p_{b2}}} \right) + \cdots + {\omega _i}{\rm{Sim}}\left( {{p_{ai}},{p_{bi}}} \right), \end{array} $ (4)

式(4)中, ω1+ω2+…+ωi=1, 权重大小可根据层次分析法确定.

2.2.1 枚举型属性计算

枚举型属性表示属性取值之间无级别、无次序、含义无交集, 且一个概念对于该属性可同时取多个值.如概念“天然牧草地”对于“功能”属性可取值“生长植物”和“畜牧”, 概念“林地”对于“功能”属性可取值“生长植物”和“种植植物”等.

结合RODRIGUEZ等[14]提出的计算模型, 枚举型属性相似度计算公式为

$ \begin{array}{l} {\rm{Sim}}\left( {{p_{ai}},{p_{bi}}} \right) = \\ \left\{ \begin{array}{l} \frac{{\left| {{p_{ai}} \cap {p_{bi}}} \right|}}{{\left| {{p_{ai}} \cap {p_{bi}}} \right| + \alpha \left| {{p_{ai}} - {p_{bi}}} \right| + \left( {1 - \alpha } \right)\left| {{p_{bi}} - {p_{ai}}} \right|}},\\ \;\;\;\;\;\;\;\;\;\left| {{p_{ai}} \cap {p_{bi}}} \right| \ne 0,\\ \frac{{0.5}}{{\alpha \left| {{p_{ai}} - {p_{bi}}} \right| + \left( {1 - \alpha } \right)\left| {{p_{bi}} - {p_{ai}}} \right|}},\\ \;\;\;\;\;\;\;\;\;\left| {{p_{ai}} \cap {p_{bi}}} \right| = 0, \end{array} \right. \end{array} $ (5)

式(5)中, paipbi分别表示概念AB对于第i个属性取值的集合, paipbi表示2个取值集合交集的属性值数量, pai-pbipbi-pai分别表示集合pai中不属于pbi的属性值个数和集合pbi中不属于pai的属性值数量.

2.2.2 布尔型属性计算

布尔型属性指属性只有2个取值, 且含义相反.如“利用状态”属性有“已利用”和“未利用”2个取值.若2个概念的布尔型属性取值相同, 则相似度为1, 取值不同, 则相似度为0.

布尔型属性相似度计算公式:

$ {\rm{Sim}}\left( {{p_{ai}},{p_{bi}}} \right) = \left\{ \begin{array}{l} 1,\;\;\;{p_{ai}} = {p_{bi}},\\ 0,\;\;\;{p_{ai}} \ne {p_{bi}}. \end{array} \right. $ (6)
2.2.3 层次型属性计算

层次型属性是指该属性的取值有层次关系, 包括上下义关系和整体部分关系.上下义关系属性是描述不同逻辑层次上具有共同特征的属性值之间的语义关系; 而整体部分关系表达了概念在组成结构上的相关性[1].

对于层次型属性, LIU等[9]提出了概念向量相似度计算方法, 根据属性取值的层次关系树, 得到对应的向量, 通过计算向量间的余弦确定两者的相似度.

$ {\rm{Sim}}\left( {{\mathit{\boldsymbol{p}}_{ai}},{\mathit{\boldsymbol{p}}_{bi}}} \right) = \frac{{{\mathit{\boldsymbol{p}}_{ai}} \times {\mathit{\boldsymbol{p}}_{bi}}}}{{\left| {{\mathit{\boldsymbol{p}}_{ai}}} \right| \times \left| {{\mathit{\boldsymbol{p}}_{bi}}} \right|}}, $ (7)

式(7)中paipbi为2个概念属性值对应的向量.

2.2.4 有序型属性计算

有序型属性指有序且取值无交集的属性, 如“宽度”属性有“非常宽”“很宽”“中等”“很窄”“非常窄”5个取值, 可以按照程度顺序划分为1~5五个等级, 相似度计算公式为

$ {\rm{Sim}}\left( {{p_{ai}},{p_{bi}}} \right) = 1 - \frac{{\left| {{p_{ai}} - {p_{bi}}} \right|}}{m}, $ (8)

式(8)中|pai-pbi|为2个概念属性值所属等级的差值, m为等级数.

2.2.5 数值型属性计算

数值型属性指该属性取值为某个数值或数值范围.

$ {\rm{Sim}}\left( {{p_{ai}},{p_{bi}}} \right) = 1 - \frac{{\left| {{p_{ai}} - {p_{bi}}} \right|}}{{{p_{i\max }} - {p_{i\min }}}}, $ (9)

当属性取值为确定数时按照式(9)计算; 当取值为数值范围时, 若为有序型, 则采取上述有序属性的计算方法; 若为无序型, 或取值范围有交叉, 则用范围平均值来代替取值, 再用式(9)进行计算.

2.3 实体几何特征相似度计算

本文主要对地理实体的形状和大小进行描述和对比, 因点群无形状和大小特征, 故不做比较.为了合理描述实体群体的空间几何特征, 本文引入统计量平均值等概念, 参考刘涛[12]对于空间群组目标相似度的研究, 得到以下指标.

2.3.1 线群几何特征指标

(1) 平均长度是线状要素群体的基本空间形状指标.

(2) 平均曲折度可以用来描述线群总体的弯曲程度.线的曲折度是指线的实际长度与首尾点直线距离的比值.曲折度越大, 线越弯曲, 曲折度值越接近1, 弯曲程度越低, 即越接近于直线.概念A的线状实体平均曲折度计算公式为

$ \bar K\left( A \right) = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{{L_i}}}{{{{L'}_i}}}} , $ (10)

式(10)中, n为属于A概念下的线状实体的个数, Li为线要素的长度, L′i为线要素首尾点的直线距离.

2.3.2 面群几何特征指标

(1) 平均面积和平均周长是面群的基本几何特征.

(2) 平均紧致度可用来描述面群整体的形状特征.紧致度用来描述一个给定的多边形区域离某一特定形状的面(通常是指圆)的偏离程度[8].紧致度越接近1, 面越接近于圆.平均紧致度计算公式为

$ \bar C\left( A \right) = \frac{1}{n}\sum\limits_{i = 1}^n {\left( {\frac{{4{\rm{ \mathit{ π} }}{S_i}}}{{P_i^2}}} \right)} , $ (11)

式(11)中, n为属于A概念下的面状实体的个数, Si为多边形面积, Pi为多边形周长.

2.3.3 实体几何特征相似度计算

为保证相似度结果在[0, 1]内, 实体特征指标间的相似度计算公式为归一化模型:

$ {\rm{Sim}}\left( {{e_a},{e_b}} \right) = 1 - \frac{{\left| {{e_a} - {e_b}} \right|}}{{{e_{\max }} - {e_{\min }}}}, $ (12)

式(12)中, eaeb分别为概念AB共同拥有的某个特征指标值, emaxemin分别为所有线群或面群中该几何特征指标的最大值和最小值.

属于概念AB的线群和面群之间的几何特征相似度计算公式分别为:

$ \begin{array}{l} {\rm{Si}}{{\rm{m}}^{{\rm{line}}}}\left( {A,B} \right) = \omega {\rm{Si}}{{\rm{m}}_{{\rm{ave}}\_{\rm{leng}}}}\left( {{e_a},{e_b}} \right) + \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left( {1 - \omega } \right){\rm{Si}}{{\rm{m}}_{{\rm{ave}}\_{\rm{sinu}}}}\left( {{e_a},{e_b}} \right), \end{array} $ (13)
$ \begin{array}{l} {\rm{Si}}{{\rm{m}}^{{\rm{polygon}}}}\left( {A,B} \right) = \alpha {\rm{Si}}{{\rm{m}}_{{\rm{ave}}\_{\rm{area}}}}\left( {{e_a},{e_b}} \right) + \\ \;\;\;\;\;\;\;\;\;\;\beta {\rm{Si}}{{\rm{m}}_{{\rm{ave}}\_{\rm{peri}}}}\left( {{e_a},{e_b}} \right) + \gamma {\rm{Si}}{{\rm{m}}_{{\rm{ave}}\_{\rm{comp}}}}\left( {{e_a},{e_b}} \right), \end{array} $ (14)

式(13)中Simave_leng(ea, eb)和Simave_sinu(ea, eb)分别为线群之间的平均长度相似度和平均曲折度相似度.式(14)中, α, β, γ满足α+β+γ=1, 其中Simave_area(ea, eb), Simave_peri(ea, eb)和Simave_comp(ea, eb)分别为面群之间的平均面积相似度、平均周长相似度和平均紧致度相似度.上述实体特征指标间的相似度皆通过式(12)计算得到.

2个概念在实体上的相似度按照其共有的实体几何特征指标计算, 非共有的实体几何特征指标不予考虑, 不占据权重.当概念AB中某一个在实体库中无实体或2个概念在实体库中均无实体时, 语义相似度模型不考虑实体相似度.当2个概念拥有共同几何要素时, 可用下式进行计算:

$ {\rm{Si}}{{\rm{m}}^{{\rm{entity}}}}\left( {A,B} \right) = \alpha {\rm{Si}}{{\rm{m}}^{{\rm{line}}}}\left( {A,B} \right) + \beta {\rm{Si}}{{\rm{m}}^{{\rm{polygon}}}}\left( {A,B} \right), $ (15)

为了保证式(15)相似度值域在[0, 1]间, 权重必须满足α+β=1.考虑到实际计算中数据完整性有差异, 需要根据不同情况赋予不同的权重系数:

(1) 当概念AB仅共有线状要素时, 则α=1, β=0.

(2) 当概念AB仅共有面状要素时, 则α=0, β=1.

(3) 当2个概念同时有面和线要素时, 应根据线状要素和面状要素的数据量和分布情况等来确定权重系数.

2.4 引入实体的混合式语义相似度计算

根据上述语义相似度的影响因素分析和计算方法, 采用加权求和的方式获得总体相似度计算公式:

$ \begin{array}{l} {\rm{Sim}}\left( {A,B} \right) = \\ \;\;\;\;\;\;\;\;\left\{ \begin{array}{l} 1,\;\;\;A = B,\\ \begin{array}{*{20}{c}} {{\omega _1}\;{\rm{Si}}{{\rm{m}}^{{\rm{stucture}}}}\left( {A,B} \right) + {\omega _2}\;{\rm{Si}}{{\rm{m}}^{{\rm{property}}}}\left( {A,B} \right) + }\\ {{\omega _3}{\rm{Si}}{{\rm{m}}^{{\rm{entity}}}}\left( {A,B} \right),\;\;A \ne B,} \end{array} \end{array} \right. \end{array} $ (16)

式(16)中A=B表示概念AB为同义关系; AB表示非同义关系.为了保证相似度结果在[0, 1]内, 必须满足ω1+ω2+ω3=1, 且应根据本体构建成果和实体数据情况来决定权重的大小, 使算法更具可调节性.

3 实验计算与分析 3.1 土地利用类型本体构建

本文以土地利用类型为本体对象进行语义相似度计算试验, 根据2007年中华人民共和国国土资源部颁发的《土地利用现状分类》(GB/T 21010-2007)标准中对土地利用现状的分类和定义, 结合土地利用调查中的实际分类方式, 构建土地利用类型本体.本体结构如图 1所示.

图 1 部分土地利用类型概念本体结构图 Fig. 1 Ontology structure diagram of concepts about part of land use classification

参考谭永滨等[1]对概念属性和属性取值的研究构建土地利用类型本体的属性, 表 1为部分概念的本体属性及取值.

表 1 部分概念的本体属性 Table 1 Ontology properties of part of concepts
3.2 地理空间语义相似度计算 3.2.1 基于本体结构的相似度计算

选取“耕地-园地”概念对计算结构相似度.根据土地利用类型概念中本体的层次结构, 设根节点的深度为0, 得到深度和密度数据, 分别使用式(1)和(2)计算深度和密度相似度, 再用式(3)计算结构相似度, 结果为0.639, 通过试验调节, 最终权重取0.5.

3.2.2 属性分析及属性相似度计算

土地利用现状类型本体的属性集包含“覆盖物”“功能”“成因”“利用状态”“形状”“地域”和“特性”.其中“覆盖物”和“成因”为层次型属性, “利用状态”为布尔型属性, 其他都为枚举型属性.属性权重通过层次分析法确定, 表 2为属性权重结果.

表 2 属性权重 Table 2 The weight of properties

根据表 1概念属性的取值, 以“耕地-园地”概念对为例, 进行属性分析和相似度计算:

(1)“耕地”和“园地”两者对“地域”属性都无取值, 即“地域”属性不占据权重, 不参与相似度计算.

(2)“耕地”拥有“特性”属性, 而“园地”无此属性, 2个概念在“特性”属性上的相似度为0.

(3) 在“覆盖物”和“成因”属性上的相似度用式(3)计算.“覆盖物”属性层次关系如图 2所示, 由图 2得属性值“农作物”和“植被”的表达向量分别为p农作物=(1, 2, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 2, 2), p植被=(1, 2, 0, 0, 3, 0, 0, 0, 0, 0, 0, 3, 3, 3, 0, 0, 0, 0), 由式(7)计算得相似度为0.65.同样可得到2个概念在“成因”属性上的相似度为1.

图 2 “覆盖物”属性层次示意图 Fig. 2 Hierarchy of "covering" property values

(4) 在“功能”和“形状”属性上的相似度用式(5)计算, 其相似度均为1.

(5) 在“利用状态”属性上的相似度通过式(6)计算, 得到相似度为1.

最后, 用式(4)计算得Simproperty(耕地, 园地)=0.795.

3.2.3 空间实体数据分析及相似度计算

采用德清县土地利用数据进行相似度计算试验, 其中面状数据56 875条, 线状数据86 934条, 面状和线状数据代表的土地利用类型共26种, 部分实体几何特征指标计算结果如表 3所示.

表 3 部分实体几何特征指标计算结果 Table 3 Characteristic index calculation results of part of entities

根据上文2.3.3节所述的计算方法进行概念间实体几何相似度计算, 以“河流水面-铁路用地”概念对为例, 河流水面和铁路用地仅有共有面状数据, 因此, 河流水面和铁路用地的几何特征相似度Simentity(河流水面, 铁路用地)=Simpolygon(河流水面, 铁路用地).面群相似度可通过面积、周长和紧致度的相似度来计算, 以面积相似度为例, 面群的面积最大值为125 504.07, 最小值为1 588.95, 根据式(12)进行河流水面和铁路用地的面积相似度计算:

$ \begin{array}{l} {\rm{Si}}{{\rm{m}}_{{\rm{ave\_area}}}}\left( {河流水面,铁路用地} \right) = \\ \;\;\;\;\;\;\;1 - \frac{{107448.80 - 45141.64}}{{125504.07 - 1588.96}} = 0.50. \end{array} $ (17)

通过该方法可算得河流水面和铁路用地的面积、周长和紧致度的相似度分别为0.50, 0.45和0.94.利用式(14)计算面群相似度, 通过实验调节本次实验中面积、周长和紧致度的相似度权重分别为0.25, 0.25和0.5, “河流水面-铁路用地”概念对的实体几何特征相似度为:

$ \begin{array}{l} {\rm{Si}}{{\rm{m}}^{{\rm{entity}}}}\left( {河流水面,铁路用地} \right) = \\ 0.25 \times 0.50 + 0.25 \times 0.45 + 0.5 \times 0.94 = 0.71. \end{array} $ (18)

部分概念对的几何特征相似度计算结果如表 4所示(保留3位小数).

表 4 部分实体几何特征相似度计算结果 Table 4 Calculation results of entity similarity between part of concepts
3.2.4 语义相似度计算

选取土地利用类型为试验对象, 鉴于(1)土地利用类型本体只有3层结构, 且分类中含有“其他土地”这种不符合认知的分类方式, 本体结构的相似度计算结果不具有很强的认知特性; (2)采用德清县土地利用现状实体数据, 其数据多样性不足; (3)本体构建时的属性设置合理, 根据定义提取关键信息, 剔除不必要的多余属性.为此, 通过多次试验和调节, 最终式(16)的权重赋值情况如下:

当概念之间无实体几何特征相似度时(即比较双方某一概念在实体数据中无实体), 基于本体结构的相似度和基于属性的相似度权重分别取0.2和0.8;当概念间有实体几何特征相似度时, 基于本体结构的相似度权重为0.1, 基于属性的相似度权重为0.6, 实体几何特征相似度权重为0.3.例如, “耕地-园地”概念对的语义相似度为:Sim(耕地, 园地)=0.1×0.639+0.6×0.795+0.3×0.847=0.795.

通过混合计算模型计算土地利用类型所有概念对的语义相似度, 其结果分布如图 3所示.可见语义相似度主要分布在0.5附近, 低相似和高相似的概念对较少.

图 3 语义相似度计算结果统计图 Fig. 3 Diagram of semantic similarity calculation results
3.3 结果对比和分析

按照计算结果分布情况, 使用分层抽样法, 按比例从相似度结果中选取50对概念.为了保证样本的典型性, 所选概念对覆盖“几乎相同”到“完全不相似”区间, 且分布均匀.邀请20位拥有地理信息知识背景且对土地利用类型有深入了解的专家对50对概念对的相似度进行打分评价, 用1~5五等级描述概念间的语义相似程度.使用克朗巴哈(Cronbach α)系数描述打分结果的内在信度, 计算得到专家打分结果的α系数为0.922, 内在信度非常理想, 其结果可供语义相似度计算参考.

利用皮尔森(Pearson)相关系数来验证, 得到本文提出的相似度模型计算结果(记为Sim)较不引入实体几何特征的语义相似度计算结果(记为Sim′)更接近参考结果.此外, 将同样以土地利用类型语义相似度计算为研究对象的文献[11]和[8]的结果与本文结果进行对比, 得到本文提出的语义相似度计算模型更合理和有效.表 5为部分概念对的试验结果.

表 5 部分概念对相似度计算结果对比 Table 5 Comparison of calculation results of some concept similarity

根据试验结果, 实体混合相似度计算模型与专家打分结果之间的皮尔森(Pearson)相关系数为0.908, 两者对比如图 4所示, 实体混合相似度计算模型与专家打分结果的吻合度较高, 且波动幅度小, 连续性较好.

图 4 语义相似度结果对比图 Fig. 4 Comparison diagram of semantic similarity calculation results
3.3.1 与不引入实体的计算结果对比

将引入实体的语义相似度计算结果(记为Sim)与不引入实体的语义相似度计算结果(记为Sim′)进行对比.相似度结果趋势如图 5所示, 由图 5知, 引入实体的相似度结果更贴近专家的打分, 且波动幅度较小.Sim与专家打分的相关系数为0.908, Sim′与专家打分的相关系数为0.872, 对比看, Sim的准确度有所提高.

图 5 趋势对比图 Fig. 5 Comparison diagram of tendency
3.3.2 与文献结果对比

文献[11]仅通过计算属性差异来判断概念间的相似度, 计算结果中有较多的概念对相似度值相同, 很难进行相似度区分.而且, 这种计算方法易导致拥有相同属性值的概念对(语义上仍存在差异性)相似度为1.比如“农用地-耕地”概念对, 在本体结构中为上下位关系, 且两者并不能等同, 但文献[11]中其相似度结果为1.本文结果较文献[11]的区分度和准确度都高.

文献[8]通过对结构和属性两方面相似度计算来判断概念间的相似度, 其属性的相似度计算依赖相同属性的个数, 对属性取值的相似度未进行深入探讨.而且, 文献[8]未与专家认知进行对比, 例如, “耕地-园地”概念对相似度, 专家打分平均分为4.71分(满分5分), 而文献[8]计算的相似度仅为0.437, 明显不符合专业认知.本文对相似度之间的区分较文献[8]更细致, 概念对之间几乎无完全等同的相似度, 更符合专业认知.

4 结论与展望

提出了一种引入实体的地理语义相似度计算模型.通过综合分析该模型概念对之间的关系、本体结构、概念属性和实体的几何特征等影响因素, 以度量地理概念间的语义相似度.结果表明, 实体几何特征相似度因素对地理概念语义相似度进行调节是可行的, 计算结果符合专业认知.在与已有的土地利用类型概念相似度计算结果对比中发现, 本文方法较为准确, 语义相似度结果的区分度更高.

由于影响语义相似度的因素较多, 且难以用地理实体几何特征表达, 因此本文仍存在一些不足, 需进一步研究:(1)本研究部分权重和调节因子的确定依赖于专家经验, 易致计算结果有一定的主观性.未来将进一步对权重分配和调节因子的确定进行分析研究; (2)实体的几何特征相似度计算模型对数据要求较为严格, 只有保证数据质量才能使计算结果准确有效.否则, 只在个别特殊实体之间进行相似度计算, 无法代表概念普遍的认知.因此, 需要进一步分析实体层次的数据, 加强数据质量评价, 在此基础上, 判断其是否可用于地理语义相似度计算.

参考文献
[1] 谭永滨, 李霖, 王伟, 等. 本体属性的基础地理信息概念语义相似性计算模型[J]. 测绘学报, 2013, 42(5): 782–789.
TAN Y B, LI L, WANG W, et al. Semantic similarity measurement model between fundamental geographic information concepts based on ontological property[J]. ACTA Geodaetica ET Cartographica Sinica, 2013, 42(5): 782–789.
[2] RADA R, MILI H, BICKNELL E, et al. Development and application of a metricon semantic nets[J]. IEEE Transactions on Systems Man & Cybernetics, 1989, 19(1): 17–30.
[3] WU Z, PALMER M. Verbs semantics and lexical selection[C]//Meeting on Association for Computational Linguisti. Pennsylvania: Association for Computational Linguistics, 1994: 133-138.
[4] LORD P W, STEVENS R D, BRASS A, et al. Investigating semantic similarity measures across the gene ontology:The relationship between sequence and annotation[J]. Bioinformatics, 2003, 19(10): 1275–1283. DOI:10.1093/bioinformatics/btg153
[5] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[C]//International Joint Conference on Artificial Intel. Quebec: Morgan Kaufmann Publishers Inc, 1995: 448-453.
[6] TVERSKY A. Features of similarity[J]. Readings in Cognitive Science, 1988, 84(4): 290–302.
[7] LI Y, BANDAR Z A, MCLEAN D. An approach for measuring semantic similarity between words using multiple information sources[J]. IEEE Transactions on Knowledge & Data Engineering, 2003, 15(4): 871–882.
[8] 杨娜娜, 张青年, 牛继强. 基于本体结构的空间实体语义相似度计算模型[J]. 测绘科学, 2015, 40(3): 107–111, 84.
YANG N N, ZHANG Q N, NIU J Q. Computational model of geospatial semantic similarity based on ontology structure[J]. Science of Surveying and Mapping, 2015, 40(3): 107–111, 84.
[9] LIU H Z, BAO H, XU D. Concept vector for similarity mesurement based on hierarchical domain structure[J]. Computing and Informatics, 2011, 30(5): 881–900.
[10] 孙海霞, 钱庆, 成颖. 基于本体的语义相似度计算方法研究综述[J]. 现代图书情报技术, 2010, 26(1): 51–56.
SUN H X, QIAN Q, CHENG Y. Review of ontology-based semantic similarity measuring[J]. New Technology of Library and Information Service, 2010, 26(1): 51–56. DOI:10.11925/infotech.1003-3513.2010.01.10
[11] 李红梅, 翟亮, 朱熀. 基于本体的地理空间实体类型语义相似度计算模型的研究[J]. 测绘科学, 2009, 34(2): 12–14.
LI H M, ZHAI L, ZHU H. Semantic similarities calculative modeling for geospatial entity classes based on ontology[J]. Science of Surveying and Mapping, 2009, 34(2): 12–14.
[12] 刘涛. 空间群(组)目标相似关系及计算模型研究[D]. 武汉: 武汉大学, 2011.
LIU T. Similarity of Spatial Group Objects[D]. Wuhan: Wuhan University, 2011.
[13] 张兰芳. 一种基于本体的自然语言语义相似度算法[J]. 桂林理工大学学报, 2012, 32(2): 253–258.
ZHANG L F. Natural language semantic similarity algorithm based on ontology[J]. Journal of Guilin University of Technology, 2012, 32(2): 253–258.
[14] RODRIGUEZ M A, EGENHOFER M J. Comparing geospatial entity classes:An asymmetric and context-dependent similarity measure[J]. International Journal of Geographical Information Science, 2004, 18(3): 229–256.