<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 两步解码式矢量空间数据并行转换算法的实现过程

Fig.1 Implementation process of spatial vector data parallel conversion algorithm based on two-step decoding

3.1. 作业配置阶段

本阶段对并行转换作业涉及的SVD数据体量、作业并行度、Spark SQL相关参数进行配置.

数据体量可通过查询Oracle系统表中SVD数据表的记录数、平均记录大小数据，根据式（4）估算获取，并结合HDFS默认区块大小，估算 $p$值. Spark SQL配置方面，由于Spark本身不支持ST_Geometry类型，必须通过配置数据库方言（SparkSQL Dialect）将其声明为字节数组形式，保证其可解析性. 对于并行查询配置部分，查询分区字段为OID，根据并行查询矩阵 ${{M}}$确定每个查询任务查询数据的范围，配置完成后执行SVD并行查询.

3.2. 首次解码阶段

通过mapPartitionsToPair算子对查询结果DataFrame进行解析. 每个传入Dataframe由Spark Row组成，属性数据按照对应的Spark数据类型直接存储在Row中，可直接获取；由于配置了SparkSQL方言，SHAPE字段内容以字节数组存储于Row中。通过式(6)计算H，并将查询结果键值化为<H,Tuple2<String,byte[ ] $>\!\!>$形式的JavaPairRDD，其中，H值用于标识空间几何存储模式，String代表JSON格式的属性数据，byte[ ]对应SHAPE字段数据。

3.3. 二次解码阶段

利用filter算子，根据JavaPairRDD的Key值过滤得到简单几何数据集与复杂几何数据集，并分别进行重新分区. 对分区后数据的ValueRDD部分通过mapPartitions算子，利用本研究构建的几何解码工具类，提取SDELOB、解析几何坐标，最后进行标准化处理，将输出保存为目标格式，完成转换.

4. 实验与结果分析

4.1. 实验设计与数据

实验的单机环境处理器为Intel Xeon E3-1230 v5，内存容量为8 G，操作系统为Windows 10专业版，ArcGIS版本为10.5. 并行环境为CDH集群，版本为5.13.3，包括4个计算节点，96个CPU虚拟核，节点内存为80 G，Spark版本为1.6.0.

采用自然资源管理单位的SVD来验证算法在真实应用场景中转换生产数据时的表现. 数据信息如表2所示，共包括5个数据集，数据体量由小到大，其中，数据集 ${D_1}$、 ${D_2}$数据区域是指按照高斯3度分带模式投影云南省SVD时属于第33、35号投影带的数据区域. 存储模型为ArcSDE，Oracle版本为12c，处理器为Intel Xeon E3-2630 v4，内存为128 G.

表 2 实验数据集信息

Tab.2 Information of experimental datasets

数据集	数据区域	要素数/M	构成点数/M	数据大小/GB
${D_0}$	怒江州	0.103	11.939	0.512
${D_1}$	33° 带	0.041	44.305	1.300
${D_2}$	35° 带	1.996	192.056	6.300
${D_3}$	云南省	8.280	730.922	22.900
${D_4}$	云南省	8.396	2069.057	56.730

新窗口打开| 下载CSV

试验以GeoJSON为目标格式，将所提算法与单机、并行转换方法进行对比. 其中，单机转换法是指ArcGIS中的JSON转换工具，并行转换法包括PSGD与一步解码式SVD转换算法.

PSGD方法来自文献[16]，原始方法的计算框架为MapReduce，以ST_AsText函数查询、获取转换为WKT格式的SVD，实现并行转换. 前期测试发现其效率较低，转换数据集 ${D_3}$的耗时已超过单机方法. 为提供更具说服力的结果，统计不同查询数据量 ${N_{\rm{q}}}$下，ST_AsText与ST_AsBinary函数的查询转换耗时 ${T_{\rm{q}}}$，如图2所示. 其中，ST_AsBinary函数可将几何坐标解析为体积更小、更易传输的WKB. 由图2可知，ST_AsBinary函数的耗时更短，且其效率优势随查询数据量的增加愈加明显. 因此，本文结合ST_AsBinary与Spark框架构建更高效的PSGD法，选取效率最优的运行结果与本文算法进行对比.

图 2

图 2 不同查询数据量下ST_AsText、ST_AsBinary函数的查询响应耗时对比

Fig.2 Comparison of query response time between ST_AsText and ST_AsBinary functions with different query data sizes

将本文算法与一步解码式SVD并行转换法进行对比，以验证提出的两步解码处理在提高转换性能、改善数据倾斜方面的作用. 一步解码转换法首先进行SVD并行查询，而后借助本研究构建的几何解码工具直接执行几何解码、标准化，完成转换. 一步解码转换法的均衡方案只有范围分区处理.

4.2. 实验结果分析

4.2.1. 转换性能分析

转换性能包括效率与扩展性两部分. 效率可直接通过转换耗时 $T_{\rm{q}}$进行评价.扩展性部分，一方面，对比、评价各方法在SVD体量不断增大情况下的转换耗时变化情况；另一方面，转换过程中的HDFS写入速率v、集群CPU使用率U_c反映了各方法对集群资源的利用能力，也能用于评价并行转换方法的扩展性. 因此，本文记录4种方法的 $T_{\rm{q}}$值，如表3所示；并统计3种并行转换方法的指标v、 ${U_{\rm{c}}}$的平均值与最大值，如图3和4所示.

表 3 采用各转换方法转换不同数据集的执行耗时对比

Tab.3 Comparison of execution time by various conversion methods for different datasets min

转换方法	${D_0}$	${D_1}$	${D_2}$	${D_3}$	${D_4}$
ArcGIS	5.60	16.42	87.80	252.40	689.22
PSGD	1.90	2.68	8.93	49.98	53.70
一步解码法	0.53	2.08	2.67	4.67	6.73
两步解码法	0.51	1.08	1.73	4.03	5.87

新窗口打开| 下载CSV

图 3

图 3 采用各并行方法转换不同数据集时的集群CPU利用率对比

Fig.3 Comparison of cluster CPU utilization by various parallel conversion methods for different datasets

图 4

图 4 采用各并行方法转换不同数据集时的集群磁盘写入速率对比

Fig.4 Comparison of write speed in cluster disk by various parallel conversion methods for different datasets

由表3可知，并行转换方法具备显著的性能与扩展性优势，转换耗时均保持在60 min内；而ArcGIS单机转换工具的执行耗时随数据量的增加急剧增长，数据集 ${D_2}$的转换耗时相对于 ${D_0}$增大了约15倍，数据集 ${D_4}$的转换耗时高达11.5 h.

并行转换方法间的耗时差异验证了本文算法“两步解码均衡任务，并行解析提高性能”处理思想的性能与扩展性优势. 其中，PSGD方法的耗时最长，结合图3、4可知，无论转换数据体量的大小如何，PSGD的集群CPU利用率始终无法超过30.9%，磁盘写入速率在并行方法中也是最低的. 这一结果与本文第一部分对PSGD性能缺陷的论述一致，其转换性能被GDB端几何解析转换函数的执行效率所限制，并未实现在云环境中并行执行空间几何解码任务. 一步解码转换法与本文算法避免了GDB端的几何解码，并行查询获取的是GDB中原始形式的SVD，使GDB回归检索、传输数据的基本职能；借助几何并行解析机制，依托于云环境中的计算资源执行几何解码、格式加工，实现了良好的转换效率，最大耗时小于7 min. 一步解码法与本文算法的 ${U_{\rm{c}}}$、v值也随着数据体量的增长而增大，能够合理、弹性地利用集群的计算、IO资源，这一结果证实了几何并行解析机制具备较高的性能扩展性.

与一步解码法相比，本文算法更具性能优势. 两者转换数据集 ${D_0}$的耗时最接近，在转换其他数据集时，本文算法具备0.6~1.0 min的效率优势. 结合图3、4可知，本文算法的集群 ${U_{\rm{c}}}$、 $v$值更高. 在运算量上，与一步解码法相比，所提算法的两步解码机制虽然增加了基于几何复杂度的数据划分、重新分区等均衡化处理，但几何复杂度可由几何元数据直接提取，因此，均衡化处理的时间成本很小. 此外，均衡化处理使得任务间的几何复杂度更相近，带来了更加均匀的计算任务与数据分配，使转换任务对集群资源的利用更加合理、充分，使得均衡化处理的时间成本小于数据倾斜增加的时间成本，进一步提升了转换效率.

本文算法通过构建的几何解码工具类将几何解码运算转移到并行框架内，充分利用了集群计算的性能、扩展性优势；两步解码充分考虑了几何构成复杂度对转换运算的影响，提高了计算任务分配的均衡度，进一步提升了转换效率. 实验结果证实了所提算法在效率、性能扩展上的优越性.

4.2.2. 数据倾斜分析

为了评价并行转换方法在降低数据倾斜情况上的表现，构建转换耗时倾斜指标 ${K_{\rm{t}}}$与区块倾斜指标 ${K_{\rm{b}}}$. ${K_{\rm{t}}}$为任务间运行耗时的标准差； ${K_{\rm{b}}}$为转换结果存储到HDFS后，全部数据块大小的标准差. ${K_{\rm{t}}}$、 ${K_{\rm{b}}}$的值越小，说明转换方法的倾斜程度越小. 本文算法的均衡化处理将数据划分为简单几何、复杂几何，因此需要分别计算这两部分的指标值.

由图5可知，PSGD与一步解码法的 ${K_{\rm{t}}}$值态势十分相似，这是由于两者均采用范围分区方案. PSGD的最大 ${K_{\rm{t}}}$值为3 min，在转换数据集 ${D_3}$时，最慢任务的耗时比最快任务多14 min，转换耗时倾斜度极高. 一步解码法由于采用几何解码工具类，减少了整体转换耗时， ${K_{\rm{t}}}$值也因此减小，但根本上，由于范围分区方案无法顾及数据间的几何复杂度差异，PSGD与一步解码法无法平衡分配几何解码的计算量，造成转换任务耗时倾斜.

图 5

图 5 采用各并行方法转换不同数据集时的耗时倾斜指标对比

Fig.5 Comparison of skewness in execution time by various parallel conversion methods for different datasets

本文算法的 ${K_{\rm{t}}}$值最小，原因包括：1) 算法充分考虑了数据间的几何复杂度差异，通过两步解码平衡了任务间几何解码的计算量，实现了更均衡的转换任务耗时；2) 算法的整体转换耗时最短， ${K_{\rm{t}}}$也随之进一步减小. 对于数据集 ${D_3}$、 ${D_4}$，本文算法的 ${K_{\rm{t}}}$值有所增长，这是因为两步解码的均衡策略并未进行迭代式统计、划分，以很大的均衡化时间成本换取转换任务的绝对平衡，而是兼顾了整体时间成本与数据倾斜.

由图6可知，相较于在转换耗时倾斜上的表现，PSGD、一步解码法在提高区块平衡上的表现与本文算法的差距更加明显. 这是由于虽然提高转换效率虽然可以减小 ${K_{\rm{t}}}$值，但对数据区块倾斜问题则毫无作用，而本文算法的两步解码机制在提高区块平衡度方面的优势十分显著.

图 6

DOI:10.3969/j.issn.1007-6301.2000.03.002 [本文引用: 1]

图 6 采用各并行方法转换不同数据集时的区块倾斜指标对比

Fig.6 Comparison of block skewness by various parallel conversion methods for different datasets

PSGD与一步解码法存在着严重的区块倾斜问题. 对于前3个数据集，PSGD的 ${K_{\rm{b}}}$值小于一步解码法，这是由于其分区数约为一步分区法的3倍，更多的数据切分数量一定程度上降低了区块间的数据倾斜；面对大体量SVD，过多的并行SQL几何解析任务会极大地占用Oracle的计算资源，导致严重的任务阻塞甚至作业失败. 因此，在转换 ${D_3}$、 ${D_4}$时，PSGD的分区数与一步解码法基本一致，其 ${K_{\rm{b}}}$值的态势与一步解码法也呈现出相似性. 这2种方法的转换结果数据被存储到HDFS后，最小与最大数据块间的体量差异最大可达千兆字节。实验结果证明，RangePartitioner保持分区间记录数一致的分区策略，并不能解决由几何构成复杂度导致的数据倾斜问题。

本文算法在转换5个数据集时均保证了良好的区块平衡性，最大 ${K_{\rm{b}}}$值不到10 MB，复杂几何数据集的 ${K_{\rm{b}}}$值大于简单几何数据集，与算法根据几何复杂度划分、均衡化处理SVD的思想相符. 几何复杂度的差异是导致转换任务计算量分配不均与数据倾斜问题的核心因素，两步解码处理则充分考虑到这一点， ${K_{\rm{b}}}$值的态势证实了其优良性能.

实验结果证实了以几何复杂度作为核心平衡指标的合理性，验证了两步解码处理在降低数据倾斜方面的优越性；所提算法大幅提高了SVD并行转换中运算量、数据的均衡性.

5. 结　语

针对日益增加的SVD体量与空间大数据应用挖掘需求，本文提出了一种两步解码式空间矢量数据并行转换算法，通过并行查询、两步解码处理实现GDB中海量SVD由传统形式向交换格式的转换. 本文采用自然资源管理单位的真实生产数据，从转换效率、扩展性、数据倾斜方面分析了算法的表现. 与ArcGIS转换工具、PSGD以及一步解码转换法相比，采用两步解码转换算法构建的空间几何并行解析机制提供了最佳的转换性能与扩展性，转换效率提升了2.5~117倍；所提出的顾及几何复杂度的均衡策略大幅提高了SVD并行转换中运算量、数据的均衡性. 实验结果表明，提出的两步解码式转换算法在转换性能、扩展性和数据倾斜方面具有显著的优越性，能够为海量SVD迁移转换、空间大数据应用挖掘提供更高效的数据转换服务.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

李军, 费川云

地球空间数据集成研究概况

[J]. 地理科学进展, 2000, 19 (3): 203- 211

LI Jun, FEI Chuan-yun

Overview of study on geo-spatial data integration

[J]. Progress in Geography, 2000, 19 (3): 203- 211

DOI:10.3969/j.issn.1007-6301.2000.03.002 [本文引用: 1]

[2]

李清泉, 李德仁

大数据GIS

[J]. 武汉大学学报: 信息科学版, 2014, 39 (6): 641- 644

LI Qing-quan, LI De-ren

Big data GIS

[J]. Geomatics and Information Science of Wuhan University, 2014, 39 (6): 641- 644

[3]

人民网. 土地调查国家级数据库实现全国“一张图”[EB/OL]. (2015-01-02)[2019-12-24]. http://scitech.people.com.cn/n/2015/0102/c1057-26311822.html.

[4]

人民日报. 首次全国地理国情普查完成[EB/OL]. (2017-01-03)[2019-12-24]. http://www.gov.cn/xinwen/2017-01/03/content_5155812.htm.

[5]

乐鹏, 吴昭炎, 上官博屹

基于Spark的分布式空间数据存储结构设计与实现

[J]. 武汉大学学报: 信息科学版, 2018, 43 (12): 542- 549

YUE Peng, WU Zhao-yan, SHANGGUAN Bo-yi

Design and implement of a distributed geospatial data storage structure based on spark

[J]. Geomatics and Information Science of Wuhan University, 2018, 43 (12): 542- 549

[6]

YUE P, TAN Z

GIS databases and NoSQL databases

[J]. Comprehensive Geographic Information Systems, 2018, 6 (1): 50- 79

[7]

LI W, SONG M, ZHOU B, et al

Performance improvement techniques for geospatial web services in a cyberinfrastructure environment: a case study with a disaster management portal

[J]. Computers Environment and Urban Systems, 2015, 54 (3): 314- 325

DOI:10.3969/j.issn.1673-6338.2011.01.016 [本文引用: 1]

[8]

陈德权

基于GeoJSON的WFS实现方式

[J]. 测绘科学技术学报, 2011, 28 (1): 66- 69

CHEN De-quan

The realization of WFS based on GeoJSON

[J]. Journal of Geomatics Science and Technology, 2011, 28 (1): 66- 69

DOI:10.3969/j.issn.1673-6338.2011.01.016 [本文引用: 1]

[9]

龚健雅, 贾文珏, 陈玉敏, 等

从平台GIS到跨平台互操作GIS的发展

[J]. 武汉大学学报: 信息科学版, 2004, 29 (11): 985- 989

GONG Jian-ya, JIA Wen-jue, CHEN Yu-min, et al

Development from platform GIS to cross-platform interoperable GIS

[J]. Geomatics and Information Science of Wuhan University, 2004, 29 (11): 985- 989

DOI:10.3969/j.issn.1672-1586.2014.02.008 [本文引用: 1]

[10]

占美志, 何政伟, 李程

基于GML的空间数据集成技术研究

[J]. 地理信息世界, 2014, (2): 29- 32

ZHAN Zhi-mei, HE Zheng-wei, LI Cheng

Research of integration technology of spatial data based on GML

[J]. Geomatics World, 2014, (2): 29- 32

DOI:10.3969/j.issn.1672-1586.2014.02.008 [本文引用: 1]

[11]

ASTRIANI W, TRISMININGSIH R

Extraction, transformation, and loading (ETL) module for hotspot spatial data warehouse using Geokettle

[J]. Procedia Environmental Sciences, 2016, 33: 626- 634

DOI:10.1016/j.proenv.2016.03.117 [本文引用: 1]

[12]

裴莲莲, 唐建智, 毕小硕

多源空间大数据的获取及在城市规划中的应用

[J]. 地理信息世界, 2019, 26 (1): 13- 17

DOI:10.3969/j.issn.1672-1586.2019.01.003

PEI Lian-lian, TANG Jian-zhi, BI Xiao-shuo

The acquisition of multi-source spatial data and its application to urban planning

[J]. Geomatics World, 2019, 26 (1): 13- 17

DOI:10.3969/j.issn.1672-1586.2019.01.003

[13]

ANEJIONU O C D, THAKURIAH P, MCHUGH A, et al

Spatial urban data system: a cloud-enabled big data infrastructure for social and economic urban analytics

[J]. Future Generation Computer Systems, 2019, 98 (9): 456- 473

[14]

姚晓闯. 矢量大数据管理关键技术研究 [D]. 北京: 中国农业大学, 2017: 48.

YAO Xiao-chuang. Research on key technologies of vector big data management [D]. Beijing: China Agricultural University, 2017: 48.

[15]

张少将. 基于Hadoop的地理空间大数据存储与查询技术[D]. 西安: 西安电子科技大学, 2017: 34.

ZHANG Shao-jiang. Hadoop-based geospatial data storage and query technology [D]. Xi’an: Xidian University, 2017: 34.

DOI:10.3969/j.issn.1003-3254.2015.01.026 [本文引用: 2]

[16]

周经纬. 矢量大数据高性能计算模型及关键技术研究[D]. 杭州: 浙江大学, 2016: 89.

[本文引用: 3]

ZHOU Jing-wei. Research on big vector data’s high performance computing model and key technologies [D]. Hangzhou: Zhejiang University, 2016: 89.

[本文引用: 3]

[17]

李家, 曹威

Oracle Spatial空间数据在ArcSDE中的图层注册

[J]. 计算机系统应用, 2015, 24 (1): 143- 146

LI Jia, CAO Wei

Layer register of Oracle Spatial data in ArcSDE

[J]. Computer Systems and Applications, 2015, 24 (1): 143- 146

DOI:10.3969/j.issn.1003-3254.2015.01.026 [本文引用: 2]

[18]

吴锦超

基于Oracle的ArcSDE数据迁移

[J]. 测绘与空间地理信息, 2018, 41 (3): 154- 155

DOI:10.3969/j.issn.1672-5867.2018.03.048 [本文引用: 2]

WU Jin-chao

Data migration of ArcSDE based on Oracle

[J]. Geomatics and Spatial Information Technology, 2018, 41 (3): 154- 155

DOI:10.3969/j.issn.1672-5867.2018.03.048 [本文引用: 2]

[19]

YAO X, MOKBEL M F, ALARABI L, et al

Spatial coding-based approach for partitioning big spatial data in Hadoop

[J]. Computers and Geosciences, 2017, 106: 60- 67

DOI:10.1016/j.cageo.2017.05.014 [本文引用: 1]

[20]

ELDAWY A, ALARABI L, MOKBEL M F

Spatial partitioning techniques in Spatial Hadoop

[J]. Proceedings of the VLDB Endowment, 2015, 8 (12): 1602- 1605

DOI:10.14778/2824032.2824057 [本文引用: 1]

[21]

ZEILER M. Modeling our world: the ESRI guide to geodatabase design [M]. Redlands: ESRI Press, 1999: 8.

DOI:10.3969/j.issn.1672-1586.2011.03.013 [本文引用: 1]

[22]

ESRI. ArcGIS所支持的Oracle数据类型[EB/OL]. (2014-05-10)[2019-08-01]. http://resources.arcgis.com/zh-cn/help/main/10.2/index.html#/na/002n00000067000000/.

[本文引用: 3]

[23]

王怀, 樊文锋, 叶芳宏

基于ArcSDE的省级基础地理信息数据库系统建设

[J]. 地理信息世界, 2011, 9 (3): 65- 69

WANG Huai, FAN Wen-feng, YE Fang-hong

Building provincial fundamental geographic information database system based on ArcSDE

[J]. Geomatics World, 2011, 9 (3): 65- 69

DOI:10.3969/j.issn.1672-1586.2011.03.013 [本文引用: 1]

[24]

周龙廷. 直接访问ArcSDE空间数据模型的技术方法研究[D]. 上海: 华东师范大学, 2011: 30.

ZHOU Long-ting. The technical research of methods to direct access to ArcSDE spatial data model [D]. Shanghai: East China Normal University, 2011: 30.