|
使用“基于分析的代码转换方法”来提升GPU特定的OpenCL kernel在多核/众核CPU上的性能移植性
Mei Wen, Da-fei Huang, Chang-qing Xun, Dong Chen
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 899-916.
https://doi.org/10.1631/FITEE.1500032
摘要(
913 )
PDF(0KB)(
532
)
目的:针对面向GPU设计的OpenCL kernel程序在CPU上性能移植性欠佳这一问题,设计一种基于访存特征分析的代码转换方法,提升性能移植性。 创新点:通过分析OpenCL kernel中的访存模式,去除不必要的局部存储数组及其带来的同步语句,并使用向量化和局域性重开发进一步优化代码,最终取得显著的性能提升。 方法:首先,针对OpenCL kernel代码中的数组访问,设计一种精确的线性化访问描述子(图2)。然后,利用该描述子,分两步对GPU特定的OpenCL kernel代码进行转换,以提高其在CPU上的性能(图7)。第一步为基于分析的work-item折叠,即通过分析访问描述子,找出并去除不必要的局部存储数组及其带来的同步语句,然后完成work-item折叠。第二步为适应架构的代码优化,即针对CPU架构的特点,使用向量化和局域性重开发进一步优化折叠后的代码。最后,上述代码转换过程被整合为一个工具链,连同一个调度程序,嵌入到一个开源的OpenCL运行时系统中(图11)。实验结果表明,这种转换方法可以显著提升GPU特定的OpenCL kernel在Intel Sandy Bridge架构CPU和Intel Knights Corner架构协处理器上的性能。 结论:准确分析OpenCL kernel代码中的访存模式,不仅利于判断局部存储数组是否适合于CPU架构,还能用于指导之后的代码优化过程,因此是提高性能移植性的重要步骤。
|
|
基于鲁棒局部自适应多视角学习的视点无关人体行为识别
Jia-geng Feng, Jun Xiao
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 917-929.
https://doi.org/10.1631/FITEE.1500080
摘要(
671 )
PDF(0KB)(
605
)
目的:基于视觉的人体行为识别是一个非常活跃的研究领域。它在智能监控、感知接口和基于内容的视频检索等领域具有广泛的应用前景。然而,一些现实应用场景仍然阻碍行为识别技术的发展,比如现实场景中的动作往往是从任意角度拍摄的。因此与视点无关的行为识别显得十分重要。大量研究者开始致力于行为识别的视点无关性。本文提出一种基于多视角学习的视点无关人体行为识别方法。 创新点:针对现有多视角学习算法在构建近邻图时缺乏数据自适应性的问题,本文提出一种自适应多视角学习算法。此外,还提出一种迭代优化求解方法对所构建的目标函数进行优化求解。 方法:对于单个视角下的所有样本特征数据,构建一个该视角下的L1图。在获得数据的稀疏图结构后,对于单视角下的数据,希望学习一种最优的降维方法,在对原始数据进行降维的同时,最大程度地保持数据内在的局部结构信息;对于不同的视角,取一个非负的权重向量来衡量不同视角的重要程度。对于全部的视角可以统一起来得到目标函数。最后利用迭代优化求解,用支持向量机(SVM)分类。 结论:将本文所提算法应用到视点无关的行为识别中,实验结果表明:该算法能够自适应地选择近邻数与不同特征的权重;与其他几种对比算法相比,本文所提算法的分类准确率更高。
|
|
基于深度卷积网络的多分类法在头部姿态估计中的应用
Ying Cai, Meng-long Yang, Jun Li
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 930-939.
https://doi.org/10.1631/FITEE.1500125
摘要(
1091 )
PDF(0KB)(
774
)
目的:利用深度卷积网络的优势,解决头部姿态估计中各种关键难点,并提高分类正确率。 创新点:将人工智能的新兴方法深度卷积网络应用在头部姿态估计问题上,根据姿态估计的具体问题设计一套裁剪人脸的方法,改进卷积网络模型、优化参数,并取得了大幅度的效果提升。 方法:首先,因为深度卷积网络算法对图像旋转、尺度、光照等的鲁棒性,图像预处理阶段仅对图像做简单裁剪(图3),并对比了各种裁剪法对分类正确率的影响(表1)。然后,在训练阶段使用适合姿态估计的数据处理策略,通过少量偏移裁剪框和轻微变化图像尺度来获得更多的训练数据以提升效果,在三种公开数据库上报告了实验结果并与目前取得最好效果的三种方法做了对比(表4)。最后,设计两种不同深度的网络,对比网络深度对效果的影响(表2)。 结论:针对头部姿态估计问题,提出了切实有效的新解决方案,并取得了明显改善的效果。
|
|
基于中文维基的大规模命名实体识别语料自动生成方法
Jie Zhou, Bi-cheng Li, Gang Chen
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 940-956.
https://doi.org/10.1631/FITEE.1500067
摘要(
836 )
PDF(0KB)(
487
)
目的:命名实体识别作为自然语言处理领域一项重要的基础性工作,当前主流方法是基于有监督的机器学习方法。该类方法依赖于特定语种和领域的标注语料,而语料的标注过程需耗费大量的人力、物力。本文提出一种基于中文维基的大规模命名实体识别(NER)语料自动生成方法。利用该方法能自动抽取并标记中文维基中的句子,从而为中文NER任务提供有效的语料支持。 创新点:本文根据中文维基的特点设计出四类启发式规则,并结合有监督的命名实体分类器,实现中文维基条目的命名实体类型的准确、全面识别;为避免缺失的维基链接引发的标注缺失,本文利用出链接的边界信息发现维基文档中的隐式指称项,并利用实体链接技术识别歧义指称项的实体类型;本文提出一种基于核心条目扩展的标注语料选择方法,实现测试数据的领域自适应。 方法:本文方法的整体流程如原文图2所示。该方法主要包括显式指称项的实体分类、隐式指称项的类型识别和标注语料选择三个主要步骤。在显式指称项的实体分类中,为实现准确、全面的实体类型识别,采用基于启发式规则与有监督实体分类器相结合的方法;在隐式指称项的类型识别中,提出一种新方法发现维基文档中的隐式指称项并识别歧义指称项的实体类型;在标注语料选择中,提出一种基于核心条目扩展的方法,实现测试数据的领域自适应。 结论:根据实验结果,采用本文方法能自动生成大规模的中文NER语料。此外,将生成语料与标准语料结合时,训练获得的NER模型性能更优。
|
|
混合动力挖掘机内置式永磁同步电机优化设计
Qi-huai Chen, Qing-feng Wang, Tao Wang
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 957-968.
https://doi.org/10.1631/FITEE.1500056
摘要(
873 )
PDF(0KB)(
979
)
目的:混合动力传动系统作为一种节能减排技术方案,可有效改善传统液压挖掘机的油耗和尾气排放。混合动力挖掘机中关键部件的研制,尤其是动力电机的研制,一直是阻碍混合动力系统应用和推广的难点。本文针对混合动力挖掘机实际工况和要求,对混合动力挖掘机的动力电机进行优化设计。 创新点:根据液压挖掘机实际工况特点,总结归纳了混合动力挖掘机动力电机的性能要求,提出一种动力电机结构;根据动力电机性能和工作环境要求,为提高电机设计效率和精度,提出一套采用模型法与有限元法相结合的电机设计方法。 方法:对传统液压挖掘机工况及实际载荷谱进行分析,总结归纳动力电机的性能要求。动力电机采用内置切向式和变气隙相结合的结构方案作为电机转子结构。电机的设计以安装尺寸为约束条件,以电机具有高效率、高响应及低转矩脉动等性能为设计目标,对电机定、转子结构进行优化设计。首先,建立电机定子参数化模型,确定电机定子尺寸和磁感应强度的分布关系;以电机安装尺寸极限作为边界条件,以电机额定工况下损耗最低为目标函数,对模型采用粒子群算法进行优化获取定子参数及磁感应强度分布。然后,以气隙磁感应强度的波形畸变最小为目标,利用有限元法对电机变气隙转子的离心率及永磁体尺寸进行优化设计,同时保证所获得的电机磁感应强度与定子的理论设计目标值一致。分别对电枢反应、永磁体最大去磁进行计算和校核。研制了动力电机样机并进行性能和参数测试。 结论:所设计动力电机样机具有齿槽转矩小和工作效率较高的特点。样机的试验参数测量值与理论设计值吻合度较高,验证了所提电机设计及优化方法的有效性。
|
|
粒子滤波重采样:同分布原则、一种新方法以及综合对比
Tian-cheng Li, Gabriel Villarrubia, Shu-dong Sun, Juan M. Corchado, Javier Bajo
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 969-984.
https://doi.org/10.1631/FITEE.1500199
摘要(
6640 )
PDF(0KB)(
1023
)
目的:重采样方法是粒子滤波设计的重要环节,也是避免或克服“权值退化”和“多样性匮乏”这一对粒子滤波难点问题的关键。当前研究领域已有几十余种重采样方法,然而尚缺乏一个基础性的重采样设计原则以及对这些方法的综合性能对比。针对于此,本文提出重采样“同分布”设计原则,并在此基础上,提出一种能够最大程度满足同分布原则的最优重采样方法。本文希望所提出的重采样同分布原则以及新方法有利于进一步的新方法设计或已有方法的工程选用。 创新点:理论上严格定义了同分布原则作为重采样方法设计的普遍性原则,给出三种同分布测度方法;提出了一种最小采样方差(MSV: minimum sampling variance)最优重采样方法,在满足渐近无偏性的前提下获得最小采样方差。 方法:给出三种“重采样同分布”测度方法:Kullback-Leibler偏差,Kolmogorov-Smirnov统计和采样方差(sampling variance)。所提出的最小采样方差重采样放宽了无偏性条件,仅满足渐近无偏,但获得了最小采样方差(参见定理2-4论证以及仿真性能对比)。 结论:重采样前后粒子的概率分布应该统计上一致(即“同分布”)是重采样方法设计的一个重要原则。明确这一基本原则有利于规范化重采样新方法的设计与工程选用。所提出的MSV重采样新方法渐近无偏,并具有最小采样方差的优异理论特性,即最优地满足同分布原则。算法性能分析表明:大多数无偏或者渐近无偏重采样方法在滤波精度上差异较小,但是在采样方差、计算效率方面差异较大。另一方面,基于一些特殊规则或者问题模型设计的重采样方法可能具有特别优势。
|
|
改进的变速率粒子滤波及其在机动目标跟踪中的应用
Yun-fei Guo, Kong-shuai Fan, Dong-liang Peng, Ji-an Luo, Han Shentu
Front. Inform. Technol. Electron. Eng., 2015, 16(11): 985-994.
https://doi.org/10.1631/FITEE.1500149
摘要(
737 )
PDF(0KB)(
452
)
目的:针对一类特定的机动目标跟踪问题(目标长时间近似匀速直线运动,偶尔强机动运动),提出一种兼顾机动期间跟踪精度与非机动期间系统负担的非线性滤波方法。 创新点:提出便于工程应用的基于笛卡尔坐标系的变速率模型和改进的变速率粒子滤波;提出机动检测方法而非多模型方法动态调整变速率粒子滤波的核心参数。通过在改进的变速率粒子滤波中嵌入无味粒子滤波,进一步改进估计精度。 方法:首先,提出笛卡尔坐标系下的变速率采样模型。此时状态驻留时间不再与测量周期保持一致,从而可以减少目标非机动期间的状态更新次数。其次,提出一种基于机动检测的改进变速率粒子滤波方法,当目标机动或非机动时,动态调整变速率模型的Gamma分布参数。目标机动时,状态更新更频繁,粒子分布范围更广;目标非机动时,状态更新次数较少,降低系统存储和计算负担。最后,在改进的变速率粒子滤波中采用无味粒子滤波,进一步提高估计精度。 结论:改进的变速率粒子滤波方法采用笛卡尔系而非本体坐标系,需要的先验信息更少,更便于工程应用。通过动态调整算法中的分布参数,采用无味粒子滤波方法,可以兼顾目标在非机动和机动期间的跟踪性能,同时降低系统的计算和存储负担。
|
7 articles
|