监督机器学习技术需要标记多变量训练数据集。许多方法将机器学习算法与交互式可视化相结合来解决未标记数据集的问题。通过采用合适的技术,分析师可以在可高度交互的迭代式机器学习过程中发挥积极作用,实现对数据集的标记并构建有意义的划分。尽管这一思路已经在无监督、半监督或有监督的机器学习任务中得到实施,但将这三种方法组合到一起仍然具有挑战性。
本文提出了一种可视化分析方法,该方法将多种机器学习功能与四个链接的可视化视图集成到mVis系统中。通过技术调色板,分析人员可对多变量数据集进行探索性数据分析,实现有意义的标记分区,进而构建分类器。在这一过程中,分析师可以在主动学习支持的半监督过程中标记值得关注的模式或异常值。数据集被交互式标记后,分析师就可以通过有监督的机器学习继续后面的流程,来评估随后的分类器是否能有效体现标记过的训练数据集所表达的概念。通过采用自动选择维度的新技术,分析师可以对多变量数据集的维度进行交互来引导机器学习算法。
本文通过一个现实世界的足球数据集来展示mVis在执行多项分析和标记任务中的实用性,这些任务从初始标记过程中的迭代式数据探索、聚集、分类、通过主动学习来优化命名分区,到最终产生一个适用于训练分类器的、高质量标记的训练数据集。该工具为分析人员提供了交互式可视化功能,包括散点图,平行坐标,记录的相似性图,以及新的分区的相似性图。