生成数据的简洁有效的数值表示是许多机器学习任务的基本步骤。传统上使用手工创建的特征,但随着深度学习开始显示其潜力,使用深度学习模型来提取其简洁表示成为新的趋势。其中,采用模型潜在空间向量是最为流行的方法。已有数项研究聚焦于自然语言处理(NLP)和计算机视觉潜在空间的可视分析方面。
然而,对音乐信息检索(MIR),特别是结合可视化方法的研究相对较少。为了填补这一空缺,来自美国俄亥俄州立大学的Han-Wei Shen团队提出了一个可视分析系统,利用自动编码器来支持对中国传统音乐的分析和探索。由于缺乏合适的中国传统音乐数据,他们从一组预先录制的音频中构造了一个标记数据集,然后将它们转换为声谱图。
系统采用由两个深度学习模型(一个全连接的自动编码器和一个长短时记忆(LSTM)的自动编码器)学到的音乐特征作为输入。通过交互选择、相似度计算、聚类和聆听,证明了编码数据的潜在表示使我们的系统能够识别出基本的音乐元素,从而为将来对中国音乐进行进一步分析和检索奠定了基础。