浙江大学学报(工学版), 2026, 60(2): 388-395 doi: 10.3785/j.issn.1008-973X.2026.02.017

计算机技术与控制工程

基于大语言模型的中文隐喻多维度评估

黄孝喜,, 查正超, 陆诗佳

杭州电子科技大学 计算机学院,浙江 杭州 310018

Multi-dimensional evaluation of Chinese metaphors based on large language models

HUANG Xiaoxi,, ZHA Zhengchao, LU Shijia

School of Computer Science, Hangzhou Dianzi University, Hangzhou 310018, China

收稿日期: 2025-03-5  

基金资助: 教育部人文社会科学研究规划基金项目(18YJA740016).

Received: 2025-03-5  

Fund supported: 教育部人文社会科学研究规划基金项目(18YJA740016).

作者简介 About authors

黄孝喜(1979—),男,副教授,博士,从事自然语言处理研究.orcid.org/0000-0003-4483-3664.E-mail:huangxx@hdu.edu.cn , E-mail:huangxx@hdu.edu.cn

摘要

探讨大语言模型(LLMs)在中文隐喻句子质量评估中的应用. 结合以往工作和认知语言学知识,制定中文隐喻的多维度评估标准. 按照该标准构建高质量的人工评估数据集作为基准,以验证大语言模型在中文隐喻评估任务上的表现. 以概念隐喻理论为指导,将多轮对话和思维链提示相结合,提出基于大语言模型的中文隐喻多维度评估框架. 实验结果显示,大语言模型在直接评分任务上与人工评分结果的皮尔逊相关系数为0.807,在组内择优任务上与人工评分结果的卡帕系数为0.831;大语言模型的评估结果与人工评分结果的一致性极高. 所提评估框架结合概念隐喻理论与大语言模型,能够出色地完成中文隐喻评估任务.

关键词: 隐喻评估 ; 中文隐喻 ; 概念隐喻理论 ; 大语言模型(LLM) ; 提示工程 ; 多轮对话 ; 思维链

Abstract

The application of large language models (LLMs) was studied in evaluating the quality of Chinese metaphorical sentences. Building upon prior research and insights from cognitive linguistics, a multi-dimensional evaluation framework tailored to Chinese metaphors was developed. A high-quality human-annotated dataset was constructed based on the framework to serve as a benchmark for validating LLM performance in metaphor assessment tasks. Guided by conceptual metaphor theory, an LLM-based evaluation pipeline was proposed that integrates multi-turn dialogue and chain-of-thought prompting. Experiments were conducted to test the model’s effectiveness in two distinct tasks: direct scoring of metaphor quality and pairwise comparison for selecting superior metaphors within groups. Results demonstrate strong alignment between LLM evaluations and human judgments. In direct scoring tasks, the Pearson correlation coefficient reached 0.807, and for within-group selection tasks, Cohen’s Kappa coefficient of 0.831 was achieved. The proposed evaluation pipeline integrated conceptual metaphor theory with LLMs and achieved strong results on Chinese metaphor assessment.

Keywords: metaphor evaluation ; Chinese metaphor ; conceptual metaphor theory ; large language model (LLM) ; prompt engineering ; multi-turn dialogue ; chain-of-thought

PDF (726KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

黄孝喜, 查正超, 陆诗佳. 基于大语言模型的中文隐喻多维度评估. 浙江大学学报(工学版)[J], 2026, 60(2): 388-395 doi:10.3785/j.issn.1008-973X.2026.02.017

HUANG Xiaoxi, ZHA Zhengchao, LU Shijia. Multi-dimensional evaluation of Chinese metaphors based on large language models. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(2): 388-395 doi:10.3785/j.issn.1008-973X.2026.02.017

隐喻是语言中广泛应用的修辞手法,能够有效地表达复杂的思想、情感和概念. 隐喻研究作为自然语言处理领域里复杂又具有挑战性的任务,受到越来越多研究者的关注[1]. 随着隐喻研究的快速发展,隐喻评估的重要性也日益凸显.

传统的自动评估指标(如BLEU[2]、ROUGE[3]),在计算隐喻研究早期经常被用来评估隐喻生成的质量. 随着预训练模型的发展,文本评估方法不断更新为隐喻评估提供新的思路. 例如,Li等[4]使用困惑度(perplexity, PPL)[5]来评估隐喻生成文本的流利度,使用Dist-1和Dist-2指标[6]来评估生成文本的多样性. Chakrabarty等[7]使用Sentence-BERT[8]来计算句向量之间的语义相似度,并引入BERTScore[9]对隐喻生产句子进行质量评估. 也有研究使用其他预训练模型(如BERT[10]、BART[11]和GPT等)来计算语义相似度. 针对创新性隐喻,Distefano等[12]微调开源预训练模型RoBERTa[13]和GPT-2[14],进行隐喻的创造性评估. 尽管这些方法为隐喻评估提供了便捷的工具,但它们在捕捉隐喻创造性、语境适配性和深层语义关系等方面仍存在局限. 尤其是在处理复杂或创新性隐喻时,可能无法充分反映隐喻的质量和特点. 人工评估过程费时且成本较高,还可能因评估者的文化背景和个人理解差异而影响评估的客观性. 自从GPT3.5发布以来,大语言模型(large language model,LLM)在文本评估和隐喻领域发展迅速. Liu等[15]提出G-EVAL框架,利用GPT-4[16]评估自然语言生成文本的质量,该方法在文本摘要和对话生成2个任务上优于其他评估方法. Wang等[17]通过生成启发增强式的框架,提高大语言模型识别中文隐喻的能力. Tong等[18]通过构建隐喻理解挑战数据集MUNCH,验证了大语言模型在一定程度上能理解隐喻. Gao等[19]通过基于人类语言逻辑的自校验同义替换(paraphrase augmentation strategy with self-checking,PASS)策略,在成语理解任务上验证了大语言模型能够很好地理解隐喻. 在隐喻生成领域,Shao等[20]创建包含本体、喻体和共性的数据集,通过思维链[21]提示指导大语言模型生成高质量的隐喻句子.

现有隐喻评估方法不能满足研究者对中文隐喻质量评估的要求,亟需高质量、高效率的评估方法. 本研究提出基于大语言模型的中文隐喻质量评估框架;将概念隐喻理论和大语言模型结合,通过思维链提示指导大语言模型按照制定的评估体系对中文隐喻句子进行评估;通过大语言模型在隐喻评估任务上的表现,充分挖掘大语言模型在隐喻领域的潜力以及隐喻在自然语言处理任务中的关键作用.

1. 中文隐喻多维度评估指标

1.1. 概念隐喻

在隐喻理解和生成研究中,概念隐喻理论占据重要地位. Lakoff等[22]提出的概念隐喻理论,以隐喻为核心,深入探讨其本质,展示了语言与隐喻认知结构间的紧密联系. 概念隐喻认为,隐喻不仅是语言现象,更反映人类认知中源域(source domain)与目标域(target domain)之间的系统性映射. 隐喻是指在特定语境下,将一个领域的概念映射到另一个领域[23],隐喻在本质上并不存在于语言本身,而是存在于它们在应用中将一个域概念映射到另一个域的方式中[24]. 通过这种跨域映射,人们以熟悉的概念理解抽象或复杂的事物. 隐喻生成的质量,尤其是创新性和明确性,通常依赖于源域与目标域之间合理且新颖的关联. 因此,概念隐喻为隐喻评估提供了理论依据,强调对深层语义联系、认知合理性和文化适配性的考量. 在实际评估中,理解并应用概念隐喻理论有助于更加系统、准确地判断隐喻生成的质量,弥补传统自动化指标难以触及的认知层面差异.

1.2. 中文隐喻的独特性分析

中文隐喻的独特性主要体现在隐喻句子的文学性和文化背景上. 在文学性上,独特性体现在高度凝练与形象生动的表达特点. 汉语以意象丰富、意境深远著称,隐喻常通过极简的语言浓缩复杂的情感和场景,形成含蓄而余韵悠长的艺术效果. 在文化背景上,独特性体现在中文隐喻可以深度融入中华文化传统之中. 如阴阳观念、五行思想、天人合一等哲学概念对隐喻体系有深远影响. 许多隐喻不仅反映自然现象,还蕴含伦理道德和社会秩序,例如将“水”比喻为“德”,体现了以柔克刚的文化观念. 这种文化深度使中文隐喻具有较强的地域性和文化专属性,理解和接受往往需要依托相应的文化背景知识.

1.3. 多维度评估指标

根据Li等[4,7,20]的总结,隐喻评估主要聚焦于隐喻的恰当性、创造性以及清晰度等维度. 为了确保隐喻句子评估的系统性和客观性,本研究在评估指标和认知语言学的基础上,提出包含创新性、明确性、文学性、关联性以及文化契合度等5个维度的评估指标. 该多维度评估指标在包含以往研究聚焦重点的同时,加入中文隐喻评估中需要注意的有关文化背景以及文学表达的评估维度,旨在尽可能全面衡量中文隐喻句子的质量.

1.3.1. 维度定义

1)创新性:在认知语言学中,隐喻被视为创造性的语言使用方式,能够激发新的联想和思考[25]. 创新性是指隐喻表达的新颖程度及其独特性,包括是否提出新的概念或视角,以及该隐喻是否在既定的语言习惯之外提供新的思考方式. 2)关联性:在概念隐喻理论中,隐喻的映射过程需要源域和目标域之间存在某种内在的逻辑或相似性[26]. 关联性考察隐喻与其所指事物之间的联系强度,即隐喻是否恰当地反映了两者之间的逻辑关系,并增强了对事物的理解. 3)明确性:指隐喻表达是否清晰、易于理解. 在认知语言学中,隐喻的理解过程涉及对喻体特征的选择性投射和跨域校准[27]. 如果隐喻表达模糊或存在映射断裂,读者可能难以准确提取喻体的特征,从而影响对隐喻意义的把握. 4)文学性:关注隐喻生成句子的文学艺术价值,包括语言美感、修辞技巧运用、文本连贯性等. 例如“忽如一夜春风来,千树万树梨花开”,这是家喻户晓的描写雪的隐喻诗句,句式工整,修辞巧妙,文学性极高. 5)文化契合度:概念隐喻理论指出,隐喻系统植根于文化具身体验[28]. 隐喻的理解受到文化背景和认知框架的影响,不同的文化和社会群体可能具有不同的隐喻系统和认知模式. 文化契合度考量隐喻在特定文化背景下的接受度和适应性,包括它是否符合文化习俗、价值观和信仰等.

1.3.2. 评分标准

采用十分制量表(最低1分,最高10分)来评估每个维度的得分. 相比常用的五分制量表(最低1分,最高5分),十分制量表提供更细粒度的区分能力,支持更精确的统计分析,但增加了大语言模型的评估难度.

2. 分阶段渐进式提示语框架

2.1. 框架流程

本研究基于思维链理念,采用多轮对话的方法,构建分阶段渐进式的提示语(prompt)框架,框架整体流程如图1所示. 该提示语框架整合概念隐喻理论和大语言模型特性,引导大语言模型对隐喻句子进行多维度评估. 框架设计本着阶段解耦的原则,将整个评估流程分为4个阶段(准备阶段、句子分析阶段、评估阶段、结果整合阶段),采用多轮对话的方式逐步引导,降低大语言模型做隐喻评估任务的复杂度. 在评估过程中,准备阶段和句子分析阶段为一个对话轮次,结果整合阶段为一个对话轮次. 评估阶段作为整个框架的核心,评估的准确性尤为重要. 为了防止维度间干扰影响评估的深度和准确性,在评估时进行维度隔离,一个维度的评估为一个对话轮次. 在每个对话轮次,大语言模型都会输出具体的分析结果,将得到最终结果的过程透明化,大大增加模型输出结果的可解释性. 通过这种分阶段渐进式的引导方法,每个阶段再结合思维链策略逐步深化模型对隐喻的理解,使大语言模型能够模拟人类专家的评估流程,从而获得更优质的评估结果.

图 1

图 1   提示语框架流程示意图

Fig.1   Schematic diagram of prompt structure process


在准备阶段中,大语言模型引入概念隐喻理论知识,并将模型的角色设定为计算隐喻研究专家,负责隐喻句子的分析与评估任务. 进入句子分析阶段,通过提示,模型被引导仔细阅读隐喻句子,识别其中的源域和目标域,并思考这些领域间的关系及属性如何相互映射. 在评估阶段,模型按照逐步递进的思维链路进行思考. 每个链路分为3个步骤:1)进行概念定义和理论导入,向大模型提供维度的具体定义和相关理论背景;2)结合概念隐喻理论以及上一步提供的信息,对句子进行详细的映射分析和认知探索;3)基于前两步结果和设定的评分标准对隐喻句子进行评分并给出评分依据,增强评估的可解释性和透明性. 如图2所示为以评估创新性维度为例的分阶段渐进式提示语. 完成所有5个维度的评估后,进入结果整合阶段. 这个阶段将评估阶段得到的各维度的评分及理由进行整理输出,最终评分为5个维度评分总和. 如图3所示为大语言模型评估结果的示例. 可以看出,分阶段渐进式的提示语结构不仅确保了评估过程的系统性和客观性,也为后续的数据分析提供了结构化的支持.

图 2

图 2   分阶段渐进式提示语示例

Fig.2   Example of staged progressive prompt


图 3

图 3   大语言模型隐喻评估结果输出示例

Fig.3   Example output of large language model metaphor evaluation results


2.2. 一致性评估

在对隐喻句子进行质量评估的过程中,模型和人工评分的一致性是衡量大语言模型在中文隐喻评估任务上可行性和可靠性的重要指标. 本研究采用2种常用的评估指标:皮尔逊相关系数[29]和卡帕(Cohen’s Kappa)系数[30],它们能够从不同的角度进行大语言模型与人工评分的一致性验证,评估大语言模型在隐喻评估任务上的有效性. 皮尔逊相关系数用于测量2个变量之间的线性关系强度和方向,有效反映大语言模型评分与人工评分之间的整体趋势是否一致;它能够量化模型评分与专家评分之间的关联程度,判断模型在中文隐喻评估任务上的表现是否稳定且可靠. 卡帕系数侧重于评估评分者之间的一致性,尤其适用于分类或评分存在主观性的情况;它不仅考虑评分一致的比例,还纠正了由于随机一致性导致的偏差. 在隐喻评估这个可能存在高度主观性的领域,卡帕系数能够提供严格的检验标准,确保模型评分不仅与人工评分结果相近,而且是在排除偶然因素影响下的真实反映.

2.2.1. 皮尔逊相关系数

皮尔逊相关系数计算式为

$ r = \frac{{\displaystyle\sum {({x_i} - \overline x)} ({y_i} - \overline y)}}{{\sqrt {\displaystyle\sum {{{({x_i} - \overline x)}^2}} } \cdot \sqrt {\displaystyle\sum {{{({y_i} - \overline y)}^2}} } }}. $

式中:${x_i}$${y_i}$分别为模型评分和人工评分,$\overline x$$\overline y$分别为模型评分和人工评分的均值. $r$∈[−1,1];越接近1或者−1,表示变量之间的线性关系越强;越接近0,表示相关性越低,甚至无相关. 在计算完皮尔逊相关系数以后,计算皮尔逊相关系数的$p$值,$p$值用于评估皮尔逊相关系数的统计显著性,检验2个变量之间的关系是否为偶然现象. $p$值须先计算遵循${\text{T}}$分布的$t$统计量,再通过查表得到. $t$检验统计量的公式为

$ t = \frac{{r\sqrt {n - {\text{2}}} }}{{\sqrt {{\text{1}} - {r^2}} }}. $

式中:$n$为样本数量. $t$统计量遵循${\text{T}}$分布,自由度为$n - {\text{2}}$. 根据计算得到的$t$值和自由度,查${\text{T}}$分布表得到$p$值. 当$p$值小于0.05时,认为相关性显著.

2.2.2. 卡帕系数

卡帕系数计算式为

$ k = \frac{{{p_{\text{0}}} - {p_{\text{e}}}}}{{{\text{1}} - {p_{\text{e}}}}}. $

式中:${p_{\text{0}}}$为观察到的一致性,即模型评分与人工评分完全一致的概率;${p_{\text{e}}}$为预期一致性,即根据随机评分的一致性概率. k∈[−1,1],值越接近1,表示一致性越高.

3. 实验及结果分析

3.1. 基准数据集构建

鉴于人工评估在隐喻评估中的重要性,且暂无高质量、高规范的中文隐喻人工评估结果数据集,本研究结合隐喻评估标准,收集约1 300个隐喻句子进行人工评估,将结果作为黄金标准,用于后续实验. 数据集示例如表1所示.

表 1   隐喻评估结果示例

Tab.1  Example of metaphor evaluation result

隐喻句子创新性关联性明确性文学性文化契合度总得分
人潮卷来卷去,地坝变成了露天舞台.4.08.08.08.07.035.0
字迹写得东扭西歪,像被狂风吹过的小草.6.57.08.57.58.037.5
这座城市拥抱着所有来到这里的人,像个温暖的母亲.5.08.08.07.06.034.0

新窗口打开| 下载CSV


3.1.1. 数据收集

数据收集聚焦于中文隐喻句子,旨在服务于中文隐喻评估的研究. 当前隐喻生成模型的研究方向主要集中在词性和语言分类上,因此数据收集以中文的动词和名词性隐喻为主. 为了使数据集具有代表性且能够提供足够广泛的变化以支持深入分析,收集了多个来源的信息. 隐喻句子来源于多个经过筛选的中文文本资源,其中动词性隐喻主要来自张明昊等[31]构建的动词隐喻数据集. 该数据集专注于中文动词性隐喻,包含丰富的中文动词隐喻实例和详细的注释. 名词性隐喻主要来自Shao等[20]构建的CMDAG中文隐喻数据集和Li等[4]构建的CMC数据集. 这2个数据集中包含多个领域的中文名词性隐喻,涵盖散文、诗歌、歌曲以及小说等常见的体裁. 在这些数据集中挑选约300个名词性隐喻句子和300个动词性隐喻句子. 句子挑选遵循数据多样化的原则,选取不同体裁,不同质量的隐喻句子,保证数据集的多样性. 由于隐喻评估主要服务于隐喻生成任务,用来衡量模型生成隐喻的能力. 为此使用文献[20]中的方法,利用GPT-4模型生成隐喻句子,这些模型生成句子质量不一,用来增加数据集的多样性和有效性.

3.1.2. 数据标注

为了确保数据标注过程的客观性和可扩展性,本研究提出协同仲裁评估框架来处理收集到的隐喻句子,框架流程图如图4所示. 该框架结合了两阶段评审机制和动态仲裁策略,通过系统化的评分流程减少主观偏差,在保证评估质量的同时有效控制人工成本. 具体而言,每个隐喻句子由2位初级评估员(标记为A和B)依据预设的多维度评分标准独立进行评分. 采用十分制量表对每个维度进行评估,设定评分差异触发仲裁的阈值:单维度差异超过3分或者总得分超过8分. 当触发上述任一阈值时,由仲裁专家(标记为C)进行仲裁终审,仲裁专家C会对该句子所有维度重新进行打分. 最终得分按以下规则确定:触发仲裁的句子得分取仲裁专家C的打分,没有触发仲裁的句子得分取评估员A和B的均值. 为了平衡标准效率和专业性,建立分级评估团队. 其中初级评估组6人,均为语言学或自然语言处理方向的硕士研究生. 仲裁专家组3人,均具有汉语言文学学位或者计算隐喻研究背景的硕士及以上学历,确保在评估时提供较为权威的评判意见.

图 4

图 4   协同仲裁评估框架流程示意图

Fig.4   Schematic diagram of collaborative arbitration evaluation framework process


3.2. 评估模型

为了证明不同大语言模型在隐喻评估任务上的一致性,选取4个先进的大语言模型:GPT-4[16]、ERNIE-4.0[32]、Qwen2.5[33] 和 GLM-4-Plus[34],通过应用程序编程接口(application programming interface, API)使用. 这些模型各自具备独特的架构设计和技术特点. 1)GPT-4: 作为OpenAI推出的第4代生成式大语言模型,拥有庞大的参数量,通过多模态学习增强对文本的理解能力. 2)ERNIE-4.0: 百度研发的大语言模型,长文本处理能力得到优化,在中文语境下的理解和生成能力突出. 3)Qwen2.5: 由阿里云开发的大模型,它融合了包括图像、文本在内的多种信息源,强调交互式对话能力的提升,使其在模拟人类思维链路处理问题时展现出独特的优势. 4)GLM-4-Plus: 基于大语言模型架构,继承并发展了前几代模型的优点,利用近端策略优化(proximal policy optimization, PPO)算法提升推理能力,能够处理复杂的逻辑问题. GLM-4-Plus在大规模预训练基础上对推理路径生成、多步逻辑推演和指令遵循能力等进行针对性优化,极大增强了模型在中文语料上的适应性. 为了确保实验的可复现性以及实验中评分的稳定性,将所有参与实验模型的温度(temperature)参数设置为0. 温度参数在大语言模型中用于控制生成文本的随机性,Hada等[35]的研究表明,基于大语言模型评估器的评估性能往往会随着温度的升高下降. 此外,将模型的其他参数也统一设置,将最大生成令牌(max_tokens)参数设置为1024;将核采样阈值(top_p)参数设置为1.0;将流式输出(stream)参数设置为False;将频率惩罚(frequency penalty)参数设置为0;将存在惩罚(presence penalty)参数设置为0.

3.3. 实验细节和设置

设计4组实验,对比大模型与人工评估的差异,深入分析模型的评估过程及其合理性.

3.3.1. 实验1:中文隐喻多维度评估中大语言模型与人工评分一致性对比

大语言模型聚焦各个维度,对隐喻句子直接进行评估打分,旨在衡量大语言模型在中文隐喻评估任务上和人工评估结果的一致性. 在评分过程中,大模型依据的各个维度的评分标准与人工评分过程中使用的标准保持一致,提示语作为背景传输给大模型,确保两者的可比性. 参与测试的大模型包括当前领域内性能领先的多个大语言模型. 记录每个模型对隐喻句子的评分结果,并与人工评估的结果进行对比分析.

3.3.2. 实验2:大语言模型在隐喻优选任务中的能力评估

从基准数据集中抽取100个隐喻句子组,每个隐喻句子组包含3个不同的隐喻句子,不同组之间的句子可以重复. 通过对提示语的简单修改,去除具体的打分环节,要求大模型选出每组句子中自认为最好的隐喻句子并给出理由. 人工基准的最优隐喻按照基准数据集中总得分高低选出. 将模型选择的结果与人工基准进行比较,以衡量大模型在隐喻质量评判方面的能力,包括模型对于单个句子的理解能力以及它在相对比较情境下的决策准确性.

3.3.3. 实验3: 大语言模型在维度级隐喻优选任务中的能力评估

延续实验2的设定,增加复杂度以测试大语言模型在复杂任务下能否保持评估的准确性. 实验要求大语言模型针对5个具体的评分维度分别选出最优的隐喻句子,再将这些选择与人工评估的结果相比较. 人工评估的结果按照基准数据集中各个维度的得分选出,结果分类为以下3种情况. 1)完全一致:所有5个维度的评分结果与人工评估完全相同. 2)轻微偏差:在不超过2个维度上存在差异. 3)显著偏差:在超过2个维度上的评分结果与人工评估不符.

3.3.4. 实验4:大语言模型评分理由的合理性评估

在大语言模型评估中文隐喻句子的时候,模型为每个隐喻句子评分时会一并给出评分的理由. 本实验将这些理由交给人工审查评估,人工评审人员基于概念隐喻理论以及其他语言学理论来确定模型评分理由的合理性,以此验证大语言模型在评估中文隐喻句子时的可解释性以及评估的可靠性. 实验的评审人员来自标注基准数据集的评估团队,有着丰富的中文隐喻评估经验. 根据以下标准对结果进行分类. 1)完全一致:评估员认为大语言模型给出的5理由均合理. 2)轻微偏差:评估员认为有低于2个维度的理由不合理. 3)显著偏差:评估员认为有超过2个维度的理由不合理.

3.4. 实验结果与分析

在实验1中抽取基准数据集中500个隐喻句子交给大模型打分,4个大语言模型的评分结果如表2所示,其中与人工评分最接近的数据进行了加粗处理,与人工评分差距最大的数据添加了下划线. ERNIE-4.0在4个维度上和人工评分最接近,Qwen2.5在关联性维度上表现和人工评分差距最小. GPT-4在所有维度上的表现均不及其他3个模型. 例如句子“她的笑容如春风化雨”,人工以及其他模型理解“春风化雨”为“温柔滋养”的意象,但在GPT-4给出的理由中,“春雨”被升华为“生命复苏”的意象. 这可能是由于英文中“spring rain”有重生的象征,导致GPT-4在这个句子上的评分虚高. GPT-4评估时模型没有侧重于中文语料进行训练,因而对某些中文隐喻的理解不准确,导致和人工评分以及其他模型评分差距较大. 其他3个模型是由中国的公司开发训练,在训练语料和模型优化方面侧重于中文内容,因此在中文隐喻评估任务上相较于GPT-4表现更好. 由表2还可以看出,模型评分的均分在大多数情况下高于人工评分的均分. 进一步分析评分差异较大的文本发现,产生这一现象的原因是模型可能会过度解读某些隐喻. 比如“这个东西像熊猫一样珍贵”这个隐喻句子,人工评分者基于“熊猫=国宝”这样的常识进行评分,模型评分会延伸出“濒危性”以及“文化独特性”的属性,导致评分在多个维度虚高. 这也是人工评分低于模型评分的重要原因.

表 2   不同模型对中文隐喻句子的评分结果

Tab.2  Evaluation results of different models for Chinese metaphorical sentences

模型创新性关联性明确性文学性文化契合度总得分
GPT-47.3508.7008.9008.4508.60042.000
ERNIE-4.05.1507.2007.8006.7507.70034.550
Qwen2.56.8008.1008.3008.0508.15039.400
GLM-4-Plus6.4008.1508.1507.9007.95038.550
人工基准4.7507.7057.5756.8757.57533.525

新窗口打开| 下载CSV


表3所示为部分模型之间评分结果的皮尔逊系数以及模型评分与人工评分之间的皮尔逊系数p值. 可以看出,所有评分主题之间的皮尔逊相关系数p值均小于0.05,证明结果具有统计显著性. 模型与模型之间的皮尔逊相关系数都超过0.850,表明这些模型在隐喻评估任务上表现出极高的一致性. 这也说明较为先进的大语言模型都具有评估中文隐喻的能力,尤其是偏向中文环境的大语言模型. 此外,模型与人工基准的皮尔逊系数均大于0.750,其中ERNIE-4.0和人工基准的皮尔逊系数达到0.807,超过了0.800,说明大语言模型在隐喻评估任务上和人类的评分结果具有极高的一致性,采用大语言模型对隐喻进行评估具有较高的准确性,使用大语言模型评估中文隐喻句子质量是可行且可靠的.

表 3   不同评分主体之间的皮尔逊相关系数

Tab.3  Pearson correlation coefficient between different rating entities

评分主体A评分主体Brp
Qwen2.5GLM-4-Plus0.8910.008 7
ERNIE-4.0GPT-40.8780.008 2
ERNIE-4.0Qwen2.50.9130.007 3
GPT-4人工基准0.7660.011 9
ERNIE-4.0人工基准0.8070.010 1
Qwen2.5人工基准0.7830.016 3
GLM-4-Plus人工基准0.7780.014 5

新窗口打开| 下载CSV


实验2选用实验1中和人类评估最为接近的ERNIE-4.0进行实验. 在100组的实验结果中,模型和人工基准在87%的组别中选择了相同的最优隐喻,两者之间的卡帕系数达到0.831,属于几乎一致的范畴. 这一结果表明大语言模型在面对隐喻择优任务时,能够和人工基准产生高度一致的选择. 在存在差异的组别中,通过对模型思考的过程以及模型给出理由的分析,模型对隐喻的创新性维度敏感较高,有些时候会优选创新性较好的隐喻为最优隐喻,而没有综合考虑设定的5个维度. 这个结果说明大语言模型在隐喻评估时可能存在一定的认知偏好,导致大语言模型评估结果和人工存在一定差异.

实验3的结果显示,大语言模型和人工评估在组内择优任务上,完全一致的结果有51%,显著偏差的结果有42%,有7%的结果与人工基准对比存在显著偏差. 其中超过80%的偏差结果出现在创新性维度和明确性维度上,主要原因可能是实验3的任务复杂度高于前2个实验,以及这2个维度在评估时难度大于其他维度,这说明大语言模型在处理复杂任务时准确性会下降. 大语言模型在创新性维度和明确性维度实验结果与人工基准结果的卡帕系数分别为0.71和0.74,表明虽然模型在处理复杂任务时结果的准确性会下降,但和人工基准的一致性较高.

实验4依旧选择ERNIE-4.0作为评估模型. 人工审查认为,在大语言模型进行评估时,有74%的句子给出的5条理由都是合理的,20%的句子给出的理由存在轻微偏差,仅有6%的句子给出的理由被认为存在有多条理由不符的问题. 该结果证明了大语言模型在处理隐喻理解和评分任务上的成熟度,模型不仅能够基于预设标准对隐喻句子进行评分,还能提供详尽且逻辑连贯的理由支持评分决策. 通过对人工认为不合理数据的分析,产生差异的原因主要是人工评估某个维度时会受到其他维度的影响. 例如“她的微笑像一把锤子,总是能敲开别人的心扉”这句话,大语言模型在创新性维度打了8分,认为“微笑”和“锤子”的结合,给人意外的对比感,具有较高的新颖性;人工评估者则认为这2个意象之间存在冲突,不认可模型给出的理由. 人工评估创新性维度时会受到关联性维度干扰,对于一些逻辑不合理的隐喻,会降低创新性维度的评分. 在一些现代歌词文本的数据中,由于文本句子较为晦涩难懂,也会影响人工评估的客观性. 这也是实验1中人工基准得分均分比大语言模型评分低的原因.

Song等[36]的研究表明,大语言模型在温度为0的情况下也能生成随机文本,这种随机性增加了对隐喻评估结果稳定性的担忧. 为了验证大语言模型在中文隐喻评估时评分的稳定性和生成理由的一致性,让模型在温度为0的情况下接受5次相同输入的重复采样. 结果表明,重复5次的评估结果相同,给出的理由经人工审查基本一致,这也验证了模型在评估任务上的稳定性.

4. 结 语

现阶段中文隐喻评估任务存在自动评估效果较差,人工评估成本高且效率低的问题. 本研究将大语言模型和概念隐喻理论有效结合,通过多轮对话和思维链结合的提示语方式,简化隐喻评估任务,验证了大语言模型在中文隐喻质量评估上的可行性和可靠性. 大语言模型为中文隐喻评估提供了新的、高效的自动化工具,有着广泛的应用潜力. 对实验中人工与模型评估的偏差样本分析结果表明,由于提示语以及大语言模型本身的局限,在一些复杂任务和面对特定隐喻时,大语言模型在中文隐喻评估上存在局限性. 为了克服这些局限性,未来将在提示语设计、评分标准制定和任务构建等方面进行模型优化,以提升大语言模型在中文隐喻评估上的能力. 此外,还将探索大语言模型在隐喻其他任务上的应用(如隐喻的情感分析),充分挖掘大语言模型在隐喻研究中的潜力.

参考文献

SHUTOVA E

Design and evaluation of metaphor processing systems

[J]. Computational Linguistics, 2015, 41 (4): 579- 623

DOI:10.1162/COLI_a_00233      [本文引用: 1]

PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. ACM, 2002: 311–318.

[本文引用: 1]

LIN C Y. ROUGE: a package for automatic evaluation of summaries [C]// Proceedings of the Annual Meeting of the Association for Computational Linguistics. Barcelona: ACL, 2004: 74–81.

[本文引用: 1]

LI Y, LIN C, GUERIN F. Nominal metaphor generation with multitask learning [C]// Proceedings of the 15th International Conference on Natural Language Generation. Waterville: ACL, 2022: 225–235.

[本文引用: 3]

ZHANG Z, HAN X, ZHOU H, et al

CPM: a large-scale generative Chinese pre-trained language model

[J]. AI Open, 2021, 2: 93- 99

DOI:10.1016/j.aiopen.2021.07.001      [本文引用: 1]

LI J, GALLEY M, BROCKETT C, et al. A diversity-promoting objective function for neural conversation models [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: ACL, 2016: 110–119.

[本文引用: 1]

CHAKRABARTY T, ZHANG X, MURESAN S, et al. MERMAID: metaphor generation with symbolism and discriminative decoding [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: ACL, 2021: 4250–4261.

[本文引用: 2]

REIMERS N, GUREVYCH I. Sentence-BERT: sentence embeddings using siamese BERT-networks [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: ACL, 2019: 3980–3990.

[本文引用: 1]

ZHANG T, KISHORE V, WU F, et al. BERTScore: evaluating text generation with BERT [EB/OL]. (2020–02–24)[2025–04–27]. https://arxiv.org/pdf/1904.09675.

[本文引用: 1]

DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis: ACL, 2019: 4171–4186.

[本文引用: 1]

HEINTZ I, GABBARD R, SRIVASTAVA M, et al. Automatic extraction of linguistic metaphors with LDA topic modeling [C]// Proceedings of the First Workshop on Metaphor in NLP. Atlanta: ACL, 2013: 58–66.

[本文引用: 1]

DISTEFANO P V, PATTERSON J D, BEATY R E

Automatic scoring of metaphor creativity with large language models

[J]. Creativity Research Journal, 2025, 37 (4): 555- 569

DOI:10.1080/10400419.2024.2326343      [本文引用: 1]

CONNEAU A, KHANDELWAL K, GOYAL N, et al. Unsupervised cross-lingual representation learning at scale [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2020: 8440–8451.

[本文引用: 1]

RADFORD A, WU J, CHILD R, et al

Language models are unsupervised multitask learners

[J]. OpenAI Blog, 2019, 1 (8): 9

[本文引用: 1]

LIU Y, ITER D, XU Y, et al. G-EVAL: NLG evaluation using GPT-4 with better human alignment [C]// Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Singapore: ACL, 2023: 2511–2522.

[本文引用: 1]

OpenAI, ACHIAM J, ADLER S, et al. GPT-4 technical report [EB/OL]. (2024–03–04)[2025–04–27]. https://arxiv.org/pdf/2303.08774.

[本文引用: 2]

WANG J, WANG J, ZHANG X. Chinese metaphor recognition using a multi-stage prompting large language model [C]// Natural Language Processing and Chinese Computing. Singapore: Springer, 2025: 234–246.

[本文引用: 1]

TONG X, CHOENNI R, LEWIS M, et al. Metaphor understanding challenge dataset for LLMs [C]// Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Bangkok: ACL, 2024: 3517–3536.

[本文引用: 1]

GAO H, ZHANG J, ZHANG P, et al. Consistency rating of semantic transparency: an evaluation method for metaphor competence in idiom understanding tasks [C]// Proceedings of the 31st International Conference on Computational Linguistics. Abu Dhabi: ACL, 2025: 10460–10471.

[本文引用: 1]

SHAO Y, YAO X, QU X, et al. CMDAG: a Chinese metaphor dataset with annotated grounds as cot for boosting metaphor generation [C]// Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation. Torino: [s.n.], 2024: 3357–3366.

[本文引用: 4]

WEI J, WANG X, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models [C]// Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: ACM, 2022: 24824–24837.

[本文引用: 1]

LAKOFF G, JOHNSON M. Metaphors we live by [M]. Chicago: University of Chicago Press, 2003.

[本文引用: 1]

LAKOFF G, JOHNSON M. Conceptual metaphor in everyday language [M]// SARASVATHY S, DEW N, VENKATARAMAN S. Shaping entrepreneurship research. London: Routledge, 2020: 475–504.

[本文引用: 1]

LAKOFF G. The contemporary theory of metaphor [M]. Cambridge: Cambridge University Press, 1993.

[本文引用: 1]

FAUCONNIER G, TURNER M. The way we think: conceptual blending and the mind’s hidden complexities [M]. New York: Basic Books, 2002.

[本文引用: 1]

KÖVECSES Z, BENCZES R. Metaphor: a practical introduction [M]. 2nd ed. Oxford: Oxford University Press, 2010.

[本文引用: 1]

GENTNER D, HOLYOAK K J, KOKINOV B N. The analogical mind: perspectives from cognitive science [M]. Cambridge: MIT Press, 2001.

[本文引用: 1]

KÖVECSES Z. Metaphor in culture: universality and variation [M]. Cambridge: Cambridge University Press, 2007.

[本文引用: 1]

PEARSON K

Contributions to the mathematical theory of evolution

[J]. Philosophical Transactions of the Royal Society of London Series A, 1894, 185: 71- 110

[本文引用: 1]

MCHUGH M L

Interrater reliability: the kappa statistic

[J]. Biochemia Medica, 2012, 22 (3): 276- 282

[本文引用: 1]

张明昊, 张东瑜, 林鸿飞. 基于 HowNet 的无监督汉语动词隐喻识别方法[C]// 第二十届中国计算语言学大会论文集. 呼和浩特: [s.n.], 2021: 258–268.

[本文引用: 1]

ZHANG Minghao, ZHANG Dongyu, LIN Hongfei. Unsupervised Chinese verb metaphor recognition method based on HowNet [C]// Proceedings of the 20th Chinese National Conference on Computational Linguistics. Hohhot: [s.n.], 2021: 258–268.

[本文引用: 1]

ZHANG Z, HAN X, LIU Z, et al. ERNIE: enhanced language representation with informative entities [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 1441–1451.

[本文引用: 1]

BAI J, BAI S, CHU Y, et al. Qwen technical report [EB/OL]. (2023–09–28)[2025–04–27]. https://arxiv.org/pdf/2309.16609.

[本文引用: 1]

Team GLM. ChatGLM: a family of large language models from GLM-130B to GLM-4 all tools [EB/OL]. (2024–07–30)[2025–04–27]. https://arxiv.org/pdf/2406.12793.

[本文引用: 1]

HADA R, GUMMA V, DE WYNTER A, et al. Are large language model-based evaluators the solution to scaling up multilingual evaluation? [C]// 2020 ACM/IEEE 47th Annual International Symposium on Computer Architecture (ISCA). [S.l.]: ACL, 2023: 1051–1070.

[本文引用: 1]

SONG H, SU H, SHALYMINOV I, et al. FineSurE: fine-grained summarization evaluation using LLMs [C]// Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Bangkok: ACL, 2024: 906–922.

[本文引用: 1]

/