基于双向自举蒸馏的异质云-端医疗对话联邦

doi:10.3785/j.issn.1008-973X.2024.10.009

基于双向自举蒸馏的异质云-端医疗对话联邦

刘宇鹏^,, 林明豪, 张江, 姚登举

哈尔滨理工大学计算机科学与技术学院，黑龙江哈尔滨 150080

Heterogeneous cloud-end medical dialogue federation based on bi-directional bootstrapping distillation

LIU Yupeng^,, LIN Minghao, ZHANG Jiang, YAO Dengju

School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China

收稿日期: 2023-07-29

基金资助:

国家自然科学基金资助项目（61300115, 62172128）.

Received: 2023-07-29

Fund supported:

国家自然科学基金资助项目（61300115,62172128）.

作者简介 About authors

刘宇鹏（1978—），男，博士，教授，从事自然语言处理研究.orcid.org/0000-0002-8437-6894.E-mail：flyeaglelyp@hrbust.edu.cn , E-mail：flyeaglelyp@hrbust.edu.cn

摘要

医疗对话场景下的数据/模型异质、数据类型不同，为此提出新的联邦学习方法. 云模型和端模型以相互自举蒸馏的方式进行知识递进传递. 端到云的自举蒸馏过程为多教师-单学生模式，知识被从多个局部模型蒸馏统一到全局模型；云到端的自举蒸馏过程为单教师-多学生模式，知识被从全局模型蒸馏回多个局部模型. 在医疗对话ReMeDi和MedDG数据集上，所提方法与经典基线相比通过文本生成指标评价获得了显著提高，训练速度有所提升.

关键词： 自举蒸馏 ; 异质数据 ; 异质模型 ; 结构正则 ; 医疗对话

Abstract

A new federated learning method was proposed in the medical dialogue scene for the heterogeneous data/models and different types of data. The cloud model and the end model transferred knowledge by mutual bootstrapping distillation. The end-to-cloud bootstrapping distillation process was a multi-teacher-single-student model, and knowledge was distilled from multiple local models to a global model. The cloud-to-end bootstrapping distillation process was a single-teacher-multi-student model, and knowledge was distilled from the global model back to multiple local models. On the medical dialogue ReMeDi and MedDG data sets, the proposed method is significantly improved compared with the classical baseline by the text generation evaluation criterion, and the training speed has also been improved.

Keywords： bootstrapping distillation ; heterogenous data ; heterogenous model ; structure regularization ; medical dialogue

PDF (721KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘宇鹏, 林明豪, 张江, 姚登举. 基于双向自举蒸馏的异质云-端医疗对话联邦. 浙江大学学报(工学版)[J], 2024, 58(10): 2062-2068 doi:10.3785/j.issn.1008-973X.2024.10.009

LIU Yupeng, LIN Minghao, ZHANG Jiang, YAO Dengju. Heterogeneous cloud-end medical dialogue federation based on bi-directional bootstrapping distillation. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(10): 2062-2068 doi:10.3785/j.issn.1008-973X.2024.10.009

隐私计算^[1-3]是在数据隐私保护下由多个参与方联合计算的技术. 谷歌基于隐私计算提出联邦学习（federated learning，FL）的概念^[4]. 传统FL区分对待共有数据和私有数据，无法在联邦学习框架下统一. 另外，传统FL通常假设不同客户端的数据和模型同质（假设不同客户端的局部模型结构一致，不同客户端的数据分布相似），而真实场景中数据和模型异质性常见，这样的假设限制了FL在复杂真实环境中的应用：客户端设备与所收集数据可能存在很大差异，导致在各种设备上训练的本地模型性能不理想^[5]；不同设备的内存和计算能力不同，一些设备限于训练少量参数的小型网络，导致不同本地设备的模型结构差异很大，通过传统的FL直接聚合不同本地模型不现实^[6].

本研究提出基于双向自举蒸馏的联邦学习方法FedBiD，将所提方法用于半监督医疗对话文本生成任务. 受知识蒸馏的启发，设计自举蒸馏策略，分为客户端到服务器的自举蒸馏、服务器到客户端的自举蒸馏，通过自举方式提升云模型和端模型的性能. 为了更好吸收云-端数据中由异质数据/模型带来的异质知识，将云模型和端模型的自举蒸馏引入FL，在模型训练过程中，云-端模型自举式地协同工作，互相传递公共知识，递进地达到云-端模型统一. 为了更好利用私有数据和共有数据，采用半监督训练方式，在蒸馏过程中，使用功能正则进行模型约束，考虑本地私有知识、全局共有知识和其他客户端带来的知识，在模型训练过程中使各方面知识有效均衡.

1. 相关工作

1.1. 异构联邦学习

异质性是FL研究的主要方向，研究趋势是实现非独立同分布数据的个性化本地模型. Tan等^[5]提出神经网络框架FedProto，使每个本地模型的基础层通过FedAvg^[7]集中在全局数据上训练，高级层(个性化层)在本地数据上独立训练. Hanzely等^[8]认为FedAvg是元学习，为此提出基于元学习的个性化方法. 它只将局部模型的训练作为任务，全局模型在训练开始时须寻找合适的初始化参数. Huang等^[9]基于FedAvg和数据共享策略提出提高医学数据FL效率的自适应增强方法. 异构模型FL通过改进传统的联邦学习框架使FL支持工业模型训练. Li等^[6]提出的新型联邦学习框架FedMD允许客户端独立设计自己的模型体系结构，服务端只须实现有限的黑盒访问来完成训练.

1.2. 联邦蒸馏

Hinton等^[10]提出深度神经网络的知识蒸馏；Furlanello等^[11]认为知识的转移发生在多代学生之间，每一代都从上一代学习；Kimura等^[12]提出的知识蒸馏使用从少量训练数据中“伪训练示例”增强的样本；Lopes等^[13]将教师模型训练后的各层数据作为元数据，重构训练样本，用于训练学生模型；Nayak等^[14]选择将教师模型的数据合成为数据样本进行训练；Chen等^[15]引入生成器，通过将教师模型作为固定鉴别器进行训练，生成与原始数据集分布相似样本；Fang等^[16]提出无数据对抗蒸馏方案，为学生模型生成“硬样本”. 为了解决异构性问题，有研究在FL中引入联邦蒸馏（federated knowledge distillation，FKD）^[17]. Itahara等^[18]提出半监督的联邦蒸馏算法，使用未标记的开放数据在各移动设备间交换本地模型输出. 一些学者专注于研究FKD中异构性问题. FedMD^[6]是基于迁移学习和知识蒸馏的通用框架，允许客户端有不同模型，解决了FL中的异构性问题. Lin等^[19]提出集成蒸馏进行模型融合，能够有效减少模型收敛的训练轮次. FedDF在服务器端进行知识蒸馏，对蒸馏数据集的选择具有鲁棒性. Chandrakala等^[20]针对非独立同分布数据，提出在半监督场景下基于知识蒸馏的入侵检测算法. 蒸馏是单向过程，全局硬标签用来蒸馏每个本地模型. Arivazhagan等^[21]提出个性化层表示客户端模型. Zhu等^[22]提出无数据方法以提高联邦蒸馏的效率，服务器学习轻量级生成器来取代全局共享数据集并广播给所有参与方. 这些方法没有充分考虑云-端的互动和异质模型/数据，也没有区分共有数据和私有数据.

2. 基于双向自举蒸馏的联邦学习方法

2.1. 模型框架

如图1所示，同质公共数据进行异质客户端协调，私有数据所有信息不出本地以便隐私保护. 在预训练模型基础上进行自举蒸馏，从局部模型中收集logits作为知识，教全局模型学习知识，将全局模型logits返回给客户端，进行第二轮知识蒸馏.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于双向自举蒸馏的联邦学习方法

Fig.1 Federated learning method based on bi-directional bootstrapping distillation

对异构FL问题建模如下：客户端中数据类别不同，客户端模型的架构也不同. 假设$ K $个参与客户端拥有私有数据集$ {D_i}(i = 1,2,\cdots,K) $. 在具有足够存储和计算能力的中央服务器上，使用云上数据集$ {D_s} $训练全局模型. FedBiD分为以下6个步骤. 1）训练本地模型：这是有监督学习过程，对于第$ k $个拥有私有数据集的客户端，每次迭代，客户端随机从其私有数据集$ {D_k} $中选取数据，同时从$ {D_s} $中选取一部分数据，生成组合数据来训练局部模型. 该过程的损失函数为

(1)$ {L_k}({\theta _k}) = \frac{1}{{\left| {{D_k}} \right|+\left| {{D_s}} \right|}}\sum\limits_{i = 1}^{\left| {{D_k}} \right|+\left| {{D_s}} \right|} {l\;(f({x_i};\theta ),{y_i})}. $

式中: $ {\theta _k} $为第$ k $个客户端模型参数，$ {x_i} $为第$ i $个样本的数据采样，$ {y_i} $为第$ i $个样本对应的正确标签. 从公共数据集中选择的同一批数据也用于训练其他本地模型，步骤1）仅存在于第一个通信回合. 通过这种方式，本地模型不仅得到私有数据集中的信息，还能够获得全局公共数据集$ {D_s} $的信息. 2）上传客户端模型logits：在本地模型训练好后，对准备好的测试数据集进行预测输出，获取logits；在首个通信回合之后，生成输出蒸馏好的本地模型，随后将客户端模型的logits上传至中央服务器. 3）聚合logits：聚合各个客户端输出的logits. 4）自举蒸馏全局模型：在服务器端，用公共数据集训练全局模型，输出服务器端logits，再把聚合好的客户端logits和服务器端logits对全局模型进行知识蒸馏. 5）下载全局模型logits：用蒸馏好的全局模型预测公共数据集，将输出的logits传输到客户端. 6）自举蒸馏本地模型：使用服务器端输出的logits对客户端上的本地模型进行知识蒸馏. 整个过程重复迭代进行.

2.2. 端到云的自举蒸馏

将客户端到服务端的自举蒸馏视为多教师知识蒸馏过程，将分布式客户端作为教师模型，统一教师模型知识. 在参与客户端中对本地模型进行训练后，每个客户端从使用的训练数据中收集logits并传输到中央服务器，在服务器中对从不同客户端接收到的logits进行平均. 每次迭代都从$ {D_s} $中新采样一批实例，每个客户端使用采样的实例收集logits. 例如，来自第$ k $个客户端的logits为$ {p_{k,i}} = f({x_i};{\theta _k}) $. 当所有的客户端向云服务器发送标签为正确的logits后，服务器聚合从所有参与客户端接收到的logits后进行平均：

(2)$ {p_i} = \frac{1}{K}\sum\limits_{k = 1}^K {{p_{k,i}};\;i = 1,2,\cdots,N}. $

通过平均方式聚合各个客户端的logits，可以更好平衡客户端的相互影响，消除客户端数据分布不同带来的影响. 当客户端为异质时，来自不同客户端的logits差异可能很大，通过在公共数据上跨客户端logits的平均，可以将一些重要的附加知识从平均logits转移到全局模型的logits上. 采用知识蒸馏的方法让全局模型学习平均logits，全局模型的蒸馏损失为

(3)$ {L_{{\mathrm{kl}}}} = T_1^2{{\cdot}}{\mathrm{KL}}\left({\mathrm{softmax}}\left(\frac{{{p_i}}}{{{T_1}}}\right),\;{\mathrm{softmax}}\left(\frac{{{p_{s,i}}}}{{{T_1}}}\right)\right). $

这个蒸馏过程的目的是使全局模型分布接近局部模型分布，通过优化2个分布间的KL散度实现，$ {\mathrm{softmax}}\left({{{p_i}}}/{{{T_1}}}\right) $为通过温度$ {T_1} $调整的多客户端文本分布，$ {\mathrm{softmax}}\left({{{p_{s,i}}}}/{{{T_1}}}\right) $为通过温度$ {T_1} $调整过的全局文本分布. 预测标签损失采用交叉熵损失函数，表达式为

(4)$ {L_{{\mathrm{lab}}}} = \frac{1}{N}\sum\limits_{i = 1}^N {l\;({y_i},f({x_i};{\theta _s}))}. $

全局模型的训练损失的表达式为

(5)$ L = \alpha {L_{{\mathrm{kl}}}}+(1 - \alpha ){L_{{\mathrm{lab}}}}. $

参数$ \alpha $控制蒸馏损失与预测标签损失的平衡时，取$ \alpha $= 0.5. 通过优化损失得到经过训练的全局模型，该模型既包含全局公共数据的知识，又能够吸收来自客户端上私有数据的知识. 参数的计算过程为通过反向传播更新对应神经网络中的参数.

2.3. 云到端的自举蒸馏

云到端的自举蒸馏为单教师-多学生模式，服务器端到客户端的蒸馏采用softmax层的软概率分布作为知识，知识从全局模型蒸馏回多个客户端本地模型. 在客户端到中央服务器蒸馏过程中，每个客户端从服务器上下载不与本地类重叠的批数据对应的全局模型logits. 以第$ k $个客户端为例，从客户端私有数据集中随机抽取批数据，其中一批数据对应$ {D_s} $中的全局logits，生成组合数据，再将这批数据发送到全局模型，获取预测概率分布：

(6)$ {\mathrm{softmax}}\;({q}_{i,j})={\mathrm{exp}\;({q}_{i,j})}/{{\displaystyle \sum _{j=1}^{C}\mathrm{exp}\;({q}_{i,j})}}. $

得到第$ k $个软概率分布：

(7)$ {\mathrm{qs}}_{i,j}^{k}={\mathrm{exp}\left({{q}_{i,j}}/{{T}_{2}}\right)}/{{\displaystyle \sum _{j}\mathrm{exp}\left({{q}_{i,j}}/{{T}_{2}}\right)}}. $

同理，由第$ k $个局部模型得到软概率分布$ {\mathrm{ps}}_{i,j}^k $. 教师模型与第$ k $个学生模型间的蒸馏损失函数为

(8)$ L_{\mathrm{D}}^k = - \frac{{T_1^2}}{N}\sum\limits_{i = 1}^N {\sum\limits_j {{\mathrm{ps}}_{i,j}^k\ln\; ({\mathrm{qs}}_{i,j}^k)} }. $

蒸馏损失的优化就是鼓励本地模型学习相似的预测概率分布，以减轻数据和模型异构对预测结果的影响，使用独热编码使本地模型能够完成相应任务，因此模型的预测损失也包含在训练损失中. 模型预测损失的函数表达式为

(9)$ L_C^k = - \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^C {{\mathrm{hot}}\;({y_i})} } \ln\; ({\mathrm{softmax}}\;(q_{i,j}^k)). $

式中：$ q_{i,j}^k $为从第$ k $个客户端模型获得的logits. 训练第$ k $个客户端模型的总损失的表达式为

(10)$ {L_k} = \beta L_C^k+(1 - \beta )L_{\mathrm{D}}^k. $

参数$ \beta $用于平衡蒸馏损失与预测损失，取$ \beta = 0.5 $.

3. 实验与分析

设置默认情况下有4个客户端，云和端上的模型选择标准版本的GPT-2^[23]. 当客户端蒸馏到服务器时，设置T₁=20；当服务器对客户端进行反蒸馏时，设置T₂=1.

3.1. 数据集

实验采用公开的高质量医疗对话数据集：ReMeDi^[24]和MedDG^[25]. ReMeDi包括1 557次使用精细标签的对话，涵盖843种疾病，5228家医疗实体，40个领域. MedDG是以实体为中心的医疗对话数据集，包含17 864个中文对话，385 951个话语和217 205个实体. 该文本标注方法：从原始文本中提取与实体相关的文本跨度，对相应的规范化实体进行注释.

为了体现FedBiD在数据异构情况下的优势，将数据集划分为不同分布的数据. 现实医疗对话应用场景中存在大量未标注数据，为此将数据集划分为未标记的公共数据集和已标记的私有数据集，划分的比例为5∶1（考虑数据多样性，这个分配随机并取平均性能）. 进行私有数据集划分并随机分配给联邦学习中的各个客户端. 异质（非独立同分布）数据的划分相对复杂，步骤如下：1）对数据集进行非独立同分布采样，按照样本的标签进行数据集排序. 假设训练过程中有k个客户端，每个客户端最多2种标签数据，进行数据集划分，其中每个数据分片大小为2k，将2个数据分片随机分配给各个客户端. 如有4个客户端，设定用户最多持有2种样本，则将数据集分为8个分片. 2）对于每个客户端生成随机整数m∈[1,10]，m为分配给该客户端的数据样本类别数量，m与每个指定类均遵循训练数据集的均匀分布U(10,100).

3.2. 对比模型

对比模型为4种FL框架：FedAvg、FedMD、FedDF和FedGen^[22]. FedAvg为经典FL算法，另外3种为联邦蒸馏方式. FedAvg每轮训练后都随机选取一些客户端将模型参数信息上传至服务器端，服务器聚合参数信息后下发给各客户端，每个客户端用聚合好后的模型参数更新本地模型. FedMD利用存储在云服务器上的合成数据集进行知识蒸馏，利用合成数据集训练能够区分全局类别的全局模型，将异构局部模型和全局模型得到的logits平均，有效解决模型异质性问题. FedDF是基于集成蒸馏的联邦学习框架，即通过来自客户端模型输出的未标记数据训练中央分类器，能够灵活聚合不同异构客户端模型. FedGen为每个客户端部署额外模型，使用优先知识为每个局部模型训练额外的输入特征，以局部模型提供额外训练样本的方式提高性能.

3.3. 性能评估分析

3.3.1. 主实验

双语互译质量评估（bilingual evaluation understudy，BLEU）和面向召回的摘要评价理解（recall-oriented understanding for gisting evaluation，ROUGE）是从精度和召回率方面验证生成对话质量的指标，Distinct用于验证生成对话文本的多样性. 如表1所示，采用文本生成评价指标BLEU-1、BLEU-4、ROGUE-1、ROGUE-2、Distinct-1和Distinct-2，在ReMeDi和MedDG数据集上对比分析不同FL方法的对话文本生成性能. 通常隐私保护会造成模型性能的损失，中心化训练是没有隐私保护的训练方式，传统的中心化训练可以理解为模型的完整性能情况. 由表可知，FedBiD在2个数据集上都表现较好，与中心化训练性能相差很小，说明本研究所提方法可以在保证数据隐私信息且性能良好. 还可以看出，MedDG数据集上的模型性能优于ReMeDi数据集的模型性能，原因是MedDG包括的有效对话较多.

表 1 不同联邦学习方法在2个数据集上的性能比较

Tab.1 Performance comparison of different federated leaning methods in two datasets

方法	ReMeDi						MedDG
方法	BLEU-1	BLEU-4	ROGUE-1	ROGUE-2	Distinct-1	Distinct-2	BLEU-1	BLEU-4	ROGUE-1	ROGUE-2	Distinct-1	Distinct-2
中心化训练	27.86	6.59	50.36	32.25	0.72	8.59	30.47	14.21	53.97	35.73	0.87	10.92
FedAvg	18.37	4.83	38.64	22.45	0.50	5.32	19.89	9.62	39.71	25.87	0.58	7.06
FedMD	21.41	5.79	41.92	26.93	0.63	7.54	23.74	11.84	43.76	30.21	0.63	9.14
FedDF	21.68	5.46	40.45	26.64	0.62	8.06	24.26	11.03	43.89	29.51	0.77	9.25
FedGen	24.08	6.38	42.64	27.68	0.65	7.92	26.10	13.05	46.17	32.04	0.69	9.87
FedBiD	25.01	6.32	45.76	28.19	0.68	8.32	26.75	13.16	46.83	31.63	0.78	9.98

新窗口打开| 下载CSV

3.3.2. 同质/异质数据的模型性能

以BLEU-1与BLEU-4的平均值为评价指标进行数据/模型异构实验分析，实验中简化表述为BLEU. 如图2所示为不同FL方法在2种同质数据集上训练时的BLEU变化过程. 由图2（a）可以看出，FedBiD的收敛速度明显快于FedAvg、FedMD和FedDF，与FedGen相差无几；FedAvg表现最差，FedBiD略微高于FedGen. 由图2（b）可以看出，5种方法在MedDG数据集训练后的性能好于在ReMeDi数据集训练后的，方法的收敛速度都比在ReMeDi数据集上的收敛速度慢，原因是MedDG的数据量比ReMeDi的大；还可以看出，FedBiD在收敛速度和模型性能两方面都明显好于FedAvg、FedMD和FedDF，与FedGen相比，模型收敛所需通信回合大致相同，模型性能更优.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 同质数据下的模型表现

Fig.2 Performance of model under homogeneous data

异质数据的模型性能：实验通信回合均为40，通信回合增加的原因是在数据异构的场景下模型收敛变得困难. 如图3所示为不同FL方法在2种异质数据集上训练时的BLEU变化过程. 由图3（a）可以看出，FedBiD收敛大约22个通信回合，收敛后的BLEU相较于数据独立同分布时相差了大约1.43；FedAvg、FedMD和FedDF的收敛速度显著慢于FedBiD，性能与FedBiD存在较大差距，这是由于基于双向自举蒸馏的方式能够更精确地提取模型中的知识，提高了模型的收敛速度和模型性能；FedGen收敛需要20轮通信，速度稍快于FedBiD，但模型性能略差于FedBiD. MedDG数据集中的对话数量比ReMeDi数据集多，因此整个训练过程花费的通信轮次也更多，但训练后的模型性能更好. 由图3（b）可以看出，FedBiD在将近30轮的更新后逐渐收敛，性能与同质数据分布下的BLEU相比相下降了约1.70；FedAvg和FedMD在35轮通信后模型精度轻微浮动，模型性能也低于采用FedBiD的模型；FedDF所需收敛次数最多，大约需要38个通信回合；FedAvg在将近30轮更新后逐渐收敛；FedGen收敛大约需要28个轮次，模型性能略微低于FedBiD.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 异质数据下的模型表现

Fig.3 The performance of model under heterogeneous data

3.3.3. 异质模型有效性验证

在传统FL中，每轮训练交换的是模型参数，因此各个客户端模型须保持一致. 在实际场景中，各客户端上模型结构往往存在差异. 异构模型包括经典的基于自回归GPT-2，基于自回归和非自回归混合模型BART^[26]，各客户端上模型参数如表2所示. 表中，n_p为参数量. 各客户端在单独训练时的BLEU分别为18.96、22.34、19.12、23.19. 如图4所示为各客户端上异构对话生成模型的BLEU随通信轮数变化的情况. 可以看到，大约在第 15轮通信后，4个客户端模型都已经逐渐收敛，证明FedBiD能够在客户端模型异构场景下成功收敛，且收敛速度较快. 与此同时，与单个客户端独自训练对比，BLEU仅下降2.21~2.65. BART模型在联邦蒸馏场景中性能损失大于GPT-2. 实验结果表明，在客户端模型异构场景中，本研究所提方法能够快速收敛并保持较高精度. FedBiD在模型性能方面相比FedAvg、FedMD和FedDF有明显提升，略微高于FedGen. 其中FedAvg在异构数据场景下模型性能与同构数据相比有明显下降，这是由于FedAvg在训练过程中直接传递模型参数或梯度，导致在异构场景下各种信息存在较大差异，难以聚合，联邦蒸馏传导的是模型输出logits，很大程度上缓解了异构性带来的问题.

表 2 各客户端的模型参数

Tab.2 Model parameters on each client

客户端	模型	层数	隐层维度	n_p/10⁶
1	GPT-2-small	12	768	117
2	GPT-2	24	1024	345
3	BART-base	12	768	130
4	BART	24	1024	374

新窗口打开| 下载CSV

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 各客户端的模型性能变化

Fig.4 Model performance curve of each client

3.4. 超参数分析

如表3所示，分析超参数温度T₁、T₂在端到云蒸馏和云到端蒸馏过程中的作用，实验验证不同超参数温度下全局模型性能. 当T₁从1增加到20时，模型性能有所提高；当温度大于20时，模型性能随温度升高而降低. 在云到端的蒸馏过程中，使用T₁来软化学生模型和教师模型概率分布，较大的温度值可以更好地优化2种概率分布间的KL散度. 在验证T₂作用的实验中，设置T₁=20，改变T₂来验证T₂对性能的影响. 可以看出，T₂最佳值为1.0. 云到端蒸馏的损失包括预测损失和蒸馏损失，T₂=1.0表示这2种损失在云到客户端蒸馏过程中同等重要.

表 3 温度对模型性能的影响

Tab.3 Eeffect of temperature on model performance

数据集	BLEU
数据集	T₁=1	T₁=10	T₁=20	T₁=30	T₂=0.1	T₂=1.0	T₂=2.0	T₂=5.0
ReMeDi	11.85	14.37	15.71	13.92	12.17	15.71	14.85	12.46
MedDG	13.79	18.02	19.91	17.68	15.88	19.91	18.38	16.25

新窗口打开| 下载CSV

3.5. 模型参数的影响

设计实验验证不同参数量模型对于训练效果影响，实验在MedDG数据集上进行，设置4个客户端，实验结果如表4所示. 可以看出，随着模型参数增加，经过FedBiD训练后的文本生成评价指标BLEU也会增加，但相比于模型参数成倍的增长，性能提升并不大.

表 4 不同模型参数对模型性能的影响

Tab.4 Effects of different model parameters on model performance

模型	层数	隐藏层维度	n_p/10⁶	BLEU
GPT-2-small	12	768	117	16.75
GPT-2	24	1024	345	19.91
GPT-2-large	36	1280	762	20.62
GPT-2-max	48	1600	1542	22.03

新窗口打开| 下载CSV

3.6. 客户端数量的影响

训练数据集采用FedDG，各客户端模型均为GPT-2，客户端的数量分别设置为2、4、6、8和10，保持私有数据总数相同，因此每个客户端的私有样本数量相应变化（如当客户端数量为2时，每个客户端上数据量将是4个客户端时2倍）. 2、4、6、8、10个客户端的实验结果分别为20.15、19.91、19.26、20.64、19.25. 得益于采用双向自举联邦蒸馏方式，随着客户端数量和客户端数据量改变，本研究所提方法的性能保持基本稳定.

4. 结　语

本研究基于双向自举知识蒸馏提出适合于文本生成任务的联邦学习方法FedBiD. FedBiD将客户端到云的蒸馏过程看作多教师知识的蒸馏过程，将本地网络看作多个教师网络，全局网络看作学生网络，由学生网络统一来自多个教师网络的异构知识. FedBiD将云到客户端的蒸馏过程看作教师-多学生的过程，知识从单一的全局模型蒸馏回多个异构本地模型，通过多次循环蒸馏方式递进得到全局模型. 该方法提升了模型的性能和收敛速度，缓解了模型和数据的异构，数据利用率高. 未来计划继续深入探索更多联邦蒸馏方案，将研究对象扩展到大量客户端和内存有限的小设备上.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

YAO A C. Protocols for secure computations [C]// Proceedings of 23rd Annual Symposium on Foundations of Computer Science . Chicago: IEEE, 1982: 160–164.