现金九游体育app平台团员的全局模子可能无法准确反应通盘客户端的数据分散-九游(jiuyou)体育 官方网站-登录入口

江中华,浙江大学软件学院硕士生二年岁,导师为张圣宇教授。讨论标的为大小模子端云协同计议。张圣宇,浙江大学平台「百东说念主经营」讨论员。讨论标的包括大小模子端云协同计议,多媒体分析与数据挖掘。
跟着机器学习本事的发展,秘密保护和分散式优化的需求日益增长。联邦学习当作一种分散式机器学习本事,允很多个客户端在不分享数据的情况下协同检会模子,从而灵验地保护了用户秘密。但是,每个客户端的数据可能各不疏通,有的数据量大,有的数据量小;有的数据特征丰富,有的数据特征单一。这种数据的异质性和不服衡性(Non-IID)会导致一个问题:腹地检会的客户模子忽视了全局数据中明显的更凡俗的模式,团员的全局模子可能无法准确反应通盘客户端的数据分散,以至可能出现「辛普森悖论」—— 多端各自数据分散趋势摆布,但与多端全局数据分散趋势违反。
伸开剩余90%为了经管这一问题,来自浙江大学东说念主工智能讨论所的讨论团队冷落了 FedCFA,一个基于反事实学习的新式联邦学习框架。
FedCFA 引入了端侧反事实学习机制,通过在客户端腹地生成与全局平均数据对都的反事实样本,缓解端侧数据中存在的偏见,从而灵验幸免模子学习到诞妄的特征 - 标签关联。该讨论已被 AAAI 2025 给与。
论文标题:FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning 论文贯穿:https://arxiv.org/abs/2412.18904 花式地址:https://github.com/hua-zi/FedCFA辛普森悖论
辛普森悖论(Simpson's Paradox)是一种统计表象。纰漏来说,当你把数据分红几个子组时,某些趋势或关系在每个子组中弘扬出一致的标的,但在通盘这个词数据集聚却出现了互异的趋势。
图 1:辛普森悖论。在全局数据集上不雅察到的趋势在子集上散失 / 逆转,团员的全局模子无法准确反应全局数据分散
在联邦学习中,辛普森悖论可能会导致全局模子无法准确捕捉到数据的信得过分散。举例,某些客户端的数据中存在特定的特征 - 标签关联(如激情与动物种类的关系),而这些关联可能在全局数据中并不存在。因此,成功将腹地模子汇聚周详局模子可能会引入诞妄的学习效果,影响模子的准确性。
如图 2 所示。探求一个用于对猫和狗图像进行分类的联邦学习系统,波及具有不同数据集的两个客户端。客户端 i 的数据集主要包括白猫和黑狗的图像,客户端 j 的数据集包括浅灰色猫和棕色狗的图像。关于每个客户端而言,数据集揭示了访佛的趋势:淡色动物被归类为「猫」,而深色动物被归类为「狗」。这导致团员的全局模子倾向于将激情与类别标签联系联并为激情特征分拨更高的权重。但是,全局数据分散引入了很多不同激情的猫和狗的图像(举例黑猫和白狗),与团员的全局模子相矛盾。在全局数据上检会的模子不错很容易地发现动物激情与特定分类无关,从而减少激情特征的权重。
图 2:FedCFA 不错生成客户端腹地不存在的反事实样本,着重模子学习到不正确的特征 - 标签关联。
反事实学习
反事实(Counterfactual)就像是「要是事情发生了另一种情况,效果会奈何?」 的假定性推理。在机器学习中,反事实学习通过生成与执行数据不同的假造样本,来探索不同条目下的模子行为。这些假造样本不错匡助模子更好地领路数据中的因果关系,幸免学习到不实的关联。
反事实学习的中枢念念想是通过对现存数据进行扰乱,生成新的样本,这些样本反应了某种假定条目下的情况。举例,在图像分类任务中,咱们不错改换图像中的某些特征(如激情、形势等),生成与原图不同的反事实样本。通过让模子学习这些反事实样本,不错提高模子对信得过数据分散的领路,幸免过拟合局部数据的特色。
反事实学习凡俗哄骗于保举系统、医疗会诊、金融风险评估等鸿沟。在联邦学习中,反事实学习不错匡助缓解辛普森悖论带来的问题,使全局模子更准确地反应合座数据的信得过分散。
FedCFA 框架简介
为了经管联邦学习中的辛普森悖论问题,FedCFA 框架通过在客户端生成与全局平均数据对都的反事实样本,使得腹地数据分散更接近全局分散,从而灵验幸免了诞妄的特征 - 标签关联。
如图 2 所示,通过反事实变换生成的反事实样本使局部模子省略准确掌合手特征 - 标签关联,幸免局部数据分散与全局数据分散相矛盾,从而缓解模子团员中的辛普森悖论。从本事上讲,FedCFA 的反事实模块,选拔性地替换要津特征,将全局平均数据集成到腹地数据中,并构建用于模子学习的反事实正 / 负样本。具体来说,给定腹地数据,FedCFA 识别无关大局 / 不行或缺的特征因子,通过相应地替换这些特征来践诺反事实调度以获取正 / 负样本。通过对更接近全局数据分散的反事实样本进行对比学习,客户端腹地模子不错灵验地学习全局数据分散。但是,反事实调度面对着从数据中索求独处可控特征的挑战。一个特征不错包含多种类型的信息,举例动物图像的一个像素不错佩戴激情和形势信息。为了提高反事实样本的质地,需要确保索求的特征因子只包含单一信息。因此,FedCFA 引入因子去联系亏本,成功处分因子之间的联系总共,以完了特征之间的解耦。
全局平均数据集的构建
反事实变换模块
图 3:FedCFA 中的腹地模子检会经过
FedCFA 中的腹地模子检会经过如图 3 所示。反事实变换模块的主要任务是在端侧生成与全局数据分散对都的反事实样本:
因子去联系亏本
吞并像素可能包含多个数据特征。举例,在动物图像中,一个像素不错同期佩戴激情和外不雅信息。为了提高反事实样本的质地,FedCFA 引入了因子去联系(Factor Decorrelation, FDC)亏本,用于减少索求出的特征因子之间的联系性,确保每个特征因子只佩戴单一信息。具体来说,FDC 亏本通过计议每对特征之间的皮尔逊联系总共(Pearson Correlation Coefficient)来掂量特征的联系性,并将其当作正则化项加入到总亏本函数中。
实验效果
实验继承两个目的:500 轮后的全局模子精度 和 达到方针精度所需的通讯轮数,来评估 FedCFA 的性能。
实验基于 MNIST 构建了一个具有辛普森悖论的数据集。具体来说,给 1 和 7 两类图像进行上色,并按激情浅深差异给 5 个客户端。每个客户端的数据中,数字 1 的激情都比数字 7 的激情深。随后预检会一个准确率 96% 的 MLP 模子,当作联邦学习模子启动模子。让 FedCFA 与 FedAvg,FedMix 两个 baseline 当作对比,在该数据集上进行检会。如图 5 所示,检会过程中,FedAvg 和 FedMix 均受辛普森悖论的影响,全局模子准确率下落。而 FedCFA 通过反事实调度,不错破碎数据中的不实的特征 - 标签关联,生成反事实样本使得腹地数据分散围聚全局数据分散,模子准确率进步。
图 4: 具有辛普森悖论的数据集
图 5: 在辛普森悖论数据集上的全局模子 top-1 准确率
消融实验
图 6:因子去联系 (FDC) 亏本的消融实验现金九游体育app平台
发布于:北京市