一、引言
在联邦学习系统中,来自不同参与方的数据可能会导致出现 非独立同分布 的情况。并且不同的参与方可能有数量不均的训练数据样本,这可能导致联邦模型产生偏差,甚至会使联邦模型训练失败。
在联邦学习系统中,因为数据是由用户自己收集的,可能各自相差很大。但是如果数据非独立同分布就会影响训练。所以联邦学习中存在数据是IID还是非IID的讨论。
二、什么是IID、非IID
数据独立同分布(Independent Identically Distribution,IID):数据与数据之间都是独立的,但满足同一个分布。(独立:一个数据的出现不会影响另一个数据)
当随机变量集合中的每个随机变量都具有相同的概率分布时,则该集合是独立的、同分布的,即IID。
在所有其他情况下,数据都是非独立的、同分布的,即非IID。
三、联邦学习下的IID与非IID
在联合学习的背景下,当 每个样本在每个客户机上出现的可能性相等 时,数据就是IID。
事实上,IID 永远不会发生,因为数据是由客户生成的,因此客户将影响包含特定样本的概率。这在联邦学习中是不可避免的。
由于数据不会被聚合,而且训练只发生在主要由个人创建的本地数据上,因此这些数据不可避免地会包含由他们的行为导致的某些模式。结果是,数据并不是独立且相同地分布的,我们将这种情况称为非IID数据。
传统的机器学习技术假设数据的IID。研究表明,机器学习的范式发生了转变,从假设IID数据转变为假设非IID数据。
参考链接
- 论文:Robustness of FederatedAveraging for Non-IID Data
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/118961.html