联邦政府自学做为现阶段科学研究的领涨板块,各式各样演算法不断涌现,无论是纵向纵向,却是甚么FedAvg、FedProx,总而言之是进行分类很乱,那时来控制系统归纳呵呵联邦政府自学的进行分类形式和相关联的文本如是说。
纵向联邦政府自学、纵向联邦政府自学和联邦政府北迁自学
他们都母汤氏联邦政府自学进行分类形式:纵向纵向和北迁,这是杨强悍佬的进行分类形式,是依照样品重叠某种程度来分割的。
纵向联邦政府自学
机器自学中,特点、条码和样品是最基本上的基本上概念,右图展现了特点样品条码间的关系
纵向联邦政府自学,即是三个样品子集中样品的特点重叠较低自学的形式体能训练数学模型。
纵向联邦政府自学
纵向联邦政府自学是指三个统计数据集id重叠较低(比如说左图的联系电话,都是那样的人),但特点不那样,比如说一处卫星城多于一间商业银行和一间疗养院,所以商业银行和疗养院的样品大机率相关人员重叠度极高,但是特点不那样,商业银行统计数据集特性可能将是银行存款、银行贷款等重要信息,疗养院可能将是病理分项等。这时假如采用商业银行和疗养院的统计数据集体能训练数学模型,他们称作纵向联邦政府自学。
联邦政府北迁自学
假如id和特点重叠某种程度都极少咋办?这时根本无法选用联邦北迁自学的配套措施。联邦政府北迁自学重点项目在“北迁自学”。北迁自学,是指借助统计数据、各项任务、或数学模型间的关联性,将在源应用领域自学过的数学模型,应用于最终目标应用领域的一类自学操作过程。这儿对北迁自学不做进行。
基于机器自学演算法的联邦政府自学进行分类
常见的机器自学演算法诸如回归、随机森林、支持向量机等,这些演算法都可以用在联邦政府自学中。现阶段在联邦政府自学中已经科学研究的传统机器自学演算法有以下几种
联邦政府线性演算法
Yang K等人提出了一类中心联邦政府自学框架下的纵向联邦政府逻辑回归实现形式,这种形式实现了纵向联邦政府自学中的逻辑回归,其最终目标函数是:
论文传送门:https://arxiv.org/abs/1812.11750
联邦政府树数学模型
Liu Y等人提出了一类基于中心纵向联邦政府自学框架的随机森林实现形式——联邦政府森林。在建模操作过程中,每棵树都实行联合建模。
论文传送门:https://arxiv.org/abs/1905.10053
联邦政府支持向量机
Hartmann V等人提出了一类将支持向量机(support vector machine,SVM安全部署在联邦政府自学中的形式,主要通过特点哈希、更新分块等形式对统计数据隐私性进行保障。其最终目标函数如下:
论文传送门:https://arxiv.org/abs/1907.03373v1
基于优化形式进行进行分类
他们都知道,联邦政府自学的主要问题集中在呵呵三个方面
● 联邦政府自学的通信是比较慢速且不稳定的;
● 联邦政府自学的参与方设备异构,不同设备有不同的运算能力;
通俗的讲就三点:通信、统计数据和设备异质和加密保护。
所以,他们可以依照这三点来提出不同的联邦政府自学演算法,以解决相关联的问题,比如说某种演算法侧重于解决通信瓶颈问题,而另一类形式则侧重于解决加密问题。
最经典的联邦政府自学演算法当属FedAvg,该演算法在Non-iid统计数据上的收敛性也得到了数学上的证明。
从通信成本角度优化的联邦政府自学演算法
数学模型通常很大,假如频繁的通信势必会对通信造成压力,因此他们必须想配套措施减小通信压力,常用的形式有增加客户端体能训练轮数、数学模型压缩等。
增加客户端体能训练压力
在联邦政府自学体系中,有时终端节点只会在有Wi-Fi时参与联邦政府自学体能训练,或者有时网络状况不佳,在这些情况下,更多的计算可以在本地进行,从而减少通信的次数。很多演算法是从这个角度来优化通信成本的。比如说Konečný J考虑了优化FedAvg演算法,增加每一轮迭代在每个客户端的本地更新参数的计算次数。
论文传送门:https://arxiv.org/abs/1707.01155
Sahu A K等人提出了一类更通用的FedProx演算法,这种演算法在统计数据为non-IID时优化效果更明显。FedProx演算法可以动态地更新不同客户端每一轮需要本地计算的次数,使得演算法更适合非独立同分布的联合建模场景。
论文传送门:https://openreview.net/pdf?id=SkgwE5Ss3N
数学模型压缩
有的优化演算法目的是减少每一轮通信的参数量,例如通过数学模型压缩的技术(比如说量化、二次抽样的形式)来减少每一次参数更新要传递的参数总量。Konečný J等人提出了一类结构化的数学模型更新形式来更新服务器参数,在每一轮的参数通信操作过程中,减小参与方传递给服务器的数学模型更新参数的大小,从而减少通信。
论文传送门:https://arxiv.org/abs/1610.05492v2
Caldas S等人考虑的是从服务器到参 与 方的数学模型参 数传 递优化,通 过有损压缩和联邦政府参数筛选(federated dropout)的形式来减少从服务器到客户端需要传递的参数数量,降低通信成本的代价是在一定某种程度上降低数学模型的准确率。
论文传送门:https://arxiv.org/abs/1812.07210
从客户端选择入手的联邦政府自学演算法
不同的客户端的网络速度、运算能力等不同,每个客户端拥有的统计数据分布也是不平衡的,假如让所有的客户端都参与联邦政府自学的体能训练操作过程,将会有迭代落后的参与方出现,某些客户端长时间没有响应可能将会导致整个控制系统无法完成联合体能训练。因此,需要考虑如何选择参与体能训练的客户端。
最经典的FedAvg演算法中客户端的选择是随机的。随机选择嘛emmmm很显然不是很合理,毕竟设备跟设备间差异太大。
Nishio T等人提出了一类FedCS演算法,设计了一类贪心演算法的协议机制,以达到在联合体能训练的每一次更新中都选择数学模型迭代效率最高的客户端进行聚合更新的目的,从而优化整个联邦政府自学演算法的收敛效率。
论文传送门:https://arxiv.org/abs/1804.08333
Yoshida N等人[59]提出了一类HybridFL的协议演算法,该协议可以处理统计数据集为non-IID的客户端统计数据,解决基于non-IID统计数据在FedAvg演算法上性能不好的问题。Hybrid-FL协议使得服务器通过资源请求
的步骤来选择部分客户端,从而在本地建立一类近似独立同分布的统计数据集用于联邦政府自学的体能训练和迭代。
论文传送门:https://arxiv.org/abs/1905.07210
从异步聚合角度优化的联邦政府自学演算法
他们都知道,在FedAvg的演算法中,聚合是与数学模型的更新保持同步的。每一次更新,服务器都同步聚合数学模型参数,然后将聚合参数发送给每一个客户端。在同步聚合中,服务器需要在接收到所有参与体能训练的客户端的参数之后才可以开始聚合,但有的客户端运算传输快,有的客户端运算传输慢,为了避免出现通信迟滞现象,有科学研究者考虑用异步的形式进行聚合,从而优化联邦政府自学演算法。
论文传送门:Asynchronous Federated Optimization
