面向联邦学习的模型测试和调优怎么整?这篇三万字长文给你答案...
2021年8月9日 - 腾讯新闻
需要注意的是,原始的FedAvg方案是(4.8)的特例,ε_t=1,即更新是客户端模型输出的平均值。因此,严格来说,我们是在调整一个具有中央服务器学习率的FedAvg的泛化,也被称为Reptile。作者这样做是为了通过"ε_t随时间衰减"来减少模型的变化,与FedAvg不同的是,FedAvg是通过衰减本地SGD的学习率来完...
详情
需要注意的是,原始的FedAvg方案是(4.8)的特例,ε_t=1,即更新是客户端模型输出的平均值。因此,严格来说,我们是在调整一个具有中央服务器学习率的FedAvg的泛化,也被称为Reptile。作者这样做是为了通过"ε_t随时间衰减"来减少模型的变化,与FedAvg不同的是,FedAvg是通过衰减本地SGD的学习率来完...