大模型也有好玩的数学?从麦克斯韦的最低势能问题到人机对齐
2023年6月23日 - 腾讯新闻
可以看出,这个优化问题与我们训练奖励模型里输入提示并没有任何关系,因此对不同输入提示得到的奖励将没有差异,只和我们选用的效用函数U有关。训练奖励模型和数学、物理的联系上面考虑的优化问题也有物理上的解释。我们可以考虑有n个点在一个线段上。保持次序并且最大化距离可以理解成每两个点之间都有排斥力。
详情
悼念| 纪念江绪林先生逝世五周年——刘擎:追忆与启迪:江绪林博士...
2021年2月19日 - 网易
第一,行为者的目标是效用最大化,而效用则指示行为者的偏好,[24]在添加了完全性公设和传递性公设等辅助假设后,就可以建构效用函数来表示偏好。第二,约束的存在,有超过一位的行为者在竞争有限的资源。约束的存在使得选择变得必要。第三,行为者的基本单位是个体,集体行为结果用个体效用最大化的行为来解释。另外两个...
详情
“企业家主权”时代的一个学术宣言
2003年9月16日 - 新浪
因为契约各方当事人之间效用函数不一致,并且对彼此行为的信息不对称,他们就有可能通过“偷懒”、“逆向选择”、“败德行为”等方式实施机会主义行为,寻求超过其要素产出的收入,从而造成其他方的利益受到侵蚀。拥有决策权的一方,显然有着保障己方利益、侵蚀他方利益的“优势”。因此,控制权的安排对契约各方当事人来...
详情
1983年:罗拉尔-德布鲁
2007年10月12日 - 网易财经
罗拉尔·德布鲁(GerardDebreu)的主要理论贡献德布鲁的主要理论贡献包括:资源未被充分利用的度量、概括帕累托的最优理论(福利经济学)、具有相关商品的均衡存在性(一般竞争均衡理论)、用效用函数表示偏好次序关系、总量超额需求函数(效用的需求理论)、经济核算的收敛定理等。50年代初,他与合作者通过建立微观经济学基本概...
详情