大模型也有好玩的数学?从麦克斯韦的最低势能问题到人机对齐
训练奖励模型的方式是最大化如下的函数:其中效用函数U通常被取成Sigmoid函数的对数Figure2训练奖励模型的优化问题例如当效用函数是-1/x(x>0)的时候,对固定的n,奖励的分布如下图所示:Figure3奖励分布然而,作者发现这种基于排名的方式存在一个问题,那就是“奖励坍缩”。这是由于排名的...
诺斯| 制度理论中的行为假设
简单地,这可分为以下几类:违反传递性假设;框架效应(framingeffects),即对同一个选择问题的不同表述方式有可能造成不同的选择结果;偏好反转(preferencereversals),即人们对物品进行评估时所陈述的排列次序与人们直接进行选择时所表现出来的排列次序相矛盾;以及,在不确定性选择中主观概率的形成、控制和运用方面的一些问...
悼念| 纪念江绪林先生逝世五周年——刘擎:追忆与启迪:江绪林博士...
第一,行为者的目标是效用最大化,而效用则指示行为者的偏好,[24]在添加了完全性公设和传递性公设等辅助假设后,就可以建构效用函数来表示偏好。第二,约束的存在,有超过一位的行为者在竞争有限的资源。约束的存在使得选择变得必要。第三,行为者的基本单位是个体,集体行为结果用个体效用最大化的行为来解释。另外两个...
李健:再论现代经济学的研究范畴与研究范式
毫无疑问,冯·诺伊曼-摩根斯坦期望效用函数只是一种无奈的假定,它直接基础于独立性公理的成立,但是“对不确定的偏好次序与既有资产状况无关”的独立性公理远离真实是显而易见的,破坏性反例俯首皆是。该问题的较好解决还有无数艰巨的工作要做。可以肯定地说,该问题的较好解决一定还对应着一次甚至几次经济学诺奖。这种...
“企业家主权”时代的一个学术宣言
因为契约各方当事人之间效用函数不一致,并且对彼此行为的信息不对称,他们就有可能通过“偷懒”、“逆向选择”、“败德行为”等方式实施机会主义行为,寻求超过其要素产出的收入,从而造成其他方的利益受到侵蚀。拥有决策权的一方,显然有着保障己方利益、侵蚀他方利益的“优势”。因此,控制权的安排对契约各方当事人来...
1983年:罗拉尔-德布鲁
德布鲁的主要理论贡献包括:资源未被充分利用的度量、概括帕累托的最优理论(福利经济学)、具有相关商品的均衡存在性(一般竞争均衡理论)、用效用函数表示偏好次序关系、总量超额需求函数(效用的需求理论)、经济核算的收敛定理等(www.e993.com)2024年7月25日。50年代初,他与合作者通过建立微观经济学基本概念的拓扑学集合论基础,引起了西方经济理论研究...