「自我」不确定的世界中,我们如何构建“确定性自我”
比如,西方的独立型自我与东方的互依型自我就代表了两种思维模型。在西方文化中,“自我”是一个独立于他人的个体存在,重视独立与自主;而在东方文化中,人与他人的关系构建了更大一部分的“自我”,家庭、社群成了不可或缺的部分,尤其是与父母之间的互依。母亲的角色在东方自我中尤为重要,这种关系交织了自我概念...
研究人员提出多语言模型优化方法,利用不平衡特性提升多语言能力
即该方法采用了基于DPO(DirectPreferenceOptimization)的优化算法,模型在每轮迭代中生成多语言回复,并通过自我翻译保持语言偏好排名,从而生成用于下一轮训练的偏好数据集。DPO通过结合负对数似然损失函数,则能有效提高模型的对齐性能和多语言能力。其三,自我优化。本次方法通过自我翻译和偏好对比优化,逐步实现多语...
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地
10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节开幕上,科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单,并发布星火4.0Turbo:七大核心能力全面超过GPT-4Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0Turbo实现9项第一。与此同时,国产超大规模智算平台“飞星二号”正式启动...
7个第一,11个首发,讯飞星火放大招,大模型规模化落地可期!
“讯飞星火已成为央国企大模型的第一选择。”刘庆峰晒出了大模型应用成绩单:央国企中标第一、教育医疗市场第一、智能汽车市场第一、大模型开发者生态第一、智能硬件市场第一、赋能科研应用第一、赋能工业应用第一。截至2024年10月,科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数...
COLM 24 | 从正确中学习?大模型的自我纠正新视角
方法:为了找出大模型自己生成的正确推理步骤,本文开发了一种基于生成logits的高效方法来测量每个推理步骤的置信度,无需额外标注或工具。通过综合考虑每个步骤中的平均置信度、步骤置信度差异和步骤传递概率,LeCo能识别出近65%的错误步骤。具体来讲,我们的置信度设计考虑了3个不同的角度:...
提示词的艺术:如何用AI大语言模型提升工作效率?
② AI大语言模型可以协助你选择领域和方向、润色标题和摘要、优化大纲等(www.e993.com)2024年11月9日。③ 论文的思路和具体内容需要自己独立完成,务必符合学术道德。④ 你可以在提示词中加入术语对照表,以保证文章内容术语层面的一致性,具体请参考“提升翻译的名词、术语一致性”中的例子。5.会议议程:在制定会议议程时,提示词需要明确会议...
OpenAI发布首款具有推理能力的模型o1,可“思考”后自我核实答案...
OpenAI旗下首款具有推理能力的AI大语言模型加速袭来。两天前,尚有消息称代号为“草莓”的推理功能模型预计在两周内发布,9月12日周四,这款模型已经以“OpenAIo1”(英文字母O+阿拉伯数字1)的正式名称发布了。不过,作为o1系列模型的首批版本,OpenAI仅推出了o1-preview预览版和o1-mini迷你版,而且是分阶段向付费...
OpenAI 最强推理模型 O1 正式发布,一起回顾那些提升大模型推理...
传统的强化学习方法失效:传统的强化学习(RL)方法通常需要大量的训练数据和昂贵的模型微调。自我反思提供了一种轻量级替代方案,不需要微调底层语言模型,从而使其在数据和计算资源方面更加高效。需要细致入微的反馈:自我反思利用语言反馈,这比传统强化学习中使用的标量奖励更加细致和具体。这让大模型能够更好地了解自己的...
清华团队提出“智能体医院”:医生智能体可实现自我进化|大模型周报
1.清华团队提出“智能体医院”:医生智能体可实现自我进化在这项工作中,来自清华大学的研究团队提出了一种名为“智能体医院”(AgentHospital)的模拟医院,它可以模拟治疗疾病的整个过程。其中,所有病人、护士和医生都是由大型语言模型(LLM)驱动的自主智能体。
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
最近,顾全全教授团队和卡内基梅隆大学(CMU)YimingYang教授团队合作开发了一种名为「自我博弈偏好优化(Self-PlayPreferenceOptimization,SPPO)」的对齐技术,这一新方法旨在通过自我博弈的框架来优化大语言模型的行为,使其更好地符合人类的偏好。左右互搏再显神通!