「自我」不确定的世界中,我们如何构建“确定性自我”

2024年11月4日 - 网易

比如,西方的独立型自我与东方的互依型自我就代表了两种思维模型。在西方文化中,“自我”是一个独立于他人的个体存在,重视独立与自主;而在东方文化中,人与他人的关系构建了更大一部分的“自我”,家庭、社群成了不可或缺的部分,尤其是与父母之间的互依。母亲的角色在东方自我中尤为重要,这种关系交织了自我概念...

详情

研究人员提出多语言模型优化方法,利用不平衡特性提升多语言能力

2024年11月1日 - 新浪

即该方法采用了基于DPO(DirectPreferenceOptimization)的优化算法,模型在每轮迭代中生成多语言回复,并通过自我翻译保持语言偏好排名,从而生成用于下一轮训练的偏好数据集。DPO通过结合负对数似然损失函数,则能有效提高模型的对齐性能和多语言能力。其三,自我优化。本次方法通过自我翻译和偏好对比优化,逐步实现多语...

详情

讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地

2024年10月24日 - 人民网

10月24日,第七届世界声博会暨2024科大讯飞全球1024开发者节开幕上,科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单,并发布星火4.0Turbo:七大核心能力全面超过GPT-4Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0Turbo实现9项第一。与此同时,国产超大规模智算平台“飞星二号”正式启动...

详情

7个第一,11个首发,讯飞星火放大招,大模型规模化落地可期!

2024年10月24日 - 镁客网

“讯飞星火已成为央国企大模型的第一选择。”刘庆峰晒出了大模型应用成绩单:央国企中标第一、教育医疗市场第一、智能汽车市场第一、大模型开发者生态第一、智能硬件市场第一、赋能科研应用第一、赋能工业应用第一。截至2024年10月,科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数...

详情

COLM 24 | 从正确中学习?大模型的自我纠正新视角

2024年9月18日 - 澎湃新闻

方法:为了找出大模型自己生成的正确推理步骤,本文开发了一种基于生成logits的高效方法来测量每个推理步骤的置信度,无需额外标注或工具。通过综合考虑每个步骤中的平均置信度、步骤置信度差异和步骤传递概率,LeCo能识别出近65%的错误步骤。具体来讲,我们的置信度设计考虑了3个不同的角度:...

详情

提示词的艺术:如何用AI大语言模型提升工作效率?

2024年9月28日 - 百家号

②　AI大语言模型可以协助你选择领域和方向、润色标题和摘要、优化大纲等(www.e993.com)2024年11月9日。③　论文的思路和具体内容需要自己独立完成，务必符合学术道德。④　你可以在提示词中加入术语对照表，以保证文章内容术语层面的一致性，具体请参考“提升翻译的名词、术语一致性”中的例子。5．会议议程：在制定会议议程时，提示词需要明确会议...

详情

OpenAI发布首款具有推理能力的模型o1,可“思考”后自我核实答案...

2024年9月13日 - 百家号

OpenAI旗下首款具有推理能力的AI大语言模型加速袭来。两天前，尚有消息称代号为“草莓”的推理功能模型预计在两周内发布，9月12日周四，这款模型已经以“OpenAIo1”（英文字母O+阿拉伯数字1）的正式名称发布了。不过，作为o1系列模型的首批版本，OpenAI仅推出了o1-preview预览版和o1-mini迷你版，而且是分阶段向付费...

详情

OpenAI 最强推理模型 O1 正式发布,一起回顾那些提升大模型推理...

2024年9月15日 - ZAKER

传统的强化学习方法失效:传统的强化学习(RL)方法通常需要大量的训练数据和昂贵的模型微调。自我反思提供了一种轻量级替代方案,不需要微调底层语言模型,从而使其在数据和计算资源方面更加高效。需要细致入微的反馈:自我反思利用语言反馈,这比传统强化学习中使用的标量奖励更加细致和具体。这让大模型能够更好地了解自己的...

详情

清华团队提出“智能体医院”:医生智能体可实现自我进化|大模型周报

2024年5月13日 - 澎湃新闻

1.清华团队提出“智能体医院”:医生智能体可实现自我进化在这项工作中,来自清华大学的研究团队提出了一种名为“智能体医院”(AgentHospital)的模拟医院,它可以模拟治疗疾病的整个过程。其中,所有病人、护士和医生都是由大型语言模型(LLM)驱动的自主智能体。

详情

人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈

2024年5月13日 - 澎湃新闻

最近,顾全全教授团队和卡内基梅隆大学(CMU)YimingYang教授团队合作开发了一种名为「自我博弈偏好优化(Self-PlayPreferenceOptimization,SPPO)」的对齐技术,这一新方法旨在通过自我博弈的框架来优化大语言模型的行为,使其更好地符合人类的偏好。左右互搏再显神通!

详情

查看更多

自我选择效应是什么意思
自我选择效应原理
自我选择机制
自我选择的样本
自我选择行为
什么是自我选择
自我选择模型有哪些
自我选择模型名词解释
心理学自我选择效应
自我选择模型包括