人工智能价值对齐的哲学思考|价值嵌入与价值对齐:人类控制论的幻觉
当然这并不是说对人工智能输出中那些令人不安的问题不能进行治理,只是价值对齐这样的措辞会基于错误的人机关系设想而夸大人类主体的能动性,并误导不合理的解决方式。如在数据治理过程中存在的工具理性与价值理性之间价值导向层面的矛盾,是不是仅靠价值移植就能解决,其本身就存在疑问。而要在数字化、智能化转型的浪潮中...
ACL 2024 | MODPO:大语言模型的多目标对齐
对于安全对齐任务,如图1所示,MODPO和MORLHF性能相当(但MODPO更高效);对于长篇回答任务,如图2所示,MODPO远好于MORLHF且更高效。如表1所示,相比MORLHF,MODPO节省了~3倍的GPU时间。图1:不同方法在安全对齐(左)和长篇回答(右)任务上的帕累托曲线表1:MODPO和MORLHF的GPUhours对比参考文献[1]Ou...
周日直播·大模型安全与对齐读书会收官圆桌:人工智能风险红线声明
若感兴趣系列分享,可扫码参与大模型安全与对齐读书会,加入群聊,可获取系列读书会回看权限,成为大模型安全与对齐读书会社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动大模型安全与对齐读书会社区的发展。报名成为主讲人读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循...
让疤痕变淡,没你想的那么难!
它是透明凝胶的质地,非常清爽不黏腻,可以直接涂抹于清洁后的皮肤上,每天涂抹2~4次或遵医嘱,自然风干即可。它采用创新的CPX技术,透明快干,涂抹后产品会在1分钟内迅速干燥成膜,摸起来一点都不沾手不油腻。这样的凝胶质地,可以更好地接触疤痕,所以特别适合有凹陷不平整的疤痕、关节处的疤痕、易出汗部位...
大模型对齐的技术路线:人类反馈强化学习与超级对齐的视角探讨 |...
集智俱乐部和安远AI联合举办,由多位海内外一线研究者联合发起,针对大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题,展开共读共研活动。读书会自2024年1月27日正式开始,每周六上午举行,为期8-10周。欢迎从事相关研究与应用工作的朋友报名加入!
Nat Med|龙尔平/陈庆宇团队合作研发“小世界增强”落地级医学大...
截止2024年6月,已在5个中心24个不同医学场景,整理了超过2700万例真实医患对话(www.e993.com)2024年11月13日。“真实医学对话语料联盟”展示了医患沟通中的难预测、低效率等特点,也为应用级的大模型研发建立了战略级的数据资源壁垒。研发知识对齐预警系统,直面解决大模型幻觉难题大语言模型往往会一本正经地“胡说八道”,这类现象被称为是大...
大语言模型自进化技术综述:概念框架,进化方向,经验获取,经验更新...
最后,人类偏好对齐训练使LLM能够像人类行为一样做出响应(Ouyangetal.,2022)。这样的连续训练范式取得了重大突破,使LLM能够执行广泛的任务,并展现出显著的零样本和上下文能力,如问答(Tanetal.,2023)、数学推理(Collinsetal.,2023)、代码生成(Liuetal.,2024b)以及需要与环境互动的任务解决(...
Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】
研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉...
曾毅:从科学与社会视角推进新一代生成式人工智能的发展与治理
大家记得,当最开始生成式人工智能在互联网上为大家提供服务时,用它去查阅参考文献,它给出的参考文献没有一篇是真实存在的,因为输出的所有参考文献的名字都是生成的。在这种情况下,一个生成式人工智能并不能够区分何时不需要生成,这个实际上就是看似智能的信息处理工具实则并不拥有真正的智能所存在的问题。
前沿进展:大模型agent的社交互动涌现出无标度网络
在这种情况下,新节点的传入连接仅限于少数之前的节点,导致了度的不均衡,这比实际社交网络结构中所观察到的差异更大。这种极端的集中现象可以在图2右侧面板上的CCDF中看到。这是一种人工智能对齐方式,导致网络结构不真实和网络度数极端集中。为了更深入理解这个网络生成过程,我们调整了模型,移除了向主体展示的度信息...