微软发布Phi-3,性能超Llama-3,可手机端运行
机器之心报道
编辑:小舟、泽南
Llama-3刚发布没多久,竞争对手就来了,而且是可以在手机上运行的小体量模型。
本周二,微软发布了自研小尺寸模型Phi-3。
新模型有三个版本,其中Phi-3mini是一个拥有38亿参数的语言模型,经过3.3万亿token的训练,其整体性能在学术基准和内部测试上成绩优异。
尽管Phi-3mini被优化至可部署在手机上,但它的性能可以与Mixtral8x7B和GPT-3.5等模型相媲美。微软表示,创新主要在于用于训练的数据集。
与此同时,Phi-3与Llama-2使用相同的架构,方便开源社区在其基础上开发。
此前,微软的Phi系列模型曾经引发了人们的热议,去年6月,微软发布了《TextbooksAreAllYouNeed》论文,用规模仅为7Btoken的「教科书质量」数据训练1.3B参数的模型phi-1,实现了良好的性能。
去年9月,微软进一步探索这条道路,让1.3B参数的Transformer架构语言模型Phi-1.5显示出强大的编码能力。
去年底,微软提出的Phi-2具备了一定的常识能力,在2.7B的量级上多个基准测试成绩超过Llama27B、Llama213B、Mistral7B等一众先进模型。
Phi-3技术报告:https://arxiv.org/abs/2404.14219
刚刚提出的phi-3-mini是一个在3.3万亿个token上训练的38亿参数语言模型。实验测试表明,phi-3-mini的整体性能可与Mixtral8x7B和GPT-3.5等模型相媲美,例如phi-3-mini在MMLU上达到了69%,在MT-bench上达到了8.38。
微软之前对phi系列模型的研究表明,高质量的「小数据」能够让较小的模型具备良好的性能。phi-3-mini在经过严格过滤的网络数据和合成数据(类似于phi-2)上进行训练,并进一步调整了稳健性、安全性和聊天格式。
此外,研究团队还提供了针对4.8Ttoken训练的7B和14B模型的初始参数扩展结果,称为phi-3-small和phi-3-medium,两者都比phi-3-mini能力更强。
学术基准
在标准开源基准测试中,phi-3-mini与phi-2、Mistral-7b-v0.1、Mixtral-8x7B、Gemma7B、Llama-3-instruct8B和GPT-3.5的比较结果如下表所示,为了确保具有可比性,所有结果都是通过完全相同的pipeline得到的。
安全性
Phi-3-mini是根据微软负责任人工智能原则开发的。保证大模型安全的总体方法包括训练后的安全调整、红队(red-teaming)测试、自动化测试和数十个RAI危害类别的评估。微软利用受[BSA+24]启发修改的有用和无害偏好数据集[BJN+22、JLD+23]和多个内部生成的数据集来解决安全性后训练(post-training)的RAI危害类别。微软一个独立的redteam反复检查了phi-3-mini,以进一步确定后训练过程中需要改进的领域。
根据redteam的反馈,研究团队整理了额外的数据集从而完善后训练数据集。这一过程导致有害响应率显著降低,如图3所示。
下表显示了phi-3-mini-4k和phi-3-mini-128k与phi-2、Mistral-7B-v0.1、Gemma7B的内部多轮对话RAI基准测试结果。该基准测试利用GPT-4模拟五个不同类别的多轮对话并评估模型响应。
缺陷
微软表示,就LLM能力而言,虽然phi-3-mini模型达到了与大型模型相似的语言理解和推理能力水平,但它在某些任务上仍然受到其规模的根本限制。例如,该模型根本没有能力存储太多「事实知识」,这可以从TriviaQA上的低评分中看出。不过,研究人员相信这些问题可以通过搜索引擎增强的方式来解决。
参考内容:https://news.ycombinator.com/item?id=40127806