o1方法性能无上限!马腾宇等证明:推理token够多,就能解决问题
第二位作者是HongLiu,也是马腾宇的博士生,现在在读,本科就读于清华,曾获得特等奖学金及优秀毕业生荣誉。第三位是GoogleBrain推理团队创建者DennyZhou,中科院博士,2017年加入Google前在微软担任了11年的高级研究员。最后是2021年斯隆奖得主、斯坦福大学助理教授马腾宇,他是姚班校友、陈丹琦的同班同学。论文地址...
姚班斯隆奖马腾宇创业:大模型+顾问李飞飞
马腾宇现任斯坦福大学助理教授,研究方向包括机器学习、算法等多项内容。2008年,马腾宇被保送进入清华姚班,和陈丹琦是同班同学。马腾宇博士就读于普林斯顿大学,导师是理论计算机科学家、两届哥德尔奖得主SanjeevArora教授。读博期间,马腾宇获得了理论计算机方向的西蒙斯奖等诸多奖项,被导师夸赞“比自己还聪明”。博士毕业...
斯坦福马腾宇创业,大模型方向,Manning、 Christopher Ré是顾问
10月31日,清华大学2012届姚班校友,现任斯坦福大学助理教授马腾宇在社交媒体上宣布创业消息,成立VoyageAI——一家致力于构建嵌入/矢量化模型,帮助大型语言模型(LLM)获得更好检索质量的初创。VoyageAI联合创始人兼CEO马腾宇介绍道,Voyage团队由一群才华横溢的人工智能研究人员组成,包括斯坦福大学教授以及...
人工智能为火种,点燃下一代工业革命!WAIC云帆奖获得者名单公布
马腾宇,斯坦福大学计算机系和统计系助理教授商静波,UCSD计算机系和数据科学学院助理教授沈小勇,思谋科技联合创始人兼CEO吴佳俊,斯坦福大学计算机科学系助理教授杨笛一,佐治亚理工大学计算机系助理教授杨植麟,循环智能联合创始人张含望,南洋理工大学“南洋”荣誉助理教授张林峰,深势科技联合创始人、首席科学家宋凌皓,UC...
斯坦福团队:已开发出高效低成本方式训练大模型
为了更好地优化LLM预训练模式,刘洪和他的同事,包括斯坦福大学博士后李致远(音译)、斯坦福大学研究工程师DavidHall、计算机科学助理教授马腾宇和副教授PercyLiang,使用了两个技巧。第一种被称为曲率估计(curvatureestimation),即指是指对模型损失函数的曲率进行估计的过程。这种技术并不前沿,但斯坦福大学的团队找到了一...
斯坦福助理教授马腾宇:ML非凸优化很难,如何破?
非凸优化问题被认为是非常难求解的,因为可行域集合可能存在无数个局部最优点,通常求解全局最优的算法复杂度是指数级的(NP困难)(www.e993.com)2024年11月1日。在近日的一篇文章中,斯坦福大学助理教授马腾宇介绍了机器学习中的非凸优化问题,包括广义线性模型、矩阵分解、张量分解等。
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能...
深度学习是马腾宇研究组的重要研究方向,他们的主要研究思路是从方法论层面,通过一些数学或理论的分析从技术的角度提高深度学习模型的性能。他指出,从方法论的层面来看,深度学习当前存在的一个非常核心的挑战就在于需要很大规模的数据才能实现泛化,并且数据量的规模需要大到非常夸张的地步,以至于他认为学术界很难完全...
重磅!斯坦福教授、NIPS′16最佳学生论文奖得主马腾宇线上讲座
马腾宇,现任斯坦福大学助理教授、2012届姚班校友,博士曾就读于普林斯顿大学,师从SanjeevArora教授,其主要研究兴趣为机器学习和算法方面的研究,课题包括非凸优化、深度学习及其理论、强化学习、表示学习、分布式优化、凸松弛、高维统计等。马腾宇曾获得NIPS'16最佳学生论文奖,COLT'18最佳论文奖和ACM博士论文奖荣誉奖。直播...
斯坦福博士新作:长上下文LLM推理速度提8倍
斯坦福博士新作:长上下文LLM推理速度提8倍智东西10月18日消息,据量子位报道,上周,FlashAttention团队提出一种Transformer架构大模型推理加速的新方法Flash-Decoding,最高可提速8倍。该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证,并得到了PyTorch官方认可。据介绍,这个新方法在FlashAttention的基础...
马腾宇:AI 学界一颗冉冉升起的新星
本科毕业于清华姚班,博士毕业于普林斯顿大学,如今年仅31岁的马腾宇,作为AI学界的一颗新星正冉冉升起。马腾宇目前担任斯坦福大学助理教授,其主要研究兴趣为机器学习和算法方面的研究,课题包括非凸优化、深度学习及其理论、强化学习、表示学习、分布式优化、凸松弛、高维统计等。