北大高歌教授综述:生物信息与大语言模型
接下来,我们讨论在生物数据上预训练的基础模型,包括生物序列数据(DNA、RNA和蛋白质)以及可以序列化的数据(小分子和单细胞组学)。Transfomer架构天然适合于生物序列,在为序列数据设计基础模型时有几个关键选择。我们是否应该选择类似BERT的结构,它擅长提取有意义的嵌入,还是选择类似GPT的结构,它利用生成能力。简而言之,...
AI蛋白质夺诺奖,清华聂再清:大模型解码生物语言 | 智者访谈
聂教授及其团队正致力于构建生物医药领域的基座大模型,通过对不同尺度和不同模态的数据进行建模及整合,建立起生物语言与自然语言之间的桥梁。团队的目标不仅仅是实现自然语言与生物语言之间的翻译,而是打造一个能够调用各种工具的智能助手。这个助手有望成为生物医药行业应用的重要入口,整合领域内的各种数据、知识和工具,...
专访诺奖得主David Baker:生物学非常重要,它超越了AI蛋白质设计
Baker:对于科技公司来说,大型语言模型确实是最重要的。如果一家大型科技公司在蛋白质折叠或蛋白质设计上投资,那么表明可能在语言模型上有点落后。但现在,这些公司都在裁员,将资源投向能快速产生收益的领域。尽管AI蛋白质非常有趣,但仍然有点边缘化。Q:在大型语言模型上,您认为它们在生物学中是否被高估了?Baker:...
追问weekly | 过去一周,脑科学领域有哪些新发现?
洛克菲勒大学分子遗传学实验室,由JeffreyM.Friedman教授领导,研究团队包括ChristinKosse等科学家,他们发现下丘脑腹内侧(VMH)中表达脑源性神经营养因子(BDNF)的神经元对食物摄入和下颌运动有直接影响。团队通过操纵这些神经元的活性,揭示了控制进食行为的神经回路。研究团队通过使用光遗传学技术,操控小鼠的下丘脑腹内侧...
生物计算:超越图灵模型的细胞计算机 | 智能渐近线
计算机科学试图模仿生物系统的功能以发展计算模型,包括自动机、人工神经网络和演化算法,而生物学则将计算作为一种隐喻来解释生物系统的功能。[4]例如,自上世纪70年代初,生物学家就使用布尔逻辑来概念化基因调控,当时雅克·莫诺(JacquesMonod)撰写了这样一句富有启发性的声明:“……就像计算机的运作方式一样。”[40]...
1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W...
「模型的参数有1.8B,什么概念呢?我们希望模型即足够「大」,能理解复杂生物系统,又不至于太大影响下游的使用效率(www.e993.com)2024年11月24日。在整理高质量数据后,我们将模型参数设置在这个级别。」LucaOne在下游任务中的稳健性能为了验证LucaOne对各类生物计算任务的价值,研究人员设置了一系列测试验证:首先是一个「异想天开」的任务,...
AI 发现16万种新RNA病毒成果登上《Cell》后,我们和阿里云算法专家...
AI科技评论:相较于LucaOne模型,LocaProt有哪些技术突破?贺勇:LucaOne是一个生物基础大模型,无差别对核酸与蛋白质进行表征。LocaProt是生物大模型的表征能力,针对特定任务(如寻找新病毒)进行优化的模型。LucaOne提供强大的基础表征,而LocaProt则解决具体的下游任务。
人工智能发展史中最重要的模型之一:鬼蜮模型
图1:塞弗里奇,右边照片是在达特茅斯研讨会上,图像来自维基百科塞弗里奇幽默地给他的图像识别模型起了一个新颖的名字:鬼域。Pandemonium一词,取自17世纪英国诗人约翰·弥尔顿1667年的史诗《失乐园》,意为“所有的恶魔”,或者是地狱之都,简译为“鬼域”,一个喧闹骚动、群魔乱舞的幽灵世界,图1的背景是画家约翰·马丁...
“自然”和“人工”的边界:关于人工智能与合成生物学的讨论
它们都是工程科学,在不同且在某种意义上相反的方向上趋近于(自然)生物学。然而,有趣的是,从另一个角度来看,人工智能和合成生物学朝向自然生物学的发展突显了这两门科学与生物学本身的巨大差距,以及它们在“人工”性质中与生命存在的自然世界之间的距离。因此,“人工”的新概念是一种从工程和合成观点对生物学进行...
专访陈润生院士:这些领域的交叉人才培养,已被提上新高度
推而广之,大模型可以实现“多模态融合”。“自然语言处理能力和多模态融合,是大模型真正区别于此前AI技术的关键。”陈润生说,过去,基于单模态处理能力,AI技术在生物学领域已具备结构预测的优势。比如,AlphaFold2可以很好地预测蛋白质的结构,预测精度达到了实验的90%以上,也说明这种技术是可用的。随着大模型出现...