AI时代我们的大脑更需要“高质量语料”

2024-05-24 11:00:15 - 媒体滚动

AI时代我们的大脑更需要“高质量语料”

最近读到一组关于AI时代互联网公司如何“训练”大模型的报道,其中一个观点让人很震撼:一个成功的大模型,离不开高质量语料库。

高质量是指文本内容不仅要覆盖多个不同领域,包括文学、医学、法学、理学、哲学等等,同时还得是高水准的行业文本。百度公司为了寻求有质量保证的高质量语料库,专门与上海世纪出版集团合作,我们熟悉的《辞海》便由这个集团出版。如果任由大模型在网上随机抓取铺天盖地的文本内容,那么它大概率就只学会了写广告——因为互联网上的“水文”实在是太多了。

换言之:ChatGPT之类的计算机模型也需要大量的、有质量保证的“阅读”输入,才能成为真正有用的、具有良师益友资格的软件工具。

那些认为AI时代人类已经不需要阅读的人,可以醒醒了。

在AI时代,人类不仅需要阅读,更需要像大模型一样,进行大量广泛的阅读,为大脑输入“高质量的语料”,以保证人类自己这部机器有效运行。在轻松休闲阅读之外,需要适当走出“舒适圈”,进行硬核阅读,适当啃一啃大部头;走出自己熟悉的领域,进行“跨行”阅读,打破固有思维藩篱,在隔行如隔山的碰撞中,相互交融,构筑更广阔的思维格局。

受到互联网公司培养大模型方法的触动,最近几次走进书店,也刻意为难一下自己,主动去读一读那些从未涉猎过的领域,去感受不同领域高质量文本输入带来的愉悦。

索性先从科技领域入手。对于文科生来说,科技领域的阅读是有门槛的,因为缺少专业理科知识做基础,那些专业术语和公式,看起来简直是天书。好在,科普类书籍很好地搭建了文科生亲近科技领域的桥梁,从故事入手,也能触摸到科学领域的精神与精髓。

从不同的角度回看人类走过的历史,总会得到不一样的画卷。《技术与文明》这本书便是从技术发明与创造使用的角度去观察和理解人类文明,从技术的角度,重新连接世界与自己。作者认为,人类作为一个物种的发展规律,远远超过帝王将相、文明史或思想史,每一项新技术的发明,都是对人类自身局限的突破。技术要真正发挥价值,必须与当时的整体社会结构、社会需求有机融和。例如蒸汽技术,世界上第一个利用蒸汽驱动的机器叫“汽转球”,发明于1世纪,发明者叫作“亚历山大港的希罗”,他甚至还写了一本《气动力学》,既讲物理学原理,也阐述具体应用。但是他的发明主要是为当时的神庙和贵族服务,例如在古希腊戏剧演出中提供“机械降神”——一种舞台机械,可以把人和神像以一种非常规的、极其震撼的方式出场,以增加演出效果。从“蒸汽技术”的出现到瓦特改良蒸汽机、人类进入蒸汽革命时代,中间度过了漫长的18个世纪。新技术的发明需要有“市场”为之买单,这个市场既包括资金,也需要使用场景,持之以恒的良性循环与互动,会推动更多人投入研究,迭代出更好的技术推动发展。

书中还讲到了机枪的发明对于人类历史进程的影响。1884年马克沁机枪发明,1895年柯尔特机枪面世。1894年中日甲午战争期间,一位金陵制造局的英国观察员在报告中写道:“所有第一流的现代化机器,都用来生产一些无用的军械……很大部分的机器,用来制造后堂抬枪(一种在当时就已经落后的武器)。看到这些官员和工人们得意地尽心尽力地制造一些无用的军械,实在令人心碎。”这真是一个值得后世深刻警醒的历史细节。

“芯片的发展史是一部创新史和叛逆史”,《芯片简史》这本书里的这句话,一下子就把我震住了。我们都知道科学探索需要勇气,原来这勇气不仅仅是面对科学领域的未知与挑战,也包括来自权威的压力甚至是阻碍。《芯片简史》以半导体技术发展为主线,讲述了该领域材料、器件、工艺等是如何从一个偶然的发现到形成理论、直至推动一个产业形成和爆发的系列故事。很难想象,当年MOS场效晶体管的发明者们在贝尔公司不但不被重视,甚至黯淡离场;集成电路的创新者也要面对市场主管的训斥“这玩意儿浪费了公司的钱财”……在作者看来,创新是对主流的偏离、对现有规则的破坏,它刚开始可能很难融入主流,因为它几乎是颠覆了人们熟悉的模式。创新越大,对传统的叛逆和颠覆也越大,甚至遭到传统势力的抵制也越大。

相较于重大原始类创新,人们可能更容易接受的是改良。就像《创新者的窘境》一书所持有的观点:创新者总是会遇到窘境,而那些本来最有实力引领未来的企业往往会因为保守而错失良机。

芯片是电子信息技术和产业的核心与基石,时至今日,芯片技术已经成为现代科学技术发展的制高点。即使不懂芯片技术的人,大概也对国与国之间在芯片领域的竞争有所耳闻,对资本市场一度追捧的芯片热记忆深刻。当“芯片”作为一波热议话题被翻篇之后,应该有人继续做这一领域的持续探索与“联动思考”。

跨界阅读带来的连锁效应是按图索骥,从作者提到的书里、列出的参考书单里,找到更多值得阅读的好书。例如《技术史》《中文打字机:一个世纪的汉字突围史》《政治经济学的国民体系》《十五至十八世纪的物质文明、经济和资本主义》等等。埃隆·马斯克说,如果人类不付出巨大努力,科技完全可能倒退。在AI爆发的时代,人类这具肉身如果不想倒退,也要付出巨大的努力。

坚持阅读,应该是行之有效的方法之一。

今日热搜