企鹅兰登要将AI拒之门外，但头埋进沙里就有用吗

2024-10-31 20:02:00 - 新浪人工智能

如果要说当下哪个群体是AI大模型的“铁粉”，或许非学生党莫属。没错，相比于打工人，学生如今显然更青睐AI。据毕马威日前在加拿大发布的一项研究结果显示，有59%的加拿大学生表示他们在学业中会使用生成式人工智能，相比去年上升了7%。

不过学生们的好日子恐怕也难以长久了，近期又有一家大型出版集团宣布拒绝人工智能。日前据海外科技媒体TheVerge公布的消息显示，图书出版商企鹅兰登书屋正在以印刷体的形式表明对于人工智能训练的立场，其新书和再版书籍的标准版权页将会写明，“本书的任何部分不得以任何方式用于或复制用于训练人工智能技术或系统。”

没错，自从ChatGPT将AI大模型、生成式人工智能带火之后，数字版权问题日渐白热化。一边是AI公司攫取高质量训练语料的需求日益高涨，另一边则是出版机构千方百计地维护自身的版权价值。但遗憾的是，企鹅兰登书屋的努力或许是螳臂当车，效仿康泰纳仕将自家内容卖个好价钱才是上策。

企鹅兰登要将AI拒之门外，但头埋进沙里就有用吗

为什么要这么说呢？因为当下的现实，是绝大多数AI厂商反对训练大模型需要版权许可和付费，真正愿意付费的只有OpenAI等寥寥几个大厂。以谷歌为例，该公司在去年回复美国版权局时就表示，如果拆开看大模型的预训练过程，从抓取信息、复制输入到处理分析，只有最初的复制行为能落在版权法的范畴中，其他行为并不触发相关法律法规。

事实上，从技术原理来说，AI大模型记住的是统计关系、而不是文本本身，ChatGPT等产品最后输出的结果是一种联想而非复制，并不会通过数据库重新访问版权作品，也不会直接复制粘贴作品的相关内容。所以认为自己的行为并不违反版权保护，这也是大量AI厂商普遍不愿意为语料资源付费的关键所在。

企鹅兰登要将AI拒之门外，但头埋进沙里就有用吗

更为重要的是，大模型的训练和内容生成呈现的“黑箱”特质，导致了通过技术手段进行数据溯源的难度巨大，也使得传统的按比例直接分成这一方法不再适用。其实AI厂商不愿意付钱还不是大问题，真正的问题在于，语料数据耗尽很有可能是一个伪命题。

目前在AI行业中，OpenAI和Anthropic两只独角兽旗下的大模型在性能层面一骑绝尘，远胜于Meta的LLama、谷歌的Gemini。而OpenAI背后的微软、Anthropic背后的亚马逊，均不是以社交和搜索著称，所以在私有语料规模上要远逊于谷歌和Meta。

企鹅兰登要将AI拒之门外，但头埋进沙里就有用吗

比如，OpenAI训练ChatGPT的45TB数据，主要来源于CommonCrawl、维基百科、美国专利文件数据库，都是公开资料。换而言之，如果大模型真的是以语料为王，那么谷歌目前最强的Gemini1.5Pro表现就不会不如GPT-o1。因此一个可能的事实，是语料本身的重要性或许不如数据清洗。

如果越来越多的厂商发现，相比于花大价钱购买出版商手里的数据，高水平的数据清洗依然能从“脏数据”里洗出高质量的数据。特别是在不久前OpenAI曝出ChatGPT会“看菜下碟”，用户名可能影响聊天机器人的响应、并反映出有害的刻板印象。对此OpenAI方面的猜测，是刻板印象很可能源自AI训练使用的数据集。

企鹅兰登要将AI拒之门外，但头埋进沙里就有用吗