推特拒向大模型免费开放数据!马斯克威胁起诉微软,Reddit宣布收费
社交媒体推特首席执行官埃隆•马斯克(ElonMusk)威胁要起诉微软(Microsoft)。
当地时间4月19日,美国消费者新闻与商业频道(CNBC)报道称,马斯克指责微软非法使用其社交媒体推特上的数据,以训练其人工智能(AI)模型。
此前有媒体报道,微软的广告平台将停止支持推特,因为推特更改了其API(应用程序编程接口)的定价。马斯克在这条推文下留言,“他们非法使用推特数据进行训练。诉讼时间到了。”
早在去年12月,马斯克还曾表示推特将“暂停”OpenAI对其数据库的访问权。
根据推特的新定价,API用户(包括企业和研究机构)每月至少需要支付高达4.2万美元才可使用。新的定价系统已经导致一些较小的开发商放弃了该平台,例如Tweetbot制造商Tapbots。
目前,微软广告平台支持页面顶部的一条消息显示,4月25日开始将“不再支持推特”,这意味着用户不能通过微软平台来创建或管理推文。
科技媒体TechCrunch认为,微软拥有2.15万亿美元的市值、去年底手头约有1000亿美元的现金,显然有足够的钱为推特付费,因此此举似乎表明微软的拒绝态度。
此前,微软被曝正准备推出人工智能芯片,为负责理解和生成类人语言的大型语言模型(LLM)提供动力。据悉,微软已向一小部分微软与OpenAI员工提供这款芯片,他们正在测试这项技术。微软希望这款芯片比目前从其他供应商采购的芯片性能更好,从而为其昂贵的人工智能研发节省时间和金钱。
目前尚不清楚马斯克是否真的会起诉微软,因为过去他也曾在推特上威胁要采取法律行动,但是从来没有提起过诉讼。
马斯克是特斯拉和SpaceX的首席执行官,也是OpenAI的创始人之一,不过2018年他已经离开该公司。最近他宣布计划建立自己的人工智能TruthGPT,还成立了人工智能公司。
CNBC认为,马斯克的威胁表明,在生成式AI热潮中,数据所有权正迅速成为令人担忧的战场。大型科技公司正在努力开发类似于OpenAI旗下GPT的人工智能模型,而数据所有者正在试图阻止它们,或者对其进行收费。
CNBC称,类似于GPT的大型语言模型需要TB级数据库(存储数据量为1TB以上)进行训练,其中大部分数据从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取——来自社交网络的培训数据非常有价值,因为其具有非正式场合的交互对话。
而随着新型人工智能模型从研究实验室和大学进入企业界,数据所有者开始提出向抓取者提出要求。
例如,Reddit本周早些时候表示,将向公司收取访问其编程接口的费用,该接口允许企业将Reddit用户之间的对话训练人工智能。
环球音乐集团(UniversalMusicGroup)本周表示,利用艺术家的音乐来训练模型“既违反我们的协议也违反版权法”。此前一段AI模仿说唱歌手德雷克的歌曲视频在网上广泛传播,这是其对该事件的回应。
此外,视频存储网站Getty Images正在起诉图像生成模型StableDiffusion,指控该公司利用其内容训练其人工智能图像生成器。