给数据做标注的外包零工，正在将他们的工作“外包”给人工智能

2023-06-27 19:39:30 - DeepTech深科技

来源：DeepTech深科技

一项新的研究发现，有很大一部分人被招募来训练人工智能模型，但他们自己可能反过来将这些工作又外包给人工智能了。

训练人工智能系统来准确和可靠地执行特定任务需要大量数据。许多公司在MechanicalTurk等平台上向外包零工支付报酬，让他们完成通常难以自动化的任务，例如解决验证码、标记数据和注释文本。然后，这些数据被输入人工智能模型来训练它们。零工们的工资很低，而且往往被期望在很短的时间里完成大量任务。

这解释了为什么他们中的一些人，可能会转向ChatGPT等人工智能工具来最大限度地提高他们的收入。但这一比例有多少呢？为了找到答案，瑞士联邦理工学院（EPFL）的一组研究人员在亚马逊零工平台MechanicalTurk上雇佣了44名零工，来总结16篇医学研究论文的摘录。然后，他们使用自己训练的人工智能模型分析了他们的回答，该模型用于寻找ChatGPT输出内容中存在的明显信号，例如词语选择缺乏多样性。他们还捕捉了这些人的按键记录，以确定他们是否复制并粘贴了答案——这往往表明他们在其他地方生成了答案。

他们估计得出，33%到46%的零工使用过OpenAIChatGPT等人工智能模型。该研究的作者表示，随着ChatGPT和其他人工智能系统变得更加强大且易于访问，这一比例可能会更高。该研究已在预印本网站arXiv上分享，尚未经过同行评审。

“我不认为这是众包平台的终结。它只是改变了动态，”该研究的共同作者、洛桑联邦理工学院助理教授罗伯特·韦斯特（RobertWest）说道。

使用人工智能生成的数据来训练人工智能模型，可能会给已经容易出错的模型带来更多错误。大型语言模型经常将虚假信息呈现为事实。牛津大学计算机科学系研究员伊利亚·舒迈洛夫（IliaShumailov）表示，如果它们生成的错误输出本身被用于训练其他人工智能模型，这些错误就会被其它模型吸收，并随着时间的推移而扩大，从而使弄清楚它们的起源变得越来越困难。他没有参与该项目。

更糟糕的是，这个问题没有简单的解决办法。“问题是，当你使用人工数据时，你会因对模型的误解和统计错误而产生错误，”他说，“你需要确保你的错误不会影响其他模型的输出，但没有简单的方法可以做到这一点。”

该研究强调，整个行业需要新的方法来检查数据是由人类还是人工智能产生的。它还凸显了另一个重要问题，即科技公司倾向于依赖零工来完成许多很关键的工作，包括整理输入人工智能系统的数据。

“我不认为一切都会崩溃，”韦斯特说，“但我认为，人工智能社区必须仔细调查哪些任务最容易被自动化，并找出防止这种情况发生的方法。”

支持：Ren

运营/排版：何晨龙