对话微软CTO：将为AI生成内容设置加密水印，以检测虚假信息

2023-05-24 18:01:22 - 澎湃新闻

·狭义上讲，我们可能需要某种形式的超级智能。如果你有一个代理，你可以说，“嘿，我希望你去开发一种治疗癌症的方法，一组可以治愈这一系列癌症的化合物或mRNA疫苗。”如果事情能做到，我认为你会想要的。

微软首席技术官凯文·斯科特。

微软首席技术官（CTO）凯文·斯科特（KevinScott）近日透露，微软3年来一直在研究“媒体来源系统”——在AI生成的内容里放置不可见的加密水印，可以使用软件解密水印以获取来源信息，以检测虚假信息。

据悉，微软将在当地时间5月23日开幕的Build开发者大会期间正式宣布，对来自BingImageCreator和MicrosoftDesigner的AI生成图像进行加密签名，并在图像的元数据中明确披露来源。（详见澎湃科技报道《微软重磅更新：Windows引入AI助手，ChatGPT默认用必应搜索》）“自2021年以来，微软的媒体来源团队一直在建立一个联盟。”斯科特说，他们与图像制作软件公司Adobe合作，并和BBC、《纽约时报》等媒体进行着对话。

在此次大会召开前夕，同时担任微软人工智能业务执行副总裁的斯科特接受了美国科技媒体TheVerge总编尼雷·帕特尔（NilayPatel）的采访，谈到了微软AI战略的思路、与OpenAI的合作与分歧，以及通用人工智能何时到来。

以下为澎湃科技（www.thepaper.cn）整理的部分采访内容。

处处都是“副驾驶”

尼雷·帕特尔（TheVerge总编）：这是微软的Build会议，开发人员会议。本次会议的主题基本上是“我们将把人工智能和大语言模型放在一切中”，微软称这个想法为Copilot（副驾驶）。显然，GitHub已经有一个Copilot，现在WindowsTerminal中也有了“副驾驶”。Edge有一个新的“副驾驶”系统。它们无处不在。告诉我们发生了什么。

凯文·斯科特（微软CTO、AI执行副总裁）：好吧，我认为令人兴奋的事情——我将在我的主题演讲中谈论的——是我们构建了GitHubCopilot，这个想法是，你拥有这些惊人的大型基础模型，可以与之对话，可以做认知上复杂的事情。

我们构建的第一个产品是GitHubCopilot，这是一个帮助软件开发人员编写代码的工具。很快，我们意识到这是一种新型软件的模式，不会只有GitHubCopilot，而是会有很多“副驾驶”。因此，你可以将BingChat（必应聊天机器人）和ChatGPT视为“副驾驶”。我们有你提到的Microsoft365Copilot和WindowsTerminalCopilot。

当我们着眼于自己构建所有这些东西时，它们有一大堆架构和用户界面模式的相似之处。我们相信许多开发人员将构建大量“副驾驶”。今年的Build大会是关于我们可以提供给每个人的工具，以帮助他们构建自己的“副驾驶”。

帕特尔：所以这是一个关于计算机在未来如何工作的重要论点，我们与计算机交互的方式涉及大量的自然语言提示。我只要走到电脑前说，“我想要这个”，电脑就会把它给我。开发人员将构建位于输入和输出之间的软件。你可以看到每个开发人员说，“好吧，我需要解析自然语言输入，然后弄清楚如何为用户提供他们想要的任何东西。”有时，这意味着为他们生成一些内容。

副驾驶的名称暗示人仍然是主驾驶。对AI做的事情有限制吗？是你们正在设置的护栏、道德准则吗？

斯科特：如果你想利用这些东西的力量让它们做有用的事，就必须能够引导它们，不得不考虑提示工程、元提示和检索增强生成，以及围绕这种新型软件开发的技术包。

而且，你必须以不同于以往的方式来考虑用户界面。用户界面正在发生的真正疯狂的变化之一是，在我作为软件开发人员的整个职业生涯中，作为程序员，你必须非常明确地想象代码执行的所有操作，以及执行的所有方式，让用户完成该任务，这通常意味着布置一堆图形用户界面元素，并将代码和它们绑定。（现在）使用这些应用程序，你不必做那么多，因为用户正在以一种非常自然的方式表达他们想要完成的事情。

从这个意义上说，这是一个非常伟大的想法，因为在过去180年里，自从阿达·拉芙蕾丝（AdaLovelace女士，第一位程序员）编写了第一个程序以来，人类用计算设备做事的方式，要么是成为一名知道如何处理计算设备所有复杂问题并告诉它该做什么的熟练程序员，要么是希望一个熟练的程序员预见到你的需求并编写一个你可以运行的软件。

现在这种情况正以一种相当戏剧性的方式发生变化。我认为这是一个大想法。随着模型变得更有能力，我们在架构上考虑这些机器人的方式，可能不得不减少调整并引导它们完成任务的具体工作。它们可能自然地会做越来越多的事情。

帕特尔：现在，这些模型是根据人们在网络上、GitHub上随处可见的一堆东西进行训练的。这些系统、这些“副驾驶”的输出量是巨大的。它会很快使互联网上人类的输出量相形见绌，然后你要针对它进行训练。这感觉就像一个反馈循环，如果不加以控制，将会导致奇怪的结果。你怎么看？

斯科特：一段时间以来，我们已经有了一些非常好的技术来评估输入这些系统的数据质量，这样就不会在低质量数据上进行训练。然后，我认为要做的另一件事，对培训问题和透明度问题都有用：很快，要么根据技术人员的惯例，要么因为它成为一项监管要求，你将不得不想出一些方法来标记一段内容是人工智能生成的。

我们将围绕这个在Build大会上宣布一些内容。3年来，我们一直在研究一个“媒体来源系统”，让你可以在音频和视频内容中放置不可见的加密水印，这样当你获得这些内容时，可以让软件解密清单，清单上写着，“这就是我的来源”。一般来说，它对虚假信息检测很有用。作为用户，你可以说，“我只想消费我了解来源的内容”，“我不想消费人工智能生成的内容”。如果你正在构建一个摄取此内容进行训练的系统，你可以查看清单并说，“这是合成内容。它可能不应该出现在训练数据中。”

帕特尔：谷歌有一项内容真实性计划。Adobe有一个。我们很快就看到了xkcd的一幅漫画（由兰德尔·门罗创作的网络漫画），“有四个相互竞争的标准。让我们推出一个新的。”你们正在进行对话吗？你是说监管机构必须这样做吗？行业会一起做吗？

斯科特：我们绝对在进行这些对话。Adobe与我们合作，因此我们一直在与他们以及BBC和《纽约时报》对话。自2021年以来，微软的媒体来源团队一直在建立一个联盟。但是，如果我们认为其他人的标准是解决这个问题的更好方法，那么我会非常高兴。这不是需要竞争的地方。我们应该找到一个足够好的解决方案，并且所有人都同意，“事情就是这样，这就是我们都要做的。”

微软和OpenAI存在分歧

帕特尔：你是推动与OpenAI合作的人之一。为什么要搭档？与他们合作与自己构建相比，优缺点是什么？

斯科特：我们的指导原则是：微软是一家平台公司。我们需要确保我们正在构建的平台能够满足人工智能领域雄心勃勃的人们的需求，他们在最高水平上做事并抱有最高期望。最好有一个微软外部的合作伙伴，并且当它告诉我们“这已经足够好了”或“这还不够好”时，它不会受到大公司内部发生的一系列事情的影响。

事实证明，我们在这个平台愿景上是一致的。我们在这条路径上看到了这些模型，你能够训练一件东西并将它用于很多不同的事情，这是一种与过去几十年截然不同的机器学习方式。他们对自己所做的事情有一个平台愿景。我们是一家平台公司，我们想出了一种构建合作伙伴关系的方法，我们可以一起构建该平台。

帕特尔：你们和OpenAI有什么分歧？

斯科特：这真的很有意思——它会随着时间而改变。老实说，就我个人而言，山姆（OpenAI创始人山姆·奥特曼）和我的分歧相对较少。但我们的团队对整体方法存在意识形态分歧。

如果你是一名机器学习专家，这种依赖基础模型而不是从头到尾训练自己的东西的想法，是做事方式一个相当大的转变。我猜任何热爱工艺及其工具的专业人士，都以同样的方式感到暴躁。上帝禁止某些暴发户进来并告诉你如何搞新闻工作。不仅仅在于工具是什么，还有你如何使用工具。这就有点像深度机器学习专家，所以我们在这方面有分歧。

我认为现在的分歧比以前少了。每个人都越来越相信这些东西很强大，而且它们可能会变得更强大。

帕特尔：你们依赖OpenAI做什么以及希望微软的团队做什么？

斯科特：从科学的角度来看，他们正在开发我们现在所依赖的一系列核心的人工智能技术，你可以在我们所有的产品公告中看到它。他们有一个OpenAI模型，在许多情况下，它伴随着一大堆其他东西。你拥有一整套用于制作完整应用程序的东西，因此我们自己构建了一堆这些东西。我们的合作显然非常紧密，定义基础设施应该是什么样，但我们必须建造并扩大规模。然后我们在实施和部署方面一起做一大堆工作。

有意思的事情是，我们有一个部署安全委员会，我们一起运行。所有推出的包含OpenAI模型的东西，无论是他们正在做的还是我们正在做的，都有一组OpenAI和微软的专家开会，审查所有红队分析和专家已经完成的报告，决定是否继续部署。所以，是的，我们所做的事情往往是关于更多的基础设施。他们确实更倾向于模型的科学方面。他们有产品，我们有产品，然后我们有实施部署的东西，我们超级深入地合作。

帕特尔：我不得不问你这个问题，因为在很多方面，这是世界历史上最具争议的组织架构，这是一个关于组织架构的“展示”。埃隆·马斯克（特斯拉创始人）非常公开地声称微软控制着OpenAI，他发布了一系列关于你们对训练权重的权利以及控制OpenAI能力的声明。真的吗？他哪里错了？

斯科特：哦，天哪，我们不控制OpenAI。他们是合作伙伴。我也不控制在微软研究机构内部工作的机器学习工程师。我们在共同努力完成的事情上保持一致，并且我们达成了一系列协议来帮助我们去做这些事情。但我们当然不会在任何传统意义上控制它们，也不会在精神上控制它们，我也不想。

所以，我一开始就说了，我们需要微软职权范围之外的人来推动我们。否则，我们的野心就会出错。作为一家大型科技公司，很容易孤立，只能看到，“这就是我正在做的，这是我的东西，这就是我一直以来的方式。”我的意思是，微软是一个老公司。在这一点上，我们已经快50岁了。找一个独立的合作伙伴，他们有自己的野心，他们自己想做的事情……我们有紧密的联系，但独立性对于我们建立成功的伙伴关系确实至关重要。

谈论涌现能力让人们感到害怕

帕特尔：关于训练数据，有一场法律和版权之争，关于是否应该将艺术家和作家放入训练数据中，存在一场道德斗争。好莱坞有一场编剧罢工，其中包含一些对人工智能的担忧。在某个时候，“副驾驶”，生成式AI，将能够创作出相当不错的诗歌。我会说，现在它们真的做不到。现在AI的写作还有一英里的差距。但在某些时候，它会变得更好。你认为微软、OpenAI、谷歌或任何人必须开始补偿那些制作进入模型的故事的人吗？

斯科特：或许。我不知道。我确实相信从事创造性工作的人应该为他们所做的工作得到很好的补偿。

人类似乎真的喜欢消费我们自己生产的东西。奈飞上有个剧叫《后翼弃兵》（TheQueen'sGambit，又译《女王的棋局》），我们现在可以有《机器的棋局》，并拥有一个关于计算机相互对战的奈飞节目，这些机器比最好的人类玩家还厉害，但是没有人想看，因为即使他们在做这种超过人类的事情，谁在乎呢？我们喜欢人与人之间的戏剧。我认为，当谈到消费创意性输出时，你这样做的部分原因是与其他人建立联系。

这就是为什么我对这些“副驾驶”的AI愿景感到非常兴奋。我更愿意创造一些东西来帮助那些有创造力的人去做他们现在甚至无法想象的事情，而不要一个因为机器人太优秀而无需更多创造者的世界。我不认为那是我们想要的。因为那不是我们想要的，所以我认为可能不会发生。

帕特尔：我认识很多AI研究人员，他们认为我们刚刚向通用人工智能（AGI）迈出了一大步。你和我最后一次谈论你的书是在2020年，你说不是5年后，也不是10年后。我知道现在有人认为它是5年后。你认为我们在哪里？

斯科特：我仍然不知道（通用人工智能）是否还有5年。这是一件很奇怪的事情。过去一年发生的事情迫使你思考，当你说AGI时你指的是什么。我认为人们在说这句话时的意思不同，这真的很有趣，而且我们对它是什么还没有一个很好的定义。

我真的相信，随着时间的推移，拥有更强大的系统来完成更复杂的认知任务是一件好事，你可以从“嘿，告诉我这句话的情感是什么”到“嘿，我希望你为我写一篇关于哈布斯堡王朝女皇玛丽亚·特蕾西娅及其对女权主义的影响的文章。”我实际上在几个月前就这样做了。

帕特尔：结果好吗？

斯科特：不错。我妻子是历史学家。她对此有一些小问题，但它有点像八年级的B-作文。我认为，在未来，我们会到达一个程度，你可以让系统执行更复杂的任务，这些任务需要多个步骤并访问一堆不同存储库中的信息。我认为所有这些都是有用的。当它汇合成某种东西时，你看着它会说，是的，这就是AGI……谁知道呢？5年后吗？这完全取决于你对AGI的定义。

有些人认为我们会不小心到达奇点……我们不会不小心到达。我知道在建造这些系统的战壕里是什么样子，我知道我们正在实施的所有保障措施。

此外，我觉得有一个问题是，人们谈论涌现的能力，这让人们感到害怕，他们会说，“哦，好吧，如果你无法预测GPT-4的涌现能力，那么还有什么是你无法预测的？仅仅是你不能预测GPT-4比GPT-3.5更能讲笑话，并不意味着你不能采取一整套措施来确保超级奇怪的事情不会发生。

无论如何，在这些通用人工超级智能的对话中，我并没有发现很多感到慰籍的情绪，因为从狭义上讲，我们可能需要某种形式的超级智能。如果你有一个代理，你可以说，“嘿，我希望你去开发一种治疗癌症的方法，一组可以治愈这一系列癌症的化合物或mRNA疫苗。”如果事情能做到，我认为你会想要的。