RAG，在企业AI中释放LLM大模型的潜力

2024-11-20 08:31:38 - 数据猿

从自然语言处理到计算机视觉等，生成式AI（GenAI）超越了传统的单一数据源模型，以整合各种模式的多种数据源，使自然语言大模型（LLM）更接近于模仿人类的能力。随着企业从谨慎探索转向快速整合，GenAI在企业关键业务职能中的采用率将稳步上升，为企业带来核心竞争力提升等优势。

一方面，很多用户都想将GPT这样的LLM引入到企业，建立企业自己的专属大模型。而另一方面，即使像GPT-4这样功能强大的LLM，在处理特定领域或实时信息方面依然面临众多挑战。

单独使用LLM会面临两个问题：答案可能过时，响应可能出现错误。根据Vectara的幻觉排行榜，即使是表现最好的LLM系列的幻觉率也在1.5%到1.9%之间。

为了克服这些潜在问题，企业可以使用数据流将新信息导入其数据集，并部署检索增强生成（RAG），使大模型的响应更加准确，且与上下文相关。

RAG通过与大模型微调(FineTune)技术、知识图谱等各种技术协同作用，正在彻底改变数据的处理、解释和使用方式，从而实现更准确、上下文感知和个性化的AI应用。这种超强组合，正在被OpenAI、微软、AWS、阿里云等应采用，领跑LLM的发展与应用。

RAG，在企业AI中释放LLM大模型的潜力

企业为什么选择“RAG”？

训练数据的质量、数量和多样性等对生成式AI模型的性能影响巨大，而模型架构、训练技术和所解决问题的复杂性等因素也发挥着重要作用。

当前幻觉问题、信息不准确、计算成本上升、资源有限以及对实时动态信息的需求等，都是企业级LLM解决方案需要解决的核心问题。为此，RAG应运而生。

那么什么是RAG呢？OpenAIChatGPT、GoogleGemini等AI应用的背后均由LLM驱动。LLM可以理解、总结、生成和预测新内容。但是，这些大模型生成的内容仍然可能不一致，并在一些知识密集型任务中败北，尤其是那些超出其初始训练数据的任务，或者需要最新信息的任务。这种情况下，LLM可能会返回虚假信息，也称为AI幻觉。

LLM通常是离线训练的，这使得模型不理解后来的任何数据。另外当LLM的训练数据不足时，也可能影响响应的质量。

为解决这些问题，人们提出了RAG技术。RAG是一种人工智能框架和自然语言处理技术，可从外部知识来源检索数据，用于大型语言模型（LLM），通过在响应中添加相关的检索数据来增强用户的提示，有助于减少明显的知识差距和AI幻觉，在需要尽可能多的最新和准确信息的领域（如医疗保健）应用中显得更为重要。

同时RAG是一种经济高效且可扩展的方法，可以提高LLM的质量和实用性，而无需使用新数据重新训练模型，适用于任何需要外部知识的领域或任务，如医疗诊断、法律建议或产品评论。用户可以自定义RAG以使用不同的知识源，如数据或专有信息，以满足特定的需求和偏好。

另外，RAG可以提高LLM的性能。RAG在请求到达公共LLM之前拦截请求，并使用专有组织数据来增强用户的请求。它将修改后的提示转发给LLM以获得更准确和相关的响应。

RAG提示拦截流程通过简单的四步方法简化了获得高度相关答案的过程：

首先用户提交请求。用户提出问题或寻求特定信息。此初始步骤是建立查询的基础和用户的意图。

其次，请求被拦截并得到扩充。RAG拦截并添加到原始请求中。该增强功能改进了请求，确保它能够从LLM中获得最相关和最全面的答案。

另外，向LLM提交增强查询。RAG将请求转发给LLM，并提供更多详细信息。上下文的注入确保了LLM的响应是准确的，并且经过精心定制，以解决请求的细微差别和特殊性。

最后返回Tailored响应。通过上述步骤丰富了答案，是与初始查询一致的更准确、更相关的响应。这种个性化方法确保了答案的准确性，尤其适用于特定的个人化需求。

应用RAG有哪些好处？目前来看，RAG优势包括：

在内容生成上，RAG提供最新信息，从相关、可靠和最新的来源提取信息；综合信息，通过组合来自检索和生成模型的相关信息来合成数据以产生响应；减少AI幻觉，由于LLM基于外部数据，因此模型编造或返回错误信息的机会较小。

在应用上，RAG增加了用户信任，用户可以访问模型的来源，提高了内容的透明度和信任度，并允许用户验证其准确性；可用于多个任务，除了聊天机器人之外，RAG还可以针对各种特定用例进行微调，如文本摘要和对话系统。

在成本上，RAG降低计算和财务成本，企业不必花费过多时间和资源来不断使用新数据训练模型；同时变得更容易训练，由于RAG使用检索到的知识源，因此减少了在大量训练数据上训练LLM的需求。

大公司都用RAG干什么？

企业选择RAG最重要的原因是减少幻觉，提供更准确、相关和值得信赖的输出，同时保持对信息源的控制，并能够根据其特定需求和领域定制。通过RAG等技术可以减少LLM幻觉的能力，在不同的企业中都得到了验证。

OpenAI在不同的领域，全面应用RAG技术。早期，OpenAI将大型语言模型(LLM)与图形数据库Neo4j等相结合，从图形数据库中获取相关信息，用于生成响应，以执行RAG。

同时，OpenAI通过聊天记录搜索功能全面投入RAG。10月30日，OpenAI宣布推出一项新功能，允许用户在ChatGPT网络上搜索其聊天记录。用户能够快速轻松地访问历史对话记录，从而参考过去的讨论或从离开的地方继续操作。

此功能由OpenAI收购的Rockset公司开发，旨在利用Rockset的高级分析来增强OpenAI的检索基础设施，Rockset正在与OpenAI合作，以应对AI应用大规模面临的复杂数据库挑战。

Rockset通过其RAG功能增强了LLM的功能，对于希望利用专有数据降低幻觉风险的OpenAI企业客户来说非常有价值。

目前Rockset采用融合索引方法，将行、列和搜索索引相结合，支持跨多种数据类型和格式进行快速搜索。目前，还没有其他数据库公司提供此特定服务。

另外Rockset融合了关键词搜索、向量搜索等功能，以提供精确的关键词匹配以及语义丰富的搜索结果，从而获得更相关和上下文感知的结果。

微软CEOSatyaNadella在MicrosoftBuild2024说，RAG是任何AI驱动的应用的核心，尤其是在当今的企业中。而微软AzureAI搜索使运行任何规模的RAG成为可能，使用最先进的检索系统提供高度准确的响应。ChatGPT、数据助手以后都由AzureAI搜索提供支持。

AzureAI搜索功能已经作为一种服务向用户提供。作为RAG体系结构中经过验证的信息检索解决方案，AzureAI搜索提供了强大的索引和查询功能，利用Azure云的基础设施和安全性，确保可靠和安全的性能。

在MicrosoftBuild2024上，微软同时宣布将RAG整合到Copilot中，从而可以更轻松地将设备上数据用于企业应用，提供了在平台内构建向量存储的正确工具，并支持语义搜索。

今年7月，Microsoft开源了GraphRAG，一种基于图形的RAG方法，支持对私有或以前未见过的数据集进行问答。GraphRAG现已在GitHub上提供。

与传统的RAG方法相比，GraphRAG提供了结构化的信息检索和全面的响应生成。GraphRAG代码存储库附带一个解决方案加速器，提供托管在Azure上的易于使用的API体验，无需编码即可部署。

另外，GraphRAG采用大型语言模型（LLM）从任何文本文档集合中自动提取知识图谱。这种基于图的数据索引可以通过以分层方式检测密集连接节点的“社区”，在用户查询之前报告数据的语义结构。

阿里云于今年推出了企业级大模型检索增强生成（RAG）解决方案。其主要应用场景包括企业知识库、智能客服、电商导购、课程助手、搜索场景升级等。

目前来看，阿里云RAG的优势包括知识准确且更新及时，答案可追溯，成本相对较低，开放性和自由度高，部署方便快捷等。例如通过阿里云百炼平台等，企业只需少量代码即可搭建RAG应用，提供一站式、全托管的大模型定制与应用服务。

另外，蚂蚁对外开源的GraphRAG框架，其运作核心是紧密结合信息检索与大模型能力。从索引环节看，通过大语言模型服务，高效提取文档三元组并存入图数据库；检索过程中，利用大语言模型服务抽取并泛化查询关键词，随后在图数据库里遍历子图，精准定位局部子图；生成阶段，将局部子图转化为文本格式，和问题一起让大模型处理，输出高质量回答。

和传统RAG框架比起来，蚂蚁的GraphRAG融入知识图谱技术，能敏锐捕捉文本关联，过滤冗余信息，构建更完整的知识网络，为开发者提供了极具价值的开源工具。

另外，腾讯元宝、月之暗面的Kimi、智谱清言、文心一言等LLM都采用了各自的RAG技术，其工作流程基本涵盖三个方面：检索，从预先建立的知识库中检索与问题相关的信息；增强，将检索到的信息用作生成模型的上下文输入，以增强模型对特定问题的理解和回答能力；生成，结合LLM生成符合用户需求的回答。

目前，LLM在应用RAG时正在解决两大挑战：一是延迟，检索阶段可能会增加额外的延迟，尤其是在需要实时响应的应用中；二是保持数据一致性，需要确保检索到的数据与生成任务的上下文保持一致。

长上下文并不会杀死RAG

毫不夸张地说，2024年大模型的上下文窗口不断突破上限，成为大模型吸引用户的一个重要指标。如AnthropicClaude3的上下文窗口为200K（特定用例高达100万个令牌），GoogleGemini1.5的上下文长度窗口为1M，开源的MetaLlama3后来居上，其Gradient的用例将LLama-38B的上下文长度从8k扩展到超过1048K。

从长上下文长度到无限上下文长度的竞赛，Microsoft、Google、Meta、OpenAI，以及国内的阿里云、腾讯云等所有大公司都在朝着这一方向迈进，从而引发了“长背景与RAG”的争论。

其实RAG有其自身的一系列局限性，如虽然它在模型需要满足特定信息需求的知识密集型情况下最有用，但在推理密集型任务中却不是那么有效了。模型可能会因不相关的内容而分心，尤其是在答案不明确的冗长文档时。有时，大模型选择依赖其内置内存，而忽略检索到的文档中的信息。

由于RAG大规模运行的硬件要求比较高，使用RAG的成本就可能提高，因为检索到的文档必须临时存储在内存中，以便模型访问。另一项支出是计算模型在生成响应之前必须处理增加的上下文。

如果长上下文LLM真的可以取代RAG，那么还应该能够从上下文中检索特定事实，对其进行推理，并根据它返回答案。但是即使是长篇大论的LLM也不能避免顽固幻觉的出现，同时随着长语境中文字的数量的增加，LLM的性能也会下降。

此外，还需要考虑延迟，因为每次用户提交查询时，都必须向LLM提供完整的上下文或完整信息才能获得结果，此要求可能会带来大量开销，从而造成延迟。

因此，长上下文并不会杀死RAG，只会增强它。将RAG与长上下文LLM相结合，可以创建一个强大的系统，能够有效且高效地大规模检索和分析数据。

另外，RAG不再局限于向量数据库匹配，未来还将引入许多高级RAG技术，可显著改善检索。例如，将知识图谱（KG）集成到RAG中，通过利用来自KG的结构化和互连数据，RAG系统的推理能力可以大大增强。

RAG，在企业AI中释放LLM大模型的潜力