生产中的 RAG:使你的生成式 AI 项目投入运营

作者:来自 Elastic Tim Brophy

检索增强生成 (RAG) 为组织提供了一个采用大型语言模型 (LLM) 的机会,即通过将生成式人工智能 (GenAI) 功能应用于其自己的专有数据。使用 RAG 可以降低固有风险,因为我们依赖受控数据集作为模型答案的基础,而不是依赖可能不可靠、与我们的用例无关或完全不正确的训练数据。但是,你必须不断管理 RAG 管道,以确保答案有根据且准确。本博客将探讨在生产中部署 RAG 功能的关键注意事项,并展示 Elastic Search AI 平台如何为你提供所需的洞察力,让你安心运行 RAG 管道。

定义 RAG 管道

典型的 RAG 实现包括将用户提供的问题连同附带的上下文一起发送到 LLM。上下文需要提供相关信息,以告知 LLM 的答案。上下文由搜索结果生成,搜索结果是通过对用户问题与向量存储的内容进行评估而返回的,以确保结果在语义上与问题相匹配。在 Elastic Search AI 平台的情况下,上下文也可以是混合搜索的结果,其中包括词汇搜索、文档过滤和访问控制规则。通过一次谨慎的动作执行混合搜索操作的能力,开发人员可以通过结合语义轴和词汇搜索轴的结果,为 LLM 构建尽可能相关的上下文。此外,过滤器和访问控制规则限制了将要搜索的数据语料库,以符合 RBAC 规则,既提高了性能,又维护了数据安全。

LLM 接收问题,解释上下文,然后给出答案,该答案通常是上下文的摘要或来自上下文的相关陈述的综合。问题和上下文的组合被称为提示(prompt),提示还为 LLM 提供了有关其角色的说明和定义其应如何回答的护栏。开发人员创建了一个称为提示模板的工件,该工件以逻辑方式将所有这些值组合在一起,可以重复使用和微调以确保正确的结果。

因此,RAG 实现可以看作是由以下元素组成的管道:

  1. 用户提供的问题
  2. 搜索生成的上下文
  3. 提示模板
  4. LLM 生成的答案

生产注意事项

在实施 RAG 管道时,需要考虑许多操作和性能注意事项,以确保提供的体验符合最终用户和在其应用程序中构建 LLM 功能的团队的期望。

  1. 与任何应用程序一样,需要跟踪指标,以确保 RAG 管道在 SLO 和 SLI 目标范围内运行。
  2. 问题和答案不应被丢弃,因为它们包含有关系统行为和用户偏好的宝贵信息。
  3. 成本应不断跟踪和审查。
  4. 需要持续评估 RAG 管道,以确保 LLM 响应准确,并为它们提供足够的背景信息来回答这些问题。

那么,究竟如何实现这一点?将 RAG 管道投入生产时需要考虑哪些模式和实践?可以理解,这是一个非常广泛的主题,但我们将从高层次介绍这些考虑因素,以鼓励进一步阅读和探索。

RAG 性能和监控

在构建 RAG 管道时,确定适合你用例的正确提示技术至关重要,因为它可能是真实而有价值的答案与误导性和令人沮丧的答案之间的区别。因此,快速开发需要对基础数据和基准测试框架有充分的了解,该框架可以客观地衡量 LLM 答案并严格根据事实对其进行测试。选择基准测试框架不仅依赖于了解哪些指标很重要,而且还依赖于了解这些指标需要如何衡量。一旦投入生产,记录所有 LLM 交互就成为 RAG 管道的强制性方面,以确保管理和控制数据点,例如成本、延迟和响应质量。

RAG 基准测试和评估

我们从基准测试和评估开始,因为这必须在交付生产之前进行,以减轻服务质量差或破坏性的风险。有许多基准测试框架可用,所有这些框架通常都围绕来自底层知识体系的问题和基本答案数据集进行调整,这些知识体系将用于 RAG 上下文。选择正确的框架归结为几个关键因素:

  1. 该框架应与你团队的技能、你的应用程序代码和你的组织策略兼容。这是一种跨职能集成,应与你的决策保持一致。例如,如果你选择专门利用本地托管的 LLM,那么框架应该适应这一点。
  2. 你需要灵活地选择对你来说很重要的评估指标。
  3. 生成的评估输出应该易于集成到你现有的可观察性或安全性工具中,因为 LLM 是它们所用应用程序的关键功能,不应被视为单独的系统。

这些问题/答案对代表对数据和用例的基本理解,并将用于评估整个管道的性能。重要的是,问题集应包含用户最有可能提出的相关问题,或者至少是用户最有可能提出的问题类型。答案不应是简单地从文档中剪切和粘贴,而应是一个或多个事实的总结,这些事实足以回答问题,因为这正是 LLM 可能在回答问题时生成的。

基准问题将通过 RAG 管道传递,并生成两个输出以告知任何评估指标:LLM 响应和上下文。在大多数情况下,除了测量答案的语义相似性之外,框架还会根据基准数据集中的答案评估 LLM 响应的准确性或正确性。还可以将答案与上下文进行比较,以确保其包含的任何陈述都可以基于问题得出的搜索结果。可以通过考虑基准、上下文和问题来计算答案的相关性,从而应用进一步的指标。

尽管 RAG 基准旨在出于功能原因衡量答案的质量,但实施预生产阶段可以显著降低幻觉、偏见甚至训练数据中毒的风险,因为基准数据集代表绝对真实并将突出显示 LLM 输出中的不规则之处。

RAG 日志记录

LLM 可能确实不会生成有关其如何生成内容的日志文件,但这并不意味着无法记录与 LLM 交互的宝贵细节。决定需要记录什么取决于对你的业务而言什么是重要的,但至少应该捕获以下数据:

  1. 用户提供的推动交互的问题(例如,我每年可以获得多少 PTO?)
  2. LLM 生成的答案(例如“...根据政策,你每年有权获得 23 天的 PTO,来源:人力资源政策,第 10 页。”)
  3. 提交给 LLM、第一次回复和 LLM 完成回复的时间戳。
  4. 提交和第一次响应之间的延迟
  5. LLM 模型名称、版本和提供商
  6. 调用时配置的 LLM 模型温度(用于调试幻觉)
  7. 端点或实例(用于区分生产和开发)

此外,你可能会发现以下字段很有用:

  1. 提示和答案的成本,以代币为单位衡量,并基于模型提供商提供的单位成本
  2. 正在促进的业务工作流程(客户支持、工程知识库等)
  3. 提交给 LLM 的提示(带或不带上下文,因为你可能希望将上下文提取到单独的字段中,这有助于调试或排除答案语气、幻觉和准确性故障。)
  4. LLM 响应的情绪(这可以通过运行情绪模型来实现)

即使在你的 RAG 管道达到生产状态之前,记录运营数据也至关重要,以消除任何潜在的盲点,充分管理成本和客户满意度,并验证基准测试中观察到的结果是否在现实世界中得到复制。

创建统一的 RAG 数据平台

新兴技术中最常见的模式之一是针对每个细微需求使用多种工具。单点解决方案往往能满足系统的一项需求,但需要系统所有者或架构师为其余需求寻找解决方案。这本身并不坏,因为试图满足太多不同的目标可能会导致无法完全满足其中任何一个目标。然而,当你考虑到数据是任何系统中最有价值的资产时,将数据集中到一个统一的平台确实会让你的最宝贵资产更易于使用和管理。当使用来自大型系统其他部分的数据提供的上下文来分析数据时,就会出现新的见解和意义。

适用于 RAG 的 Elastic Search AI 框架

Elastic 可以作为基础数据层,在单一平台上解决 RAG 管道的所有数据输入和输出问题,包括性能和监控框架生成的数据。下面是一个功能架构,代表了 Elastic 如何促进 RAG 管道的每个步骤。

Elastic Search AI 平台的独特之处在于,它能够通过利用以下功能满足管道的功能需求:

  1. Elastic 是用于 GenAI 上下文构建的最佳存储和检索引擎。可以在单个 API 端点内灵活地使用词汇和语义搜索功能,允许 RBAC 实施和复杂的重新排名功能,以实现有效的上下文窗口。
  2. Elastic 是全球无数项目和团队的事实标准日志记录平台,并作为 Elastic Observability 和 Elastic Security 解决方案的底层数据平台。添加 LLM 日志记录数据只需利用此本机功能即可。
  3. Elastic Search AI 平台能够托管将内容向量化所需的转换器模型,以便使其在语义上可搜索,而无需外部模型托管工具和服务。这是通过利用 Elastic 提供的 ELSER 稀疏向量模型以及启用自定义模型导入来实现的。
  4. Elastic 可以用作基准测试设置数据的内容存储,包括问题、答案和基本事实 - 允许使用与 RAG 管道相同的库来实现评估框架,从而进一步降低复杂性并确保测试框架与应用程序实现保持一致。
  5. Elastic 作为基准测试数据目标,可以进行细粒度分析和全面可视化结果。这些基准测试结果还可以与实时日志数据相结合,以表示整体管道健康状况并识别功能偏差,这可以进一步利用 Elastic 的警报功能来确保不会遗漏任何异常。
  6. 最后,Elastic 可以轻松汇总常见问题,以更好地告知基准测试配置,使其与现实世界数据紧密结合。鉴于基准测试实际上是一种回归活动,这一步对于确保其可信和相关至关重要。了解用户最常问的问题还可以缓存这些答案以获得即时响应,从而无需参考 LLM。

由于所有数据都记录在 Elastic 中,因此可视化、仪表板和警报的配置都简单且快捷,为你的团队提供了顺利且主动地运行管道所需的可视性。

结论

经过深思熟虑和深思熟虑地实施 RAG 可以获得很多好处,但如果不考虑 RAG 管道的持续管理生命周期,许多好处都可能被抵消。Elastic Search AI 平台简化了强大且安全的 RAG 管道的部署,支持 GenAI 的采用,同时最大限度地降低与这些早期技术相关的风险。请务必立即注册 Elastic Cloud 的免费试用版,以使用 Elastic Search AI 平台将你的 GenAI 想法尽快、轻松地投入生产。

准备好自己尝试了吗?开始免费试用。
希望将 RAG 构建到你的应用程序中?想要尝试使用向量数据库的不同 LLMs?
查看我们在 Github 上针对 LangChain、Cohere 等的示例笔记本,并立即加入 Elasticsearch Relevance Engine 培训。

原文:Retrieval Augmented Generation in production: Operationalize your GenAI project — Elastic Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/715154.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

比利时海外媒体宣发,发稿促进媒体通稿发布新形势-大舍传媒

引言 随着全球化的推进,海外媒体的影响力也日益增强。在这一背景下,比利时海外媒体的宣发工作成为了媒体通稿发布的新形势。大舍传媒作为一家专注于宣传推广的公司,一直致力于与比利时博伊克邮报(boicpost)合作&#…

ModuleNotFoundError: No module named ‘distutils‘的解决办法

最近想试试odoo17,在windows环境下,想安装试验一下,结果老出现oduleNotFoundError: No module named ‘distutils‘错误。查了一下,以为是python版本导致的,结果试了很多版本如下: 试了几个,每个…

4-异常-log4j配置日志滚动覆盖出现日志丢失问题

4-异常-log4j配置日志打印滚动覆盖出现日志丢失问题(附源码分析) 更多内容欢迎关注我(持续更新中,欢迎Star✨) Github:CodeZeng1998/Java-Developer-Work-Note 技术公众号:CodeZeng1998(纯纯技术文&…

浪潮信息内存故障预警技术再升级 服务器稳定性再获提升

浪潮信息近日对其内存故障智能预警修复技术进行了全面升级,再次取得技术突破。此次升级后,公司服务器的宕机率实现了80%锐降,再次彰显了浪潮信息在服务器技术领域的卓越能力。 浪潮信息全新升级服务器内存故障智能预警修复技术MUPR (Memory …

大数据开发流程解析

大数据开发是一个复杂且系统的过程,涉及需求分析、数据探查、指标管理、模型设计、ETL开发、数据验证、任务调度以及上线管理等多个阶段。本文将详细介绍每个阶段的内容,并提供相关示例和代码示例,帮助理解和实施大数据开发流程。 本文中的示…

学习记录:VS2019+OpenCV3.4.1实现SURF库函数的调用

最近在学习opencv的使用,在参照书籍《OpenCV3编程入门》实现SURF时遇到不少问题,下面做归纳总结。 错误 LNK2019 无法解析的外部符号 “public: static struct cv::Ptr __cdecl cv::xfeatures2d::SURF::create(double,int,int,bool,bool)” (?createSUR…

Java文件/文件夹的新增/删除/递归遍历

获取File对象 这里的字符串可以乱写,但是如果不存在后续的操作也会失败 // 获取抽象的File对象(文件或者目录,不一定真实存在)File file1 new File("D:\\2_WorkSpace\\qcbyProject\\shixun\\collection-test\\src\\FileTes…

k8s上使用ConfigMap 和 Secret

使用ConfigMap 和 Secret 实验目标: 学习如何使用 ConfigMap 和 Secret 来管理应用的配置。 实验步骤: 创建一个 ConfigMap 存储应用配置。创建一个 Secret 存储敏感信息(如数据库密码)。在 Pod 中挂载 ConfigMap 和 Secret&am…

明日周刊-第13期

在这期间发生了很多的事,导致拖更了一周。接下去努力不断更,哈哈哈希望如此。配图是最近上映的一部电影《狗阵》的海报,看完之后感悟颇深,希望大家都能去电影院感受一下。 文章目录 一周热点资源分享言论歌曲推荐 一周热点 最近一…

一文带你了解OSCP 2024

OSCP简述 我们先说说,OSCP 是什么? OSCP (Offensive Security Certified Professional)是 Offensive Security (该公司开发和维护着 KALI Linux,以下简称 Offsec)推出的体系非常完善&#xff0…

Intel平台,13600KF+3060Ti,虚拟机安装macOS 14(2024年6月)

距离上次装macOS虚拟机已经有一段时间了,macOS系统现在大版本升级的速度也是越来越快了,由于Office只支持最新三个版本的macOS,所以现在保底也得安装macOS 12了,我这次是用macOS 14做实验,13和12的安装方式和macOS 14一…

【flink实战】flink-connector-mysql-cdc导致mysql连接器报类型转换错误

文章目录 一. 报错现象二. 方案二:重新编译打包flink-connector-cdc1. 排查脚本2. 重新编译打包flink-sql-connector-mysql-cdc-2.4.0.jar3. 测试flink环境 三. 方案一:改造flink连接器 一. 报错现象 flink sql任务是:mysql到hdfs的离线任务&…

关于学习Token、JWT、Cookie等验证授权方式的总结

目录 一、为什么Cookie无法防止CSRF攻击,而Token可以? 二、为什么无论采用Cookie-session的方式,还是Token(JWT)的方式,在一个浏览器里,同一个网站只能保证一个用户处于登录状态? …

讨论C++模板

讨论C模板 函数重载和泛型编程模板分类函数模板语法原理函数模板的实例化隐式实例化显示实例化 匹配原则 类模板语法类模板的实例化 C支持了函数重载,通过函数名相同,参数列表不同来构成函数重载,以达到方便程序员调用。但还是没有改变代码大…

Python基础教程(二十一):多线程

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

C++ 56 之 菱形继承

#include <iostream> #include <string> using namespace std;// 动物类: 虚基类 class Animal{ public:int m_age; };// 羊类 class Sheep : virtual public Animal{ // virtual虚继承 };// 驼类 class Tuo : virtual public Animal{ // virtual虚继承 指向同一块…

【计算机毕业设计】基于Springboot的车辆管理系统【源码+lw+部署文档】

包含论文源码的压缩包较大&#xff0c;请私信或者加我的绿色小软件获取 免责声明&#xff1a;资料部分来源于合法的互联网渠道收集和整理&#xff0c;部分自己学习积累成果&#xff0c;供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者…

016基于SSM+Jsp的医院远程诊断系统

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

排序1---插入排序

目录 插入排序的基本思路&#xff1a; 插入排序的代码实现&#xff1a; 代码&#xff1a; 代码解读&#xff1a; 插入排序的时间、空间复杂度&#xff1a; 插入排序的基本思路&#xff1a; 插入排序是一个比较简单的排序。 我们插入排序就是我们先假设前面的一段区间有序…

子域名爆破工具

本章将记录3个子域名爆破工具subfinder、OneForAll、ksubdomain的安装&#xff0c;项目地址分别是&#xff1a; https://github.com/projectdiscovery/subfinder https://github.com/shmilylty/OneForAll https://github.com/knownsec/ksubdomain 1. subfinder 我是在Windows…