万字长文解读生成式AI参考架构

2024-10-11  本文已影响0人  DeepNoMind

本文介绍了构建端到端生产级GenAI应用的参考架构模型,涵盖了从UI/UX设计到多代理系统的各个方面,涉及AI模型的准备、调优、服务以及治理等关键环节。原文: The GenAI Reference Architecture

本文将介绍构建端到端 GenAI 应用的主要架构构件和蓝图,以便为生产做好准备,并且提出了几个在实施和设计基于 LLM 的应用时需要注意的关键事项。

在目标架构中选择 GenAI 组件的 AI 成熟度:需要确定自己在 AI 成熟度频谱中处于什么位置,以及应该处于什么位置,以便实施可支持生成式应用业务用例架构。因此,并不一定需要为每个应用提供所有架构组件,而是可以根据项目、业务线或组织的成熟度,在这些架构组件中进行选择。所有这些体系架构构建块或组件都可以通过本文提供的模式来构建。请记住,模式生成体系架构(在这种情况下是微体系架构,或者是设计和构建基于 LLM 的应用程序的特定部分所必需的体系架构构建块)。此外,本文还将提供生成式人工智能成熟度模型,帮助你了解自己在 LLM 方面的成熟度和先进性,以便成功实施应用。

在架构组件中选择模式。比方说,你需要提示工程、选择后端 LLM(例如,谷歌 Gemini)并为模型提供服务,需要检索增强,因此实际上成熟度为 3 级(参见生成式 AI 成熟度模型)。重要的是要记住,即使现在知道目标成熟度是构建具有 3 级检索增强生成能力的应用,也有很多方法来实现架构中的 RAG 组件。因此,我们将此组件视为可以在不同复杂度级别上设计和实现的模式。说的更详细一点,RAG 可以实现为基本 RAG、中级 RAG、高级 RAG 或自动化 RAG。因此,即使知道该架构组件的目标成熟度级别,仍然需要决定实现该模式的具体细节。

预测式 AI、生成式 AI 和数据管道都是公平竞争的。需要注意的是,生成式 AI 将包括传统的预测式 AI 以及数据摄取、清理、网格、管道等模式。随着生成式 AI 的发展和普及,重要的是要将该领域理解为一系列模式,这些模式由问题-解决方案对组成,具有特定的背景、能力或权衡,以及需要做出的考虑。在应用模式(即模式的解决方案部分)之后,总会产生一些后果:并不是问题空间中的每一种问题都能通过对该架构组件应用模式而得到解决。因此,有些问题将无法解决,仍然需要应用其他模式或技术来解决这些问题。本文将提供一个章节来说明由此产生的后果,并参考其他可能有用的模式。其中一些模式我们已在此详细阐述,另一些则是常见的、相当直观的模式,可以在文献中查找参考资料,以便实施这些模式。

有了这些初步考虑,我们就可以深入了解参考架构的每一个架构组件,对它们进行总体探讨,然后从模式的角度进行审视。

UI/UX

对话式 UI。对话式界面利用自然语言处理技术来实现类人交互。Ram 等人在 2020 年发表的论文[1]讨论了对话式人工智能的进展,重点介绍了迁移学习和强化学习等技术,以改进对话系统。该论文强调了自然和情境感知交互对于增强用户体验的重要性。

个性化。用户界面个性化包括根据个人用户的偏好和需求定制界面。Kocaballi 等人 2019 年发表的一篇论文[2]探讨了个性化在基于 AI 的健康干预中的作用。作者讨论了个性化界面如何提高用户参与度和对 AI 驱动的建议的依从性,从而带来更好的健康结果。

借助谷歌的 Vertex AI 平台,实际上可以构建一种无代码或低代码交互的用户体验,以及全代码(基于 API)交互。通过代理生成器平台,可以帮助我们实现复杂的搜索、对话和应用,并利用企业存储库和数据(无论是结构化数据还是非结构化数据)中的专有数据立即执行检索增强。这可以通过 Vertex AI 搜索和 Vertex AI 会话来实现,以构建基于代理的应用,支持客户代理、员工代理、数据代理等会话代理。

模式架构

问题/挑战

背景

考虑因素/取舍

解决方案

结果

相关模式

提示工程(Prompt)

模板:提示模板提供了一种指导 AI 模型的结构化方法。Liu 等人在 2021 年的一篇论文[3]中提出了一种基于提示的自然语言处理任务学习框架。作者展示了精心设计的提示模板如何在各种基准测试中显著提高模型性能,突出了高效提示工程的重要性。

问题/挑战

背景

考虑因素/取舍

解决方案

解决方案详情

提示工程最佳实践:扩展版

1. 明确并具体

2. 背景规定

3. 分步说明

4. 少量学习(Few-Shot Learning)

5. 思维链(Chain-of-Thought,CoT)提示 [22]

6. 思维树(Tree-of-Thought,ToT)提示法 [23]

7. 思维大纲(Outline-of-Thought,OoT)和其他 X 思维提示 [26]

8. ReAct(Reason-Act,理由-行动)框架 [24]

9. DSPy 提示工程模板 [25]

DSPy 是一个基础模型编程框架,通过将程序流程与每一步的参数分离,允许用户构建复杂的系统。该模型通过模块和优化器实现,模块是程序的构件,指定输入和输出,优化器是可以调整程序的提示和权重的算法。DSPy 可用于编译程序,这意味着它可以通过创建有效的提示和更新权重来提高程序的质量。

10. 迭代测试和改进:

举例说明:测试提示后,分析模型的输出结果,调整提示措辞、结构或示例,以改进结果。

考虑调整:

结果

相关模式

RAG(检索、增强、生成)

RAG 就是检索增强生成(Retrieval Augmented Generation)。它可以使用多种技术,包括基础 RAG、中级 RAG 和高级 RAG,本文只介绍基础 RAG。

RAG 的主题是数据扩充(Data Enrichment):RAG 利用数据扩充和增强来提高提示质量。Lewis 等人在 2021 年的一篇论文[5]中提出了一种用于问题解答的检索增强生成方法。作者展示了从外部知识源检索相关段落如何显著提高生成答案的准确性和信息量。

情境感知是 RAG 的关键目标,RAG 通过使用额外数据增强提示来提高模型的语境意识。Guu 等人在 2020 年的一篇论文[6]中介绍了一种知识增强语言模型,该模型可从知识库中检索并整合相关信息。作者展示了这种方法如何增强模型生成与上下文相关且事实准确的回复的能力。

问题/挑战

背景

考虑因素/取舍

解决方案

结果

相关模式

服务(Serve)

API 管理:通过 API 服务 AI 模型可实现与应用程序的无缝集成。Zaharia 等人 2019 年的一篇论文[7]讨论了大规模部署机器学习模型的挑战和最佳实践。作者强调了强大的 API 管理对于高效、可靠的提供 AI 能力的重要性。

服务网格:服务网格架构有利于微服务(包括 AI 服务)的部署和管理。2020 年,Amershi 等人的一篇论文[8]探讨了服务网格在 MLOps 中的作用,强调了它们在可观察性、流量管理和安全性方面对人工智能部署的益处。

问题/挑战

背景

考虑因素/取舍

解决方案

相关模式:API 管理、服务网格

适应性(Adapt)

模块化:模块化 AI 组件提高了适应性和可重用性。Li 等人在 2021 年发表的一篇论文[9]中提出了模块化深度学习框架,可为各种任务组合可重用模块,展示了模块化如何提高 AI 模型在不同领域的灵活性和可移植性。

系统集成:将 AI解决方案与现有系统集成对于无缝采用至关重要。2020 年,Paleyes 等人在一篇论文[10]中讨论了将机器学习模型集成到生产系统中的挑战和策略,强调了标准化接口和强大的集成流水线对于成功部署 AI 的重要性。

问题/挑战

背景:

考虑因素/取舍:

解决方案:

解决方案详情:

结果

相关模式

准备和优化数据与模型

准备和优化数据与模型是开发有效 AI 解决方案的关键环节。高效的数据管道在这一过程中发挥着至关重要的作用,可以完成必要的数据清理、整合和特征工程任务。Polyzotis 等人 2019 年发表的论文[11]对机器学习中的数据管理挑战进行了全面调查,强调了精心设计的数据管道在 AI 工作流中的重要性。除了数据准备,超参数优化也是提高模型性能的重要步骤。

Li 等人[12]在 2020 年的一篇论文中介绍了基于贝叶斯优化的高效超参数优化框架,展示了自动优化如何在减少人工干预的同时显著提高模型的准确性。此外,针对特定任务或领域对预训练模型进行微调已被证明是提高模型性能的有效方法。

Howard 和 Ruder [4] 在 2020 年的一篇论文中介绍了微调语言模型的技术,展示了辨别性微调(discriminative fine-tuning)和斜三角学习率(slanted triangular learning rates)如何在最大限度降低计算成本的同时,大幅提高下游任务的性能。通过关注数据和模型准备的这些关键方面,AI 从业者可以为各种应用开发出更准确、更高效、更量身定制的解决方案。

下面是子模式。

数据管道(Data Pipeline):高效的数据管道对于为 AI 模型准备数据至关重要。Polyzotis 等人 2019 年的一篇论文[11]对机器学习中的数据管理挑战进行了调查。作者讨论了数据清理、整合和特征工程的各种技术,强调了数据管道在 AI 工作流中的关键作用。

超参数优化(Hyperparameter Optimization):调整超参数对优化模型性能至关重要。Li 等人 2020 年的论文[12]介绍了基于贝叶斯优化的高效超参数优化框架。作者展示了自动超参数优化如何显著提高模型准确性并减少人工干预。

模型微调(Model Fine-Tuning):微调包括根据特定任务或领域调整预训练模型。Howard 和 Ruder 于 2020 年发表的论文[4]介绍了对语言模型进行微调的技术,如判别微调和斜三角学习率。作者展示了微调如何在降低计算成本的同时大幅提高模型在下游任务中的性能。

数据生成(Synthetic Data Generation):数据生成包括创建人工数据,模拟真实世界数据的特征和统计属性。这一过程依赖于能捕捉真实数据中潜在模式、分布和关系的算法和模型。通过生成合成数据,研究人员和开发人员可以扩充现有数据集,填补数据空白,并创建新的训练场景,而这些场景仅靠真实数据是无法实现的。

数据生成对微调 LLM 的重要性

数据扩充(Data Augmentation):现实世界的数据集往往存在类别不平衡或针对某些情况的代表性有限的问题。数据生成可用于增强训练数据集,通过创建新示例来平衡类别分布并涵盖代表性不足的情况,这样就能生成在不同任务和场景中表现出色的更稳健、更通用的 LLM。

数据隐私与安全(Data Privacy and Security):在许多应用中,真实数据可能包含敏感信息或个人身份信息 (PII)。数据生成允许研究人员创建既能保留真实数据基本统计属性,又能确保隐私和安全的数据集。通过在生成数据上训练 LLM,可大大降低暴露敏感信息的风险。

探索罕见或危险场景(Exploration of Rare or Dangerous Scenarios):真实数据可能缺乏罕见或危险事件的实例,这使得训练 LLM 有效处理此类情况时具有挑战性。数据生成可以创建现实生活中难以或无法收集到的场景,如极端天气事件、事故或网络攻击。通过在训练过程中让 LLM 接触这些合成场景,可以提高理解和应对此类事件的能力。

成本和时间效率(Cost and Time Efficiency):收集和标注大量真实数据是耗时且昂贵的过程。数据生成通过自动化数据创建过程,提供了经济高效的替代方法,使研究人员和开发人员能够快速迭代和试验不同训练场景,从而加快模型的开发和改进。

定制和控制(Customization and Control):数据生成可对数据特征进行高度定制和控制。研究人员可以微调数据生成模型的参数,以创建满足特定要求的数据集,例如控制生成示例的多样性、复杂性或难度,这样就能针对特定应用或领域对 LLM 进行有针对性的微调。

伦理考量

虽然数据生成具有显著优势,但考虑其所涉及的伦理问题也至关重要。应负责任、透明的使用生成数据,确保不会延续真实数据中存在的偏见或错误表述。此外,还必须验证生成数据的质量和代表性,以确保其符合所要模拟的真实世界数据的特征。

问题/挑战

背景

考虑因素/取舍

解决方案

解决方案详情:

结果

相关模式

落地(Ground)

反馈回路(Feedback Loops):反馈回路可根据用户互动情况不断改进 AI 模型。Breck 等人在 2021 年的一篇论文[13]中讨论了反馈回路在负责任的 AI 开发中的重要性,作者强调了纳入用户反馈如何有助于识别和减轻 AI 系统中的偏差、错误和意外后果。

持续监控(Continuous Monitoring):监控生产中的 AI 模型对于保持性能和检测异常情况至关重要。Klaise 等人在 2020 年的一篇论文[14]中提出了持续监控机器学习模型的框架,讨论了实时检测概念漂移、性能下降和数据质量问题的技术。

问题/挑战

背景

考虑因素/取舍

解决方案

解决方案详情

结果

相关模式

多代理系统(Multi-agent Systems)

多代理系统(MAS)已成为设计和实施复杂 AI 系统的强大范例。在多代理系统中,多个智能代理相互协作,共同解决单个代理无法解决的问题。Dorri 等人在 2021 年发表的论文[19]对 AI 中的多代理系统进行了全面调查,讨论了其应用、挑战和未来方向,强调了多代理系统中协调、交流和决策的重要性,以及在解决大规模、分布式问题方面的潜力。

MAS 的关键挑战之一是确保代理之间的有效合作。Xie 等人 2020 年的一篇论文[20]提出了一种新颖的多代理合作强化学习框架,使代理能够根据其他代理的行动来学习和调整自己的策略,并展示了这种方法如何在复杂多变的环境中提高性能和鲁棒性。

MAS 的另一重要方面是处理不确定性和不完整信息的能力。Amato 等人 2019 年的一篇论文[21]讨论了多代理系统中不确定性下分散决策的挑战和机遇,介绍了各种技术,如部分可观测马尔可夫决策过程和博弈论方法,用于建模和解决 MAS 中的决策问题。

多代理系统已在机器人、自动驾驶汽车和智能电网等多个领域得到应用。通过利用多个智能代理协同工作的力量,多代理系统可以开发出更具弹性、适应性和可扩展性的 AI 解决方案。随着 AI 系统的复杂性不断增加,多代理系统可能会在塑造 AI 的未来方面发挥越来越重要的作用。

背景

问题/挑战

考虑因素/取舍

解决方案

解决方案详情

基于 LLM 的代理

结果

相关模式

将多代理系统集成到大语言模型中,为生成高质量、专业化的语言输出提供了新的可能性。通过实现多个专业代理之间的有效协调、沟通和知识共享,LLM 可以更高效的处理复杂任务,为更先进、更智能的语言应用铺平道路。

治理(Govern)

AI 道德(Ethical AI):治理 AI 系统需要确保遵守道德原则和法规。Floridi 等人于 2021 年发表的论文[15]提出了 AI 伦理治理框架。作者讨论了 AI 开发和部署中透明度、问责制和公平性的重要性,强调了治理在促进负责任的 AI 实践中的作用。

合规管理(Compliance Management):合规管理确保 AI 系统遵守法律法规要求。Bughin 等人在 2020 年发表的一篇论文[16]中探讨了 AI 的监管环境,并讨论了管理合规风险的策略。作者强调,需要积极主动进行合规管理,以驾驭围绕 AI 不断演变的法律和道德框架。

问题/挑战

背景

考虑因素/取舍

解决方案

解决方案详情

结果

相关模式

MLOps

持续部署:MLOps 可实现 AI 模型的持续部署,从而实现快速更新和改进。Alla 和 Adari 在 2020 年的一篇论文[17]中讨论了 MLOps 的原则和实践,强调了持续集成和部署(CI/CD)管道对于高效模型更新和推出的重要性。

实时监控:实时监控对于确保 AI 模型在生产中的性能和可靠性至关重要。2021 年,Sambasivan 等人撰写的论文[18]对监控机器学习系统的挑战和最佳实践进行了研究,讨论了实时监控对于检测和缓解问题、确保 AI 模型顺利运行的重要性。

问题/挑战

背景

考虑因素/取舍

解决方案

解决方案详情

结果

相关模式

参考资料

[1] Ram, A., et al. (2020). Conversational AI: Advances and Challenges. arXiv preprint arXiv:2005.01411.

[2] Kocaballi, A. B., et al. (2019). The Role of Personalization in AI-based Health Interventions. arXiv preprint arXiv:1908.01739.

[3] Liu, X., et al. (2021). A Prompt-based Learning Framework for Natural Language Processing. arXiv preprint arXiv:2102.12206.

[4] Howard, J., & Ruder, S. (2020). Fine-tuned Language Models for Text Classification. arXiv preprint arXiv:2012.08904.

[5] Lewis, P., et al. (2021). Retrieval-Augmented Generation for Question Answering. arXiv preprint arXiv:2101.05779.

[6] Guu, K., et al. (2020). REALM: Retrieval-Augmented Language Model Pre-training. arXiv preprint arXiv:2002.08909.

[7] Zaharia, M., et al. (2019). Challenges and Best Practices in Deploying Machine Learning Models at Scale. arXiv preprint arXiv:1909.06353.

[8] Amershi, S., et al. (2020). MLOps: Practices for Efficient and Robust Machine Learning in Production. arXiv preprint arXiv:2006.12241.

[9] Li, J., et al. (2021). Modular Deep Learning: A Survey. arXiv preprint arXiv:2103.01475.

[10] Paleyes, A., et al. (2020). Challenges in Deploying Machine Learning: A Survey of Case Studies. arXiv preprint arXiv:2012.01743.

[11] Polyzotis, N., et al. (2019). Data Management Challenges in Production Machine Learning. arXiv preprint arXiv:1905.08674.

[12] Li, L., et al. (2020). Efficient Hyperparameter Optimization with Bayesian Optimization. arXiv preprint arXiv:2010.01708.

[13] Breck, E., et al. (2021). The Importance of Feedback Loops in Responsible AI Development. arXiv preprint arXiv:2102.03483.

[14] Klaise, J., et al. (2020). A Framework for Continuous Monitoring of Machine Learning Models. arXiv preprint arXiv:2012.04271.

[15] Floridi, L., et al. (2021). A Framework for Ethical AI Governance. arXiv preprint arXiv:2101.11519.

[16] Bughin, J., et al. (2020). Managing Compliance Risks in AI Deployment. arXiv preprint arXiv:2006.11024.

[17] Alla, S., & Adari, S. K. (2020). MLOps: Principles and Practices. arXiv preprint arXiv:2011.14183.

[18] Sambasivan, N., et al. (2021). Challenges and Best Practices in Monitoring Machine Learning Systems. arXiv preprint arXiv:2102.02558.

[19] Dorri, A., et al. (2021). Multi-Agent Systems in AI: A Survey. arXiv preprint arXiv:2105.01183.

[20] Xie, T., et al. (2020). Learning to Cooperate in Multi-Agent Reinforcement Learning. arXiv preprint arXiv:2011.14821.

[21] Amato, C., et al. (2019). Decentralized Decision Making Under Uncertainty in Multi-Agent Systems. arXiv preprint arXiv:1909.08693.

[22] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv preprint arXiv:2201.11903.

[23] Long, Y., Wu, H., Wang, W., Zhou, Y., Dong, L., Li, H., … & Ma, J. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv preprint arXiv:2305.10601.

[24] Yao, S., Zhao, T., Zhang, D., Ding, N., & Liu, T. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv preprint arXiv:2210.03629.

[25] Stanford NLP Group. (n.d.). DSPy. GitHub repository. https://github.com/stanfordnlp/dspy

[26] Chu, Z., Chen, J., Chen, Q., Yu, W., He, T., Wang, H., … & Liu, T. (2023). A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future. arXiv preprint arXiv:2309.15402v2 [cs.CL].


你好,我是俞凡,在Motorola做过研发,现在在Mavenir做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起交流学习。为了方便大家以后能第一时间看到文章,请朋友们关注公众号"DeepNoMind",并设个星标吧,如果能一键三连(转发、点赞、在看),则能给我带来更多的支持和动力,激励我持续写下去,和大家共同成长进步!

本文由mdnice多平台发布

上一篇 下一篇

猜你喜欢

热点阅读