微信公众平台怎么做微网站吗,百度统计网站速度诊断工具,企业培训考试系统app,长春生物新冠疫苗开源大型语言模型#xff08;LLM#xff09;已经变得流行起来#xff0c;研究人员、开发人员和组织都可以使用这些模型来促进创新和实验。这促进了开源社区开展合作#xff0c;从而为LLM的开发和改进做出贡献。开源LLM提供了模型架构、训练过程和训练数据的透明度#xff…开源大型语言模型LLM已经变得流行起来研究人员、开发人员和组织都可以使用这些模型来促进创新和实验。这促进了开源社区开展合作从而为LLM的开发和改进做出贡献。开源LLM提供了模型架构、训练过程和训练数据的透明度使研究人员能够了解模型的工作原理识别潜在的偏见并解决伦理问题。这些开源LLM通过向广大用户提供先进的自然语言处理NLP技术来构建任务关键型业务应用程序从而使生成式人工智能大众化。GPT-NeoX、LLaMA、Alpaca、GPT4All、Vicuna、Dolly和OpenAssistant是一些受欢迎的开源LLM。 OpenChatKit是用于构建通用和专用聊天机器人应用程序的开源LLM由Together Computer于2023年3月发布采用Apache-2.0许可。这种模型允许开发人员对聊天机器人的行为进行更多控制并根据聊天机器人的特定应用进行定制。OpenChatKit提供了一套工具、基础机器人和构建块用于构建完全定制的、功能强大的聊天机器人。关键组件如下 经过指令调优的LLM针对来自EleutherAI的GPT-NeX-20B的聊天进行了微调有超过4300万条关于100%负碳计算的指令。GPT-NeoXT-Chat-Base-20B模型基于EleutherAI的GPT-NeoX模型并根据对话式交互的数据进行了微调。 自定义配方可对模型进行微调以实现任务的高精度。 可扩展的检索系统使您能够在推理时使用来自文档存储库、API或其他实时更新信息源的信息来增强机器人响应。 根据GPT-JT-6B微调的审核模型旨在筛选机器人会回答哪些问题。 深度学习模型的规模和大小不断扩大给在生成式人工智能应用中成功部署这些模型带来了障碍。为了满足低延迟和高吞吐量的要求采用模型并行化和量化等复杂方法变得至关重要。由于缺乏对这些方法的熟练应用许多用户在为生成式人工智能使用案例启动大型模型托管时遇到了困难。 在这篇文章中亚马逊云科技将展示如何使用DJL Serving以及DeepSpeed和Hugging Face Accelerate等开源模型并行库在亚马逊云科技Amazon SageMaker上部署OpenChatKit模型。使用DJL Serving这是一种高性能的通用模型服务解决方案由与编程语言无关的Deep Java LibraryDJL提供支持。我们将演示Hugging Face Accelerate库如何简化大型模型在多个GPU中的部署从而减轻以分布式方式运行LLM的负担。 可扩展的检索系统 可扩展的检索系统是OpenChatKit的关键组件之一。该组件使您能够根据封闭的领域知识库定制机器人的响应。尽管LLM能够在模型参数中保留事实知识并且在微调后可以在下游NLP任务中取得不俗的表现但这种模型准确获取和预测封闭领域知识的能力仍然受到限制。因此当遇到知识密集型任务时这种模型的性能就会比任务特定架构的性能差。可以使用OpenChatKit检索系统从外部知识来源例如Wikipedia、文档存储库、API和其他信息源中扩充回复中的知识。 检索系统使聊天机器人能够通过获取与特定查询相关的详细信息来获取当前信息从而为模型生成答案提供必要的上下文。为了说明该检索系统的功能亚马逊云科技提供了对Wikipedia文章索引的支持并提供了示例代码演示如何调用Web搜索API进行信息检索。按照提供的文档您可以在推理过程中将检索系统与任何数据集或API集成这样聊天机器人就能在回复中纳入动态更新的数据。 审核模型 审核模型在聊天机器人应用中非常重要可用于执行内容筛选、质量控制、用户安全以及法律和合规原因。审核是一项非常困难的主观任务在很大程度上取决于聊天机器人应用的领域。OpenChatKit提供的工具可用于控制聊天机器人应用程序并监控输入文本提示是否有任何不当内容。审核模型提供了一个很好的基准可以根据各种需求进行调整和定制。 OpenChatKit有一个60亿个参数的审核模型即GPT-JT-Moderation-6B可对聊天机器人进行控制将输入限制在受控制的主题范围内。虽然模型本身内置了一些控制功能但TogetherComputer还是使用Ontocord.ai的OIG-moderation数据集训练了一个GPT-JT-Moderation-6B模型。该模型与主聊天机器人同时运行以检查用户输入和机器人回答是否包含不恰当的结果。您还可以使用该模型来检测向聊天机器人提出的任何域外问题并在问题不属于聊天机器人的领域时进行覆盖。 可扩展检索系统使用案例 虽然可以在各行各业应用这种技术来构建生成式人工智能应用程序但在本篇文章中将讨论金融行业的使用案例。检索式增强生成功能可用于金融研究自动生成有关特定公司、行业或金融产品的研究报告。通过从内部知识库、财务档案、新闻报道和研究论文中检索相关信息您可以生成综合报告总结重要洞察、财务指标、市场趋势和投资建议。您可以使用此解决方案来监控和分析财经新闻、市场情绪和趋势。 解决方案概览 使用OpenChatKit模型构建聊天机器人并将这种模型部署到SageMaker上的步骤如下 下载聊天基础模型GPT-NeoXT-Chat-Base-20B并将模型构件打包上传到Amazon Simple Storage ServiceAmazon S3。 使用SageMaker大型模型推理LMI容器配置属性并设置自定义推理代码来部署该模型。 配置模型并行技术并在DJL Serving属性中使用推理优化库。我们将使用Hugging Face Accelerate作为DJL Serving的引擎。此外我们还定义了张量并行配置来对模型进行分区。 创建SageMaker模型和端点配置然后部署SageMaker端点。 您可以通过在GitHub存储库中运行笔记本来继续操作。 下载OpenChatKit模型 首先下载OpenChatKit基础模型。使用huggingface_hub并使用snapshot_download下载模型这将下载给定版本的整个存储库。同时进行下载以便加快进度。 DJL Serving属性 可以使用SageMaker LMI容器托管带有自定义推理代码的大型生成式人工智能模型而无需提供自己的推理代码。在没有对输入数据进行自定义预处理或对模型预测进行后处理的情况下这种方法非常有用。您也可以使用自定义推理代码部署模型。在这篇文章中亚马逊云科技将演示如何使用自定义推理代码部署OpenChatKit模型。 SageMaker要求模型构件采用tar格式。使用以下文件创建每个OpenChatKit模型serving.properties和model.py。 serving.properties配置文件向DJL Serving指明了要使用哪些模型并行化和推理优化库。其中包含以下参数 engine——DJL要使用的引擎。 option.entryPoint——Python文件或模块的入口点。这应该与使用的引擎一致。 option.s3url——将此参数设置为包含模型的S3存储桶的URI。 option.modelid——如果想从huggingface.co下载模型可以将option.modelid设置为一个预训练模型的模型ID该模型托管在huggingface.co上的模型存储库中。容器使用此模型ID在huggingface.co上下载相应的模型存储库。 option.tensor_parallel_degree——将此参数设置为DeepSpeed需要对模型进行分区的GPU设备数量。该参数还可以控制DJL Serving运行时每个模型启动的Worker数量。例如如果我们有一台配备8个GPU的计算机并创建八个分区那么每个模型将有一个Worker来处理请求。有必要调整并行度并确定给定模型架构和硬件平台的最佳值。亚马逊云科技将这种能力称为推理适应并行性。 OpenChatKit模型 OpenChatKit基础模型实现包含以下四个文件 model.py——此文件实现了OpenChatKit GPT-NeoX主模型的处理逻辑。此文件接收推理输入请求加载模型加载Wikipedia索引并提供响应。model.py使用以下关键类 OpenChatKitService——此类处理GPT-NeoX模型、Faiss搜索和对话对象之间的数据传递。WikipediaIndex和Conversation对象经过初始化输入的聊天会话被发送到索引以便从Wikipedia中搜索相关内容。如果没有提供用于在Amazon DynamoDB中存储提示信息的ID此类还会为每次调用生成唯一ID。 ChatModel——此类加载模型和tokenizer并生成响应。此类使用tensor_parallel_degree处理多个GPU之间的模型分区并配置dtypes和device_map。提示信息将传递给模型以生成响应。为生成操作配置了停止标准StopWordsCriteria以便在推理时只生成机器人响应。 ModerationModel——在ModerationModel类中使用两种审核模型输入模型用于向聊天模型表明输入不适合覆盖推理结果输出模型用于覆盖推理结果。使用以下可能的标签对输入提示和输出响应进行分类 随意 需要谨慎 需要干预这被标记为由模型控制 可能需要谨慎 也许需要谨慎 wikipedia_prepare.py——此文件用于下载和准备Wikipedia索引。在此案例中亚马逊云科技使用Hugging Face数据集上提供的Wikipedia索引。要在Wikipedia文档中搜索相关文本需要从Hugging Face下载索引因为其他地方没有打包索引。wikipedia_prepare.py文件负责在导入时处理下载。在运行推理的多个进程中只有一个进程可以克隆存储库。其余的则要等到文件出现在本地文件系统中。 wikipedia.py——此文件用于在Wikipedia索引中搜索与上下文相关的文档。输入查询经过标记化处理并使用mean_pooling创建嵌入内容。亚马逊云科技计算查询嵌入与Wikipedia索引之间的余弦相似度距离指标以检索与上下文相关的Wikipedia句子。 conversation.py——此文件用于在DynamoDB中存储和检索对话线程以便传递给模型和用户。conversation.py改编自开源OpenChatKit存储库。此文件负责定义存储人类和模型之间对话轮次的对象。这样模型就能为对话保留一个会话让用户可以参考以前的信息。由于SageMaker端点调用是无状态的因此需要将此对话存储在端点实例外部的位置。启动时如果DynamoDB表不存在实例会创建该表。然后会根据端点生成的session_id键将对话的所有更新存储在DynamoDB中。任何带有会话ID的调用都将检索关联的对话字符串并根据需要进行更新。 使用自定义依赖项构建LMI推理容器 索引搜索使用Facebook的Faiss库进行相似性搜索。由于基本LMI映像中不包含该库因此需要调整容器以安装该库。以下代码定义了一个Dockerfile用于从源代码中安装Faiss以及机器人端点所需的其他库。使用sm-docker实用程序从Amazon SageMaker Studio构建映像并将映像推送到Amazon Elastic Container RegistryAmazon ECR。 DJL容器没有安装Conda因此需要从源代码克隆和编译Faiss。要安装Faiss需要安装使用BLAS API和Python支持的依赖项。安装这些软件包后Faiss配置为使用AVX2和CUDA然后再使用安装的Python扩展进行编译。 之后会安装pandas、fastparquet、boto3和git-lfs因为下载和读取索引文件时需要它们。 创建模型 现在在AmazonECR中有了Docker映像可以继续为OpenChatKit模型创建SageMaker模型对象。使用GPT-JT-Moderation-6B部署GPT-NeoXT-Chat-Base-20B输入和输出审核模型。 配置端点 接下来亚马逊云科技为OpenChatKit模型定义端点配置。使用ml.g5.12xlarge实例类型部署模型。 部署端点 最后使用在前面步骤中定义的模型和端点配置创建端点。 从OpenChatKit模型运行推理 现在是向模型发送推理请求并获取响应的时候了。我们传递输入文本提示和模型参数例如temperature、top_k和max_new_tokens。聊天机器人响应的质量取决于指定的参数因此建议根据这些参数对模型性能进行基准测试以找到适合您使用案例的最佳设置。输入提示首先发送到输入审核模型然后将输出发送到ChatModel以生成响应。在这一步中模型使用Wikipedia索引检索与模型上下文相关的部分以此作为从模型获取特定领域响应的提示。最后将模型响应发送到输出审核模型以检查分类情况然后返回响应。 清理 按照清理部分中的说明删除作为本文一部分预置的资源以避免不必要的费用。 总结 在这篇文章中讨论了开源LLM的重要性以及如何在SageMaker上部署OpenChatKit模型来构建新一代聊天机器人应用程序。亚马逊云科技讨论了OpenChatKit模型的各种组件、审核模型以及如何使用Wikipedia等外部知识源进行检索式增强生成RAGRetrieval Augmented Generation工作流程。可以在GitHub notebook中找到分步说明。