当前位置: 首页 > news >正文

网站建设秋实绍兴 网站建设

网站建设秋实,绍兴 网站建设,河北建设网站信息查询中心,深圳福田区十强企业随着强大的 GPT 模型的出现#xff0c;文本的语义提取得到了改进。 在本文中#xff0c;我们将使用嵌入向量在文档中进行搜索#xff0c;而不是使用关键字进行老式搜索。 什么是嵌入 - embedding#xff1f; 在深度学习术语中#xff0c;嵌入是文本或图像等内容的数字表示…随着强大的 GPT 模型的出现文本的语义提取得到了改进。 在本文中我们将使用嵌入向量在文档中进行搜索而不是使用关键字进行老式搜索。 什么是嵌入 - embedding 在深度学习术语中嵌入是文本或图像等内容的数字表示。 由于每个深度学习模型的输入都应该是数字因此要使用文本来训练模型我们应该将其转换为一种数字格式。 有多种算法可以将文本转换为 n 维数字数组。 最简单的算法称为“Bag Of Word”该算法中 n 是语料库中唯一单词的数量。 该算法只是简单地统计文本中出现的单词数量并形成一个数组来表示它。 from sklearn.feature_extraction.text import CountVectorizercorpus [ ... This is the first document., ... This document is the second document., ... And this is the third one., ... Is this the first document?, ... ]vectorizer CountVectorizer()X vectorizer.fit_transform(corpus)vectorizer.get_feature_names_out() array([and, document, first, is, one, second, the, third,this], ...)print(X.toarray()) [[0 1 1 1 0 0 1 0 1][0 2 0 1 0 1 1 0 1][1 0 0 1 1 0 1 1 1][0 1 1 1 0 0 1 0 1]] 这种表示形式不够丰富无法从文本中提取语义和含义。 由于变换器的强大功能模型可以学习嵌入。 Openai 提供了嵌入 API 来计算文本的嵌入数组。 该表示可以存储在矢量数据库中以供搜索。 Openai 嵌入 API 要使用 openai我们需要在 openai 网站上生成一个 API 密钥。 为此我们需要在 “View API Keys” 页面中注册并生成一个新密钥。 Openai API key 页面 请记住该密钥只会显示一次因此请保存以供以后使用。 要检索文本嵌入我们应该使用模型和文本调用 openai 嵌入 API。 {input: The food was delicious and the waiter...,model: text-embedding-ada-002 } 输入是我们要计算嵌入数组的文本模型是嵌入模型的名称。 Openai 对于此链接中提供的嵌入模型有多种选择。 在本文中我们将使用默认的 “text-embedding-ada-002”。 为了调用 API我们在 python 中使用以下脚本。 import os import requestsheaders {Authorization: Bearer os.getenv(OPENAI_API_KEY, ),Content-Type: application/json, }json_data {input: This is the test text,model: text-embedding-ada-002, }response requests.post(https://api.openai.com/v1/embeddings,headersheaders,jsonjson_data) result response.json() 嵌入的响应将类似于 {object: list,data: [{object: embedding,embedding: [0.0023064255,-0.009327292,.... (1536 floats total for ada-002)-0.0028842222,],index: 0}],model: text-embedding-ada-002,usage: {prompt_tokens: 8,total_tokens: 8} } result[data][embedding] 是给定文本的嵌入向量。 ada-002 模型的向量大小为 1536 个浮点数输入的最大标记为 8191 个标记。 存储和搜索 有多种数据库选择来存储嵌入向量。 在本文中我们将探索 Elasticsearch 来存储和搜索向量。 Elasticsearch 有一个预定义的向量数据类型称为 “密集向量”。 为了存储嵌入向量我们需要创建一个索引其中包括一个文本字段和一个嵌入向量字段。 PUT my_vector_index {mappings: {properties: {embedding: {type: dense_vector,dims: 1536},text: {type: keyword}}} } 对于 ada-002 模型向量的维数应为 1536。 现在要查询该索引我们需要熟悉不同类型的向量相似度得分。 余弦相似度是我们可以在 Elasticsearch 中使用的分数之一。 首先我们需要计算搜索短语的嵌入向量然后通过索引对其进行查询并获取 top-k 结果。 POST my_vector_index/_search {query: {script_score: {query: {match_all: {}},script: {source: cosineSimilarity(params.query_vector, embedding) 1.0,params: {query_vector: [0.230, -0.120, 0.389, ...]}}}} } 当然对于大规模部署我们需要使用 aNN 搜索。请详细阅读 “Elasticsearch在 Elastic Stack 8.0 中引入近似最近邻搜索”。 这将返回语义上与文本查询相似的文本。 结论 在本文中我们探讨了新嵌入模型在文档中查找语义的强大功能。 你可以使用任何类型的文档例如 PDF、图像、音频并使用 Elasticsearch 作为语义相似性的搜索引擎。 该功能可用于语义搜索、推荐系统。
http://www.hkea.cn/news/14537534/

相关文章:

  • 老榕树智能建站系统做网站的app
  • 网站开发工程师工资hangq建立网站心得
  • 制作网站的步骤有哪些教育培训机构排名前十
  • 建筑公司网站源码 开源 免费视频网站开发代码
  • 网站网址查询ip怎么做搜索功能网站
  • 西安做网站商城的公司汽油最新价格
  • 上海自助模板建站如何卸载和重装wordpress
  • 公司和公司网站的关系wordpress移除评论
  • 网站怎么做下载连接网上企业名称预先核准系统
  • 唐山网站制作公司网站私信界面
  • 临汾网站建设河北省工程造价信息网
  • 廊坊优化网站排名icp许可证
  • 广州知名网站推广服装生产厂商网站建设方案
  • 常州网站建设平台seo优化软件有哪些
  • 个人网站搭建模拟感想wordpress登陆后查看
  • 网站图标ico网站运营包括哪些内容
  • 建设网站的公司济南兴田德润o简介图片外贸怎么做公司网站
  • 软件公司网站模板下载网站后台登录模板
  • 一篇网站设计小结网络组建拓扑图
  • 做视频的网站带模板下载wordpress静态化经验
  • 一个网站开发语言平面设计去哪里学比较好
  • 网站结构设计的内容平面设计是什么意思
  • 简单建设企业办公网站西安市招聘网最新招聘信息
  • 江苏省建设局官方网站查询如何做弹幕视频网站
  • 网站建设网站公司哪家好wordpress主题模板仿
  • 网站建设基地网站建设解决恩问题
  • 网站还没完成 能备案吗南山网站建设找哪家公司好
  • 手机移动端网站怎么做seo网络运营者应当对其收集的用户信息严格保密
  • 网站开发模板网站做更改后台怎么做
  • 网站备案手机号码怎么做网站推广的步骤