当前位置: 首页 > news >正文

安徽疫情最新情况数据seo sem

安徽疫情最新情况数据,seo sem,创建一个平台,wordpress主题zip目录 前言 text2vec开源项目 核心能力 文本向量表示模型 本地试用 安装依赖 下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过) ​运行试验代码 前言 在上一篇文章中介绍了,如何从不同格式的文件里提取…

目录

前言

text2vec开源项目

核心能力

文本向量表示模型

本地试用

安装依赖 

下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)

​运行试验代码


前言

 在上一篇文章中介绍了,如何从不同格式的文件里提取文本信息。

本篇文章将介绍,如何将提取出的文本信息转换为vector,以便后续基于vector做相似性检索。

​​​​​​文档向量化工具(一):Apache Tika介绍icon-default.png?t=N7T8https://mp.csdn.net/mp_blog/creation/editor/134488150

text2vec开源项目

text2vec是github上很受欢迎的一个开源项目。

text2vec:Text to Vector。

【GitHub地址】

https://github.com/shibing624/text2vec

【开源协议】

 Apache-2.0 license

核心能力

Text to Vector, Get Sentence Embeddings. 文本向量化,把文本(包括词、句子、段落)表征为向量矩阵。

text2vec实现了:

  1. Word2Vec
  2. RankBM25
  3. BERT
  4. Sentence-BERT
  5. CoSENT

等多种文本表征、文本相似度计算模型,并在文本语义匹配(相似度计算)任务上比较了各模型的效果。

文本向量表示模型

  • Word2Vec:通过腾讯AI Lab开源的大规模高质量中文词向量数据(800万中文词轻量版) (文件名:light_Tencent_AILab_ChineseEmbedding.bin 密码: tawe)实现词向量检索,本项目实现了句子(词向量求平均)的word2vec向量表示
  • SBERT(Sentence-BERT):权衡性能和效率的句向量表示模型,训练时通过有监督训练BERT和softmax分类函数,文本匹配预测时直接取句子向量做余弦,句子表征方法,本项目基于PyTorch复现了Sentence-BERT模型的训练和预测
  • CoSENT(Cosine Sentence):CoSENT模型提出了一种排序的损失函数,使训练过程更贴近预测,模型收敛速度和效果比Sentence-BERT更好,本项目基于PyTorch实现了CoSENT模型的训练和预测
  • BGE(BAAI general embedding):BGE模型按照retromae方法进行预训练,参考论文,再使用对比学习finetune微调训练模型,本项目基于PyTorch实现了BGE模型的微调训练和预测

本地试用

推荐用conda管理python环境

conda create -n py3.9 python=3.9 // 安装一个python3.9的环境

安装依赖 

conda install -c pytorch pytorch

pip install -U text2vec

 下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)

https://huggingface.co/shibing624/text2vec-base-chinese/tree/main

本地建立一个文件夹,名字是shibing624/text2vec-base-chinese

手动点击,逐个下载文件到此文件夹

 运行试验代码

# 设置huggingface以offline模式运行,从本地加载我们刚才下载的模型数据
HF_DATASETS_OFFLINE=1 TRANSFORMERS_OFFLINE=1
from text2vec import SentenceModelm = SentenceModel(model_name_or_path='/xxxxxxxx绝对路径xxxxxxx/shibing624/text2vec-base-chinese')m.encode("如何更换花呗绑定银行卡")

运行效果

http://www.hkea.cn/news/356409/

相关文章:

  • 潍坊快速网站排名网站是怎么做出来的
  • 聚美优品的pc网站建设注册网址
  • 陕西省住房与城乡建设厅网站免费b站推广软件
  • 淮南市住房与城乡建设部网站网店买卖有哪些平台
  • 网页qq表情佛山百度快速排名优化
  • 网站建设方案论文1500社会新闻最新消息
  • 网站组建 需求分析市场监督管理局职责
  • 云课堂哪个网站做的好厦门关键词优化seo
  • 中企动力沈阳分公司seo免费诊断电话
  • 网站vps被黑湖人最新排名最新排名
  • 如何夸奖客户网站做的好seo课程心得体会
  • 有哪些做电子商务的网站时空seo助手
  • 临沂百度网站电脑培训机构哪个好
  • 无锡专业做网站的公司怎样把自己的产品放到网上销售
  • 大学网站建设管理办法推广技巧
  • 长春做网站公司seo关键词排名优化软件怎么选
  • 网站开发未按合同约定工期完工seo关键词排名怎么提升
  • 创可贴app海报制作网站百度seo优化方法
  • 龙岗品牌网站建设2024年新闻摘抄
  • 南阳住房和城乡建设厅网站招聘网站排名
  • 如何做网站活动封面建站的公司
  • 温州网站建设培训营销推广方案包括哪些内容
  • 厦门 建网站商业软文案例
  • wordpress读者墙站长之家seo工具包
  • 网站建设哪家好灵活苏州久远网络北京搜索引擎关键词优化
  • 网站优化怎么做 有什么技巧东莞seo建站
  • 什么网站可以做游戏机疫情最新数据消息
  • 企业网站开发报价单巩义网络推广
  • 网站开发技术交流群免费域名申请网站
  • 手机网站一键分享怎么知道自己的域名