当前位置: 首页 > news >正文

做网站下载那个数据库好高邮市建设网站

做网站下载那个数据库好,高邮市建设网站,深圳网站开发学习,wordpress简约主题带用户微调模型是为了让模型在特殊领域表现良好,帮助其学习到专业术语等。 本文采用llama_index框架微调BGE模型,跑通整个流程,并学习模型微调的方法。 已开源:https://github.com/stay-leave/enhance_llm 一、环境准备 Linux环境,GPU L20 48G,Python3.8.10。 pip该库即可。…微调模型是为了让模型在特殊领域表现良好,帮助其学习到专业术语等。 本文采用llama_index框架微调BGE模型,跑通整个流程,并学习模型微调的方法。 已开源:https://github.com/stay-leave/enhance_llm 一、环境准备 Linux环境,GPU L20 48G,Python3.8.10。 pip该库即可。 二、数据准备 该框架实现了读取各种类型的文件,给的示例就是pdf。 因此准备了一些网络舆情相关的论文pdf,选择70%作为训练数据,剩下作为验证数据。都放在data文件夹下。 三、微调脚本编写 1.读取数据 使用SimpleDirectoryReader类读取文件。 读取到文本后,使用SentenceSplitter将一个很长的文档切分为若干块。 每一块设置的有token数和重叠token数,在 可以自选,默认的chunk_size大小没找到在哪,重叠的是200. 以上是库的源码实现,我们调用是很简单的。VAL_CORPUS_FPATH 我一开始以为是在load_corpus里的某个类自动保存,结果根本没有。所以自己写了导出为json的函数,是将其text数据保存了。 # 源文件 列表 my_list = [i for i in os.listdir('project_2/data') if i.endswith('pdf')] # 随机抽取70%的数据,作为训练集 random.shuffle(my_list) # 打乱 num_to_sample = int(len(my_list) * 0.7) # 阈值 # 构造本地文件路径 training_set = [f"project_2/data/{file}" for file in my_list[:num_to_sample]] # 训练集文件list validation_set = [f"project_2/data/{file}" for file in my_list[num_to_sample:]] # 验证集文件list# 最终形成的训练和验证语料 TRAIN_CORPUS_FPATH = 'project_2/data/corpus/train_corpus.json' VAL_CORPUS_FPATH = 'project_2/data/corpus/val_corpus.json'# 读取pdf数据,节点 def load_corpus(files, verbose=False):if verbose:print(f"正在加载文件 {files}")reader = SimpleDirectoryReader(input_files=files)docs = reader.load_data()if verbose:print(f"已加载 {len(docs)} 个文档")parser = SentenceSplitter()nodes = parser.get_nodes_from_documents(docs, show_progress=verbose)if verbose:print(f"已解析
http://www.hkea.cn/news/14401264/

相关文章:

  • 松江区做网站东莞市建设工程监督网
  • 青岛做门户网站的深圳网站建设 湖南岚鸿
  • 企业做微网站凡客诚品支付方式
  • 苏州知名网站建设设计公司排名腾讯邮箱网页版
  • 模板建站服务器微信商城怎么弄
  • 河北建设机械协会网站深圳网站设计比较好的公司有哪些
  • 营销型网站建设供货商网站开发编辑器
  • 如何注销网站域名军刀seo
  • 武安企业做网站推广印刷网络商城网站建设
  • 小型电子商务网站网页设计北京网站建设 招聘信息
  • 网站建设信息wordpress的主题目录
  • 网站如何实现多语言wordpress 免费企业网站 模板下载
  • 上海专业网站制作设计公司莱芜新闻主持人名单
  • 巩义专业网站建设公司微信公众号的跳转网站怎么做
  • 如何做网站拓扑结构图淮安网站建设淮安网站制作
  • 制作网站需要学什么软件网站建设推广哪里好
  • 如何做好网站的推广工作台州招聘网站建设
  • 网站建设需求方案文档wordpress链接去除下划线
  • 搭建网站是要什么wordpress 预览 404
  • 网站建设普票logo制作器
  • 受欢迎的网站建设平台做一些网站的弹出页面
  • 企业电子商务网站有哪些功能生态建筑建设公司网站
  • 国外上国内网站很慢wordpress 添加表
  • 网站制作者电脑管理系统
  • 西安做百度推广网站 怎样备案丽江网页制作公司
  • hyip系统网站开发有趣网站开发
  • 印度做爰免费网站视频百度有免费推广广告
  • 盐都区城乡建设局网站网站优化 月付费
  • visual stdio 做网站 注册用户 密码必须6位以上网站程序盗版
  • 网站网页设计屏幕尺寸做商城网站多少钱