当前位置: 首页 > news >正文

福州做网站优化郑州网站技术顾问

福州做网站优化,郑州网站技术顾问,wordpress 点评插件,河北沧州网络运营中心1 训练数据 在本任务的训练数据中,我选择了金庸的15本小说,全部都是txt文件 数据打开后的样子 数据预处理需要做的事情就是使用huggingface的transformers包的tokenizer模块,将文本转化为token 最后生成的文件就是train_novel.pkl文件&a…

1 训练数据

在本任务的训练数据中,我选择了金庸的15本小说,全部都是txt文件
在这里插入图片描述
数据打开后的样子
在这里插入图片描述

数据预处理需要做的事情就是使用huggingface的transformers包的tokenizer模块,将文本转化为token
在这里插入图片描述
最后生成的文件就是train_novel.pkl文件,就不用在训练的时候读txt文件了

数据预处理:preprocess.py

2 设置参数

import argparse
from utils import set_logger
from transformers import CpmTokenizer
import os
import pickle
from tqdm import tqdm
parser = argparse.ArgumentParser()
parser.add_argument('--vocab_file', default='vocab/chinese_vocab.model', type=str, required=False,help='词表路径')
parser.add_argument('--log_path', default='log/preprocess.log', type=str, required=False, help='日志存放位置')
parser.add_argument('--data_path', default='data/novel', type=str, required=False, help='数据集存放位置')
parser.add_argument('--save_path', default='data/train.pkl', type=str, required=False,help='对训练数据集进行tokenize之后的数据存放位置')
parser.add_argument('--win_size', default=200, type=int, required=False,help='滑动窗口的大小,相当于每条数据的最大长度')
parser.add_argument('--step', default=200, type=int, required=False, help='滑动窗口的滑动步幅')
args = parser.parse_args()
  1. 参数包
  2. 本项目utils.py中初始化参数函数
  3. chinese pre-trained model Tokenizer包
  4. 系统包
  5. pickle包,用于将 python 对象序列化(serialization)为字节流,或者将字节流反序列化为 Python 对象
  6. 进度条包
  7. 创建一个用于解析命令行参数的 ArgumentParser 对象
  8. 处理中文文本的变成token的预训练模型的模型文件存放位置
  9. 运行日志文件存放位置
  10. 数据集存放位置
  11. 对训练数据集进行tokenize之后的数据存放位置
  12. 滑动窗口的大小,相当于每条数据的最大长度
  13. 滑动窗口的滑动步幅

3 初始化日志对象

logger = set_logger(args.log_path)
def set_logger(log_path):logger = logging.getLogger(__name__)logger.setLevel(logging.INFO)formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')file_handler = logging.FileHandler(filename=log_path)file_handler.setFormatter(formatter)file_handler.setLevel(logging.INFO)logger.addHandler(file_handler)console = logging.StreamHandler()console.setLevel(logging.DEBUG)console.setFormatter(formatter)logger.addHandler(console)return logger
  1. 选择日志路径,调用日志函数
  2. 创建 logger 对象
  3. 设置日志级别为’logging.INFO’
  4. 创建格式化器 formatter
  5. 创建文件处理器file_handler并指定了日志文件的路径为log_path
  6. 设置处理器的日志级别为 logging.INFO
  7. 添加文件处理器 file_handler 到创建的 logger 对象中
  8. 创建控制台处理器 console,用 logging.StreamHandler() 创建一个将日志输出到控制台的处理器
  9. 设置其日志级别为 logging.DEBUG
  10. 将格式化器 formatter 应用到这个控制台处理器上
  11. 控制台处理器 console 添加到 logger 对象中
  12. 返回了这个配置好的 logger 对象
http://www.hkea.cn/news/79743/

相关文章:

  • 网站建设与管理技术发展seo是什么意思如何实现
  • 手机游戏开发制作公司最新seo视频教程
  • 网站优化过度被k长春seo排名公司
  • wordpress移除谷歌字体seo网站推广与优化方案
  • 十大景观设计公司排名seo权重查询
  • 水友做的yyf网站十大免费引流平台
  • 东莞公司网站制作百度识图网页版 在线
  • 企业级网站内容管理解决方案网站关键词快速排名服务
  • 影视采集网站怎么做收录关键词是网站seo的核心工作
  • 开发一个网站需要多少时间百度账号免费注册
  • 化妆品网站主页设计长沙关键词优化方法
  • 南阳建网站企业百度推广优化工具
  • 怎样把自己做的网页放在网站里如何做宣传推广营销
  • 七谷网络工作室重庆优化seo
  • 东莞网站建设规范软文内容
  • 项目网站建设业务分析搜索优化的培训免费咨询
  • linux做网站服务器吗关键词上首页软件
  • 西安网站建设行业动态手机营销软件
  • 做推送的网站推荐今日新闻摘抄50字
  • 想在自己的网站做支付优化公司治理结构
  • 国内一家做国外酒店团购的网站网络推广优化是干啥的
  • 手机3d动画制作软件重庆网络seo公司
  • 青海和城乡建设厅网站石家庄自动seo
  • 建站网址是多少深圳市seo上词多少钱
  • 应用网站开发创建网站花钱吗
  • 2023太原疫情优化设计答案大全
  • 创新的专业网站建设适合小学生的新闻事件
  • 政府机关备案网站百度竞价什么意思
  • 广元专业高端网站建设seo视频
  • 烟台网站建设诚信臻动传媒百度网络营销中心