当前位置: 首页 > news >正文

基于php技术的小型企业网站开发做电商如何起步

基于php技术的小型企业网站开发,做电商如何起步,建筑培训网站,附近的电脑培训班在哪里引言 Transformer 架构自《Attention Is All You Need》论文发表以来,在自然语言处理领域引起了巨大的变革。它摒弃了传统的循环结构,完全基于注意力机制,显著提高了处理序列数据的效率和性能。本文将通过对一个具体的项目代码结构进行详细分…

引言

Transformer 架构自《Attention Is All You Need》论文发表以来,在自然语言处理领域引起了巨大的变革。它摒弃了传统的循环结构,完全基于注意力机制,显著提高了处理序列数据的效率和性能。本文将通过对一个具体的项目代码结构进行详细分析,带领大家深入了解 Transformer 模型的数据处理部分。

项目结构概述

首先,让我们来看看项目的整体结构:(参考项目代码)

transformer-master
├── paper\
│   └── attention is all you need.pdf
├── image\
├── models\
│   ├── __init__.py
│   ├── blocks\
│   │   ├── __init__.py
│   │   ├── decoder_layer.py
│   │   └── encoder_layer.py
│   ├── embedding\
│   │   ├── __init__.py
│   │   ├── positional_encoding.py
│   │   ├── token_embeddings.py
│   │   └── transformer_embedding.py
│   ├── layers\
│   │   ├── __init__.py
│   │   ├── layer_norm.py
│   │   ├── multi_head_attention.py
│   │   ├── position_wise_feedforward.py
│   │   └── scaled_dot_product_attention.py
│   └── model\
│       ├── __init__.py
│       ├── encoder.py
│       ├── decoder.py
│       └── transformer.py
├── saved\ 
├── util\
│   ├── __init__.py
│   ├── bleu.py
│   ├── data_loader.py
│   ├── epoch_timer.py
│   └── tokenizer.py
├── conf.py
├── data.py
├── graph.py
├── train.py
└── README.md

这个项目结构清晰,包含了论文、模型模块、数据处理、训练脚本等部分。其中,data.py 文件负责数据的处理和准备,是模型训练的基础。

数据处理流程

数据处理流程图

Vocabulary and Indexes
Data Preparation
Initialization
Get source pad index
Get target pad index
Get target sos index
Get source vocab size
Get target vocab size
Make dataset
Build vocabulary
Create data iterators
Import configurations
Import DataLoader
Import Tokenizer
Create Tokenizer instance
Create DataLoader instance

从流程图中可以看出,数据处理主要分为三个阶段:初始化、数据准备和获取词汇表及索引。

数据处理代码及解析

"""
@author : Hyunwoong
@when : 2019-10-29
@homepage : https://github.com/gusdnd852
"""
from conf import *
from util.data_loader import DataLoader
from util.tokenizer import Tokenizertokenizer = Tokenizer()
loader = DataLoader(ext=('.en', '.de'),tokenize_en=tokenizer.tokenize_en,tokenize_de=tokenizer.tokenize_de,init_token='<sos>',eos_token='<eos>')train, valid, test = loader.make_dataset()
loader.build_vocab(train_data=train, min_freq=2)
train_iter, valid_iter, test_iter = loader.make_iter(train, valid, test,batch_size=batch_size,device=device)src_pad_idx = loader.source.vocab.stoi['<pad>']
trg_pad_idx = loader.target.vocab.stoi['<pad>']
trg_sos_idx = loader.target.vocab.stoi['<sos>']enc_voc_size = len(loader.source.vocab)
dec_voc_size = len(loader.target.vocab)

1. 导入模块和配置

from conf import *
from util.data_loader import DataLoader
from util.tokenizer import Tokenizer
  • from conf import *:从 conf 模块导入所有内容,通常包含全局配置,如路径、参数等,方便在整个项目中使用统一的配置。
  • from util.data_loader import DataLoader:导入 DataLoader 类,它负责数据的加载和处理,包括数据集的划分、迭代器的创建等。
  • from util.tokenizer import Tokenizer:导入 Tokenizer 类,用于文本的分词和编码,将文本转换为模型可以处理的形式。

2. 初始化分词器和数据加载器

tokenizer = Tokenizer()
loader = DataLoader(ext=('.en', '.de'),tokenize_en=tokenizer.tokenize_en,tokenize_de=tokenizer.tokenize_de,init_token='<sos>',eos_token='<eos>')
  • 创建 Tokenizer 实例,用于后续的分词操作。
  • 创建 DataLoader 实例,指定:
    • ext:数据文件的扩展名,这里指定为英语(.en)和德语(.de),表示处理的是英德双语数据。
    • tokenize_entokenize_de:分别指定英语和德语的分词函数,这些函数来自 Tokenizer 实例,确保不同语言的文本能正确分词。
    • init_tokeneos_token:分别指定序列的开始和结束标记,这里使用 <sos><eos>,方便模型识别序列的边界。

3. 加载和划分数据集

train, valid, test = loader.make_dataset()

调用 DataLoader 实例的 make_dataset 方法,加载数据并划分为训练集、验证集和测试集。训练集用于模型的训练,验证集用于调整模型的超参数,测试集用于评估模型的最终性能。

4. 构建词汇表

loader.build_vocab(train_data=train, min_freq=2)

调用 DataLoader 实例的 build_vocab 方法,基于训练数据构建词汇表。min_freq=2 表示词汇表中只包含出现频率至少为 2 的单词,这样可以过滤掉一些罕见的单词,减少词汇表的大小,提高模型的训练效率。

5. 创建数据迭代器

train_iter, valid_iter, test_iter = loader.make_iter(train, valid, test,batch_size=batch_size,device=device)

调用 DataLoader 实例的 make_iter 方法,为训练集、验证集和测试集创建数据迭代器。这些迭代器将数据分批加载到模型中,batch_size 指定了每批数据的大小,device 指定了数据加载到的设备(如 CPU 或 GPU)。分批处理数据可以减少内存的使用,提高训练的效率。

6. 获取特殊标记的索引

src_pad_idx = loader.source.vocab.stoi['<pad>']
trg_pad_idx = loader.target.vocab.stoi['<pad>']
trg_sos_idx = loader.target.vocab.stoi['<sos>']

从源语言和目标语言的词汇表中获取 <pad>(填充标记)和 <sos>(序列开始标记)的索引。这些索引在后续的模型训练和推理中会被用到,具体意义如下:

  • <pad> 索引:在处理不同长度的序列时,为了能够将它们批量输入到神经网络中,通常需要对序列进行填充或截断,使其具有相同的长度。<pad> 标记用于填充较短的序列,使其与最长序列的长度一致。在模型训练过程中,通过识别 <pad> 标记的索引,模型可以忽略这些填充部分的影响,只关注实际有效的序列内容。
  • <sos> 索引:<sos> 标记用于标识序列的开始位置,这对于生成式模型(如文本生成、机器翻译中的解码器)尤为重要。它告诉模型从哪里开始生成或解码序列。在解码过程中,模型通常会从 <sos> 标记开始,逐步生成后续的单词或字符,直到遇到序列结束标记(如 <eos>)。

以下是一个简短的例程,展示了如何在模型训练中使用这些特殊标记的索引:

假设我们已经有一个训练好的seq2seq模型,以及相应的数据加载器
#...(模型和数据加载器的初始化代码省略)...获取特殊标记的索引
src_pad_idx = loader.source.vocab.stoi['<pad>']
trg_pad_idx = loader.target.vocab.stoi['<pad>']
trg_sos_idx = loader.target.vocab.stoi['<sos>']在训练循环中
for batch in train_iter:src_seq, trg_seq = batch# 忽略填充部分的影响(具体实现取决于模型)#...(处理src_seq和trg_seq,可能包括掩码操作等)...# 解码器从<sos>标记开始生成序列decoder_output = model.decode(encoder_output, start_token=trg_sos_idx)#...(计算损失、更新模型参数等)...

7. 获取词汇表大小

enc_voc_size = len(loader.source.vocab)
dec_voc_size = len(loader.target.vocab)

获取源语言和目标语言词汇表的大小,这些大小通常用于定义模型中的嵌入层大小。嵌入层将单词转换为向量表示,词汇表的大小决定了嵌入层的输入维度。

Transformer模型数据处理的基本流程,包括数据的加载、分词、划分、构建词汇表以及创建数据迭代器等操作。在实际应用中,我们可以根据具体的任务和数据特点对这些步骤进行调整和优化。

http://www.hkea.cn/news/658048/

相关文章:

  • 国内移动端网站做的最好的厦门人才网597人才网
  • 建网站收费吗aso关键词覆盖优化
  • 西安的网站设计与制作首页微信视频号怎么推广引流
  • 顺义公司建站多少钱pc端百度
  • wordpress收费资源下载关键词优化的策略
  • 广州做网站建设的公司网站公司
  • 做网络平台的网站有哪些广州网站维护
  • 网页 代码怎么做网站东莞市民最新疫情
  • 电子商务网站设计中影响客户体验的元素有搜索引擎有哪些种类
  • 网站建设难点优化关键词技巧
  • 免费行情网站链接百度知道合伙人官网
  • 餐饮公司网站建设的特点大数据智能营销
  • 济南快速排名刷关键词排名seo软件
  • 系统做网站的地方百度推广登录后台登录入口
  • 集约化网站建设情况广告公司网站制作
  • 网站制作发票字节跳动广告代理商加盟
  • 义乌做网站武汉seo推广优化公司
  • 济宁哪家网站建设公司正规谷歌浏览器 免费下载
  • 有没有女的做任务的网站广东省新闻
  • seo长尾关键词优化如何做网站推广优化
  • 网站搭建服务合同seo排名赚
  • 东莞有什么比较好的网站公司苏州关键词排名系统
  • 做中国供应商免费网站有作用吗浙江网站推广运营
  • mysql8 wordpress百度推广优化是什么意思
  • 做装修广告网站好seo推广公司招商
  • 城市模拟建设游戏网站今天最新的新闻头条新闻
  • 手机网站自适应代码品牌网络营销策划方案
  • 个人网站建设在哪里百度资源搜索平台
  • 云空间免费空间北京网站优化校学费
  • 个人网站做导航网站项目推广平台有哪些