地方型旅游网站,小程序开发公司排行榜,学做网站能找到工作么,做网站什么最重要深度学习的技术演进经历了从卷积神经网络#xff08;CNN#xff09;到循环神经网络#xff08;RNN#xff09;再到 Transformer 的重要发展。这三个架构分别擅长处理图像、序列数据和多种任务的特征#xff0c;标志着深度学习在不同领域取得的进步。 1. 卷积神经网络…
深度学习的技术演进经历了从卷积神经网络CNN到循环神经网络RNN再到 Transformer 的重要发展。这三个架构分别擅长处理图像、序列数据和多种任务的特征标志着深度学习在不同领域取得的进步。 1. 卷积神经网络CNN
基本原理
CNN 最早用于图像处理任务利用卷积操作和池化层来提取图像的空间特征。CNN 中的核心是卷积核或过滤器它会在输入图像上滑动以获得局部特征再经过多个卷积层和池化层逐步抽取高层次的特征。CNN 利用权值共享和局部感知适合处理固定大小的输入和空间不变性的任务。
Python 示例代码
以下代码使用 PyTorch 构建一个简单的 CNN 来处理手写数字数据集MNIST
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms# CNN 模型定义
class SimpleCNN(nn.Module):def __init__(self):super(SimpleCNN, self).__init__()self.conv1 nn.Conv2d(1, 32, kernel_size3, padding1)self.conv2 nn.Conv2d(32, 64, kernel_size3, padding1)self.fc1 nn.Linear(64 * 7 * 7, 128)self.fc2 nn.Linear(128, 10)self.pool nn.MaxPool2d(2, 2)def forward(self, x):x self.pool(F.relu(self.conv1(x)))x self.pool(F.relu(self.conv2(x)))x x.view(-1, 64 * 7 * 7)x F.relu(self.fc1(x))x self.fc2(x)return x# 加载 MNIST 数据集
transform transforms.Compose([transforms.ToTensor()])
train_data datasets.MNIST(rootmnist, trainTrue, downloadTrue, transformtransform)
train_loader torch.utils.data.DataLoader(train_data, batch_size64, shuffleTrue)# 初始化模型和优化器
model SimpleCNN()
optimizer optim.Adam(model.parameters(), lr0.001)
criterion nn.CrossEntropyLoss()# 训练模型
for epoch in range(1, 6):for data, target in train_loader:optimizer.zero_grad()output model(data)loss criterion(output, target)loss.backward()optimizer.step()print(fEpoch {epoch}, Loss: {loss.item()})2. 循环神经网络RNN
基本原理
RNN 是为序列数据设计的网络通过引入“循环”连接RNN 能够在处理当前输入时记住之前的输入信息适合处理序列数据如文本、时间序列数据等。但由于 RNN 存在梯度消失问题无法有效捕获长距离的依赖关系。改进版如 LSTM 和 GRU 通过引入门控机制缓解了这些问题。
Python 示例代码
以下代码实现了一个简单的 RNN 进行字符级文本生成
import torch
import torch.nn as nn
import torch.optim as optim# RNN 模型定义
class SimpleRNN(nn.Module):def __init__(self, input_size, hidden_size, output_size):super(SimpleRNN, self).__init__()self.hidden_size hidden_sizeself.rnn nn.RNN(input_size, hidden_size, batch_firstTrue)self.fc nn.Linear(hidden_size, output_size)def forward(self, x, hidden):out, hidden self.rnn(x, hidden)out self.fc(out[:, -1, :])return out, hiddendef init_hidden(self):return torch.zeros(1, 1, self.hidden_size)# 准备数据
input_size 10
hidden_size 50
output_size 10
model SimpleRNN(input_size, hidden_size, output_size)
criterion nn.CrossEntropyLoss()
optimizer optim.Adam(model.parameters(), lr0.01)# 训练 RNN 模型伪数据
data torch.rand(1, 5, input_size)
target torch.randint(0, output_size, (1,))for epoch in range(1, 6):hidden model.init_hidden()optimizer.zero_grad()output, hidden model(data, hidden)loss criterion(output, target)loss.backward()optimizer.step()print(fEpoch {epoch}, Loss: {loss.item()})3. Transformer
基本原理
Transformer 摒弃了 RNN 的循环结构完全基于自注意力机制直接让每个输入词能够“关注”其他词的位置。这种并行化处理提高了效率能够捕获序列中的长程依赖。Transformer 模型的核心组件包括自注意力、多头注意力、前馈神经网络、编码器和解码器模块。典型的 Transformer 应用是自然语言处理中的机器翻译和文本生成。
Python 示例代码
以下是 PyTorch 中一个简单的 Transformer 模型定义用于序列到序列任务
import torch
import torch.nn as nn
import torch.optim as optim# Transformer 模型定义
class SimpleTransformer(nn.Module):def __init__(self, input_dim, output_dim, hidden_dim, n_heads, num_layers):super(SimpleTransformer, self).__init__()self.embedding nn.Embedding(input_dim, hidden_dim)self.transformer nn.Transformer(d_modelhidden_dim, nheadn_heads, num_encoder_layersnum_layers)self.fc nn.Linear(hidden_dim, output_dim)def forward(self, src, tgt):src_emb self.embedding(src)tgt_emb self.embedding(tgt)transformer_output self.transformer(src_emb, tgt_emb)return self.fc(transformer_output)# 初始化模型
input_dim 10
output_dim 10
hidden_dim 16
n_heads 2
num_layers 2
model SimpleTransformer(input_dim, output_dim, hidden_dim, n_heads, num_layers)# 模拟输入输出序列
src torch.randint(0, input_dim, (5, 1))
tgt torch.randint(0, output_dim, (5, 1))# 模型输出
output model(src, tgt)
print(output.shape) # 输出形状为 (序列长度, 批次大小, 输出维度)三者之间的关系
应用场景CNN主要用于图像处理领域RNN则擅长处理序列数据如文本、语音等而Transformer则进一步提升了处理序列数据的能力尤其在自然语言处理领域表现出色。技术演进CNN和RNN是深度学习领域的早期代表性模型为后来的技术发展奠定了基础。Transformer则是在RNN的基础上通过引入自注意力机制和多头注意力机制实现了计算效率的显著提升和模型性能的突破。模型结构CNN通过卷积层和池化层提取特征RNN通过循环连接保留序列信息而Transformer则通过编码器-解码器架构和自注意力机制捕捉全局依赖关系。
综上所述从CNN到RNN再到Transformer的技术演进代表了深度学习在处理不同类型数据方面的不断进步和创新。这些模型在各自的应用领域都取得了显著的成果并推动了人工智能技术的快速发展。
总结
CNN善于处理图像和其他固定维度数据利用卷积提取特征。RNN擅长处理序列数据但在长距离依赖关系上存在局限。Transformer通过自注意力机制解决了 RNN 的瓶颈在 NLP 和多模态任务中取得了极大成功。