微信wap网站,网站空间站,wordpress 有字库,做网站详情的图片官方代码https://github.com/dongbeank/CATS Abstract
时间序列预测在多领域极为关键#xff0c;Transformer 虽推进了该领域发展#xff0c;但有效性尚存争议#xff0c;有研究表明简单线性模型有时表现更优。本文聚焦于自注意力机制在时间序列预测中的作用#xff0c;提… 官方代码https://github.com/dongbeank/CATS Abstract
时间序列预测在多领域极为关键Transformer 虽推进了该领域发展但有效性尚存争议有研究表明简单线性模型有时表现更优。本文聚焦于自注意力机制在时间序列预测中的作用提出仅用交叉注意力的 CATS 架构。它摒弃自注意力利用交叉注意力并设置未来视野依赖参数为查询及增强参数共享提升了长期预测精度还减少了参数和内存使用。多数据集实验显示CATS 模型均方误差最低且参数更少。https://github.com/dongbeank/CATS Introduction
Background时间序列预测在金融、气象、交通等诸多领域中是关键任务其结果对决策制定有重要影响。Transformer 架构在自然语言处理等方面取得巨大成功后被广泛应用于时间序列预测但实际效果参差不齐引发了对其内部结构尤其是自注意力机制在该任务中适用性的思考。Motivation越来越多的研究显示在某些时间序列预测场景下简单的线性模型能达到甚至超越复杂的基于 Transformer 的模型的性能。这促使作者深入探究自注意力机制在时间序列预测中的真实价值试图寻找更高效的架构来提升预测准确性和效率。Challenges 计算复杂度问题在传统的 Transformer 架构应用于时间序列预测时自注意力机制的计算复杂度随着序列长度的增加呈平方增长。当处理大规模时间序列数据时这会导致训练时间大幅延长对计算资源的需求也急剧增加使得模型在实际应用中的可行性受到挑战。过拟合风险Transformer 模型通常包含大量的参数在时间序列数据有限的情况下容易出现过拟合现象。模型可能会过度学习训练数据中的噪声和局部特征而无法很好地泛化到未知的未来数据从而影响预测的准确性和可靠性。自注意力机制对于时间序列预测是否有效 Contributions 架构创新提出了 Cross-Attention-only Time Series transformer (CATS) 架构为时间序列预测提供了一种全新的思路。通过去除自注意力机制采用交叉注意力机制并结合独特的参数设置有效解决了传统 Transformer 在时间序列预测中面临的部分难题。实验验证在多个不同类型和领域的数据集上进行了广泛而深入的实验全面验证了 CATS 模型的有效性。通过与现有的主流时间序列预测模型进行对比证明了 CATS 模型在降低均方误差、减少参数数量和内存使用方面具有显著优势为后续的研究和实际应用提供了有力的实证支持。 Method 在时间序列预测领域传统Transformer架构中的自注意力机制存在诸多问题如时间信息丢失、计算复杂度高等。为解决这些问题作者提出了仅交叉注意力时间序列TransformerCATS架构其主要由以下三个关键部分构成。 将未来作为查询的交叉注意力机制
在时间序列预测中预测通常针对特定的未来时间范围。交叉注意力机制与自注意力机制相似涉及键key、查询query和值value三个要素但不同之处在于查询来自与键和值不同的来源。在我们的CATS架构中核心在于将未来时间范围视为查询。
具体实现上我们把与预测范围相关的参数设定为可学习的查询。以图4为例我们先针对特定的预测范围创建相应参数。对每个这样的虚拟化参数分配固定数量的参数来代表对应的预测范围使其成为可学习的查询。例如 q i q_{i} qi 就是在 L i L i Li 时刻与预测范围相关的一个查询。当进行分块操作时这些查询会被独立处理。每个可学习查询 q ∈ R P q \in \mathbb{R}^{P} q∈RP 先被输入到嵌入层之后将经过嵌入的输入时间序列分块作为键和值输入到多头注意力层。通过这种方式模型能够利用交叉注意力机制从过去的时间序列数据键和值中精准地提取与未来特定时间点查询相关的信息有效避免了自注意力机制中因排列不变性和反序特性导致的时间信息丢失问题更好地捕捉时间序列中的动态变化和依赖关系 。
跨预测范围的参数共享
在CATS架构中参数共享策略是提升模型效率和性能的关键因素之一。传统的Transformer架构在处理不同预测范围时往往为每个预测步骤单独设置大量参数这不仅增加了模型的复杂度和训练成本还容易引发过拟合问题。
与之不同我们的CATS模型通过在不同预测范围之间共享关键参数极大地减少了参数总量。例如在多头注意力机制中用于计算注意力权重的部分参数在不同的预测时间步中是共享的。这种参数共享方式使得模型在学习过程中能够更高效地利用数据提高参数的使用效率降低模型的过拟合风险。同时减少的参数数量降低了模型的计算复杂度使得模型在训练和推理过程中所需的内存和计算资源显著减少提升了模型的运行速度和实际应用的可行性。这一策略使得CATS模型在处理不同长度和复杂度的时间序列数据时能够以更简洁的结构和更低的资源消耗实现准确的预测。 查询自适应掩码
查询自适应掩码是CATS架构中的另一个创新点它主要用于优化交叉注意力机制的计算过程提升模型的预测准确性。在时间序列预测中不同的时间步和预测范围对于信息的需求和依赖程度各不相同。查询自适应掩码能够根据每个查询即未来的每个时间点的特点动态地调整模型在计算注意力权重时对输入数据键和值的关注程度。
具体而言掩码会根据查询所代表的未来时间点与当前时间的距离、时间序列数据的局部和全局趋势等因素对输入数据中的某些部分进行选择性的屏蔽或增强。例如当预测较近的未来时间点时模型可能更关注近期的时间序列数据掩码会增强对这些数据的注意力权重而当预测较远的未来时间点时掩码会引导模型综合考虑更长期的历史数据和趋势信息。通过这种方式查询自适应掩码帮助模型更加智能地聚焦于与每个预测目标最相关的信息避免无效信息的干扰从而提高预测的准确性和稳定性。同时掩码的应用还可以减少不必要的计算进一步提升模型的计算效率。 Results
长时预测
模型 CATS 在多个数据集的多元长期预测任务中展现出卓越性能。在交通Traffic数据集上对于所有预测范围CATS 始终能实现最低的均方误差MSE和平均绝对误差MAE超越了所有其他模型。对于天气Weather、电力Electricity和 ETT 数据集CATS 表现出极具竞争力的性能在大多数预测范围上取得了最佳结果。这表明 CATS 有效地捕捉了不同时间序列数据中的潜在模式凸显了其处理复杂时间依赖关系的能力。 短时预测 交叉注意力vs自注意力 Conclusion
本研究通过理论分析和实验验证表明在时间序列预测领域传统 Transformer 模型中的自注意力机制并非是必不可少的。CATS 架构通过巧妙地运用交叉注意力机制和独特的参数设置成功地在提升预测精度的同时降低了资源消耗。未来的研究可以基于 CATS 架构进一步探索优化方向如进一步改进交叉注意力机制的细节、探索更有效的参数共享策略、结合其他先进的机器学习技术等。同时可以将 CATS 模型拓展到更多的应用领域如工业生产过程中的质量控制、环境监测中的数据预测等以推动时间序列预测技术的不断发展和创新。 Appendix
补充结果 创作不易麻烦点点赞和关注咯 学术会议
如有意愿参会或投稿可以获取邀请码享受参会、投稿优惠优先审核想要了解更多国内主办的覆盖学科最全最广的学术会议请前往【所有会议官网】 学术会议官网www.ais.cn