当前位置：首页 > news >正文

公司网站模板jsp网页成品免费下载

news 2026/5/6 19:57:08

公司网站模板,jsp网页成品免费下载,手机里面的网站怎么制作,多少钱目录一、Pmdarima实现单变量序列预测1.1 核心功能与特性1.2 技术优势对比1.3 python案例1.3.1 时间序列交叉验证1.3.1.1 滚动交叉验证1.3.1.2 滑窗交叉验证时间序列相关参考文章#xff1a; 时间序列预测算法—ARIMA 基于VARMAX模型的多变量时序数据预测基于机器学习时序库… 目录一、Pmdarima实现单变量序列预测1.1 核心功能与特性1.2 技术优势对比1.3 python案例1.3.1 时间序列交叉验证1.3.1.1 滚动交叉验证1.3.1.2 滑窗交叉验证时间序列相关参考文章时间序列预测算法—ARIMA 基于VARMAX模型的多变量时序数据预测基于机器学习时序库pmdarima实现时序预测时间序列预测算法—Prophet 时间序列预测算法—LSTM 长时间序列预测算法—Informer 时间序列分类任务—tsfresh 有季节效应的非平稳序列分析 python时间序列处理时间序列异常值检测方法时间序列异常值处理方法一、Pmdarima实现单变量序列预测 pmdarima 是 Python 生态中专注于时间序列预测的高阶工具库基于 ARIMA/SARIMA 模型框架能够处理平稳性、季节性、周期性等问题可以执行差分、交叉验证等运算通过自动化建模流程降低时序分析门槛。其核心设计理念为 “自动化” 与 “兼容性”旨在为开发者提供简洁、工业级的时序预测解决方案。官方文档源码仓库 1.1 核心功能与特性自动化建模引擎参数自动搜索通过 auto_arima() 函数一键完成模型参数p, d, q 及季节性参数 P, D, Q, m的智能搜索无需手动调参。内置 ADF检验Augmented Dickey-Fuller Test自动确定差分阶数 d解决非平稳序列问题。季节性处理支持季节性差分与傅里叶项分解自动检测季节性周期 m如月、季度、年周期。工程化接口设计 sklearn 兼容性遵循 scikit-learn API 规范fit()、predict()、score()无缝接入机器学习流水线。支持 Pipeline 集成与 GridSearchCV 超参数优化。扩展功能模型持久化pickle 序列化、置信区间计算、残差诊断白噪声检验。性能优化并行计算通过 n_jobs 参数启用多核并行加速模型搜索。大样本支持分块Chunking处理超长时序数据避免内存溢出。 1.2 技术优势对比特性pmdarima传统 ARIMA 实现如 statsmodels参数自动化✅ 全自动搜索 (p,d,q,P,D,Q,m)❌ 需手动指定所有参数季节性支持✅ 内置季节差分与傅里叶分解⚠️ 需手动配置季节差分项API 易用性✅ 类 sklearn 接口fit/predict⚠️ 需调用专用函数如 ARIMA()非平稳性处理✅ 自动执行ADF检验确定差分阶数d❌ 需手动运行平稳性检验计算效率✅ 并行搜索 (n_jobs)、分块处理❌ 单线程计算为主生产集成✅ 兼容sklearn流水线与超参数优化⚠️ 需额外封装才能接入ML系统模型诊断✅ 内置残差检验与置信区间计算⚠️ 需调用其他工具辅助验证 1.3 python案例 load_wineind 是pmdarima 库中经典的季节性时间序列数据集时间范围为1980 年 1 月至 1994 年 8 月共 176 个月度观测点反映澳大利亚葡萄酒产业的月度销量。 import pmdarima as pm from pmdarima import model_selection import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.metrics import mean_squared_error import warnings warnings.filterwarnings(ignore)data pm.datasets.load_wineind() fig plt.figure(figsize(16,5)) plt.plot(range(data.shape[0]),data) plt.grid()#使用pm分割数据遵循时序规则不会打乱时间顺序 train, test model_selection.train_test_split(data, train_size152) #自动化建模只支持SARIMAX混合模型不支持VARMAX系列模型 arima pm.auto_arima(train, traceTrue, #训练数据是否打印训练过程error_actionignore, #设置为ignore将会忽略错误并继续,其他选项包括warn、raise、trace等。 suppress_warningsTrue, #无视警告和错误maxiter5, #允许的最大迭代次数seasonalTrue,#是否考虑季节性因素。设置为True表示模型将包含季节性成分。m12 #季节性的周期数)#预测 - n_periods向未来预测无法对训练的时间进行预测 preds arima.predict(n_periodstest.shape[0]) preds #按照测试集的日期进行预测fig plt.figure(figsize(16,5)) plt.plot(range(test.shape[0]),test) plt.plot(range(test.shape[0]),preds) plt.grid()#评估指标 - 可共用sklearn的评估指标也可调用特定的时序指标AIC np.sqrt(mean_squared_error(test, preds)) #rmse 输出2550.8824550311906 arima.aic() #aic 输出2946.1506587987415arima.summary()傻瓜式搜索合适的参数从效率角度来说远远超过statsmodel遗憾的是从上述代码不难看出pmdarima的代码思路是更靠近机器学习而不是统计学的因此pmd.auto_arima跑出的结果往往无法满足统计学上的各类检验要求因此泛化能力无法被保证。同时我们也很容易发现由于数据集分割的缘故autoarima选择出的最佳模型可能无法被复现例如我们使用autoarima选择出的最佳模型建立模型 model pm.ARIMA(order(2,1,1),seasonal_order(1,0,1,12), max_iter500) model.fit(train) np.sqrt(mean_squared_error(test, model.predict(n_periods test.shape[0]))) #RMSE2983.19明显高于auto_arima2550.88的结果 model.aic() #AIC2936.459却低于auto_arima2946.15的结果所以AIC并不能作为唯一标准的评估指标fig plt.figure(figsize(16,5)) plt.plot(range(test.shape[0]),test) plt.plot(range(test.shape[0]),model.predict(n_periods test.shape[0])) plt.grid()1.3.1 时间序列交叉验证在时序模型的选择过程中可以借助交叉验证来帮助我们选择更好的模型。时间序列的交叉验证非常特殊因为时间序列数据必须遵守“过去预测未来”、“训练中时间顺序不能打乱”等基本原则因此传统机器学习中的k折交叉验证肯定无法使用。在时间序列的世界中有以下两种常见的交叉验证方式滚动交叉验证和滑窗交叉验证。 1.3.1.1 滚动交叉验证滚动交叉验证是一种针对时间序列数据的验证方法其核心思想是在模型训练过程中不断扩展训练集同时使验证集逐步向未来推进。这种方式不仅确保了模型始终遵循“用过去预测未来”的原则还能保证训练数据与预测目标之间的时间间隔足够接近从而提高预测的现实性和有效性。相比传统的“多步预测”方法滚动交叉验证避免了“误差累积”问题。由于训练过程中始终使用真实标签进行拟合模型不会受到前期预测误差的传递影响因此能够更稳定地评估未来数据的预测能力。对于时间序列任务滚动交叉验证能够更真实地模拟未来预测场景从而提高模型的泛化性能。在pmdarima中使用类RollingForecastCV和cross_validate来实现交叉验证。 model_selection.RollingForecastCV(h1, step1, initialNone) h验证集中的样本数量可以输入[1, n_samples]的整数。 step训练集中每次增加的样本数量必须为大于等于1的正整数。 initial第一次交叉验证时的训练集样本量如果不填写则按1/3处理。 cv model_selection.RollingForecastCV(h1, step1, initial 10) cv_generator cv.split(data) next(cv_generator) #根据Initial初始训练集有10个样本验证集遵循参数h的设置只包含一个样本next(cv_generator) #根据step的设置训练集每次增加1个样本验证集继续包含一个样本cv model_selection.RollingForecastCV(h5, step10, initial 10) cv_generator cv.split(data) next(cv_generator) #验证集包含10个样本next(cv_generator) 在pmdarima中实现滚动交叉验证时验证集实际上是可以重复的可以在有限的数据上进行多轮验证集重合的交叉验证。 model pm.ARIMA(order(2,1,1),seasonal_order(1,0,1,12),max_iter500) cv model_selection.RollingForecastCV(h24, step12, initial36) predictions model_selection.cross_validate(model, data,cvcv, scoring mean_squared_error, verbose 2, #控制日志输出的详细程度 0无输出1仅显示重要信息 2详细日志显示每次滚动交叉验证的进度和结果error_score raise) #控制当交叉验证过程中发生错误时的行为raise遇到错误时直接报错np.nan如果遇到错误则该次评估返回 NaN不会影响整个交叉验证流程 predictionsnp.sqrt(predictions[test_score]) #rmse交叉验证的测试集中得到的RMSE大部分都大于我们之前自动化建模时得到的RMSE并且训练数据越少时测试集上的RMSE会越大这可能说明在前几折交叉验证时训练集的数据量太少我们可以考虑增大initial当中的设置来避免这个问题。 1.3.1.2 滑窗交叉验证与滚动交叉验证类似滑窗交叉验证中的验证集既可以是单一样本也可以包含多个时间步数据。相较于滚动交叉验证滑窗交叉验证的核心优势在于训练集大小保持恒定每次训练时仅使用理论上对当前验证集最有效的信息。这避免了训练集无限增长所带来的计算开销同时确保模型始终基于最新的历史数据进行训练提高对近期趋势的适应性。然而这一特性也带来了潜在问题由于训练集较小模型需要进行更多次训练导致计算量大幅增加使得交叉验证过程异常缓慢。特别是在高频时间序列或大规模数据集上滑窗交叉验证的计算成本可能成为实际应用中的限制因素。在pmdarima当中使用SlidingWindowForecastCV来完成滑窗交叉验证 model_selection.SlidingWindowForecastCV(h1, step1, window_sizeNone) h验证集中的样本数量可以输入[1, n_samples]的整数。 step每次向未来滑窗的样本数量必须为大于等于1的正整数。 window_size滑窗的尺寸大小如果填写None则按照样本量整除5得到的数来决定。 cv model_selection.SlidingWindowForecastCV(h1, step1, window_size 10) cv_generator cv.split(data) next(cv_generator)next(cv_generator) cv model_selection.SlidingWindowForecastCV(h5, step10, window_size 10) cv_generator cv.split(data) next(cv_generator)next(cv_generator)model pm.ARIMA(order(2,1,1),seasonal_order(1,0,1,12),max_iter500) cv model_selection.SlidingWindowForecastCV(h24, step12, window_size36) #简单粗暴 predictions model_selection.cross_validate(model,data, cvcv, scoring mean_squared_error, verbose 2, error_score raise) predictionsnp.sqrt(predictions[test_score])从结果来看使用更少的训练集进行训练后模型输出的RMSE大幅上升了并且也没有变得更稳定这说明当前模型下更大的训练集会更有利于模型的训练。 cv model_selection.SlidingWindowForecastCV(h24, step1, window_size132) predictions model_selection.cross_validate(model, data,cvcv, scoring mean_squared_error, verbose 2, error_score raise) np.sqrt(predictions[test_score]) 此时RMSE的均值大幅下降了但是模型还是不稳定这说明当前时间序列各时间段上的差异较大当前模型的拟合结果一般。虽然通过增加训练集的数据量可以让模型表现提升但极其不稳定的结果展示当前模型的泛化能力是缺失的。当然和使用AIC时一样我们只能选择表现更好的时序模型只能择优而无法选择完美的时序模型。当我们将auto_arima选出的最佳参数放弃、而选择带有其他参数的模型说不定得到的结果会更加不稳定。

查看全文

http://www.hkea.cn/news/14559011/