LLM真的不能用于时序预测,甚至不能用于推理能力-人工智能

首页 2024-07-06 14:52:49

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题都可以使用)「不」回答),答案应该是否定的。事实似乎是真的:强大如斯 llm 时序数据处理不好。

时间序列,即时间序列,顾名思义,是指一组按时间发生顺序排列的数据点序列。

时序分析是许多领域的关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,许多研究人员最近正在研究如何使用大型语言模型(LLM)对时间序列中的异常进行分类、预测和检测。这些论文假设擅长处理文本中顺序依赖关系的语言模型也可以概括为时间序列数据中的顺序依赖关系。这个假设并不奇怪,毕竟语言模型是机器学习领域的热点。

那么,语言模型能给传统的时间任务带来多大的好处呢?

最近,弗吉尼亚大学和华盛顿大学的一个团队试图回答这个问题,并最终给出了一个简单但重要的主张:对于时间预测任务,语言模型的常用方法接近或低于基本的消融方法,但前者需要比后者多几个数量级。

  • 论文标题:Are Language Models Actually Useful for Time Series Forecasting?

  • 论文地址:https://arxiv.org/pdf/2406.16964

该团队通过大量的消融研究获得了这些发现,揭示了当前时序预测研究中存在一种「令人担忧的趋势」。

但该团队也表示:「我们的目标不是暗示语言模型永远不会用于时间序列。」事实上,最近的一些研究表明,语言和时间序列具有良好的互动潜力,可以处理时间序列推理和社会理解等任务。

相反,他们的目标是强调这一惊人的发现:对于现有的时间序列任务,现有的方法很少使用预训练语言模型的固有推理能力。

实验设置

该团队使用了三种最先进的时间序列预测方法 LLM 提出了三种消融方法:w/o LLM、LLM2Attn、LLM2Trsf。

为了评估 LLM 他们在时间序列预测任务中的有效性 8 这些方法在标准数据集中进行了测试。

语言模型和时间序列的参考方法

他们实验了三种最近的使用方法 LLM 预测时间序列的方法。见表 2.这些方法使用的基本模型是 GPT-2 或 LLaMA,同时采用不同的对齐和微调策略。

OneFitsAll:OneFitsAll(有时也叫 GPT4TS)该方法首先将输入时间序列的使用实例归一化 patching 为了获得语言模型的输入表征,技术将其馈送到线性层。在训练过程中,语言模型的多重注意力和前馈层会被冻结,位置嵌入和层归一化会得到优化。最终层的作用是将语言模型的最终隐藏状态转化为预测结果。

Time-LLM:使用 Time-LLM 输入时间序列将被输入 patching 技术 token 而且多头的注意力会将其与字嵌入的低维表征对齐。之后,将对齐过程的输出与描述性统计特征的嵌入一起输送到冻结的预训练语言模型。然后,通过线性层平整语言模型的输出表征,以获得预测结果。

LLaTA:LLaTA 嵌入输入时间序列的方法是将每个通道视为一个 token。架构的一半是「文本分支」,它利用交叉注意力将时间序列表征与语言模型中嵌入的单词的低维表征对齐。然后将表征传递给冻结的预训练语言模型,得到一个「文本式预测」。同时,该架构「时间」根据输入时间顺序,分支机构被列为学习低秩适应器的预训练语言模型,以获得推理「时间预测」。该模型包括考虑这些表征之间相似性的额外损失。

团队提出的消融方法

对于基于 LLM 预测器,为将军 LLM 该团队提出了三种消融方法:消除影响隔离 LLM 或者用简单的模块代替组件。

具体来说,上述三种方法中的每一种都进行了以下三种修改:

w/o LLM,见图 1b.完全删除语言模型,直接输入 token 将其传递到参考方法的最终层。

LLM2Attn,见图 1c.用单个随机初始化的多头注意力层替换语言模型。

LLM2Trsf,见图 1d。用单个随机初始化替换语言模型 Transformer 模块。

在上述消融研究中,预测器的其余部分保持不变(可训练)。例如,如图所示 1b 所示,正在移除 LLM 之后,输入代码将直接传输到输出映射。如图所示 1c 和 1d 所示,在将 LLM 用注意力或注意力代替 Transformer 之后,他们将与原始方法的剩余结构一起训练。

数据集和评估指标

基准数据集。使用以下真实世界数据集进行评估:ETT(其包含 4 个子集:ETTM1、ETTm2、ETTh1、ETTh2)、Illness、Weather、Traffic、Electricity。表 1 对这些数据集进行统计。另外还有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

评估指标。本研究报告的评估指标是预测时序值与真实时序值之间的平均绝对误差(MAE)和均方误差(MSE)。

结果

具体来说,该团队探讨了以下研究问题(RQ):

  • (RQ1)预训练语言模型有助于提高预测性能吗?

  • (RQ2)基于 LLM 该方法是否值得其消耗的计算成本?

  • 语言模型预训练是否有助于执行预测任务的性能?

  • (RQ4)LLM 时间序列中的顺序依赖关系能否表示?

  • (RQ5)LLM 是否有助于少样本学习?

  • (RQ6)性能从何而来?

语言模型的预训练有助于提高预测性能吗?(RQ1)

实验结果表明,预训练 LLM 对时间序列预测任务不是很有用。

一般来说,如表 3 所示,在 8 个数据集和 2 在指标方面,消融方法是 26/26 案例中优于 Time-LLM 方法,在 22/26 案例中优于 LLaTA,在 19/26 案例中优于 OneFitsAll。

总之,很难说 LLM 时间序列预测可以有效地使用。

基于 LLM 该方法是否值得其消耗的计算成本?(RQ2)

在这里,根据这些方法的名义性能来评估它们的计算强度。参考方法中的语言模型使用数亿甚至数十亿参数来执行时间序列预测。即使这些语言模型的参数被冻结,它们在训练和推理时仍然会有很大的计算成本。

举个例子,Time-LLM 有 6642 M 参数,在 Weather 在数据集上耗时 3003 训练只在几分钟内完成,而消融方法只有 0.245 M 参数,平均训练时间只有 2.17 分钟。表 4 给出了在 ETTh1 和 Weather 在数据集中训练其他方法的相关信息。

至于推理时间,这里的做法是除以最大的大小来估计每个示例的推理时间。平均而言,与修改后的模型相比,Time-LLM、OneFitsAl、LLaTA 更多的推理时间 28.2、2.3、1.2 倍。

图 3 给出了一些绿色标记(消融方法)通常低于红色标记的示例(LLM),并集中在左侧,这表明它们的计算成本较低,但预测性能较好。

总之,在时间序列预测任务中,LLM 计算强度不能相应地提高性能。

语言模型预训练有助于执行预测任务的性能吗?(RQ3)

评估结果表明,没有必要使用大型数据集进行时间序列预测任务的预测训练。为了测试预训练期间学到的知识是否能有意义地提高预测性能,该团队在时间序列数据中进行了实验 LLaTA 不同组合的预训练和微调效果。

  • 预训练 微调(Pre FT):这是在时间序列数据上微调预训练语言模型的原始方法。对于这里 LLaTA,实践是冻结基本语言模型,学习低秩适应器(LoRA)。

  • 随机初始化 微调(woPre FT):预训练获得的文本知识有助于预测时间序列吗?在这里,随机初始化语言模型的权重(从而消除了预训练的效果),然后在微调数据集上从零开始训练 LLM。

  • 预训练 不使用微调(Pre woFT):微调时间序列数据能给预测性能带来多大提高?这是一个冻结语言模型,同时放弃学习 LoRA。这反映了语言模型本身处理时间序列的性能。

  • 随机初始化 无微调(woPre woFT):显然,这是将输入时间序列随机投射到预测结果中。该结果被用作与其他方法进行比较的基准。

整体结果见表 5。在 8 根据数据集 MAE 和 MSE 指标,「预训练 微调」最好的表现有三次,但是「随机初始化 微调」获得了 8 次最佳。这说明语言知识对时间序列预测的帮助有限。但是,「预训练 无微调」与基准「随机初始化 无微调」各自有 5 和 0 第二个是最好的,这表明语言知识对微调过程没有帮助。

总之,预训练获得的文本知识对时间序列预测的帮助有限。

LLM 时间序列中的顺序依赖关系能否表现出来?(RQ4)

大多数使用 LLM 时间序列预测方法用于微调位置编码,有助于理解序列中时间步骤的位置。该团队预计,如果输入位置被打乱,对于具有优秀位置表征的时间序列模型,其预测性能将大大降低。他们实验了三种打乱时间序列数据的方法:随机混合和清洗整个序列(sf-all)、只是随机混洗前一半顺序(sf-half)、交换序列的前半部分和后半部分(ex-half)。结果见表 6。

基于输入混洗 LLM 该方法与其消融方法的影响不同。这表明 LLM 顺序依赖关系在表征时间序列中没有突出的能力。

LLM 少样本学习有帮助吗?(RQ5)

评估结果表明,评估结果表明,LLM 少样本学习场景意义不大。

他们的评估实验是使用每个数据集 10%,然后训练模型及其消融方法。具体来说,这里评估的是 LLaMA(Time-LLM)。结果见表 7。

可见,有没有 LLM 类似的表现 —— 各自都有 8 一个案例的表现更好。这个团队也使用基于这个基础。 GPT-2 的方法 LLaTA 类似的实验已经进行了。结果见表 8.这里的消融方法在少样本场景中的表现优于 LLM。

性能从何而来?(RQ6)

本节评估的是 LLM 编码技术常用于时间序列模型。结果表明, patching 与单层注意力相结合简单但有效的选择。

发现前面的基础 LLM 简单的消融方法不会降低其性能。团队研究了这一现象的原因 LLM 一些常用于时间序列任务的编码技术,如 patching 和分解。一个基本的 Transformer 辅助编码也可以使用模块。

结果表明,一种组合 patching 小数据集中的结构和注意力(时间戳少于时间戳 100 1000)性能优于大多数其他编码方法,甚至可以与之相比 LLM 方法媲美。

其详细结构如图所示 4 所示,涉及将军「实例归一化」用于时间序列,然后进行 patching 和投射。然后,在 patch 一层注意力用于特征学习。对于 Traffic(约 1500 万)和 Electricity(约 800 1000)和其他更大的数据集使用基本数据集 Transformer 单层线性模型的编码性能更好。在这些方法中,单层线性层最终用于投射时间序列嵌入,以获得预测结果。

总之,patching 它对编码非常重要。此外,基本的注意力和 Transformer 该模块还可以有效地帮助编码。

以上是LLM用于时序预测的详细内容,连推理能力都没用。请多关注其他相关文章!


p