国防科大:双目标优化防止LLM灾难性遗忘

在这里插入图片描述

📖标题:How to Complete Domain Tuning while Keeping General Ability in LLM: Adaptive Layer-wise and Element-wise Regularization
🌐来源:arXiv, 2501.13669

🌟摘要

🔸大型语言模型(LLM)展现出强大的通用语言能力。然而,在特定领域的任务上对这些模型进行微调通常会导致灾难性的遗忘,即模型覆盖或丢失在预训练期间获得的基本知识。这种现象极大地限制了LLM的广泛适用性。
🔸为了应对这一挑战,我们提出了一种新的方法来计算模型参数的元素重要性,这些参数对于在微调过程中保留一般知识至关重要。我们的方法采用了一种双目标优化策略:(1)正则化损失,以保留对一般知识至关重要的参数;(2) 交叉熵损失,以适应特定领域的任务。此外,我们引入逐层系数来解释不同层的不同贡献,动态平衡双射优化。
🔸使用GPTJ和LLaMA-3对科学、医学和物理任务进行的广泛实验表明,我们的方法在增强模型适应性的同时减轻了灾难性遗忘。与以前的方法相比,我们的解决方案大约快20倍,只需要10%-15%的存储空间,突出了实际效率。代码将被发布。

🛎️文章简介

🔸研究问题:大语言模型(LLM)进行领域特定微调时出现灾难性遗忘,即在适应新领域的同时难以保持模型的通用能力。
🔸主要贡献:论文提出了一种新的微调框架,通过自适应层和元素正则化,有效减少了灾难性遗忘,同时显著降低了计算时间和存储需求,提升了模型的效率和可扩展性。

📝重点思路

🔸双目标优化策略:结合正则化损失和交叉熵损失,前者减少对通用知识关键参数的更新,后者增强领域特定学习。
🔸元素级重要性记录:通过计算每个参数对损失函数减少的贡献,记录其在通用任务中的重要性,指导新任务的微调过程。
🔸层间加权正则化:根据不同层对通用能力和领域特定能力的贡献,动态调整正则化权重,确保某些层优先学习任务,而其他层保留通用知识。
🔸低秩矩阵更新:使用LoRA(低秩适应)方法,仅更新低秩矩阵,减少计算成本和存储需求。

🔎分析总结

🔸性能提升:在多个数据集上,使用主流LLMs(如GPT-J和LLaMA-3)进行实验,证明了该方法在保持通用能力的同时,显著提升了领域特定任务的性能。
🔸计算效率:与之前的方法相比,计算时间减少了近20倍,存储需求仅为10%∼15%,显著提高了方法的实用性和可扩展性。
🔸正则化系数分析:通过调整正则化系数,找到了在任务性能和通用能力之间取得平衡的最优值。
🔸层间重要性分析:发现不同层对通用知识的保留和领域特定学习的影响不同,验证了层间加权正则化的有效性。

💡个人观点

论文的核心在于识别不同参数和层对新任务的贡献,针对性优化贡献多的部分,而贡献少的则减少训练以维持通用能力。

🧩附录

在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/5843086.html

相关文章

产品经理的人工智能课 02 - 自然语言处理

产品经理的人工智能课 02 - 自然语言处理 1 自然语言处理是什么2 一个 NLP 算法的例子——n-gram 模型3 预处理与重要概念3.1 分词 Token3.2 词向量化表示与 Word2Vec 4 与大语言模型的交互过程参考链接 大语言模型(Large Language Models, LLMs)是自然语…

技术书籍写作与编辑沟通指南

引言 撰写技术书籍不仅仅是知识的输出过程,更是与编辑团队紧密合作的协同工作。优秀的技术书籍不仅依赖作者深厚的技术背景,还需要精准的表达、流畅的结构以及符合出版要求的编辑润色。因此,如何高效地与编辑沟通,确保书籍质量&a…

Android Studio:Application 和 Activity的区别

Application 和 Activity 是 Android 中非常重要的两个组件,它们分别负责不同的生命周期管理和应用的不同层次的操作。 Application 是应用级别的生命周期管理,它在整个应用运行时只有一个实例,负责应用的全局初始化和资源管理。Activity 是…

【PostgreSQL内核学习 —— (WindowAgg(二))】

WindowAgg WindowAggState 结构体窗口聚合行为ExecInitWindowAgg 函数ExecWindowAgg 函数代码逻辑解释:计算窗口偏移量代码逻辑详细解释: 代码逻辑解释:窗口聚合分区初始化与行推进逻辑代码逻辑详细解释: 代码逻辑解释&#xff1a…

Jupyterlab和notebook修改文件的默认存放路径的方法

文章目录 1.缘由2.操作流程2.1找到默认的路径2.2创建配置文件2.3修改配置文件内容2.4注意事项 1.缘由 我自己使用jupyterlab的时候,打开是在这个浏览器上面打开的,但是这个打开的文件路径显示的是C盘上面路径,所以这个就很麻烦,因…

WordPress使用(2)

上一篇文章讲述了WordPress的基本安装,主要是docker方式的处理。本文章主要介绍WordPress安装后的其他设置。 1. 安装后设置 安装后碰到的第一个需求就是安装一个合适的主题,但WordPress默认的上传文件大小是2M,远远无法满足要求&#xff0…

2024美团春招硬件开发笔试真题及答案解析

目录 一、选择题 1、在 Linux,有一个名为 file 的文件,内容如下所示: 2、在 Linux 中,关于虚拟内存相关的说法正确的是() 3、AT89S52单片机中,在外部中断响应的期间,中断请求标志位查询占用了()。 4、下列关于8051单片机的结构与功能,说法不正确的是()? 5、…

开源AI智能名片2 + 1链动模式S2B2C商城小程序:内容价值创造与传播新引擎

摘要:本文聚焦于信息爆炸时代下,内容价值的创造与传播。随着用户角色的转变,其在内容生产与传播中的价值日益凸显。同时,深入探讨开源AI智能名片2 1链动模式S2B2C商城小程序这一创新商业模式,如何借助用户创造内容并传…