来源:星火智游网 责编:网络 时间:2025-04-17 08:50:31
北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning (LIFT),通过将长输入文本训练进模型参数中,使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路,不再专注于无限扩充上下文窗口,而是将长文本知识内化到模型参数中,类似于人类将工作记忆转化为长期记忆的过程。

目前大模型处理长文本面临两大主要挑战:
传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大 模型难以理解散落在长文本各处的长程依赖关系
现有的解决方案如RAG和长上下文适配各有局限:
RAG依赖准确的检索,容易引入噪声导致幻觉 长上下文适配的推理复杂度高,上下文窗口仍然有限
LIFT的技术创新
LIFT框架包含三个关键组件:
动态高效的长输入训练
通过分段的语言建模将长文本切分为有重叠的片段 避免因过长上下文造成的推理复杂度提升和长程依赖丢失 训练复杂度对长文本长度呈线性增长

平衡模型能力的门控记忆适配器
设计专门的Gated Memory Adapter架构 动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解 允许模型根据查询自动调节使用多少LIFT记忆的内容
辅助任务训练
通过预训练LLM基于长文本自动生成问答类辅助任务 补偿模型在切段训练中可能损失的能力 帮助模型学会应用长文本中的信息回答问题

实验结果
LIFT在多个长上下文基准测试上取得显著提升:
LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升
消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
局限与未来发展方向
尽管LIFT取得了显著成果,仍存在一些局限:
对需要精确信息提取的"大海捞针"任务效果仍不理想 模型对LIFT获得的参数化知识提取能力有待优化 辅助任务的设计严重依赖下游测试任务,通用性有限 如何更好地平衡记忆和原有能力仍是研究重点
研究团队鼓励社区共同探索LIFT在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜力。
结论
LIFT提供了一个全新的长文本处理范式,将上下文知识转化为参数化知识,这一思路与人类短期记忆转化为长期记忆的过程相似。虽然距离彻底解决长上下文挑战仍有距离,但LIFT开辟了一个极具潜力的研究方向。
论文地址:https://arxiv.org/abs/2502.14644
在当今数字化的时代,互联网提供了丰富多样的资源和娱乐选择。其中,成人视频网站成为了一部分用户寻求刺激和娱乐的途径。对于这些网站的使
在这个信息爆炸的时代,漫画作为一种受欢迎的娱乐形式,已经成为了许多人生活中不可或缺的一部分。而对于漫画爱好者来说,找到一个丰富多样
三年片在线观看大全哔哩哔哩,乃现今网络视听之盛宴,诸多影视资源汇聚于此,诚为观众提供多元化之选择。无论古今中外,各类影片悉皆应有尽
在这个信息爆炸的时代,人们对于娱乐的需求越来越高。而影视、剧集和综艺节目无疑是人们最喜爱的娱乐方式之一。麻斗传媒官方网站作为一个专
北京大学研究小组创新性提出LIFT框架,实现向模型参数中注入持久的长上下文知识
微软发布全新AI聊天网页应用模板,帮助.NET开发者提升AI开发效率
《钢铁骑士团》技能组合全面解析 技能连击X100技巧详解
崩坏星穹铁道阿格莱雅具体上线时间是什么?一起来了解阿格莱雅的上线日期与相关信息
DNF应用程序出现错误的原因分析与解决方案详解,帮助用户快速恢复游戏正常运行
魔兽争霸倩女幽魂i妖魔道详细攻略与玩法解析,助你轻松上手,畅游游戏世界
恶魔城完全攻略:揭秘黑暗世界的终极探索指南,助你战胜所有挑战
洛克王国圣湖隐藏宠物与洛克王国即将上市的圣诞特别宠物介绍
全面解析香肠派对SS17赛季中各种冲锋枪武器的性能与使用技巧
魂斗罗归来7-3三星完美通关秘籍与实用技巧分享