来源:星火智游网 责编:网络 时间:2025-04-25 11:41:05
北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning (LIFT),通过将长输入文本训练进模型参数中,使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路,不再专注于无限扩充上下文窗口,而是将长文本知识内化到模型参数中,类似于人类将工作记忆转化为长期记忆的过程。
目前大模型处理长文本面临两大主要挑战:
传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大 模型难以理解散落在长文本各处的长程依赖关系
现有的解决方案如RAG和长上下文适配各有局限:
RAG依赖准确的检索,容易引入噪声导致幻觉 长上下文适配的推理复杂度高,上下文窗口仍然有限
LIFT的技术创新
LIFT框架包含三个关键组件:
动态高效的长输入训练
通过分段的语言建模将长文本切分为有重叠的片段 避免因过长上下文造成的推理复杂度提升和长程依赖丢失 训练复杂度对长文本长度呈线性增长
平衡模型能力的门控记忆适配器
设计专门的Gated Memory Adapter架构 动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解 允许模型根据查询自动调节使用多少LIFT记忆的内容
辅助任务训练
通过预训练LLM基于长文本自动生成问答类辅助任务 补偿模型在切段训练中可能损失的能力 帮助模型学会应用长文本中的信息回答问题
实验结果
LIFT在多个长上下文基准测试上取得显著提升:
LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升
消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
局限与未来发展方向
尽管LIFT取得了显著成果,仍存在一些局限:
对需要精确信息提取的"大海捞针"任务效果仍不理想 模型对LIFT获得的参数化知识提取能力有待优化 辅助任务的设计严重依赖下游测试任务,通用性有限 如何更好地平衡记忆和原有能力仍是研究重点
研究团队鼓励社区共同探索LIFT在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜力。
结论
LIFT提供了一个全新的长文本处理范式,将上下文知识转化为参数化知识,这一思路与人类短期记忆转化为长期记忆的过程相似。虽然距离彻底解决长上下文挑战仍有距离,但LIFT开辟了一个极具潜力的研究方向。
论文地址:https://arxiv.org/abs/2502.14644
随着移动互联网的迅速发展,各类应用程序不断涌现,丰富了人们的日常生活。幸福宝8008app作为一款颇受欢迎的应用,不仅提供了多个功能,还
魅影直播间在B站的直播功能近年来逐渐受到广大用户的青睐。这不仅是因为平台的流量优势,更重要的是其提供了丰富的互动体验,这让主播与观
化学是一个充满神奇与魅力的领域,尤其是在探索金属元素及其化合物时,更是让人感受到无尽的惊喜。今天,我们将聚焦在“钢钢钢钢钢钠好多水
小莫烧麦原唱歌曲mp3免费听,此曲乃音韵之美,深得人心。诸君可于互联网上寻觅此曲之音频,多方平台齐聚,或可免费聆听,畅享其中妙趣。小
北京大学团队创新提出LIFT框架,实现长上下文知识有效注入模型参数,推动深度学习发展
梦幻西游中的法宝全攻略详解 梦幻西游法宝功能及使用技巧大揭秘
百川智能创始核心团队成员焦可与陈炜鹏离职,转向AI领域创业浪潮
AI动态快报:快手可灵AI成功接入DeepSeek-R1系统;百度推出文心4.5与X1大型模型;小米音频推理团队在MMAU榜单上名列前茅
联想问天WA7785a G3服务器再创佳绩! 单机运行671B DeepSeek大模型实现惊人吞吐量达6708token/s!
鸣潮深梦历程活动的详细玩法解析,帮助你全面掌握游戏挑战策略
小米大模型团队在音频推理技术上实现突破,国际评测榜单居首
深入探索仙剑水月宫任务全攻略,分享详细步骤与心得
李开复携手万智推出企业级大模型平台,突出大模型竞赛的新路线与愿景
腾讯混元3D开源日活动即将来临,探讨3D技术与创新的无限可能!