您现在的位置是:热点 >>正文

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

热点52人已围观

简介划重点:⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 + 复杂微调⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能⭐ 实验结果表明 ...

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

划重点:

⭐ LongRoPE 方法将 LLM 的微软文窗上下文窗口扩展至2048k,无需架构变化 + 复杂微调

⭐ 通过高效搜索识别位置插值中的上下非均匀性,为微调提供更好初始化,口突展8倍而保持性能

⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,破万并在较短长度内保持与基线相当或更好的倍扩保持困惑度

CSS站长资源(ChinaZ.com)4月29日 消息:近日,微软研究人员提出的展还 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的微软文窗扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。上下

该方法的口突关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的破万初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,倍扩保持首先微调256k 长度的展还 LLM,然后在微调扩展的微软文窗 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。上下

实验结果表明,口突LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。

产品入口:https://top.aibase.com/tool/longrope

论文链接:https://arxiv.org/abs/2402.13753

代码链接:https: //github.com/microsoft/LongRoPE

Tags:

相关文章