您现在的位置是:热点 >>正文
微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能
热点52人已围观
简介划重点:⭐ LongRoPE 方法将 LLM 的上下文窗口扩展至2048k,无需架构变化 + 复杂微调⭐ 通过高效搜索识别位置插值中的非均匀性,为微调提供更好初始化,展8倍而保持性能⭐ 实验结果表明 ...
划重点:
⭐ LongRoPE 方法将 LLM 的微软文窗上下文窗口扩展至2048k,无需架构变化 + 复杂微调
⭐ 通过高效搜索识别位置插值中的上下非均匀性,为微调提供更好初始化,口突展8倍而保持性能
⭐ 实验结果表明 LongRoPE 成功将 LLM 上下文窗口扩展至2048k,破万并在较短长度内保持与基线相当或更好的倍扩保持困惑度
CSS站长资源(ChinaZ.com)4月29日 消息:近日,微软研究人员提出的展还 LongRoPE 方法首次将预训练的大型语言模型(LLM)的上下文窗口扩展至2048k 个 token,实现了8倍的微软文窗扩展同时保持原始短上下文窗口的性能,而无需进行架构变化和复杂微调。上下
该方法的口突关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的破万初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,倍扩保持首先微调256k 长度的展还 LLM,然后在微调扩展的微软文窗 LLM 上进行第二次位置插值,以实现2048k 上下文窗口;在8k 长度上重新调整 LongRoPE 以恢复短上下文窗口性能。上下
实验结果表明,口突LongRoPE 方法成功将 LLM 的上下文窗口扩展至2048k,并在256k 的范围内展现出整体困惑度下降的趋势,同时在较短长度内保持与基线相当或更好的困惑度。这一突破性的方法为语言模型的性能提升带来了新的可能性,也为未来的研究和应用奠定了坚实的基础。
产品入口:https://top.aibase.com/tool/longrope
论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
Tags:
相关文章
忘记带身份证怎么坐火车 两种方法请牢记
热点快科技2月1日消息,据央视新闻报道,近日正是春运高峰期,一些旅客在称火车出行时,难免会出现忘带身份证类似的情况。如果成年旅客忘带身份证的话,有两种方法补救,并且不会耽误太多的乘车时间,经常忘的朋友可以 ...
【热点】
阅读更多2024百度AI开发者大会 李彦宏:未来大型AI原生应用将基于MoE
热点CSS站长资源ChinaZ.com)4月16日 消息:在Create2024百度AI开发者大会上,百度创始人、董事长兼首席执行官李彦宏发表了他的见解,他强调了未来AI应用发展的一个重要趋势。李彦宏认为 ...
【热点】
阅读更多利物浦都在用的AI教练,真能拯救国足吗?
热点不久之前,在亚洲杯一场未胜之旅结束后,国足又又又一次陷入了选帅争议。而国足新帅伊万科维奇两场主胜客平新加坡,成绩也实在谈不上亮眼。这种情况下,广大球迷又开始争论,究竟哪位教练才能拯救国足。至少要止住目 ...
【热点】
阅读更多