NVIDIA和MIT等将长时间出售
作者: BET356官网在线登录 点击次数: 发布时间: 2025-07-15 13:01

想象一下...您需要在所有分钟内看到世界杯决赛,不仅要讲述目标,而且还要涵盖数百张曲目,情感和战术细节的照片。实时策略游戏,例如预测足球分析和Starcraft 2预测,还需要考虑各种变量,并且难度水平也很高。星际争霸2匹配的预测分析是不同的情况。同样的AI,Super High Roller的Dexas AI游戏都面临着所有赌注,薪水增加和专业球员的折叠。在得克萨斯州的游戏中,这些字母不仅是“看”的,而且还记得所有的公开信件,赌注的顺序,花朵之后的心理游戏,甚至是对手扮演的偏好,在河流的最后一封信打开时是最好的推理。另一个小游戏:3杯和1个小球。 Lpeople看着屏幕并丢失。 AI就像魔术师,您能注意该位置吗在数百幅画中的球?在猜测球位置的移动杯后面,AI不仅需要“识别”,而且还需要掌握联运交叉和推理,记忆和游戏知识。这正是Long-RL想要解决的问题。这是一种理解和猜测的方式,它何时面对长时间的视频和复杂的战略推理,并查看出色的模型。如今,视觉语言模型(VLM)和大型语言模型(LLM)变得越来越强,但实际上,当您需要每小时需要处理视频,多模式输入,长期一致性和上下文推断时,传统的开源解决方案通常不会打扰您。您想执行一个长序列吗?视频记忆爆炸了。您想成为多模式吗?很难与上游和下游兼容。您想提高RL吗?缓慢的采样导致产量低。为了应对这些问题,NVIDIA最近与MI一起推出了Long-RLT,香港大学和加利福尼亚大学伯克利分校。文档:RL沿着长期视频量表项目的漫长方向一个完整的第四次训练框架,该框架在长时间学习Dimodal供应方面确实取决于。接纳RL小时视频:Independiente可以训练3600幅画(256K令牌)。长-RL核是MR-SP的平行框架。 MR-SP的全名是多模式增加序列的并行性,这意味着多模式增加序列的并行性,这可以显着减少训练时间和视频记忆,以了解几张图片中视频的长时间推断。启用MR-SP之后,传统解决方案可以提高高达2.1倍。然后,这是怎么发生的?具体而言,MR-SP分为两个阶段。多模式增强序列系统(MR-SP),阶段1是使用并行编码的显示。为了有效地支持长期的视频增强学习,团队采用了平行序列机制(SP)DurinG视频编码阶段。如上图的左侧所示,输入视频帧最初均匀地分布在多个GPU中(例如,GPU 1至GPU 3),每个GPU 1至GPU 3),每个GPU 1都配备了自己的视觉塔。每个GPU单独处理视频的一部分,仅编码框架的一部分。 ENTER生成的输入中添加了通过已建立的操作嵌入的文本,如整个数字集中的箭头所示。该策略分发了编码的工作负载,并允许系统利用更多的GPU并处理更长的视频,同时避免GPU内存溢出的风险。并行编码方案确保了视觉塔的平衡使用,从而可以使用单个设备进行可扩展的长视频处理。在全球范围内收集后,在整个强化学习过程中,视频完整性被重复使用。如前图所示,可以在倍数期间重复使用收集的重叠LE部署没有重新计算。例如,对于每个培训步骤,部署通常进行8-16次。如果未进行回收,则必须在每个步骤中重新记录相同的视频。这对训练速度有严重影响。当存储在高速缓存和收集的镶嵌物中时,MR-SP会消除这种冗余,并显着加速培训。第二阶段是将序列用于一个完整的占据。对于每个部署,参考模型和战略模型都需要在增强学习中对长视频进行密集的计算反映。当多路复用器在阶段1中收集的嵌体时,可以使用序列在设备之间平行推断相。如先前图的右侧所示,这里的解决方案是收集全球输入输入。这些嵌体首先以均匀的长度填充,然后通过每个GPU均匀分布(碎片到本地GPU)。这样,每个GPU必须在上一个填充过程中处理一部分输入序列。这种并行性适用于参考策略和模型的预言。然后,每个GPU在局部计算令牌部分的logit,并并行指。 Long-RL也是多模式RL工具箱。该团队还在Complete多模式RL工具的盒子中构建了Long-RL,除了多模式系列外,还可以适用于多模式:Vila,QWEN-VL系列和其他LLM/VLM。它保持稳定的扩散,WAN和其他生成模型。多算法算法:组,DAPO,改进,1行切换。多模式:不仅文本,而且是视频和音频。 Longvila-R1 USA Long-RL,这支NVIDIA团队已建立了Longville-R1训练框架。您也可以从名称中看到它。该培训框架基于也来自公司的Vila-Visual(VLM)语言模型。有关更多信息,请参阅文档“ Vila:先前的视觉语言模型”。关于培训ProcESS,Longvila-R1基于基本的Longvila培训过程,还使用MM-SP在长期视频理解任务中通过长CRIB执行SFT。然后,改进的量表学习是通过半植物增强Basia(MR-SP)的并行性完成的。在Longvila-R1训练过程的框架内,Longvila-R1集成了MR-SP进行可扩展的视频框编码和LLM的prefesta。 Renefaltion Learning使用带有Cache Inlaid的基于VLLM的引擎,并根据Longvila部署进行了定制。精度和格式的补偿是策略优化的指南。可以说,Longvila-R1 Longvila-R1增强学习框架是Long-RL的“明星学生”,专门研究长期视频推理的硬骨头。简而言之,可以用三个关键字来概括创新:三个关键字。高质量的高品质长距离派别数据:52K长的视频推理样品涵盖了四个类别的推断:时间/客观/空间/图形。两阶段火车ING:首先使用COT-SFT来为链推断奠定基础,RL PTO增强概括并更加深入地学习。有效的MR-SP并行性:多模式长序列并行性,可以同时将特征存储在缓存中。长距离Razon数据的效果有多有效?随着绘画数量的增加,在诸如LongVideo-Razon-Jeval之类的强推理参考点中,额外的推断显着提高了精度,并逐渐扩大了其优于非推理配置的优势。该团队还通过消融实验确认了每个组件的有效性。在现实世界中,无论您是看一场完整的足球比赛,与人看到多轮对话,还是让机器人长时间工作,AI都需要保留上下文,长期保留推断并根据评论进行调整。这正是Renfortion学习(RL)和Good的方法。总是尝试犯错,收到付款并做出更好的决定。团队指出:只有将RL与长时间的推理结合在一起,才能“推理”超越“连续智力”:这也是AGI的唯一形式。陈Yukan研究团队目前是NVIDIA研究的科学家。它拥有中国大学的博士学位。光线(多模式)的伟大模型,并在ICML,ICLR和CVPR上发表了许多文章,并在训练阶段和NVIDIA Tensort-LllM中都采用了研究结果。