GPT

新智慧报告主编:于媛 【新智慧介绍】麻省理工学院的最新研究表明,人类向能够自主学习的人工智能又迈出了关键的一步。本研究引入了一种新的自适应大框架模型“stamp”,将模型从“被动学习者”转变为“主动进化者”。人类向能够自主学习的人工智能又迈出了重要一步! GPT-6是否有望成为第一个具有自主学习能力的大型模型?论文地址:https://arxiv.org/pdf/2506.10943 近日,麻省理工学院(MIT)提出了“自适应大型语言模型(SEAL)”框架,使大规模模型具有自我调整和持续优化的能力。网友Vraserx在推荐这篇论文时表示,未来发布的GPT-6可能不仅会更智能,而且还可能是“活的”(计算意义上的)。展开全文 密封架构允许模组el实时从新数据中学习,自组织缓慢学习,并在多个会话之间形成长期记忆...... 所以如果GPT-6融入了密封的能力,它将是一个可以随时适应世界变化的模型,一个每天都变得更好的系统。 它可能标志着自主学习人工智能的诞生,并预示着冷冻体重时代的结束。 社交媒体上的信息显示,论文作者之一 Ekin Akyürek 与 OpenAI 合作,证实了网友 Vraserx 的说法“论文的部分作者现在与 OpenAi 合作”。 这已经意味着 GPT-6 可能是首批采用未来密封框架的尖端大型型号之一。 “自我编辑” 让大模型发展“自适应”能力 虽然大型模型的功能很强大,但这种力量往往是“静态的”,无法根据新任务、新知识或新例子自动更新。 在密封框架下,当拉rge模型遇到新的输入,它会进行自我编辑并生成一段文本。内容可能是关于如何重新组织现有信息,优化超参数,或者调用什么工具来增强数据和更新模型。 然后,通过监督微调(SFT),这些“自我编辑”导致恒定的权重更新,从而提供了长期的灵活性模型。 为了训练模型的“自我编辑”能力,研究人员使用强化学习(RL)构建了一个闭环系统: 更新后模型在下游任务中的表现将作为奖励信号,以改进后续的“自编辑”策略。 与之前添加额外适应模块或辅助网络的方法不同,密封直接允许模型使用自己生成的结果来控制其学习方法。 这种机制让模型摆脱了之前“填鸭式教育”的模式,让其更像一个主动学习者。 为了提高大规模模型的适应性,主张为法学硕士研究人员提供在面对新输入时生成自己的训练数据和微调指令的能力。具体来说,LLM 通过强化学习算法进行训练,以生成“自编辑”——以自然语言指令的形式更新模型权重的指定数据,并可选择提供优化的超参数(图 1)。 研究人员将这种具有“自我编辑”能力的模型称为Adaptive LLM (SEAL)。 通过结合镜头研究中的知识和多项任务来验证海豹的效果,研究人员发现海豹可以提供具有适应潜力并朝自我进化方向发展的大规模模型。 邮票相关研究 1. 综合数据 在训练大型模型时,合成数据变得越来越普遍,而 Seal 也是建立在这个想法之上的。 但情况不同的是,大多数上一代人策略依赖于手动参数调整或固定规则,而SEAL则使用强化学习来自动优化生成策略,让模型在后续训练中生成能够真正提高下游任务性能的数据。 2. 知识整合 最近的许多作品都试图通过权重更新来修改或注入知识。 Seal主张通过上下文生成额外的微调数据,并在此基础上利用强化学习让模型学习生成更好的微调数据。 3. 练习测试 “测试时训练”(TTT)是指模型在训练过程中根据输入动态更新一些权重。-理解以适应新任务。 研究发现,将 TTT 与情境学习相结合可以在小样本条件下表现更好。 Seal的内部优化过程可以看作是TTT的改进版本:它多次生成和更新权重,奖励数据生成能够带来最大绩效提升的策略。 4. 强化学习 强化学习已被证明对于提高大型语言模型的性能非常有效。 标志性的变化是它不使用强化学习来优化最终答案,而是训练模型如何生成可用于自我更新的数据。 邮票的主要思想是“元学习”——也就是说,它让模型学会如何更好地学习。其优点是直接利用现有的模型生成能力来确定参数更新方法,从而实现更大的灵活性。 5. 自我提升 近年来,许多研究开始探索模型如何自我改进。 例如,RLAIF 或自我奖励语言模型通过让模型评估和奖励自己的输出来提高性能。还有一些方法可以通过模型置信度或多数投票来指导强化学习。 但这些方法往往不靠谱当前模型的自我评估能力受到限制。 Seal 的方法有所不同:它将“自我完善”视为与外部数据交互的过程。 通过研究强化,海豹突击队员学会如何更有效地利用这些外部数据,真正实现自我提升。 不要直接教模型执行任务 但教它如何更有效地学习 在印章中,模型根据输入的上下文(例如一段知识或一些示例)生成一段合成数据,称为“自编辑”,然后模型使用此数据来调整语气。 整个生成过程是通过强化学习进行训练的,随着训练的发展,它逐渐学会生成更有用的编辑。 因此,密封可以解释为包含两级循环的算法: 外循环利用强化学习来优化“生成什么样的自编辑”; 内部循环使用自生成的编辑来能够模型也是如此,这使得模型更强大。 外循环利用强化学习来优化“生成什么样的自编辑”; 内循环使用自生成编辑来微调模型,使模型更加稳健。 从这个角度来看,邮票是一种元学习的方法:它并不直接教模型做任务,而是教模型如何更有效地学习。 研究人员证明了Seal在知识整合和镜头学习两个领域的能力。 知识整合 这些示例的目的是有效地将段落中给出的信息整合到模型权重中。 图2展示了印章在知识整合任务中的工作流程,包括passage(输入段落)、self-editing(自编辑)、analysis(分析)。 关于镜头的一些研究 图3展示了seal在几个镜头研究任务中的工作原理,包括几个镜头的例子(some shot example)、自编辑ting阶段(自我编辑)、SFT(监督微调)和analysis(分析)。 在这个例子中,研究人员通过LLAMA-3.2-1B-结构进行了实验,并将其与ICL(上下文学习)、TTT+自编辑、Oracle TTT等基础进行了比较。结果如表1所示: 该密封将适配成功率显着提升至72.5%,但其性能仍低于Oracle TTT,说明仍有提升空间。 据预测,到 2028 年,大型尖端模型将在所有可用的人类生成文本上进行训练。 那时,大模型的发展不再依赖于更多的人类数据,而是依赖于新的学习材料本身的创造——即学习生成、完善和改进自己。 在这样的趋势下,印章呈现出一种新的可能性: 大型模型可以通过生成自己的合成自编辑数据进行预训练,并通过轻量级权重更新应用它们,从而允许g 模型能够自主地吸收新知识并适应新任务。 研究人员希望将印章扩展到更广泛的领域——包括预训练、持续学习和代理系统,最终让大规模模型在数据有限的世界中真正实现自我学习和自我成长。 尽管在测试过程中,seal仍然会遭遇“灾难性屈曲”问题,并且仍然存在诸多局限性,但seal提案仍然为未来大规模模型的自主学习和自我保护提供了一条值得期待的新路径。 也许未来在GPSa T-6上,我们会看到这种自主学习能力。 参考: https://www.wired.com/story/this-ai-model-never-stop-learning/%20 https://arxiv.org/abs/2506.10943 返回搜狐查看更多