新闻资讯
新闻资讯

新的DeepSeek模型是开放资源,新的体系结构很明亮

Zhidongxi May -set |编辑Chen Junda | Xinyuan DeepSeek是接近下一代建筑的一步!吉文奇在9月30日报道说,昨天,DeepSeek宣布了实验版本的DeepSeek-V3.2-Exp模型的开源。该模型首次引入了Deptseek的深刻注意力机制,并大大提高了长期文本训练和推理的效率,而不会影响模型的产出的影响。它被DeepSeek定义为“迈向新一代建筑的中间步骤”。 huggingface地址:https://huggingface.co/deepseek-ai/deepseek-v3.2-ex modai社区地址:展开全文 https://modelscope.cn/models/deepseek-i/deepseek-v3.2-exp 这种改进还降低了新的DeepSeek模型的服务成本,DeepSeek实施了新的政策价格,这将开发人员称为DeepSeek API的成本降低了50%以上。 降价最高的产出代币的价格是产出代币的价格:DeepSeek-V3.2-Exp模型的100万个令牌的产出价格仅为3元,这是DeepSeek-V3.1系列模型的1/4。 9月30日凌晨6点,华为云,PPIO Paiou Cloud和UCID等云平台宣布了DeepSeek-V3.2-Exp的推出。 AI芯片制造商,例如华为,Cambrian和Haiguang Information宣布了DepSek-V3.2-Exp-Exp适应。 DeepSeek-v3.2-Exp是基于DeepSeek-V3.1-terminus构建的。在各个领域的公共审查集中,这两个模型的性能通常相同,但是DeepSeek-V3.2-Exp用来完成任务的代币数量已大大降低。 目前,DeepSeek应用程序,网页和Mini程序一次启动了DeepSeek-V3.2-Exp模型。 DeepSeek还暂时维护Deviceek-V3.1-ensinus API接口,以促进开发人员进行比较和验证。 除本体模型外,Deviceek还开了相关技术ICAL报告和代码,并提供了Tilelang和Cuda GPU操作员的双重版本,供研究人员在不同级别进行实验和优化。 技术报告: https://github.com/deepseek-i/deepseek-v3.2-emp/blob/main/main/deepseek_v3_2.pdf DeepSeek还补充说,作为一个实验,DeepSeek-V3.2-Exp已在公众审查集中得到证明,对于在某些情况下,对用户使用的实际使用以实现不良性能的可能性,仍然有必要进行更广泛的试验。 1。华为,Haiguang和Cambrianlight Speed适应,Netizens被称为Second DeepSeek时刻 当启动DeepSeek-V3.2-Exp时,它引起了热情的行业回应和开发人员圈子。许多国内公司宣布完成了DeepSeek-V3.2-Exp的改编和启动。 华为计算的官方帐户宣布,Ascend已根据诸如vllm/sglan之类的临时框架迅速完成适用的适用G,对第0天(第0天)实施了DeepSeek-V3.2-Exp支持,并打开了所有推理代码的资源和开发人员操作员的实施。 DeepSeek-V3.2-Exp是上升设备上的128K长度输出,并且可以保持ttft的生成速度(令牌的第一个输出所需的时间)少于2秒钟,TPOT(令牌的每个输出都需要时间为时间)小于30毫秒。 华为云首先启动了DeepSeek-V3.2-Exp,并使用CloudMatrix 384超级节点为此模型提供识别服务。 DeepSeek宣布开放Deviceek-V3.2-Exp模型四分钟后,Cambrian还发布了一份声明,称它正在同步0天模型改编并打开大型VLLM-MLU推理引擎模型的源代码的源代码。 寒武纪通过开发Triton操作员来实现快速改编基于计算和通信的平行方法的效率。 DeepSeek-V3.2-Exp模型为671GB,可能需要大量时间单独下载它。这4分钟的第0天适应可能意味着Cambrian和DeepSeek始于模型发布之前的改编作品。 根据经济观察者的说法,DCU(Haiguang Information的深度计算处理器)导致实施了大量适应和优化DeepSeek-V3.2-Exp的第0天,以确保大型计算大小的“零等待”扩展。 在DeepSeek正式宣布DeepSeek-V3.2-Exp的开源的推文中,许多网民分享了他们对模型的经验和感受。一个网民说,他在100,000个代币的代码基础上尝试了DeepSeek-V3.2-Exp,并且改进的速度很明显。 一些网民对DeepSeek API几乎等同于今天的自由感到悲伤。 一些网民认为,该模型的推出可能意味着第二个DeepSeek的时刻即将到来。 拥抱Mukhasa的开始,在DeepSeek社区第V3.2-Exp中也有许多讨论,但是最受欢迎的帖子是中国网民的“投诉”:“我们的模型在国庆节之前已经更新了吗?” 当DeepSeek每次更新模型时,几乎所有网络都在假期的前几天都列出时,也会列出一些网民。 2。经验DeepSeek-V3.2-Exp第一手,建筑创新可能比提高性能更重要 在用户体验方面,DeepSeek-V3.2-Exp与以前的DeepSeek-v3.1-terminus不同? 在编程方面,DeepSeek-V3.2-Exp编写的代码显然更短。在同一任务下,代码输出线的数量低于DeepSeek-v3.1-terminus。 但是,这也会影响某种规模的模型性能。由DeepSeek-V3.2-Exp编写的小球弹跳动画代码无法正常运行,而小的Bola则直接在Hexagon响起e。 DeepSeek-v3.1-terminus在以前的吉文Xi测试中完美地完成了这项工作。 Zhitou还让DeepSeek-V3.2-Exp完成了一项信息获取任务,要求推荐一些适合初学者的植物,以迅速生长并直接食用水果,并确保为儿童提供全部安全性,最好附上简单的播种技能。 与DeepSeek-v3.1-terminus(左)相比,DeepSeek-V3.2-Exp(右)产生的结果较短,并且具有更“简单”的单词。此外,DeepSeek-V3.2-Exp推荐的无花果,激情和其他植物需要削减和保持高频,而对满足直接词要求的新手不友好。 ▲在信息采集任务中,Deepseek-V3.1-terminus(左)和DeepSeek-V3.2-Exp(右)(照片资源:Zhidongxi) 通常,DeepSeek-V3.2-Exp提高了识别效率,但在能力方面做出了一些让步。 Zhihu Blogger @ToyamaNAO还发现了类似的评估问题。他认为,DeepSeek-V3.2-Exp在工作记忆中有明显的缺点,计算和稳定性的准确性,并且容易出现懒惰的可能性,并且有可能陷入死周期。 ▲Zhihu Blogger @Toyama NAO评论-V3.2-Exp评论 其他网民的观点也证实了这一点。例如,这个网民已经在X平台上发布了他在该模型中没有看到任何改进的情况,并问:为什么我们使用具有令人沮丧的功能的模型? 作为一个实验模型,DeepSeek-V3.2-Exp提出了更多的贡献,这在理论层面上。 DeepSeek说,与DeepSeek-V3.1-ensinus相比,DeepSeek-V3.2-Exp的架构的唯一变化是通过正在进行的培训引起了DeepSeek的引入。 当前的DSA机制仍处于原型阶段,主要由两个组成部分组成:闪电索引和一个令牌选择机制。 ▲深Seek-V3.2-Exp架构图 闪电索引迅速评估查询令牌与历史令牌之间的关系,只需从选择机制的上下文中选择最多的选择,以便输入注意力的计算,从而将复杂性从传统二次二级线性降低到估计的线性水平,从而大大降低了培训成本和推理的成本。 实际上,DeepSeek-V3.2-Exp采用了“继续前运动 +训练后”程序。连续的预训练分为两个阶段:首先,在密集模式下短暂训练索引器,以保持与通常关注的输出;然后引入一种广泛的选择机制,以逐渐使模型适应新的计算方法。 培训完成后,DeepSeek-V3.2-Exp通过专家蒸馏和混合加固研究培训。蒸馏的专家的想法是培训各个领域的专业专家模型,例如数学,编程和推理,然后在一般模型中压缩这些模型的知识。 混合增强学习在RL阶段结合了推理,代理能力和人类对齐训练,避免了易受传统多阶段方法易受的p翅目问题。 技术报告表明,在大多数评估活动中,DeepSeek-V3.2-Exp的性能通常在前几代是相同的,并且与个体推理相关的测试得分略有降低,但主要原因是形成了较少的侵权信号,如果使用了中间检查点,则差距会固定。 相反,提高效率尤其重要。在H800 GPU测试环境中,长时间的开销大大减少了,证明DSA在实际扩展中非常实用。 同时,训练曲线在上一代模型中保持相似的稳定性,这也表明没有加法l风险进入这个建筑场景。 结论:DeepSeekis朝着新一代建筑迈进 正如EXP(实验版)所说的那样,DeepSeek-V3.2-Exp的启动不是性能升级,而是更像是一个建筑实验,显示出在文本长期处理中考虑性能和效率的新途径。 作为技术原型,DeepSeek-V3.2-Exp背后的DSA机制很快就可以改善。随着相关技术的继续进行优化,越来越多的公司和研究人员参与验证,预计Deptseek将在不久的将来提供更令人惊讶的结果。回到Sohu看看更多