GPT

↑ 阅读前记得关注+Star⭐️，每天第一时间收到更新。为了强力对抗谷歌的Gemini 3，OpenAi刚刚推出了GPT-5.2。 Sam Altman 喊道，这是长期以来最大的更新。有关于基准测试分数的官方博客文章。基准分数被杀死。编程能力很强，不过现在看到这些成绩还是很高兴的。有兴趣的话看这里https://openai.com/index/introducing-gpt-5-2/ GPT-5.2的幻觉减少了大约30-40%。价格比较贵。圣诞节还有一个版本。我猜这是图像模型更新？ Chatgpt的“成人模式”目前计划于明年第一季度推出。在这里我想分享一下otherideai首席执行官Matt Shumer对GPT-5.2的深度评论。这家伙在达尔瓦特一周内进行内测主要观点首先放在：遵循指示和工作意愿：GPT-5.2思维朝着迈出了重要一步教学遵循并愿意尝试完成困难的任务。代码生成能力大幅提升：优于GPT-5.1。更有能力，更自主，更仔细，并准备好编写更多代码愿景和长上下文：巨大的进步，特别是在理解图像中的位置和使用大型速度代码库方面是主要缺点：根据作者的经验，在大多数问题中思维模式都非常慢（尽管其他测试人员的反馈不一）。他几乎从不使用即时模式 GPT-5.2 Pro：深度理解能力强得离谱，但速度慢，有时还陷入失败的境地——想了很久 codex CLI：GPT-5.2 是作者在命令行工具中使用的最接近专业级编码能力的模型，但实现此能力的高级理解模式需要漫长的等待。这是详细的评论。对GPT-5.2的思考：提高直觉 GPT-5.2最引人注目的事情就是遵循指示的方式——不是主要的“我说你这样做”，而是“实际完成我所描述的整个任务”。一位作者举了一个例子。在测试创意写作时，他要求模型提出 50 个情节创意，然后选择最好的一个来写故事。大多数模型都会走捷径，可能只提供 10 个想法，选择一个即可开始。 GPT-5.2 在选择这些想法之前生成了所有 50 个想法。这听起来像是一件小事，但事实并非如此。在进行创造性工作或研究时，这 40 多个想法可以包含非常有趣的火花。至关重要的是，模型信任流程而不是为了速度而优化。作者甚至尝试过，要求写一本200页的书。虽然页面本身的内容薄弱且简短，该模型还不能用 goTo 编写来生成已出版的小说，但令人印象深刻，它确实尝试了这样做。它编译整本书，甚至将其格式化为 PDF。大多数模型会假设你做不到，甚至不做尝试一下，他们会告诉你“太长了”，或者只是给你一个大纲，GPT-5.2 就会立即加入。这种尝试雄心勃勃的任务的意愿，即使不完美，也会开辟新的工作流程。代码生成：真正开发的 GPT-5.2 在代码生成方面实际上比以前的模型有了很大的改进。它编写的代码质量更高，可以处理的任务更大。例如，作者使用了 Three.js 动画来压力测试空间推理能力。他要求模型构建一个棒球场景，最终的风格比大多数风格更真实（纹理/灯光效果很棒），但在空间感知和物体放置方面仍然有很大的改进空间。此外，该模型已准备好编写比以前版本更多的代码，并且可以不间断地持续工作更长时间。这才是真正的能力提升。视觉和长上下文 5.2版本的视觉能力得到了显着的提升。它可以工作 of 对图像的理解存在显着差异，尤其是位置和空间关系（尽管空间生成的能力仍在开发中）。这对于操作计算机的代理商来说是个好消息。它的长上下文能力也很棒。在处理大型代码库、大量数据和长期研究时，感觉比以往更加稳定，这也是 GPT-5.2 在代理编码应用中表现良好的原因之一。作者在这里提出一个观点：模型已经变得非常强大，但是OpenAi的Chatgpt接口仍然不可持续。例如，ChATGPT 中的画布界面仍然无法处理大量代码。他首先尝试了 Three.js 画布测试，但模型输出的代码超出了 Canvas 的处理能力。此外，专业模式仅在 ChATGPT 中可用，而在 CODEX CLI 中不可用，这继续让作者感到沮丧。为了解决这个问题，他使用了一个叫做Repopprompt的工具：他将本地的代码库转换为直接单词并将其传递给 5.2 Pro，然后将模型的答案粘贴回 repopprompt，这会将更改应用到代码库。这是又一步，但它允许他在真实的代码库上使用专业级的识别功能。风格任何使用过 openai 模型的人都知道他们对要点的迷恋。 GPT-5.2 延续了这一传统。当您要求它解释某些内容时，您往往会得到一个项目符号列表，而一些清晰的文本段落效果会更好。这个问题可以通过仔细地做你的提示（例如明确要求流畅的散文风格）来避免。撇开要点不谈，写作风格总体上有所改善。虽然与 GPT-5.1 相比并不是一个巨大的飞跃，但它绝对更好，并且有一些积极的一面，一方面是 GPT-5.2 正在学习如何简洁地给出答案。当我问简单的问题时，有时我会得到简单的答案。作者指出，虽然这还不是默认行为，但它是进步。速度问题这个影响cts日常使用作者：标准GPT-5.2 思维很慢。根据他的经验，即使是简单直接的问题也很慢。不过，他还指出，其他测试人员报告的性能速度各不相同，有些任务很快，有些任务很慢。在实践中，这意味着他很少使用GPT-5.2的pag思想。他的工作流程是： • 快速提问 → Claude Opus 4.5 • Deep Unity → GPT-5.2 标准思维模型处于一个尴尬的中间地带：比 Opus 慢，但没有充分理解专业版的优势。对于各个型号的横向对比，笔者同时使用了Claude Opus 4.5、Gemini 3 Pro和GPT-5.2。他们在他的工作流程中形成了明确的分工：回答诸如“x 的语法是什么”或“提醒我 Y 是如何工作的”之类的快速问题。克劳德·奥普斯 4.5 获胜。它更快、更直接。对于研究和复杂推理：GPT-5.2 Pro 显然更胜一筹。当任务需要从多个角度思考并整合大量上下文，Pro在前端UI生成上表现最好：GPT-5.2 Thought和Pro都是对之前GPT模型的改进，但也不如Gemini 3 Pro。这里的区别很微妙：Gemini 3 Pro 拥有最好的美感，而且它的 UI 看起来也很棒。但它在布局和前端工程方面可靠性稍差。因此，如果你需要一个可以处理边缘情况的 UI 正确函数，作者仍然会使用 OPUS 或 GPT。如果你只是追求美观并且愿意自己修复代码，Gemini 3 Pro是最好的选择。 GPT-5.2 Pro：慢速天才专业模式才是真正乐趣的开始。这是一个单独的系统，只能与 ChATGPT 一起使用。简而言之：专业人士非常聪明。思想家和专业人士之间的智力差距立即显现出来。但比原始智力更重要的是专业人士愿意思考。与之前的 Pro 型号相比，解决问题所需的时间更长。对于研究活动，如有必要，它将l 进行很长时间的数据收集。测试菜谱的作者举了一个具体的例子。她向模特寻求膳食计划方面的帮助，强调自己“没有时间做饭”，需要一个七日计划（一日三餐、八顿）。 Pro 提供了出色的食谱规划，但最突出的是它的成分列表 - 比其他型号建议的更简单。它懂得“没有时间”，它不仅限制了烹饪时间，还限制了购物的复杂性、准备工作和脑力劳动。它理解作者的心态，而不仅仅是字面的request.report看到这种程度的理解。他向所有其他切割模型发出了同样的提示，但没有一个被考虑。提示词写作 GPT-5.2 非常擅长编写提示词，这对于充分掌握 AI 模型和构建集成 LLMS 非常重要，该软件非常有用。它写入信号并期望作者未考虑的边缘情况。在这一点上，它与克劳的观点是一致的。de Opus 4.5，明显优于 Gemini 3 Pro。作者在 Codex CLI 中广泛测试了 GPT-5.2，结果越来越令人印象深刻。这是他见过的最接近命令行专业版的。与其他工具相比，它更容易一次就成功。唯一的缺点是有时需要很长时间并且比以前的模型慢。但真正的区别在于，Claude Opus 4.5 倾向于在完全理解问题之前开始编写代码，然后碰壁。不是那样的。它首先提出问题，然后编写代码。它改善了作者的工作流程。除非工作很关键（比如生产代码），否则他通常只是让它运行而不检查每个更改。奇怪的行为模式。它似乎陷入了相互冲突的指令和向用户返回简单任务之间。有时候，它会思考很长时间，然后仍然失败，这是非常耗时的。作者经过两周测试总结的使用场景给出了他的实际分工： 1、快题和日常工作：快速、准确、不浪费时间。 2.深入研究，复杂推理：GPT-5.2 Pro是目前最好的选择。在这种情况下，准确性比速度更重要。 3. 前端风格和 UI 美观：Gemini 3 Pro 目前提供了最好的外观，但需要准备好使用 Codex CLI 进行一些严肃的编码工作：GPT-5.2 是首选，上下文行为和可靠性使其成为代理编码任务的默认选择。这是一个真正的改进。命令遵从性显着提高，对于需要仔细推理的复杂情况，专业模式的智能性和可靠性令人印象深刻。工作，这是作者用过的最好的模型。然而，标准心理模型的速度问题使其在日常工作中几乎没有用处。他的最终用途是：Opus 4.5 para 用于快速任务，pro 用于深度工作。但对于 GPT-5.2 擅长的那些任务，它的表现ance 确实令人印象深刻。来源：https://shumer.dev/gpt52Review-end——最后，记住每天更新的我：欢迎转发、推荐和评论，别忘了关注我特别声明：以上内容（如有则包括照片或视频）由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。注：以上内容（包括图片和视频，如有）由网易HAO用户上传发布，网易HAO为社交媒体平台，仅提供信息存储服务。

上一篇：苹果Homepad曝光：定位AI智能家居中心可“刷脸” 下一篇：没有了

产品推荐