新闻资讯
新闻资讯

GPT

↑ 阅读前记得关注+Star⭐️,每天第一时间收到更新。为了强力对抗谷歌的Gemini 3,OpenAi刚刚推出了GPT-5.2。 Sam Altman 喊道,这是长期以来最大的更新。有关于基准测试分数的官方博客文章。基准分数被杀死。编程能力很强,不过现在看到这些成绩还是很高兴的。有兴趣的话看这里https://openai.com/index/introducing-gpt-5-2/ GPT-5.2的幻觉减少了大约30-40%。价格比较贵。圣诞节还有一个版本。我猜这是图像模型更新? Chatgpt的“成人模式”目前计划于明年第一季度推出。在这里我想分享一下otherideai首席执行官Matt Shumer对GPT-5.2的深度评论。这家伙在达尔瓦特一周内进行内测主要观点首先放在:遵循指示和工作意愿:GPT-5.2思维朝着迈出了重要一步教学遵循并愿意尝试完成困难的任务。代码生成能力大幅提升:优于GPT-5.1。更有能力,更自主,更仔细,并准备好编写更多代码愿景和长上下文:巨大的进步,特别是在理解图像中的位置和使用大型速度代码库方面是主要缺点:根据作者的经验,在大多数问题中思维模式都非常慢(尽管其他测试人员的反馈不一)。他几乎从不使用即时模式 GPT-5.2 Pro:深度理解能力强得离谱,但速度慢,有时还陷入失败的境地——想了很久 codex CLI:GPT-5.2 是作者在命令行工具中使用的最接近专业级编码能力的模型,但实现此能力的高级理解模式需要漫长的等待。这是详细的评论。对GPT-5.2的思考:提高直觉 GPT-5.2最引人注目的事情就是遵循指示的方式——不是主要的“我说你这样做”,而是“实际完成我所描述的整个任务”。一位作者举了一个例子。在测试创意写作时,他要求模型提出 50 个情节创意,然后选择最好的一个来写故事。大多数模型都会走捷径,可能只提供 10 个想法,选择一个即可开始。 GPT-5.2 在选择这些想法之前生成了所有 50 个想法。这听起来像是一件小事,但事实并非如此。在进行创造性工作或研究时,这 40 多个想法可以包含非常有趣的火花。至关重要的是,模型信任流程而不是为了速度而优化。作者甚至尝试过,要求写一本200页的书。虽然页面本身的内容薄弱且简短,该模型还不能用 goTo 编写来生成已出版的小说,但令人印象深刻,它确实尝试了这样做。它编译整本书,甚至将其格式化为 PDF。大多数模型会假设你做不到,甚至不做尝试一下,他们会告诉你“太长了”,或者只是给你一个大纲,GPT-5.2 就会立即加入。这种尝试雄心勃勃的任务的意愿,即使不完美,也会开辟新的工作流程。代码生成:真正开发的 GPT-5.2 在代码生成方面实际上比以前的模型有了很大的改进。它编写的代码质量更高,可以处理的任务更大。例如,作者使用了 Three.js 动画来压力测试空间推理能力。他要求模型构建一个棒球场景,最终的风格比大多数风格更真实(纹理/灯光效果很棒),但在空间感知和物体放置方面仍然有很大的改进空间。此外,该模型已准备好编写比以前版本更多的代码,并且可以不间断地持续工作更长时间。这才是真正的能力提升。视觉和长上下文 5.2版本的视觉能力得到了显着的提升。它可以工作 of 对图像的理解存在显着差异,尤其是位置和空间关系(尽管空间生成的能力仍在开发中)。这对于操作计算机的代理商来说是个好消息。它的长上下文能力也很棒。在处理大型代码库、大量数据和长期研究时,感觉比以往更加稳定,这也是 GPT-5.2 在代理编码应用中表现良好的原因之一。作者在这里提出一个观点:模型已经变得非常强大,但是OpenAi的Chatgpt接口仍然不可持续。例如,ChATGPT 中的画布界面仍然无法处理大量代码。他首先尝试了 Three.js 画布测试,但模型输出的代码超出了 Canvas 的处理能力。此外,专业模式仅在 ChATGPT 中可用,而在 CODEX CLI 中不可用,这继续让作者感到沮丧。为了解决这个问题,他使用了一个叫做Repopprompt的工具:他将本地的代码库转换为直接单词并将其传递给 5.2 Pro,然后将模型的答案粘贴回 repopprompt,这会将更改应用到代码库。这是又一步,但它允许他在真实的代码库上使用专业级的识别功能。风格任何使用过 openai 模型的人都知道他们对要点的迷恋。 GPT-5.2 延续了这一传统。当您要求它解释某些内容时,您往往会得到一个项目符号列表,而一些清晰的文本段落效果会更好。这个问题可以通过仔细地做你的提示(例如明确要求流畅的散文风格)来避免。撇开要点不谈,写作风格总体上有所改善。虽然与 GPT-5.1 相比并不是一个巨大的飞跃,但它绝对更好,并且有一些积极的一面,一方面是 GPT-5.2 正在学习如何简洁地给出答案。当我问简单的问题时,有时我会得到简单的答案。作者指出,虽然这还不是默认行为,但它是进步。速度问题这个影响cts日常使用 作者:标准GPT-5.2 思维很慢。根据他的经验,即使是简单直接的问题也很慢。不过,他还指出,其他测试人员报告的性能速度各不相同,有些任务很快,有些任务很慢。在实践中,这意味着他很少使用GPT-5.2的pag思想。他的工作流程是: • 快速提问 → Claude Opus 4.5 • Deep Unity → GPT-5.2 标准思维模型处于一个尴尬的中间地带:比 Opus 慢,但没有充分理解专业版的优势。对于各个型号的横向对比,笔者同时使用了Claude Opus 4.5、Gemini 3 Pro和GPT-5.2。他们在他的工作流程中形成了明确的分工:回答诸如“x 的语法是什么”或“提醒我 Y 是如何工作的”之类的快速问题。克劳德·奥普斯 4.5 获胜。它更快、更直接。对于研究和复杂推理:GPT-5.2 Pro 显然更胜一筹。当任务需要从多个角度思考并整合大量上下文,Pro在前端UI生成上表现最好:GPT-5.2 Thought和Pro都是对之前GPT模型的改进,但也不如Gemini 3 Pro。这里的区别很微妙:Gemini 3 Pro 拥有最好的美感,而且它的 UI 看起来也很棒。但它在布局和前端工程方面可靠性稍差。因此,如果你需要一个可以处理边缘情况的 UI 正确函数,作者仍然会使用 OPUS 或 GPT。如果你只是追求美观并且愿意自己修复代码,Gemini 3 Pro是最好的选择。 GPT-5.2 Pro:慢速天才专业模式才是真正乐趣的开始。这是一个单独的系统,只能与 ChATGPT 一起使用。简而言之:专业人士非常聪明。思想家和专业人士之间的智力差距立即显现出来。但比原始智力更重要的是专业人士愿意思考。与之前的 Pro 型号相比,解决问题所需的时间更长。对于研究活动,如有必要,它将l 进行很长时间的数据收集。测试菜谱的作者举了一个具体的例子。她向模特寻求膳食计划方面的帮助,强调自己“没有时间做饭”,需要一个七日计划(一日三餐、八顿)。 Pro 提供了出色的食谱规划,但最突出的是它的成分列表 - 比其他型号建议的更简单。它懂得“没有时间”,它不仅限制了烹饪时间,还限制了购物的复杂性、准备工作和脑力劳动。它理解作者的心态,而不仅仅是字面的request.report看到这种程度的理解。他向所有其他切割模型发出了同样的提示,但没有一个被考虑。提示词写作 GPT-5.2 非常擅长编写提示词,这对于充分掌握 AI 模型和构建集成 LLMS 非常重要,该软件非常有用。它写入信号并期望作者未考虑的边缘情况。在这一点上,它与克劳的观点是一致的。de Opus 4.5,明显优于 Gemini 3 Pro。作者在 Codex CLI 中广泛测试了 GPT-5.2,结果越来越令人印象深刻。这是他见过的最接近命令行专业版的。与其他工具相比,它更容易一次就成功。唯一的缺点是有时需要很长时间并且比以前的模型慢。但真正的区别在于,Claude Opus 4.5 倾向于在完全理解问题之前开始编写代码,然后碰壁。不是那样的。它首先提出问题,然后编写代码。它改善了作者的工作流程。除非工作很关键(比如生产代码),否则他通常只是让它运行而不检查每个更改。奇怪的行为模式。它似乎陷入了相互冲突的指令和向用户返回简单任务之间。有时候,它会思考很长时间,然后仍然失败,这是非常耗时的。作者经过两周测试总结的使用场景给出了他的实际分工: 1、快题和日常工作:快速、准确、不浪费时间。 2.深入研究,复杂推理:GPT-5.2 Pro是目前最好的选择。在这种情况下,准确性比速度更重要。 3. 前端风格和 UI 美观:Gemini 3 Pro 目前提供了最好的外观,但需要准备好使用 Codex CLI 进行一些严肃的编码工作:GPT-5.2 是首选,上下文行为和可靠性使其成为代理编码任务的默认选择。这是一个真正的改进。命令遵从性显着提高,对于需要仔细推理的复杂情况,专业模式的智能性和可靠性令人印象深刻。工作,这是作者用过的最好的模型。然而,标准心理模型的速度问题使其在日常工作中几乎没有用处。他的最终用途是:Opus 4.5 para 用于快速任务,pro 用于深度工作。但对于 GPT-5.2 擅长的那些任务,它的表现ance 确实令人印象深刻。来源:https://shumer.dev/gpt52Review-end——最后,记住每天更新的我:欢迎转发、推荐和评论,别忘了关注我 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。