o1模型表现出“慢思考”与内化CoT、复杂推理能力大幅提升

o1模型表现出“慢思考”与内化CoT、复杂推理能力大幅提升

o1模型与4o等模型不同之处在于o1模型大幅提升了模型的基础逻辑推理能力,以往的思维链需要用户prompt提示,现在更像是内化了CoT,通过强化学习的引导,模型学会了将复杂问题分解和认识与纠正自己的错误,虽然思考时间变长,但极大的提升了模型推理能力。我们认为这是大模型面向更高级别推理的重要趋势,未来所有大模型公司可能都会跟进,使用的领域也有望从专业领域下放。

猜测原理、可能通过SelfPlay+过程监督强化学习实现CoT的内化与自动化

《Quite STaR》与《Lets verify step by step》等以往论文中展现了可能路径,STaR论文表现出模型可以通过自身产生的Rationales来微调模型从而增强推理,Quite STaR在此基础上进一步发展了思考-讨论-学习的路径,Lets verify step by step通过构建PRM800k的数据集构建一个过程reward model对模型进行监督,最后表现出了较强的数学解题能力。我们认为OpenAI o1模型训练可能采取Self-play RL技术,推理可能与Quite STaR的预测性推理+反思类似。

此方法下推理成本可能大幅增加

从价格上看,目前o1-preview每百万token的输出价格是60美元,是GPT-4o的四倍,是4o mini的一百倍,而且内部还有额外的推理token,实际消耗token的数量会超过可见token的量,因此推理成本可能比所能看到的tokens消耗的更多。从思考时间上看,o1模型思考时间通常为10-20秒,相较于4o也有十倍以上的提升,因此我们预计o1模型的推理成本可能相较于之前上升了一个量级,未来此方法的扩散可能带来全行业大模型推理成本的提升。

暂无介绍....

延伸阅读:

国企期货商品股指手续费超低费率开户

本站合作期货开户:国有大型期货公司,期货开户手续费超低费率及优惠保证金。开户请添加微信:13908035684或者直接扫...

财醒来
2024 年 7 月 3 日
焦煤期货研报最新消息现货数据分析基本面研究(2025.1.14)

2025年焦煤市场展望:• 焦煤产量回补:○ 产量预计增加:2025年国内焦煤产量预计达到48500万吨,同比增加100...

财醒来
2025 年 1 月 14 日
烧碱期货研报最新消息现货数据分析基本面研究(2025.1.14)

2025年烧碱供需紧平衡,中长期趋势偏多:• 烧碱内外需增长,产能扩张有限:○ 烧碱需求增长:2025年烧碱需求增长主要...

财醒来
2025 年 1 月 14 日
尿素期货研报最新消息现货数据分析基本面研究(2025.1.14)

2025年尿素供应压力增大,需求增速放缓:• 新增产能压力大:○ 产能增长预期:2025年国内尿素新增产能为400万吨,...

财醒来
2025 年 1 月 14 日
镍期货研报最新消息现货数据分析基本面研究(2025.1.14)

全球原生镍供需情况:• 2025年全球原生镍供需增长:○ 全球产量增长:2025年全球原生镍产量将同比增长4%,达到37...

财醒来
2025 年 1 月 14 日