o1模型表现出“慢思考”与内化CoT、复杂推理能力大幅提升

财醒来
期货开户
2024 年 9 月 18 日

o1模型表现出“慢思考”与内化CoT、复杂推理能力大幅提升

o1模型与4o等模型不同之处在于o1模型大幅提升了模型的基础逻辑推理能力，以往的思维链需要用户prompt提示，现在更像是内化了CoT，通过强化学习的引导，模型学会了将复杂问题分解和认识与纠正自己的错误，虽然思考时间变长，但极大的提升了模型推理能力。我们认为这是大模型面向更高级别推理的重要趋势，未来所有大模型公司可能都会跟进，使用的领域也有望从专业领域下放。

猜测原理、可能通过SelfPlay+过程监督强化学习实现CoT的内化与自动化

《Quite STaR》与《Lets verify step by step》等以往论文中展现了可能路径，STaR论文表现出模型可以通过自身产生的Rationales来微调模型从而增强推理，Quite STaR在此基础上进一步发展了思考-讨论-学习的路径，Lets verify step by step通过构建PRM800k的数据集构建一个过程reward model对模型进行监督，最后表现出了较强的数学解题能力。我们认为OpenAI o1模型训练可能采取Self-play RL技术，推理可能与Quite STaR的预测性推理+反思类似。

此方法下推理成本可能大幅增加

从价格上看，目前o1-preview每百万token的输出价格是60美元，是GPT-4o的四倍，是4o mini的一百倍，而且内部还有额外的推理token，实际消耗token的数量会超过可见token的量，因此推理成本可能比所能看到的tokens消耗的更多。从思考时间上看，o1模型思考时间通常为10-20秒，相较于4o也有十倍以上的提升，因此我们预计o1模型的推理成本可能相较于之前上升了一个量级，未来此方法的扩散可能带来全行业大模型推理成本的提升。

财醒来

暂无介绍....

上一篇

2024年9月18日低硫燃料油(LU)期货持仓龙虎榜分析(所有合约)

下一篇

2024年9月18日合成橡胶(BR)期货持仓龙虎榜分析(所有合约)

延伸阅读:

国企期货商品股指手续费超低费率开户

本站合作期货开户：国有大型期货公司，期货开户手续费超低费率及优惠保证金。开户请添加微信：13908035684或者直接扫...

财醒来 2024 年 7 月 3 日

焦煤期货研报最新消息现货数据分析基本面研究（2025.1.14）

2025年焦煤市场展望：• 焦煤产量回补：￮产量预计增加：2025年国内焦煤产量预计达到48500万吨，同比增加100...

财醒来 2025 年 1 月 14 日

烧碱期货研报最新消息现货数据分析基本面研究（2025.1.14）

2025年烧碱供需紧平衡，中长期趋势偏多：• 烧碱内外需增长，产能扩张有限：￮烧碱需求增长：2025年烧碱需求增长主要...

财醒来 2025 年 1 月 14 日

尿素期货研报最新消息现货数据分析基本面研究（2025.1.14）

2025年尿素供应压力增大，需求增速放缓：• 新增产能压力大：￮产能增长预期：2025年国内尿素新增产能为400万吨，...

财醒来 2025 年 1 月 14 日

镍期货研报最新消息现货数据分析基本面研究（2025.1.14）

全球原生镍供需情况：• 2025年全球原生镍供需增长：￮全球产量增长：2025年全球原生镍产量将同比增长4%，达到37...

财醒来 2025 年 1 月 14 日

本站合作期货开户：国有大型期货公司，期货开户手续费超低费率及优惠保证金。开户请添加微信：13908035684或者直接扫描上方二维码添加微信咨询和获取开户流程。
开户后提供服务如下：
1.期货期权手续费优惠超低费率和保证金优惠。（添加微信后发优惠后手续费保证金一览表）
2.期货开户可自选期货靓号，保证金追保可商议保留
3.开户后免费赠送期货内部小道消息研究策略群，每日分享策略研报
4.期货各品种趋势量化指标使用
5.每日最新期货品种小道消息资讯、调研报告和会议纪要分享
6.期货各品种基本面策略、数据、现货价格情况
7.群内高手盘中机会提示和经验交流（包括吹牛）、期货交易操盘手培训及大佬经验视频等课程
8.期货各品种现货企业、厂家、贸易商渠道对接
9.每日期货机构、散户、外资持仓龙虎榜动态分析
10.每日更新期货手续费和保证金一览表