o1模型表现出“慢思考”与内化CoT、复杂推理能力大幅提升

o1模型表现出“慢思考”与内化CoT、复杂推理能力大幅提升

o1模型与4o等模型不同之处在于o1模型大幅提升了模型的基础逻辑推理能力,以往的思维链需要用户prompt提示,现在更像是内化了CoT,通过强化学习的引导,模型学会了将复杂问题分解和认识与纠正自己的错误,虽然思考时间变长,但极大的提升了模型推理能力。我们认为这是大模型面向更高级别推理的重要趋势,未来所有大模型公司可能都会跟进,使用的领域也有望从专业领域下放。

猜测原理、可能通过SelfPlay+过程监督强化学习实现CoT的内化与自动化

《Quite STaR》与《Lets verify step by step》等以往论文中展现了可能路径,STaR论文表现出模型可以通过自身产生的Rationales来微调模型从而增强推理,Quite STaR在此基础上进一步发展了思考-讨论-学习的路径,Lets verify step by step通过构建PRM800k的数据集构建一个过程reward model对模型进行监督,最后表现出了较强的数学解题能力。我们认为OpenAI o1模型训练可能采取Self-play RL技术,推理可能与Quite STaR的预测性推理+反思类似。

此方法下推理成本可能大幅增加

从价格上看,目前o1-preview每百万token的输出价格是60美元,是GPT-4o的四倍,是4o mini的一百倍,而且内部还有额外的推理token,实际消耗token的数量会超过可见token的量,因此推理成本可能比所能看到的tokens消耗的更多。从思考时间上看,o1模型思考时间通常为10-20秒,相较于4o也有十倍以上的提升,因此我们预计o1模型的推理成本可能相较于之前上升了一个量级,未来此方法的扩散可能带来全行业大模型推理成本的提升。

暂无介绍....

延伸阅读:

沥青日度基本面

1、9 月 19 日沥青期货下午盘收盘行情:主力 BU2411 合约下午收盘价 3131 元/吨,较昨日结算价上涨 20...

财醒来
2024 年 9 月 20 日
燃料油日度基本面

随着美联储 50bp 降息落地,国际原油价格跟随风险资产反弹,Brent 再度逼近 75 美元/桶关口,并对下游能化商品...

财醒来
2024 年 9 月 20 日
甲醇日度基本面

港口方面,甲醇太仓现货基差至 01+25,基差有所走强,西北周初指导价略有调降。卓创港口库存总量在 109.6 万吨,较...

财醒来
2024 年 9 月 20 日
硅铁日度基本面

昨日硅铁市场偏弱运行,宁夏72%FeSi自然块6000元/吨(-),府谷99.9%镁锭17750元/吨(-150)。成本...

财醒来
2024 年 9 月 20 日
锰硅日度基本面

昨日硅锰市场持稳运行,内蒙古FeMn65Si17出厂价5700元/吨(-80),天津港Mn45.0%澳块报价42.0元/...

财醒来
2024 年 9 月 20 日