早期大语言模型存在哪些局限性？GPT系列模型是如何发展起来的？

财醒来
期货开户
2024 年 9 月 19 日

早期大语言模型存在哪些局限性？GPT系列模型是如何发展起来的？
发言人答：早期大语言模型有两个主要局限性。首先，它们受限于有限的数据集，尤其是数据量大小
与训练质量紧密相关。其次，早期模型受限于训练过程中无法有效处理长距离依赖关系，以及缺乏高效
的并行计算能力，这限制了它们在大规模文本理解和生成方面的表现。GPT系列模型起源于2017年谷歌
团队提出的全form架构，该架构的关键创新在于支持长距离依赖关系处理和并行计算，从而能有效利
用GPU等硬件进行大规模运算，提升推理和训练效率。最初，GPT系列仅采用了全form架构的解码器部
分，后来随着技术进步，逐步增加对编码器的运用，同时通过无监督预训练和有监督微调相结合的方
式，提高了模型对特定任务的理解和生成能力。
发言人问：参数量和预训练数据量如何影响大语言模型的表现？
发言人答：从GPT-1到GPT-4，模型参数量呈指数级增长，预训练数据量也随之增大。然而，尽管模型
能够充分利用现有数据达到一定的性能，但它们仍受制于海量数据的需求。例如，在GPT-5还未发布时
发布的GPT-3.1版本，通过生成合成数据并在微调阶段进行学习，缓解了对真实世界数据资源的高度依
赖问题。此外，模型规模庞大，构建相应的训练人工智能集群及其基础设施也是一个巨大的挑战。
发言人问：为什么Open AI的One模型值得重视？
发言人答：在当前时点，Open AI的One模型值得关注，因为它引领了大语言模型发展的新阶段，并且
解决了先前模型存在的局限性。我们将探讨为何该模型在数据和训练上取得了突破，以及如何通过改变
模型范式来优化性能。
发言人问：大规模算力集群的首次作业故障频率与规模如何影响？
发言人答：根据第三方测算，即使在全新正常运行的大型集群中，随着集群规模增大，首次作业故障
发生的概率及所需修复时间会呈反比关系，即集群规模越大，首次出现故障所需时间越短。这意味着在
搭建更大规模的算力集群时，其构建难度并不遵循规模经济原则。
发言人问：大模型短期内面临数据局限和技术瓶颈的原因是什么？
发言人答：由于数据量有限和技术资源不足，大模型在过去出现了明显的瓶颈问题。尤其是在模型尺
寸快速扩大的趋势下，继续扩展数据量和计算资源的成本效益呈现边际递减的现象，无法有效解决短期
面临的性能收益下降困境。
发言人问：今年模型领域有哪些主要变化及其影响？
发言人答：今年模型领域内主要有两个关键变化：一是开源模型逐渐崛起，代表性实例
如OpenAI的MA等；二是闭源模型能力增长放缓，尤其是代表头部大模型厂商的封闭源码模型如欧派。
尽管开源模型发展迅速并与闭源模型达到一定水平相当，但在技术创新方面并未出现明显突破性进
展，特别是在真正大幅提升模型性能方面的技术解决方案仍处于探索阶段。
发言人问：OPPO发布的新模型“o one”为何被认为引领了新范式并具有重要意义？
发言人答：OPPO发布的新模型“o one”运用了强化学习优化思维链路的方法，实现了推理能力的显著提
升。相比传统的监督式学习和无监督学习，强化学习更接近人类的学习方式，允许AI通过与环境交互获
取反馈信号（奖励模型），从而自主探索并持续调整策略。而“o one”通过强化学习的方式成功提升了模
型在数学和代码能力等方面的综合表现，展示了其引领新模型范式的重要性和影响力。
发言人问：强化学习与基于人类反馈的强化学习有何关键区别？
发言人答：强化学习的目标不仅是模仿人的理解和接受习惯，还涉及如何将模型的答案与人的预期匹
配，并非单纯依赖客观的点赞或点击等简单反馈作为奖励信号。因此，在设计过程中需特别注意奖励模
型的设计，以确保模型能通过学习不断优化结果满足用户的期待。
发言人问：为什么强化学习能够推动大模型实现新的突破？
发言人答：强化学习之所以能推动大模型取得新突破，首先是因为其独特的决策加推理方式。通过模
拟决策过程中的多次反馈，强化学习能够生成大量且高质量的训练数据，有助于减少模型因噪声导致
的“幻觉”现象，从而提升整体效果。其次，强化学习允许从训练层面上扩展规模至推理层面，不仅可以
通过增加模拟次数优化训练阶段效果，还能在推理步骤中进一步放大规模，进而增强模型性能。
发言人问：强化学习在哪些领域的应用潜力较大？底座大模型与强化学习之间的关系是什么？
发言人答：强化学习的优势在于能够在有明确反馈机制的任务环境中发挥最佳效果，例如数学和代码
评分的大幅提升即体现了这一点。因此，预计在未来，强化学习将在在线教育和代码编程等领域带来明
显收益增长，尤其是在目前个人助理、TPT等应用领域的效益逐渐显现后，下一个阶段将转向强化学习
更具优势的方向。底座大模型对于强化学习至关重要，它是强化学习得以有效运作的基础条件。以阿尔
法狗为例，其在开始时通过监督学习构建了一定程度的理解框架（底座模型），然后结合强化学习进行
自我博弈训练，最终超越人类顶级棋手。同样道理，对于任何强化学习应用而言，良好的底座模型能帮
助其更好地理解环境规则并执行强化学习训练。

财醒来

暂无介绍....

早期大语言模型存在哪些局限性？GPT系列模型是如何发展起来的？

财醒来

信创产业链如何按照产品划分为哪几个主要部分？

推出o one模型的首要目的是什么？

延伸阅读:

沥青日度基本面

燃料油日度基本面

甲醇日度基本面

硅铁日度基本面

锰硅日度基本面