開源證券：OpenAI o1模型來臨 RL助力模型提升推理能力

智通財經 · 09/13 16:53

早期AI大语言模型性能提升主要凭借Scaling law，在语料数据集以及模型参数持续提升的情况下，模型的性能持续突破，而新一代o1系列模型问世，代表着模型能通过RL在除开训练侧之外的推理侧。

智通财经APP获悉，开源证券发布研报称，早期AI大语言模型性能提升主要凭借Scaling law，在语料数据集以及模型参数持续提升的情况下，模型的性能持续突破，而新一代o1系列模型问世，代表着模型能通过RL在除开训练侧之外的推理侧，引入思维链等新技术的方式提升模型的性能，为科学、数学、编码等专业领域提供更准确的答案，或是生成式AI发展的重要拐点。此外，OpenAI表示除了新的OpenAI o1系列之外，仍在继续开发GPT系列模型。

OpenAI发布o1-preview和o1-mini模型，推理能力显著提升

北京时间2024年9月13日，OpenAI发布新一代o系列模型o1以及o1-mini，在模型训练时引入大规模reinforcement learning(RL)，随着训练时计算(train-timecompute)时间的增加以及推理(test-time compute)时间的延长，o1模型性能持续提升。

通过RL训练，o1模型在推理时使用思维链(Chain of Thought)的方式解决问题，能够将复杂问题分解成多个简单步骤，并即时识别和纠正错误，显著提升了模型的推理能力。在最大化推理时间的前提下，o1在绝大多数推理密集型任务中性能显著优于GPT-4o，模型测试结果显示，57个MMLU 子类别中，o1在54个子类别中的表现优于GPT-4o，性能可与人类专家媲美。

o1模型尚未单独定价，计划为chatgpt免费用户提供o1-mini使用权限

从推理成本上看，o1模型主要在大型文本数据集上预训练，推理成本较高且速度较慢，o1-mini模型在预训练阶段争对STEM推理进行优化，尤其擅长数学及代码领域，模型参数较小且延时推理较低，推理成本比OpenAI o1-preview低80%。

目前，ChatGPT Plus和 Team用户将能够访问 ChatGPT中的o1系列模型，Enterprise和Edu用户将在下周开启访问，OpenAI当前仅在ChatGPT和API中提供模型预览版本，未来将上线浏览、文件和图像上传以及其他功能，未来将为ChatGPTFree用户提供o1-mini使用权限。o1模型并未额外定价，但使用存在限制，o1-preview模型的每周使用限制为30条消息，o1-mini的每周使用限制为50条消息。

AI大模型持续迭代，国内外云巨头持续增加对AI基础设施的资本开支，持续看好算力产业链

推荐标的：宝信软件(600845.SH)、中际旭创(300308.SZ)、英维克(002837.SZ)、新易盛(300502.SZ)、天孚通信(300394.SZ)、中兴通讯(000063.SZ)、盛科通信(688702.SH)。

受益标的：润泽科技(300442.SZ)、源杰科技(688498.SH)、华工科技(000988.SZ)、紫光股份(000938.SZ)、光迅科技(002281.SZ)、华丰科技(688629.SH)、网宿科技(300017.SZ)、烽火通信(600498.SH)、云赛智联(600602.SH)等。

风险提示：AI发展不及预期、智算中心建设不及预期、行业竞争加剧。

早期AI大語言模型性能提升主要憑藉Scaling law，在語料數據集以及模型參數持續提升的情況下，模型的性能持續突破，而新一代o1系列模型問世，代表着模型能通過RL在除開訓練側之外的推理側。

智通財經APP獲悉，開源證券發佈研報稱，早期AI大語言模型性能提升主要憑藉Scaling law，在語料數據集以及模型參數持續提升的情況下，模型的性能持續突破，而新一代o1系列模型問世，代表着模型能通過RL在除開訓練側之外的推理側，引入思維鏈等新技術的方式提升模型的性能，爲科學、數學、編碼等專業領域提供更準確的答案，或是生成式AI發展的重要拐點。此外，OpenAI表示除了新的OpenAI o1系列之外，仍在繼續開發GPT系列模型。

OpenAI發佈o1-preview和o1-mini模型，推理能力顯著提升

北京時間2024年9月13日，OpenAI發佈新一代o系列模型o1以及o1-mini，在模型訓練時引入大規模reinforcement learning(RL)，隨着訓練時計算(train-timecompute)時間的增加以及推理(test-time compute)時間的延長，o1模型性能持續提升。

通過RL訓練，o1模型在推理時使用思維鏈(Chain of Thought)的方式解決問題，能夠將複雜問題分解成多個簡單步驟，並即時識別和糾正錯誤，顯著提升了模型的推理能力。在最大化推理時間的前提下，o1在絕大多數推理密集型任務中性能顯著優於GPT-4o，模型測試結果顯示，57個MMLU 子類別中，o1在54個子類別中的表現優於GPT-4o，性能可與人類專家媲美。

o1模型尚未單獨定價，計劃爲chatgpt免費用戶提供o1-mini使用權限

從推理成本上看，o1模型主要在大型文本數據集上預訓練，推理成本較高且速度較慢，o1-mini模型在預訓練階段爭對STEM推理進行優化，尤其擅長數學及代碼領域，模型參數較小且延時推理較低，推理成本比OpenAI o1-preview低80%。

目前，ChatGPT Plus和 Team用戶將能夠訪問 ChatGPT中的o1系列模型，Enterprise和Edu用戶將在下週開啓訪問，OpenAI當前僅在ChatGPT和API中提供模型預覽版本，未來將上線瀏覽、文件和圖像上傳以及其他功能，未來將爲ChatGPTFree用戶提供o1-mini使用權限。o1模型並未額外定價，但使用存在限制，o1-preview模型的每週使用限制爲30條消息，o1-mini的每週使用限制爲50條消息。

AI大模型持續迭代，國內外雲巨頭持續增加對AI基礎設施的資本開支，持續看好算力產業鏈

推薦標的：寶信軟件(600845.SH)、中際旭創(300308.SZ)、英維克(002837.SZ)、新易盛(300502.SZ)、天孚通信(300394.SZ)、中興通訊(000063.SZ)、盛科通信(688702.SH)。

受益標的：潤澤科技(300442.SZ)、源傑科技(688498.SH)、華工科技(000988.SZ)、紫光股份(000938.SZ)、光迅科技(002281.SZ)、華豐科技(688629.SH)、網宿科技(300017.SZ)、烽火通信(600498.SH)、雲賽智聯(600602.SH)等。

風險提示：AI發展不及預期、智算中心建設不及預期、行業競爭加劇。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

开源证券：OpenAI o1模型来临 RL助力模型提升推理能力

開源證券：OpenAI o1模型來臨 RL助力模型提升推理能力

風險及免責聲明

聲明