消息称 OpenAI 在研发新的先进人工智能，代号草莓，正是去年公司内讧的导火索，哪些信息值得关注？

段小草的回答

OpenAI 传闻中的项目又多一个，此前已有过 Arrakis、Gobi、Q*，这次多了个 Strawberry。

按照路透社的报道^[1]，OpenAI正在开发一个名为“Strawberry”的新项目，旨在展示AI模型的高级推理能力。该项目的细节在内部文件中有描述，但此前未被公开报道，且发布日期未确定。

Strawberry 的目的是使 AI 不仅能够生成查询的答案，还能提前计划，自主且可靠地在互联网上进行导航，执行 OpenAI 所称的「深度研究」型任务：

Strawberry的前身是 Q*，消息人士称早期演示显示其能够回答复杂的科学和数学问题。
Strawberry项目采用一种后训练方法，在模型预训练后进行进一步优化。
该方法类似于斯坦福大学开发的「自学推理者」（STaR），通过迭代创建自己的训练数据，提高智能水平。
Strawberry 的目标包括执行「长视距任务」（LHT，long-horizon tasks），需要模型提前规划并完成一系列复杂任务。
OpenAI 希望通过 Strawberry 显著提高 AI 模型的推理能力，使其能够使用 CUA（computer-using agent）自主浏览网络进行研究，并测试其在软件和机器学习工程方面的能力。

STaR 的论文^[2]介绍：

这篇论文提出了一种名为“Self-Taught Reasoner”（STaR）的技术，旨在解决如何提高语言模型在复杂推理任务上的性能。这些任务包括数学问题解答、常识问题回答等。目前，让语言模型生成推理过程（即“rationales”）的方法主要有两种：一种是构建包含推理过程的大规模数据集进行微调，这种方法成本高昂且不现实；另一种是使用少量示例（few-shot）进行上下文学习，但这种方法的性能通常远低于直接预测答案的模型。

STaR技术通过迭代利用少量推理示例和大量无推理数据集，引导模型逐步提升进行更复杂推理的能力。具体来说，STaR方法包括以下几个步骤：