段小草的回答
OpenAI 传闻中的项目又多一个,此前已有过 Arrakis、Gobi、Q*,这次多了个 Strawberry。
按照路透社的报道[1],OpenAI正在开发一个名为“Strawberry”的新项目,旨在展示AI模型的高级推理能力。该项目的细节在内部文件中有描述,但此前未被公开报道,且发布日期未确定。
Strawberry 的目的是使 AI 不仅能够生成查询的答案,还能提前计划,自主且可靠地在互联网上进行导航,执行 OpenAI 所称的「深度研究」型任务:
- Strawberry的前身是 Q*,消息人士称早期演示显示其能够回答复杂的科学和数学问题。
- Strawberry项目采用一种后训练方法,在模型预训练后进行进一步优化。
- 该方法类似于斯坦福大学开发的「自学推理者」(STaR),通过迭代创建自己的训练数据,提高智能水平。
- Strawberry 的目标包括执行「长视距任务」(LHT,long-horizon tasks),需要模型提前规划并完成一系列复杂任务。
- OpenAI 希望通过 Strawberry 显著提高 AI 模型的推理能力,使其能够使用 CUA(computer-using agent)自主浏览网络进行研究,并测试其在软件和机器学习工程方面的能力。
STaR 的论文[2]介绍:
这篇论文提出了一种名为“Self-Taught Reasoner”(STaR)的技术,旨在解决如何提高语言模型在复杂推理任务上的性能。这些任务包括数学问题解答、常识问题回答等。目前,让语言模型生成推理过程(即“rationales”)的方法主要有两种:一种是构建包含推理过程的大规模数据集进行微调,这种方法成本高昂且不现实;另一种是使用少量示例(few-shot)进行上下文学习,但这种方法的性能通常远低于直接预测答案的模型。
STaR技术通过迭代利用少量推理示例和大量无推理数据集,引导模型逐步提升进行更复杂推理的能力。具体来说,STaR方法包括以下几个步骤:
- 使用少量推理示例引导语言模型生成多个问题的推理过程。
- 对于模型生成的错误答案,通过提供正确答案来生成新的推理过程(称为“rationalization”)。
- 在所有最终生成正确答案的推理上微调模型。
- 重复上述过程,每次都使用改进后的模型来生成下一轮的训练数据。
对于这个传闻中的项目,网友的评价是:合理的,毕竟 ChatGPT 数不清 Strawberry 里有几个 R:
这也是个经典老梗了,目前 GPT-4o 不能正确数清楚 Strawberry 中有几个字母 R:
国内目前比较强的开源模型 DeepSeek 和 Qwen 2 也不能:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...