Cosine AI 是一个专注于人类推理的实验室,旨在培养能够像人类一样推理的人工智能。其最新产品 Genie 在软件工程基准测试 SWE-Bench 中取得了全球最高分,显著超越其他竞争对手。Genie 通过将人类推理嵌入训练数据,实现卓越的软件开发能力。
Genie 宣布自己打造出了世界上最强的 AI 编程 Agents 产品。在 SWE-Bench 评估中获得了 30.08% 的分数,在 SWE-Lite 中获得了 50.67%。可以完美模拟人类工程师的认知过程、逻辑和工作流程。
Genie 的设计目标是使其具有 “自主性”,能够根据所见内容逻辑行动。为了实现这一点,数据集需要能够代表这种逻辑行动,包括在未知代码库中找到执行任务所需的先决信息。
Genie 的推理特性包括 规划、检索、编写和运行代码 四个主要过程,通过模拟人类的行为而非基础语言模型的行为,从而实现了更高的性能。
Genie 的训练中还 采用了自我改进的方法 ,通过使用模型自身生成的数据来提高性能,这种方法使得模型在面对错误时的反应能力得到了显著提升。