Chat with Wiki - 字节跳动也被曝出在其秘密研发的大模型项目中存在违规调用 OpenAI 的 API ，你如何看待

Answer

2023 年下半年，部分声称性能卓越的中国大模型被揭露为“套壳”产品。如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品，其团队承认在训练过程中沿用了开源架构，但强调是为快速起步。12 月，字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API 并使用 ChatGPT 的输出数据来训练自己的模型。OpenAI 反应迅速坚决，暂停相关账号并表示将进一步调查。字节跳动回应称在 2023 年初技术团队在大模型探索初期有部分工程师将 GPT 的 API 服务用于较小模型的实验性项目研究，且自 2023 年 4 月引入调用规范检查后已停止。此外，不仅国内存在此类现象，24 年也有更多被指“套壳”的事件。同时，提示词攻击在业内是公开的秘密，国内外各大著名的 AI 厂商几乎无一幸免，系统提示处于泄露状态，大模型应用脆弱，数据易被获取。

Content generated by AI large model, please carefully verify (powered by aily)

References

中国大模型面临的真实问题：登顶路远，坠落一瞬

[title]中国大模型面临的真实问题：登顶路远，坠落一瞬[heading1]二、“你不套，有的是人套”让我们从模型本身这个问题开始剖析。2023年下半年，一个不容忽视的事实浮出水面：部分声称性能卓越的中国大模型被揭露为"套壳"产品。这些模型实际上是直接采用了国外的开源大模型，经过简单包装后就宣称具备与GPT-4相当的能力。在一些评估大模型能力的榜单上，这些"套壳"模型往往名列前茅，多项指标甚至接近GPT-4的水平。更令人深思的是，一个奇怪的现象开始显现：在这些榜单上，模型的表现越好，被证实为"套壳"的可能性就越高。稍加调整，这些模型的性能就会显著下降。然而，"套壳"问题仅仅是中国大模型产业现状的冰山一角。这个现象揭示了更深层次的问题：在追求快速结果的压力下，一些公司选择了捷径，而非踏实的技术积累。2023年11月，一个引人注目的事件震动了AI圈：李开复创办的"零一万物"被国外开发者质疑为"套壳"产品。他们指出，该模型疑似只是对开源模型Llama进行了简单的重命名。这一指控如同一颗重磅炸弹，引发了广泛的讨论和反思。面对质疑，李开复和"零一万物"团队迅速做出回应。他们承认在训练过程中确实沿用了开源架构，但强调这只是为了快速起步，进行充分的测试和对比实验。他们坚称，其发布的模型都是从零开始训练的，并进行了大量原创性的优化和突破。继“零一万物”之后，12月，一则震惊业界的消息传出：科技巨头字节跳动被曝出在其秘密研发的大模型项目中调用了OpenAI的API，并使用ChatGPT的输出数据来训练自己的模型。这一行为，恰恰触犯了OpenAI使用协议中明确禁止的条款。

中国大模型面临的真实问题：登顶路远，坠落一瞬

[title]中国大模型面临的真实问题：登顶路远，坠落一瞬[heading1]二、“你不套，有的是人套”OpenAI的反应迅速而坚决。他们立即暂停了相关账号，并表示将进行进一步调查。如果指控属实，OpenAI可能会要求字节跳动更改其做法，甚至可能终止其账户。这种严厉的态度，展现了OpenAI对其技术和知识产权的坚决保护。面对这一指控，字节跳动的回应颇具策略性。他们承认在2023年初，技术团队在大模型探索的初期确实有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。然而，他们强调这个模型仅用于测试，从未计划上线或对外使用。更重要的是，字节跳动表示，自2023年4月公司引入GPT API调用规范检查后，这种做法就已经停止了。其实，不光是这些在23年披露出来的国内事件，在24年也有更多被指“套壳”国内大模型的事件，比如说斯坦福大学AI团队主导的Llama3-V开源模型，被证实套壳抄袭国内清华与面壁智能的开源模型。这些现象其实背后都指向了大模型的建设方式。在这里，我们粗浅地将大模型的建设方式分为三类：

云中江树：智能对决：提示词攻防中的AI安全博弈

[title]云中江树：智能对决：提示词攻防中的AI安全博弈国内的kimi也是一样。并且我们拿到之后，我们发现其实产品侧是有防护意识的。提示词中明确的突出了不要去泄露系统提示的内容，但是我们还是轻易的拿到了kimi的系统提示。然后你看像豆包也是一样的。同时像国内的这种智能体编排平台——扣子。上面的热门的智能体，我们都能轻易的拿到他们的核心提示词。当我们拿到他的核心提示词以后，我们可以看到它是怎么调用知识库的，怎么调用工作流的，看到它整体的设计的逻辑、它的核心创意构建过程。国外的知名平台如OpenAI的GPT Store上面的GPTs（智能体）也是一样的。我们可以轻松拿到它的提示词，然后通过提示词可以完整的知道这个GPTs整体的设计逻辑，并且知道它知识库里面放了哪些数据，放了哪些知识。我们知道这个有什么用呢？有了这个信息，接下来进一步就可以拿到它里面的数据。不仅可以让我们的AI把里面的数据吐出来，甚至我们可以让大模型直接把这个知识文件的链接给到我，直接下载数据文件。这就是我们现在看到的，到现在为止的很多大模型应用和智能体平台的现状。提示词攻击在业内已经是一个公开的秘密。我们现在的大模型应用，有时候脆弱的简直就是一座数据金矿，只要你掌握了怎么样去破译AI密码，就可以肆意搜刮里面的东西：提示词也好，数据也好，随便拿。国内外各大著名的AI厂商几乎无一幸免。国外的不管是GPT也好，还是Cluade也好，还是说谷歌的Gemini，还是著名的AI搜索引擎perplexity，他们的这些系统提示都是处于泄露的状态。