Chat with Wiki - 对企业来说直接用开源大模型和用国内大厂收费的大模型有哪些区别

Answer

对于企业来说，直接使用开源大模型和使用国内大厂收费的大模型主要有以下区别：

数据方面：

开源大模型的数据获取相对容易，但数据质量可能参差不齐。例如，OpenAI 训练大模型所用的中文数据虽源自中国互联网平台，但经过了深度处理，而国内中文互联网数据质量普遍被认为相对较低。
国内大厂收费的大模型可能在数据处理和质量上更具优势，但获取高质量数据对于企业尤其是初创企业来说成本较高且存在风险。

商业化落地方面：

客户在商业化落地时更关注实用性而非原创性，有时因成本低会倾向选择开源大模型的非原创技术。
但使用开源大模型可能存在拼装和套壳后强调原创，从而影响迭代能力，导致内耗、刷榜和作假等问题。

其他方面：

金沙江创投主管合伙人朱啸虎指出，使用大模型要有垂直行业数据，能实现数据闭环，并持续保持和客户的连接。对于大厂而言，要关心自身边界，而创业公司必须对客户和大厂有自身价值才能立足。
目前国内大模型的商业化落地仍处于拿着锤子找钉子的阶段，预计到今年年底头部大模型能基本达到 3.5 水平，明年 11 月有望到 4，但真正能落地的商业化场景有限。

Content generated by AI large model, please carefully verify (powered by aily)

References

中国大模型面临的真实问题：登顶路远，坠落一瞬

接下来，让我们把目光转向数据这个同样关键的要素。在人工智能的世界里，数据就像是原油，而高质量的数据则是精炼后的汽油。虽然OpenAI训练大模型所用的中文数据也源自中国的互联网平台，但他们在数据处理上的额外努力，就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升，远非简单的数据标注工作所能企及，而是需要一支专业团队进行深度的数据清洗和精细整理。然而，在中国的AI创业生态中，高质量的数据处理服务就像是稀缺资源。在国内，数据获取的门槛相对较低，这看似是一个优势。然而，虽然数据获取容易，但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础，这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的"垃圾进，垃圾出"原理。如果输入的数据质量不高，那么即使有最先进的算法，输出的结果也难以令人满意。这个现象在IT从业者的日常工作中得到了印证。当需要搜索专业信息时，他们往往会首选Google、arXiv或Bing等国际平台，而不是国内的搜索引擎。那么，可能有人会想：“那我买点优质数据不就完了吗？”但对于许多公司，尤其是初创企业来说，这笔投入看似是一个风险过高的赌注。更不要考虑到找到一个好的数据供应商是万里挑一的概率了。这个风险，创业公司很难担的起。如果大规模投入后，模型效果不如预期，那么这笔投资就像是泥牛入海。因此，许多公司选择了一条看似更安全的路径：直接使用开源数据进行训练，然后匆忙召开发布会。更有意思的是，在国内的AI领域，这份"黄金"似乎变成了一个难解的谜题。正如一位大厂AI线的负责人所言，"在中国，你能拿到的数据，别人也能拿到。"

金沙江创投合伙人朱啸虎发言纪要.pdf

朱啸虎：第一，要有垂直行业数据，大模型公司很难自己获取。第二，要能实现数据闭环，用以持续提升自己的垂直模型。第三，要能持续保持和客户的连接，因为大厂不可能自己去一个个磕客户。这三点特别重要。也就是说，在原有业务基础上加AI是最靠谱的，也比较容易；但先有AI模型或产品，在上面加东西是很难的。Q:国内创业者或者大厂，他们是怎么考虑这件事的？朱啸虎：我们一直在聊，大厂确实也在关心自己的边界在哪里。有些大厂还比较好，它不想抢太多创业公司的机会。但我觉得不管中国还是美国（的创业公司），靠别人的怜悯那是不现实的，你必须对客户、大厂都有自己的价值，才能真正找到自己的根据地。Q:你觉得现在国内大模型的商业化落地进展怎么样？大家处在一个什么样的阶段？朱啸虎：现在都在拿着锤子找钉子。说实话到今年年底，我觉得头部的几个大模型都基本能做到3.5水平，明年11月有希望到4。但OpenAI的GPT-4出来以后，它真正能够落地的商业化场景（在美国）也是很有限的，类比中国，应该也差不多。

中国大模型面临的真实问题：登顶路远，坠落一瞬

事实上，无论是直接使用开源大模型还是拼装大模型，只要符合相关规范，都是可以接受的。在商业化落地时，客户往往更关注实用性而非原创性，有时甚至会因为成本较低而更倾向于选择非原创技术。可问题在于，即使是拼装和套壳，许多公司仍不断强调自己是原创的。为了证明这一点，他们不断进行调整和修改，这反而影响了大模型的迭代能力，逐渐陷入内耗、刷榜和作假的境地。