对于企业来说,直接使用开源大模型和使用国内大厂收费的大模型主要有以下区别:
数据方面:
商业化落地方面:
其他方面:
接下来,让我们把目光转向数据这个同样关键的要素。在人工智能的世界里,数据就像是原油,而高质量的数据则是精炼后的汽油。虽然OpenAI训练大模型所用的中文数据也源自中国的互联网平台,但他们在数据处理上的额外努力,就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升,远非简单的数据标注工作所能企及,而是需要一支专业团队进行深度的数据清洗和精细整理。然而,在中国的AI创业生态中,高质量的数据处理服务就像是稀缺资源。在国内,数据获取的门槛相对较低,这看似是一个优势。然而,虽然数据获取容易,但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础,这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的"垃圾进,垃圾出"原理。如果输入的数据质量不高,那么即使有最先进的算法,输出的结果也难以令人满意。这个现象在IT从业者的日常工作中得到了印证。当需要搜索专业信息时,他们往往会首选Google、arXiv或Bing等国际平台,而不是国内的搜索引擎。那么,可能有人会想:“那我买点优质数据不就完了吗?”但对于许多公司,尤其是初创企业来说,这笔投入看似是一个风险过高的赌注。更不要考虑到找到一个好的数据供应商是万里挑一的概率了。这个风险,创业公司很难担的起。如果大规模投入后,模型效果不如预期,那么这笔投资就像是泥牛入海。因此,许多公司选择了一条看似更安全的路径:直接使用开源数据进行训练,然后匆忙召开发布会。更有意思的是,在国内的AI领域,这份"黄金"似乎变成了一个难解的谜题。正如一位大厂AI线的负责人所言,"在中国,你能拿到的数据,别人也能拿到。"
朱啸虎:第一,要有垂直行业数据,大模型公司很难自己获取。第二,要能实现数据闭环,用以持续提升自己的垂直模型。第三,要能持续保持和客户的连接,因为大厂不可能自己去一个个磕客户。这三点特别重要。也就是说,在原有业务基础上加AI是最靠谱的,也比较容易;但先有AI模型或产品,在上面加东西是很难的。Q:国内创业者或者大厂,他们是怎么考虑这件事的?朱啸虎:我们一直在聊,大厂确实也在关心自己的边界在哪里。有些大厂还比较好,它不想抢太多创业公司的机会。但我觉得不管中国还是美国(的创业公司),靠别人的怜悯那是不现实的,你必须对客户、大厂都有自己的价值,才能真正找到自己的根据地。Q:你觉得现在国内大模型的商业化落地进展怎么样?大家处在一个什么样的阶段?朱啸虎:现在都在拿着锤子找钉子。说实话到今年年底,我觉得头部的几个大模型都基本能做到3.5水平,明年11月有希望到4。但OpenAI的GPT-4出来以后,它真正能够落地的商业化场景(在美国)也是很有限的,类比中国,应该也差不多。
事实上,无论是直接使用开源大模型还是拼装大模型,只要符合相关规范,都是可以接受的。在商业化落地时,客户往往更关注实用性而非原创性,有时甚至会因为成本较低而更倾向于选择非原创技术。可问题在于,即使是拼装和套壳,许多公司仍不断强调自己是原创的。为了证明这一点,他们不断进行调整和修改,这反而影响了大模型的迭代能力,逐渐陷入内耗、刷榜和作假的境地。