DeepSeek 由初创公司开发出来而非国内互联网巨头,原因可能在于国内互联网巨头在创新模式和理念上存在一定局限。它们或许更倾向于追求短期商业利益,在资源分配和创新投入上相对保守。而初创公司往往更具冒险精神和创新活力,能够突破传统思维,专注于技术研发和创新,不受庞大体系和既有模式的束缚。就像 DeepSeek 这样,凭借独特的理念和专注的投入,实现了令人瞩目的成果。
中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能:550万美元和2000块英伟达H800 GPU(针对中国市场的低配版GPU)训练出的开源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型,亦与GPT-4o和Claude 3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞,比如OpenAI联合创始人Andrej Kaparthy和Scale.ai的创始人Alexandr Wang。尽管OpenAI CEO Sam Altman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google发明的Transformer架构拿过来用么?),但DeepSeek收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。
[heading3]游戏科学创始人、黑神话悟空制作人冯骥:年前还是认真推下DeepSeek吧。V3已经用了一个月,但R1仅仅用了5天,不得不来发这条微博。先讲一句暴论:DeepSeek,可能是个国运级别的科技成果。为了讲清楚这个成果有多惊人,我打个比方:如果有一个AI大模型做到了以下的任何一条,都是超级了不起的突破——1、强大。比肩O1的推理能力,暂时没有之一2、便宜。参数少,训练开销与使用费用小了一个数量级3、开源。任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的mini模型。4、免费。官方目前提供的服务完全免费,任何人随时随地可用5、联网。暂时唯一支持联网搜索的推理模型(o1还不支持)6、本土。深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成上面的六条,DeepSeek全部、同时做到了。实在太6了,6到不真实。如果这都不值得欢呼,还有什么值得欢呼?那么,现在看到这条微博的你应该去做什么呢?1、请直接访问:网页链接马上用起来,也有移动APP
《[大模型Scaling Law“放缓”的真相与未来方向](https://mp.weixin.qq.com/s/g0OxsI1o5e95jTuu4eg5Tw)》清华大学计算机科学与技术系助理教授,KVCache.AI团队负责人章明星。章老师从大模型当前的发展阶段出发,分享了他关于模型架构演进、大模型Scaling Law的发展趋势及相应趋势对系统层面影响的看法,并探讨了未来的发展方向。《[DeepSeek的秘方是硅谷味儿的](https://mp.weixin.qq.com/s/kuYFL2Ks-HEO9CTGLYbE3A)》DeepSeek是一家位于杭州的人工智能创业公司,其大语言模型DeepSeek-V3在全球引发广泛关注。该模型以550万美元和2000块低配版英伟达H800 GPU训练,超越了多个顶级模型,获得硅谷研究者的高度评价。DeepSeek的成功被视为中国式创新的典范,但其独特之处在于其更像一个研究机构,注重技术创新而非商业化运作,吸引了大量年轻的顶尖研究人才。《[AI音视频界的“瑞士军刀”,华人AI初创已与超过2000家知名企业合作](https://mp.weixin.qq.com/s/Ohu2kJU6WbZp7fQQTcrBgg)》Akool是一家成立于2022年的AI音视频初创公司,总部位于加州圣克拉拉,致力于提供高效、智能的视频生成解决方案。其功能包括AI换脸、实时换脸、定制数字人、视频翻译等,旨在服务企业客户,提升其内容创作效率和质量。创始人吕家俊丰富的AI背景,曾在苹果和谷歌工作,强调团队和热情在商业成功中的重要性。