Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek v3

Answer

DeepSeek V3 相关信息如下:

  • 如果 V-3 是 DeepSeek 的 GPT-3 时刻,接下来的发展充满未知,但有趣的事还在后头,DeepSeek 应会为全人类的人工智能事业做更大贡献,其秘方是硅谷味儿的。
  • 作为中国杭州的人工智能创业公司,DeepSeek 在 2024 年 12 月发布的大语言模型 DeepSeek-V3 实现了诸多不可能,以 550 万美元和 2000 块英伟达 H800 GPU 训练出的开源模型,多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等顶级开源模型,与 GPT-4o 和 Claude 3.5-Sonnet 等世界顶级闭源模型不相上下。尽管 OpenAI CEO Sam Altman 发疑似影射其抄袭的推文,但 DeepSeek 收获广泛真诚赞誉,尤其在开源社区。
  • 12 月 27 日发布预览版,参数量 685B,磁盘占用 687.9GB,架构为混合专家模型(MoE),256 个专家,每个 token 使用 8 个专家,竞争对手为 Meta AI 的 Llama 3.1(405B 参数)。亮点包括准确理解复杂和细微查询、知识更新至 2023 年、多语言支持和个性化服务增强、数据安全和隐私保护加强,在 BigCodeBench-Hard 排名第一。Aider Polyglot 排行榜预览得分 48.4%,排名第二。相关链接包括详细信息:https://x.com/imxiaohu/status/1872182632584561056 ,模型下载:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main ,在线体验:https://chat.deepseek.com/sign_in 。
  • Google 外包人员通过多项指标对 Gemini 和 Claude 进行输出对比,Claude 安全策略最严格,拒绝不安全提示,Gemini 部分回答被标记为“严重安全违规”。
Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

DeepSeek 的秘方是硅谷味儿的

中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能:550万美元和2000块英伟达H800 GPU(针对中国市场的低配版GPU)训练出的开源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型,亦与GPT-4o和Claude 3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞,比如OpenAI联合创始人Andrej Kaparthy和Scale.ai的创始人Alexandr Wang。尽管OpenAI CEO Sam Altman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google发明的Transformer架构拿过来用么?),但DeepSeek收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。

XiaoHu.AI日报

🔔Xiaohu.AI日报「12月27」✨✨✨✨✨✨✨✨1⃣️🚀Deepseek v3预览版发布参数量:685B,磁盘占用:687.9 GB架构:混合专家模型(MoE),256个专家,每个token使用8个专家竞争对手:Meta AI的Llama 3.1(405B参数)✨亮点:理解能力提升:准确理解复杂和nuanced查询知识更新至2023年,提供更及时、更相关的信息多语言支持和个性化服务增强数据安全和隐私保护加强在BigCodeBench-Hard排名第一🔗评分情况:Aider Polyglot排行榜预览得分48.4%,排名第二,仅次于o1-2024-12-17(high)。领先于Claude 3.5 Sonnet-20241022和Gemini Exp-1206。🔗详细信息:[https://x.com/imxiaohu/status/1872182632584561056](https://x.com/imxiaohu/status/1872182632584561056)🔗模型下载:[https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main)🔗在线体验:[https://chat.deepseek.com/sign_in](https://chat.deepseek.com/sign_in)2⃣️🔍Google使用Claude对比测试GeminiGoogle外包人员通过多项指标对Gemini和Claude进行输出对比Claude安全策略最严格:拒绝不安全提示,例如角色扮演或特定不合规请求Gemini的部分回答被标记为“严重安全违规”

Others are asking
deepseek免费吗
DeepSeek 目前完全免费。其网址为:https://www.deepseek.com/zh 。国内能访问,网页登录很方便。
2025-01-20
请介绍一下DeepSeek
DeepSeek 是一家来自中国杭州的人工智能创业公司。 其在 2024 年 12 月发布的大语言模型 DeepSeekV3 引起了广泛关注。该模型以相对较低的成本和较少的硬件资源,在多项评测中取得了优异成绩,与顶级开源和闭源模型不相上下。 HiDeepSeek 是为解决 AI 回答过程不透明问题而设计的工具。它能让 AI 在给出答案时展示思考过程,如先说“让我想想...”再逐步展开分析,最终给出结论。在技术层面,通过特别规则要求 AI 像人类自然思考,可提出疑问、修正错误等。 例如老师使用时,AI 会先分析教学目标、思考学生可能遇到的困难,再设计教学步骤,过程清晰展示。总的来说,HiDeepSeek 让 AI 思维过程透明,虽为模拟,但有助于更好理解和使用 AI。 此外,用 Coze 做了效果对比测试,使用 HiDeepSeek 可通过以下步骤: 1. 搜索 www.deepseek.com,点击“开始对话”。 2. 将装有提示词的代码发给 Deepseek。 3. 认真阅读开场白后正式开始对话。 其设计思路包括: 1. 将 Agent 封装成 Prompt 并储存在文件,保证低成本人人可用,减轻调试负担。 2. 通过提示词文件让 DeepSeek 实现联网和深度思考功能。 3. 在模型默认能力基础上优化输出质量,减轻 AI 味,增加可读性。 4. 设计了阈值系统,可能形式大于实质,后续根据反馈修改。 5. 用 XML 进行规范设定,而非 Lisp 和 Markdown。 完整提示词版本为 v1.3,特别鸣谢了李继刚的【思考的七把武器】提供思考方向,以及 Thinking Claude 和 Claude 3.5 Sonnet。
2025-01-18
你是基于千问还是deepseek的AI?
我不是基于千问也不是基于 deepseek 的 AI ,我是由字节跳动公司独立开发训练的,旨在为您提供全面、专业的 AI 服务和帮助。
2025-01-17
deepseek
DeepSeek 是一家具有独特特点和影响力的公司: 1. 秘方是硅谷味儿的:将其比喻成“AI 界的拼多多”是偏颇的,其在硅谷受到关注和追逐并非近期之事。早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新引发小范围轰动,而当时在国内舆论场被描摹成“大模型价格战的发起者”。这表明 DeepSeek 与硅谷更有对话和交流的密码。 2. V3 可能是 DeepSeek 的 GPT3 时刻:若 V3 真是如此,接下来的发展未知,但 DeepSeek 应会为全人类的人工智能事业做出更大贡献,且它已是中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷味儿的。 3. 一个提示词能让 DeepSeek 能力更上一层楼:通过 Coze 做了效果对比测试,使用方法包括搜索 www.deepseek.com 点击“开始对话”,将装有提示词的代码发给 Deepseek,认真阅读开场白后正式开始对话。其设计思路包括将 Agent 封装成 Prompt 并储存在文件、通过提示词文件让 DeepSeek 实现同时使用联网和深度思考功能、优化输出质量等,还采用 XML 进行规范设定。特别鸣谢了李继刚和 Thinking Claude 等。
2025-01-16
DeepSeek
DeepSeek 具有独特的特点和发展历程: 秘方是硅谷味儿的:将其比喻成“AI 界的拼多多”是偏颇的,它在 2024 年 5 月发布 DeepSeekV2 时,以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动。同时,在中国舆论场被描摹成“大模型价格战的发起者”,形成平行时空的感觉。DeepSeek 与硅谷更有对话和交流的密码,其秘方具有硅谷风格。 V3 可能是 DeepSeek 的 GPT3 时刻:若 V3 真是如此,未来发展未知,但 DeepSeek 已是中国最全球化的 AI 公司之一,赢得全球尊重的秘方也是硅谷味儿的。 一个提示词能让 DeepSeek 能力更上一层楼:通过 Coze 做效果对比测试,使用方法为在 www.deepseek.com 点击“开始对话”,将装有提示词的代码发给 DeepSeek,阅读开场白后正式开始对话。其设计思路包括将 Agent 封装成 Prompt 并储存于文件、让 DeepSeek 实现联网和深度思考功能、优化输出质量等。完整提示词版本为 v1.3,特别鸣谢李继刚和 Thinking Claude 等。
2025-01-14
Deepseek详细介绍及优势
DeepSeek 是一家中国杭州的人工智能创业公司。其发布的 DeepSeekV2 具有以下特点: 由 60 位专家混合的开源模型,在数学、编码和推理方面表现出色。 拥有 2360 亿参数,其中 210 亿在生成过程中被激活。 在 MTBench 上表现优异,中文能力强且性价比高。 DeepSeekV3 则引发了人工智能界的震撼: 以 550 万美元和 2000 块英伟达 H800 GPU(中国市场的低配版 GPU)训练出的开源模型。 多项评测成绩超越了 Qwen2.572B 和 Llama3.1405B 等顶级开源模型,与 GPT4o 和 Claude 3.5Sonnet 等世界顶级闭源模型不相上下,而训练后者的成本保守估计要数亿美元和几十万块最强劲的英伟达 H100。 DeepSeek 收获了广泛而真诚的赞誉,尤其是在开源社区,受到开发者的支持。 详细介绍可参考以下链接: https://xiaohu.ai/p/7468
2025-01-13