Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek

Answer

DeepSeek 是一家具有独特特点和影响力的公司:

  1. 秘方特点:DeepSeek 不是“中国式创新”的产物,其秘方是硅谷味儿的。早在 2024 年 5 月 DeepSeek-V2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动。尽管在国内舆论场被描摹成“大模型价格战的发起者”,但它与硅谷更有对话和交流的密码。
  2. V-3 时刻:如果 V-3 是 DeepSeek 的 GPT-3 时刻,接下来的发展充满未知,但 DeepSeek 应会为全人类的人工智能事业做出更大贡献,且它已是中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷味儿的。
  3. 提示词提升能力:通过一个提示词 HiDeepSeek 能让 DeepSeek 的能力更上一层楼。使用方法包括搜索 www.deepseek.com 点击“开始对话”,将装有提示词的代码发给 Deepseek 等步骤。其设计思路包括将 Agent 封装成 Prompt 并储存、实现联网和深度思考功能、优化输出质量等。完整提示词有 v1.3 版本,特别鸣谢了李继刚和 Thinking Claude 等。
Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

将DeepSeek比喻成“AI界的拼多多”是偏颇的,认为DeepSeek的秘方就是多快好省也是不全面的。中国的大多数AI公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月DeepSeek-V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2的论文就引发了AI研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X和Reddit上AI从业者在讨论DeepSeek-V2,同时,DeepSeek在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。这也许能说明:DeepSeek跟硅谷更有对话和交流的密码,它的秘方应该是硅谷味儿的。

DeepSeek 的秘方是硅谷味儿的

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

一个提示词,让 DeepSeek 的能力更上一层楼?——HiDeepSeek

用Coze做了个小测试,大家可以对比看看[e8c1a8c3012fedad10dc0dfcc8b1e263_raw.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Jz9cbKxDbocGtIxXFFEcdiHjnRc?allow_redirect=1)[heading1]如何使用?[content]Step1:搜索www.deepseek.com,点击“开始对话”Step2:将装有提示词的代码发给DeepseekStep3:认真阅读开场白之后,正式开始对话[heading1]设计思路[content]1.将Agent封装成Prompt,将Prompt储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担2.通过提示词文件,让DeepSeek实现:同时使用联网功能和深度思考功能3.在模型默认能力的基础上优化输出质量,并通过思考减轻AI味,增加可读性4.照猫画虎参考大模型的temperature设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改5.用XML来进行更为规范的设定,而不是用Lisp(对我来说有难度)和Markdown(运行下来似乎不是很稳定)[heading1]完整提示词[heading2]v 1.3[heading1]特别鸣谢[content]李继刚:【思考的七把武器】在前期为我提供了很多思考方向Thinking Claude:这个项目是我现在最喜欢使用的Claude提示词,也是我设计HiDeepSeek的灵感来源Claude 3.5 Sonnet:最得力的助手

Others are asking
如何微调deepseek
微调 DeepSeek 可以通过以下步骤和方法: 1. 应用 KL 散度约束更新策略来调整策略的概率分布。例如,已知 ABC 策略初始概率分布为,根据相对优势调整后的权重可以通过指数函数来转换,以确保权重为正数且总和为 1。计算未归一化的权重,如 A: e^1≈2.178,B:e^0=1,C: e^1≈0.368,然后归一化权重,总和=2.718+1+0.368=4.086,新权重分别为 A: 2.718/4.086≈0.665,B: 1/4.086≈0.245,C: 0.368/4.086≈0.09。通过这样的步骤,策略 A 的总体优势最高,其权重增加,策略 B 表现中等,权重基本保持不变,策略 C 表现较差,权重减少。在不同场景(不同组)的计算中,每个策略的权重会相应调整以获得更高的分数。在文本生成阶段,可以用来评估和调整不同生成策略(比如贪婪搜索,随机采样,束搜索)的有效性,从而提高生成文本(尤其是复杂文本)的连贯性和多样性。 2. 模型蒸馏微调方面,用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。同时,Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面,使两个模型都更强。 3. 在训练过程中给予模型反馈,如路线规划是否成功到达终点、输出格式是否符合期望等,对正确路线增强权重,使做对的概率变高,导致思考逻辑变长。 4. 关于部署方面,讲解了如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。同时介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。 更加完善的训练说明,可直接阅读官方论文:DeepSeekAI《DeepSeekR1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
2025-03-02
从知识库中查询与:[DeepSeek] 相关的热门资讯信息
以下是与 DeepSeek 相关的热门资讯信息: 《DeepSeek 首次考虑外部融资!全文信息量很大》:DeepSeek 在短时间内崛起,其 V3 和 R1 模型有高效训练成本与强大推理能力,但因用户增长面临计算需求激增、芯片短缺和基础设施扩展挑战,首次考虑外部融资,包括阿里巴巴和中国主权财富基金在内的投资者有兴趣,若接受国家资本可能引发监管担忧,公司还在探索通过东南亚数据中心获取更多 Nvidia AI 芯片以绕开出口限制。 微博上热搜,主流媒体全报道了 DeepSeek 深度推理+联网搜索目前断档第一的情况,相关文章包括: 通往 AGI 之路:《关于 DeepSeek 的所有事情【知识库持续更新中】》 数字生命卡兹克:《DeepSeek 的提示词技巧,就是没有技巧。》 宝玉:《教你如何破解 DeepSeek R1 系统提示词》 橘子汽水铺:《中国开源,震撼世界:DeepSeek R1 的变革、启示与展望》《自学成才之路,DeepSeek R1 论文解读》 新智元:《史上首次,DeepSeek 登顶中美 AppStore!NYU 教授:全球「AI 霸权」之争已结束》 一支烟花 AI:《用流程图对比 DeepSeekR1,OpenAI O1,Claude 说明强化学习在 AI 大模型训练、推理的创新和意义》 腾讯科技:《一文读懂|DeepSeek 新模型大揭秘,为何它能震动全球 AI 圈》 张小珺腾讯科技:《一场关于 DeepSeek 的高质量闭门会:比技术更重要的是愿景》
2025-03-02
deepseek
DeepSeek 是一家具有独特特点和影响力的公司: 1. 其秘方具有硅谷风格: 不是“中国式创新”的产物,不能简单地将其比喻成“AI 界的拼多多”或认为其秘方就是多快好省。 早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动。 已成为中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷风格。 2. V3 可能是 DeepSeek 的 GPT3 时刻,未来发展充满未知但值得期待。 3. 关于提示词 HiDeepSeek: 效果对比:可通过 Coze 做小测试进行对比。 使用方法:包括搜索网站、点击“开始对话”,发送装有提示词的代码,阅读开场白后正式开始对话等步骤。 设计思路:将 Agent 封装成 Prompt 并储存于文件以减轻调试负担,实现联网和深度思考功能,优化输出质量,设计阈值系统,用 XML 进行规范设定等。 完整提示词:v 1.3。 特别鸣谢:李继刚的【思考的七把武器】提供思考方向,Thinking Claude 是设计灵感来源,Claude 3.5 Sonnet 是得力助手。
2025-03-02
DeepSeek常见应用技巧
DeepSeek 常见应用技巧包括以下方面: 1. 高阶能力调用: 文风转换矩阵,如作家风格移植(用鲁迅杂文风格写职场 PUA 现象)、文体杂交(将产品说明书改写成《史记》列传格式)、学术口语化(把这篇论文摘要翻译成菜市场大妈能听懂的话)。 领域穿透技术,如行业黑话破解(解释 Web3 领域的“胖协议瘦应用”理论)。 2. 场景化实战策略: 商业决策支持。 创意内容生成。 技术方案论证。 3. 效能增强技巧: 对话记忆管理,包括上下文锚定(记住当前讨论的芯片型号是麒麟 9010)、信息回溯(请复述之前确认的三个设计原则)、焦点重置(回到最初讨论的供应链问题)。 输出质量控制,如针对过度抽象(请具体说明第三步操作中的温度控制参数)、信息过载(用电梯演讲格式重新组织结论)、风格偏移(回归商务报告语气,删除比喻修辞)等问题的修正指令。 4. 特殊场景解决方案: 长文本创作,如分段接力法(先完成故事大纲→逐章扩展→最后进行伏笔校验)、逻辑粘合剂(确保新章节与前文的三处细节呼应)。 敏感内容处理,如概念脱敏法(用经济学原理类比说明网络审查机制)、场景移植法(假设在火星殖民地讨论该议题)。 Deepseek 时代提示词的针对性技巧: 1. 身份定位技巧,目的是让 AI 理解您的背景和专业水平,例如差的表述:“帮我写一篇营销方案”,好的表述:“作为一名刚入职的电商运营,需要为天猫美妆店铺制定 618 活动方案”。 2. 场景描述技巧,目的是提供具体的应用场景和限制条件,例如差的表述:“写一篇新品发布文案”,好的表述:“为新上市的儿童智能手表写一篇朋友圈文案,目标用户是 2535 岁的年轻父母,预算 3000 以内,需强调安全定位功能”。 3. 结构化输出技巧,目的是指定具体的输出格式和内容结构,例如差的表述:“分析最近的新能源汽车销量数据”,好的表述:“请用表格对比 2024 年 Q1 特斯拉、比亚迪的销量数据,包含以下维度:月度销量、同比增长、市场份额,并在表格下方总结三个关键发现”。 4. 分步骤提问技巧,目的是将复杂问题拆解为可管理的小任务,例如差的表述:“怎么做短视频运营?”,好的表述:“请分三步指导新手做美食短视频:前期准备:需要哪些设备和技能 拍摄阶段:关键场景和机位选择 后期制作:剪辑节奏和音乐配合建议”。 5. 反馈优化技巧,目的是通过追问获得更精准的答案,例如第一轮:“帮我做一份产品分析报告”,追问 1:“内容太专业了,能用更通俗的语言解释吗?”,追问 2:“可以增加一些具体的用户案例来支撑观点吗?”。 6. 深度思考引导技巧,目的是获得更深入的分析和见解。 以下是一些用户使用 DeepSeek 的实际情况: 帮我脑爆活动方案(AJ 杭州)。 会议纪要给它出方案思考非常到位,稍加修改就可以呈现高质量的会议总结。 本地搭超级 AI 助手(陈星北京)。 DS+飞书批量处理客户评论(Lily 温州)。 分析总结复盘内容。 生成专业专用软件详细使用过程,非常正确(兰州)。 辰、李意儿用。 变现当然。 Candice 代码编写。 帮我写小说框架。 让 ds 给出拓展市场的梳理角度和咨询梳理。 写党员的用自我批评用古诗改简历(苏州)。 学长刚蝈。 探索外太空。 大创苏州 a 文案胡泽华改简历。 园子。 写文案。 Forget,之前用过 deepseek 分析过感情问题,补充了对于心理学的一些空缺,了解了更多。 Ecfa 苏州一晚三个营销方案,Deepseek 一晚,干了之前一个月的活。 Yvonne 写论文。 AI 中医+心理咨询师。 AI 育儿,生图 AI 撰写提示词辅食(北京,赵赵)。 帮我。 帮我生帮。 短视频脚本。当百度用。 写方案,做图。 用 a 帮我。 南京得一写小红书笔记,八字算命。 写周报用。 帮我做设计头脑风暴。 上海 BaoBig 粒。 Guigui 北京。 算命。 分析。 柯柯武汉做网站葉用。 投喂大量的 deepseek。
2025-03-01
给deepseek提问的格式是什么样的
关于 DeepSeek 的提问格式,以下为您提供相关信息: 在“五津:DeepSeek+扣子:1 分钟生成小红书爆款单词视频”中,包括整理数组、输出内容、问答等步骤。在问答环节,让用户确认单词是否满意,若满意则进入下一步,不满意或输入其他内容则到结束节点,结束节点会增加一个“bumanyi”变量,并提示若不满意可重新制作。 在“宝玉日报”中,提到 Deep Research 与 DeepSeek 的区别,如 Deep Research 基于 GPT4o 和 o3 具备 UI 交互、搜索等功能,DeepSeek 是品牌名称需加上具体模型名,还提到人工智能与人类智能的关系的官方文件译文及相关链接,以及 Deep Research 前置模型提示词泄露。 在“Deepseek‘4+1’黄金提问法——目标导向”中,包括明确身份(角色、专业背景、现有资源、决策权限)、具体任务(工作内容、执行步骤、优先级别、交付物)、细节约束(时间限制、资源限制、技术要求、禁区提示)、输出格式(文档类型、结构要求、重点内容、展示方式)等支撑要素。
2025-03-01
deepseek学习手册
以下是关于 DeepSeek 的相关学习资料: 研究报告和手册: 《 《》 《》中文翻译版 华西证券:《》 中信建投:《》 来觅研究院:《》 关于 DeepSeek 的使用分享: DP 模型的功能:能进行自然语言理解与分析、编程、绘图,如 SVG、MA Max 图表、react 图表等。 使用优势:可以用更少的词让模型做更多事,思维发散,能给出创意思路和高级内容。 存在问题:思维链长不易控制,可能输出看不懂或胡编乱造的内容,增加纠错成本。 审核方法:可以用其他大模型来解读 DP 模型给出的内容。 使用建议:使用时要有自己的思维雏形,多看思考过程,避免被模型冲刷原有认知。 使用场景:包括阅读、育儿、写作、随意交流等方面。 案例展示:通过与孩子共读时制作可视化互动游戏,以及左脚踩右脚式的模型交互来展示 DP 模型的应用。 音系学研究:对音系学感兴趣,通过对比不同模型的回答来深入理解,如 bug 和 DIFF SIG,探讨语言概念在音系学下的心理印象等。 大模型取队名:与大模型进行多轮对话来取队名,通过不断约束和披露喜好,最终得到满意的队名及相关内容。 Deepseek 文档分享:在 3 群和 4 群分享了 Deepseek 的相关文档,也可在 v to a gi 的飞书知识库中搜索获取。 Deepseek 使用介绍:介绍了 Deepseek 的模型、收录内容、提示词使用技巧和好玩的案例等。 提示词让 DeepSeek 能力提升: 效果对比:用 Coze 做了个小测试,可对比查看 使用方法: 搜索 www.deepseek.com,点击“开始对话” 将装有提示词的代码发给 Deepseek 认真阅读开场白之后,正式开始对话 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担 通过提示词文件,让 DeepSeek 实现:同时使用联网功能和深度思考功能 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改 用 XML 来进行更为规范的设定,而不是用 Lisp(对我来说有难度)和 Markdown(运行下来似乎不是很稳定) 特别鸣谢:李继刚的【思考的七把武器】在前期为提供了很多思考方向;Thinking Claude 是现在最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。
2025-03-01