Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek

Answer

DeepSeek 是一家具有独特特点和影响力的公司:

  1. 其秘方具有硅谷风格:
    • 不是“中国式创新”的产物,不能简单地将其比喻成“AI 界的拼多多”或认为其秘方就是多快好省。
    • 早在 2024 年 5 月 DeepSeek-V2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动。
    • 已成为中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷风格。
  2. V-3 可能是 DeepSeek 的 GPT-3 时刻,未来发展充满未知但值得期待。
  3. 关于提示词 HiDeepSeek:
    • 效果对比:可通过 Coze 做小测试进行对比。
    • 使用方法:包括搜索网站、点击“开始对话”,发送装有提示词的代码,阅读开场白后正式开始对话等步骤。
    • 设计思路:将 Agent 封装成 Prompt 并储存于文件以减轻调试负担,实现联网和深度思考功能,优化输出质量,设计阈值系统,用 XML 进行规范设定等。
    • 完整提示词:v 1.3。
    • 特别鸣谢:李继刚的【思考的七把武器】提供思考方向,Thinking Claude 是设计灵感来源,Claude 3.5 Sonnet 是得力助手。
Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

将DeepSeek比喻成“AI界的拼多多”是偏颇的,认为DeepSeek的秘方就是多快好省也是不全面的。中国的大多数AI公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月DeepSeek-V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2的论文就引发了AI研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X和Reddit上AI从业者在讨论DeepSeek-V2,同时,DeepSeek在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。这也许能说明:DeepSeek跟硅谷更有对话和交流的密码,它的秘方应该是硅谷味儿的。

DeepSeek 的秘方是硅谷味儿的

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

一个提示词,让 DeepSeek 的能力更上一层楼?——HiDeepSeek

用Coze做了个小测试,大家可以对比看看[e8c1a8c3012fedad10dc0dfcc8b1e263_raw.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Jz9cbKxDbocGtIxXFFEcdiHjnRc?allow_redirect=1)[heading1]如何使用?[content]Step1:搜索www.deepseek.com,点击“开始对话”Step2:将装有提示词的代码发给DeepseekStep3:认真阅读开场白之后,正式开始对话[heading1]设计思路[content]1.将Agent封装成Prompt,将Prompt储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担2.通过提示词文件,让DeepSeek实现:同时使用联网功能和深度思考功能3.在模型默认能力的基础上优化输出质量,并通过思考减轻AI味,增加可读性4.照猫画虎参考大模型的temperature设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改5.用XML来进行更为规范的设定,而不是用Lisp(对我来说有难度)和Markdown(运行下来似乎不是很稳定)[heading1]完整提示词[heading2]v 1.3[heading1]特别鸣谢[content]李继刚:【思考的七把武器】在前期为我提供了很多思考方向Thinking Claude:这个项目是我现在最喜欢使用的Claude提示词,也是我设计HiDeepSeek的灵感来源Claude 3.5 Sonnet:最得力的助手

Others are asking
deepseek到底是什么?打个比方
DeepSeek 是一个在 AI 领域受到关注的品牌。它在硅谷受到关注和追逐,早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新引发了小范围轰动。DeepSeek 不是“中国式创新”的产物,其秘方更具硅谷风格。 DeepSeek 是基于 AI 模型的产品,需要搭配具体模型,如 DeepSeek V3(类 GPT4o)和 DeepSeek R1(类 OpenAI o1)。它展示出媲美领先 AI 产品性能的模型,但成本较低,在全球主要市场的 App Store 登顶。在实际使用体验方面,在文字能力上表现突出,尤其在中文场景中高度符合日常、写作习惯,但在专业论文总结方面稍弱。数学能力经过优化表现不错,编程能力略逊于 GPT。 需要注意的是,将 DeepSeek 比喻成“AI 界的拼多多”是偏颇的,认为其秘方就是多快好省也是不全面的。
2025-03-03
用deepseek写论文指令
以下是关于用 DeepSeek 写论文的相关指令和方法: 1. 高级调试策略: 模糊指令优化:对于宽泛需求,可添加维度约束;对于主观表述,可量化标准。例如,将“写小说”修正为“创作以 AI 觉醒为背景的悬疑短篇,采用多视角叙事结构”,将“写得专业些”修正为“符合 IEEE 论文格式,包含 5 项以上行业数据引用”。 迭代优化法:包括首轮生成获取基础内容、特征强化、风格调整和最终校验等步骤。如加强第三段的技术细节描述,改用学术会议报告语气,添加结论部分,检查时间逻辑一致性,列出可能的事实性错误。 2. 高阶能力调用: 文风转换矩阵:如作家风格移植、文体杂交、学术口语化等指令结构和效果示例。 领域穿透技术:如行业黑话破解,例如“解释 Web3 领域的'胖协议瘦应用'理论”。 3. 场景化实战策略:包括商业决策支持、创意内容生成、技术方案论证等。 4. 效能增强技巧: 对话记忆管理:如上下文锚定、信息回溯、焦点重置。 输出质量控制:针对过度抽象、信息过载、风格偏移等问题类型的修正指令。 5. 特殊场景解决方案: 长文本创作:可采用分段接力法和逻辑粘合剂。如“先完成故事大纲→逐章扩展→最后进行伏笔校验”,“确保新章节与前文的三处细节呼应”。 敏感内容处理:如概念脱敏法和场景移植法。 此外,在使用 DeepSeek 写论文时,还需注意以下几点: 示例是一种隐性的需求说明书,添加示例可让大模型更懂需求,但 few short 可能影响模型性能。 自用和他用的提示词在稳定性、经济性、可维护性等方面有较大区别,工业化提示词需稳定、经济且易维护。 将 R1 的思维链给 cloud 回答,结果可能大大改进。 同时,不同的模型有其特点,如 Cloud 3.5 模型多样性差,Deepseek R1 有缺陷但也不错,可根据需求选择合适的模型,如街悦新城的文学大师版等。
2025-03-03
如何高效使用“deepseek+”?
以下是一些关于高效使用“DeepSeek+”的信息: 各地举办了相关活动,如在郑州场展示了搭建的工作流,深圳场分享了出海的落地方案,北京场玩起了 AR+机械汪,广州场探讨了如何辅助速通吃“霸王餐”,福州场有最年轻的分享者展示玩转示例。 可以结合飞书多维表格来发挥其强大之处。 向阳乔木介绍了通过结合 VS Code、Cline 插件和 Deepseek API 等工具提升应用能力,实现自动发送邮件、查找重复文件、网页抓取翻译等功能。 伊登展示了最新 Deepseek+coze 实现新闻播报自动化工作流,具有全自动化处理、40 秒快速出片、成本低廉、输出质量稳定专业等优势,还能进行一系列改进,如加入配套 BGM、增加画面内容和转场效果、使用免费节点替代付费插件、优化模板样式、增加自动化程度支持批量处理等。您可以在扣子商店体验,也可以自己搭建。 您可以参考以上内容,根据您的具体需求来高效使用“DeepSeek+”。
2025-03-03
用deepseek写法学本科论文 有哪些指令
DeepSeek 可用于法学本科论文写作,以下是一些相关指令和方法: 1. 文风转换矩阵: 作家风格移植:例如“用鲁迅杂文风格写职场 PUA 现象”。 文体杂交:比如“将产品说明书改写成《史记》列传格式”。 学术口语化:“把这篇论文摘要翻译成菜市场大妈能听懂的话”。 2. 领域穿透技术:行业黑话破解,如“解释 Web3 领域的'胖协议瘦应用'理论”。 3. 效能增强技巧: 对话记忆管理:包括上下文锚定(“记住当前讨论的芯片型号是麒麟 9010”)、信息回溯(“请复述之前确认的三个设计原则”)、焦点重置(“回到最初讨论的供应链问题”)。 输出质量控制:针对不同问题类型进行修正,如过度抽象(“请具体说明第三步操作中的温度控制参数”)、信息过载(“用电梯演讲格式重新组织结论”)、风格偏移(“回归商务报告语气,删除比喻修辞”)。 4. 特殊场景解决方案: 长文本创作:采用分段接力法(“先完成故事大纲→逐章扩展→最后进行伏笔校验”)和逻辑粘合剂(“确保新章节与前文的三处细节呼应”)。 需要注意的是,使用 DeepSeek 辅助写作时,仍需您自身对法学知识的深入理解和研究,以确保论文的学术性和专业性。
2025-03-03
如何在电脑上用chatbox框架,使用ollama搭建deepseek模型
在电脑上使用 Chat Box 框架,通过 Ollama 搭建 DeepSeek 模型的步骤如下: 1. 阿里云百炼平台: 百炼平台的模型广场有各种模型,包括音频理解、视频理解等,通义的一些强模型也在其中。 百炼平台无需部署,可直接使用 DeepSeek R1 模型。 DeepSeek R1 模型的价格与各大平台差不多,有大量免费额度,如 100 万 token,不同版本的模型如 7B、14B、32B 等也送了 100 万 token,LLAVA 限时免费。 使用 DeepSeek R1 模型需要解锁和授权,没有授权按钮的需要对阿里云进行实名认证,可通过支付宝扫码或在右上角头像处进行,共学群里有相关指引。 在首页体验模型页面可对比不同模型的效果,如 V3 和 R1,R1 会先思考,速度较快。 多模态可以识别更多输入信息,如读文件、图片等,而 DeepSeek R1 本身不是多模态模型。 通过模型广场的 API 调用示例获取链接,截断后粘贴到 Chat Box 的设置中,添加自定义提供方,设置模型名称为 DeepSeek R1,并获取 API key。 API key 可删除旧的并重新创建,方便本地软件连接。 2. Docker + RAGFlow + Ollama 搭建: 返回 RAGFlow 中,打开右上角设置,进入模型提供商。 选择 Ollama,配置相关信息,模型取决于运行的模型。 配置基础 URL。 导入一个 embedding 模型,用于文本向量化。 设置系统模型设置。 进入数据集,导入文件,可设置文件夹当作知识库。 对文件进行解析,解析速度取决于本机 GPU 性能。 解析好之后,进入检索测试。 测试没问题,可进入聊天界面,助理设置可自行设置。 对于开源模型,如 DeepSeek、Llama 等,可以使用以下方式: 1. Inference Provider:使用 Together AI 等推理服务提供商,在线体验和调用各种开源模型。 2. LM Studio:使用 LM Studio 等本地应用程序,在个人电脑上运行和部署较小的开源模型。
2025-03-03
如何微调deepseek
微调 DeepSeek 可以通过以下步骤和方法: 1. 应用 KL 散度约束更新策略来调整策略的概率分布。例如,已知 ABC 策略初始概率分布为,根据相对优势调整后的权重可以通过指数函数来转换,以确保权重为正数且总和为 1。计算未归一化的权重,如 A: e^1≈2.178,B:e^0=1,C: e^1≈0.368,然后归一化权重,总和=2.718+1+0.368=4.086,新权重分别为 A: 2.718/4.086≈0.665,B: 1/4.086≈0.245,C: 0.368/4.086≈0.09。通过这样的步骤,策略 A 的总体优势最高,其权重增加,策略 B 表现中等,权重基本保持不变,策略 C 表现较差,权重减少。在不同场景(不同组)的计算中,每个策略的权重会相应调整以获得更高的分数。在文本生成阶段,可以用来评估和调整不同生成策略(比如贪婪搜索,随机采样,束搜索)的有效性,从而提高生成文本(尤其是复杂文本)的连贯性和多样性。 2. 模型蒸馏微调方面,用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。同时,Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面,使两个模型都更强。 3. 在训练过程中给予模型反馈,如路线规划是否成功到达终点、输出格式是否符合期望等,对正确路线增强权重,使做对的概率变高,导致思考逻辑变长。 4. 关于部署方面,讲解了如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。同时介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。 更加完善的训练说明,可直接阅读官方论文:DeepSeekAI《DeepSeekR1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
2025-03-02