Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek

Answer

DeepSeek 是一家具有独特特点和影响力的公司:

  1. 秘方是硅谷味儿的:将其比喻成“AI 界的拼多多”是偏颇的,其在硅谷受到关注和追逐并非近期才发生。早在 2024 年 5 月 DeepSeek-V2 发布时,就以多头潜在注意力机制(MLA)架构的创新引发小范围轰动,而当时在国内舆论场被描摹成“大模型价格战的发起者”,形成平行时空的感觉。这表明 DeepSeek 与硅谷更有对话和交流的密码。
  2. V-3 是 DeepSeek 的 GPT-3 时刻:如果 V-3 真的是 DeepSeek 的 GPT-3 时刻,接下来的发展充满未知,但 DeepSeek 作为中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷味儿的。
  3. 一个提示词让 DeepSeek 能力更上一层楼:通过 Coze 做小测试进行效果对比。使用方法包括搜索 www.deepseek.com 点击“开始对话”,将装有提示词的代码发给 DeepSeek,认真阅读开场白后正式开始对话。其设计思路包括将 Agent 封装成 Prompt 并储存在文件,通过提示词文件让 DeepSeek 实现同时使用联网和深度思考功能,在模型默认能力基础上优化输出质量等。完整提示词版本为 v1.3,特别鸣谢李继刚和 Thinking Claude 等。
Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

将DeepSeek比喻成“AI界的拼多多”是偏颇的,认为DeepSeek的秘方就是多快好省也是不全面的。中国的大多数AI公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月DeepSeek-V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2的论文就引发了AI研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X和Reddit上AI从业者在讨论DeepSeek-V2,同时,DeepSeek在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。这也许能说明:DeepSeek跟硅谷更有对话和交流的密码,它的秘方应该是硅谷味儿的。

DeepSeek 的秘方是硅谷味儿的

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

一个提示词,让 DeepSeek 的能力更上一层楼?——HiDeepSeek

用Coze做了个小测试,大家可以对比看看[e8c1a8c3012fedad10dc0dfcc8b1e263_raw.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Jz9cbKxDbocGtIxXFFEcdiHjnRc?allow_redirect=1)[heading1]如何使用?[content]Step1:搜索www.deepseek.com,点击“开始对话”Step2:将装有提示词的代码发给DeepseekStep3:认真阅读开场白之后,正式开始对话[heading1]设计思路[content]1.将Agent封装成Prompt,将Prompt储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担2.通过提示词文件,让DeepSeek实现:同时使用联网功能和深度思考功能3.在模型默认能力的基础上优化输出质量,并通过思考减轻AI味,增加可读性4.照猫画虎参考大模型的temperature设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改5.用XML来进行更为规范的设定,而不是用Lisp(对我来说有难度)和Markdown(运行下来似乎不是很稳定)[heading1]完整提示词[heading2]v 1.3[heading1]特别鸣谢[content]李继刚:【思考的七把武器】在前期为我提供了很多思考方向Thinking Claude:这个项目是我现在最喜欢使用的Claude提示词,也是我设计HiDeepSeek的灵感来源Claude 3.5 Sonnet:最得力的助手

Others are asking
基础搭建的知识库效果很差,模型答案的幻觉很严重,我应该怎么改进?(Deepseek调用api接入本地faiss的rag库)
以下是一些改进基础搭建的知识库效果、减轻模型答案幻觉问题的建议: 1. 更换大模型:例如从 ChatGLM26B 替换成 baichuan213b,针对您的场景,后者的性能可能提升一倍左右。 2. 更换 embedding 模型:将 embedding 模型从 LangChain Chatchat 默认的 m3ebase 替换为 bgelargezh,后者可能更优。 3. 测试不同 Top k 的值:比较 Top 5、Top 10、Top 15 的结果,发现 Top 10 时效果可能最优。 4. 对文档名称进行处理:人工对文件进行重命名,上传相同文件构建知识库,同时在构建知识库时勾选【开启中文标题加强】选项,虽然重命名文件对结果的提升效果不明显,但勾选该选项后,回答的无关信息可能减少,效果有所提升。 RAG(RetrievalAugmented Generation)即检索增强生成,由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务。 在大模型中,向量可想象成空间中的点位,每个词或短语对应一个点。系统通过查看词在虚拟空间中点的位置,寻找直线距离最近的点来检索语义上接近的词语或信息。理解向量后,当收到一个对话时,RAG 的完整工作流程为:检索器从外部知识中检索相关信息,生成器利用这些信息生成答案。 要优化幻觉问题和提高准确性,需要了解从“问题输入”到“得到回复”的过程,针对每个环节逐个调优,以达到最佳效果。
2025-02-27
deepseek的提示词有哪些特别之处
DeepSeek 的提示词具有以下特别之处: 1. 语气还原:能还原帝王语气,相比其他模型输出,语气恰当,不过分用力,兼顾古典文字和可读性。 2. 熟悉历史细节:可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原唐初历史称谓,如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等,对“魏徵”等字词的使用也很讲究。 3. 输出具体且细节惊人:与其他 AI 不同,其输出充满具体而惊人的细节,行文隐喻拿捏到位,高级且能让画面跃然纸上。 4. 增添场景描述:在独白文本中“自作主张”地加入括号中的场景描述,增强画面感,如“夜风掀动案头《韩非子》,停在‘夫妻者,非有骨肉之恩也’那页”等。 5. 预判用户需求:对于简洁且无形容词、无倾向性的提示词,如“玄武门之变结束的当天,李世民在深夜写下一段独白,你觉得他会写什么?”,能准确预判用户想要的输出,自然想到添加文学性。
2025-02-27
个人有没有必要本地部署deepseek模型
个人是否有必要本地部署 DeepSeek 模型取决于多种因素。 DeepSeek 模型的权重文件开源,可本地部署。其公司名为“深度求索”,网页和手机应用目前免费,但 API 调用收费。 在云端模型部署方面,有实操演示和使用方法讲解,包括登录 Pad 控制台、选择框架、资源、出价等,还介绍了查看部署状态和日志的方法,以及用 Postman 在线调试模型获取名称及后续使用方式。 在模型部署相关内容中,部署时使用 V1 chat completion s 接口,要注意模型名称、大小写等。同时布置了作业为成功部署大语言模型并调试,提交带钉钉昵称的截图。还讲解了 API 调用方法、费用、停止服务方式等,提醒注意保密 API key,若竞不到价可加价尝试进行本地蒸馏模型部署。 模型蒸馏方面,先介绍云平台部署情况,接着讲解模型蒸馏概念、方式,阐述其应用场景及修复模型幻觉的作用,并进行了实操演示。 综合来看,如果您对数据隐私有较高要求、需要定制化的模型服务、有足够的技术能力和资源来进行本地部署和维护,或者在网络不稳定的情况下使用,那么本地部署可能是有必要的。但如果您的需求相对简单,且不具备相关技术条件和资源,使用云端服务可能更为便捷。
2025-02-27
deepseek和chatgtp的训练方式有什么不同
DeepSeek R1 的训练方式采用强化学习(RL),跳过了监督微调(SFT)阶段。而 ChatGPT 采用预训练+监督微调(SFT)的方式。 ChatGPT 这种方式适用于知识性问答。DeepSeek R1 能自发进行复杂推理,自我回溯、多角度思考,解题过程更完整,但其计算成本更高。在日常查询方面,GPT4o 更快、更适合简单咨询。DeepSeek R1 则在高难度数学和编程问题上更具优势,且更加透明,研究细节可复现,权重可下载。
2025-02-27
高校如何自己本地部署DEEPSEEK
高校本地部署 DEEPSEEK 可以参考以下内容: 1. 了解相关平台服务差异,如 DLC、DSW 和 EAS 等模型部署平台服务的不同。 2. 如果拥有云服务器,可以进行本地部署,但要注意满血版本地部署的实际情况。 3. 在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 4. 登录 Pad 控制台,通过 model gallery 进行部署,如 Deepseek R1 模型,可选择 SG 浪或 Vim 推理框架,根据资源出价,部署后可在模型在线服务 EAS 查看状态。 5. 模型试用可以使用 postman,通过修改接口和复制文档中的内容进行在线调试,发送请求查看状态码,根据模型名称和相关要求输入内容进行试用。 6. 会带着大家复现模型的蒸馏和微调,并讲解相关知识。 7. 实战演练 DeepSeek R1 满血版快速部署和蒸馏训练。 以上信息仅供参考,具体操作可能会因实际情况有所不同。
2025-02-27
豆包如何切换deepseekR1大模型
要切换到 DeepseekR1 大模型,您可以参考以下步骤: 1. 对于新闻播报自动化工作流: 首先,输入新闻链接,系统会自动提取核心内容。添加网页图片链接提取插件,获取网页里的图片。 接着,利用调整图片的节点,将 url 属性的图片内容转化为 image 属性的图片。 然后,使用链接读取节点提取文字内容,并在提取链接后面接上一个大模型节点,使用 DeepseekR1 模型生成有吸引力的口播内容。 注意,DeepseekR1 基础版本限额使用,可在专业版手动接入。手动接入时,先点击 https://www.volcengine.com/experience/ark?utm_term=202502dsinvite&ac=DSASUQY5&rc=A6NPZ83H 领取 375 万 R1 模型的 tokens(手机用户可扫描二维码),再到 https://www.volcengine.com/,根据相关截图自行接入推理点。为了后续批处理,需将输出格式设置为 Array<String>格式。 2. 对于飞书多维表格相关操作: 可参考教程“”。 例如,在制作【AI 书单】时,可把图书的封面图复制到多维表格里,AI 能自动识别【书名和作者】;用字段捷径【AI 搜索】找到豆瓣评分;用字段捷径【自定义 AI 自动填充】识别图书的内容概述、适用人群、推荐理由;用【信息提取】分别把主题、核心观点、故事梗概、适用人群、推荐理由提取出来。
2025-02-27