Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek

Answer

DeepSeek 是一家具有独特特点和优势的公司:

  • 它不是“中国式创新”的产物,其在硅谷受到关注和追逐并非近期才发生。早在 2024 年 5 月 DeepSeek-V2 发布时,就以多头潜在注意力机制(MLA)架构的创新引发小范围轰动,而在国内舆论场却被描摹成“大模型价格战的发起者”。
  • 如果 V-3 是 DeepSeek 的 GPT-3 时刻,未来充满未知但值得期待,DeepSeek 应能为全人类的人工智能事业做出更大贡献,且已是中国最全球化的 AI 公司之一,其赢得尊重的秘方是硅谷味儿的。
  • 作为推理型大模型,它具有以下特点:
    • 无需用户提供详细步骤指令,能通过理解真实需求和场景提供答案。
    • 能理解用户用“人话”表达的需求,无需特定提示词模板。
    • 回答问题时能深度思考,而非简单罗列信息。
    • 可以模仿不同作家的文风进行写作,适用于多种文体和场景。 使用 DeepSeek 的正确方法包括:
    • 用自然语言描述,直接描述真实场景和具体需求,提示词模板可用可不用。
    • 在提问时加上“说人话”“小学生能听懂”“菜市场大妈能听懂的话”等,让回答更通俗易懂。
    • 激发其进行批判性思考、反面思考和复盘,恢复深度思考能力。
    • 通过指定模仿的作家和文体,让其生成符合特定风格的文本。
Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

将DeepSeek比喻成“AI界的拼多多”是偏颇的,认为DeepSeek的秘方就是多快好省也是不全面的。中国的大多数AI公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月DeepSeek-V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2的论文就引发了AI研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X和Reddit上AI从业者在讨论DeepSeek-V2,同时,DeepSeek在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。这也许能说明:DeepSeek跟硅谷更有对话和交流的密码,它的秘方应该是硅谷味儿的。

DeepSeek 的秘方是硅谷味儿的

如果V-3真的是DeepSeek的GPT-3时刻,那接下来将发生什么?是DeepSeek的GPT-3.5——也就是ChatGPT时刻,或是其它?没人知道,但有意思的事儿应该还在后头。DeepSeek应该不会永远是一个“计算机系Pro”的存在,它也理应为全人类的人工智能事业做出更大的贡献。无论如何,DeepSeek已经是中国最全球化的AI公司之一,它赢得来自全球同行甚至对手的尊重的秘方,也是硅谷味儿的。

详解:DeepSeek深度推理+联网搜索 目前断档第一

先了解下优势和特点[heading3]DeepSeek的特点与优势[content]推理型大模型:DeepSeek的核心是推理型大模型,与指令型大模型不同,它不需要用户提供详细的步骤指令,而是通过理解用户的真实需求和场景来提供答案。更懂人话:DeepSeek能够理解用户用“人话”表达的需求,而不需要用户学习和使用特定的提示词模板。深度思考:DeepSeek在回答问题时能够进行深度思考,而不是简单地罗列信息。文风转换器:DeepSeek可以模仿不同作家的文风进行写作,适用于多种文体和场景。[heading3]使用DeepSeek的正确方法[content]可以扔掉提示词模板:用自然语言描述,直接描述真实场景和具体需求,提示词模板的目的是清晰表达,如果使用也完全没问题。。让DeepSeek“说人话”:在提问时加上“说人话”“小学生能听懂”“菜市场大妈能听懂的话”等,可以让DeepSeek的回答更加通俗易懂。激发深度思考:让DeepSeek进行批判性思考、反面思考和复盘,以恢复其深度思考能力。文风转换:通过指定模仿的作家和文体,让DeepSeek生成符合特定风格的文本。

Others are asking
Deepseek网站
DeepSeek 相关信息如下: 一个提示词让 DeepSeek 能力更上一层楼: 效果对比:用 Coze 做了小测试,可对比查看。 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 Deepseek。 认真阅读开场白后正式开始对话。 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本人人可用,减轻调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力基础上优化输出质量,减轻 AI 味,增加可读性。 设计阈值系统,可能形式大于实质,之后根据反馈可能修改。 用 XML 进行更规范设定,而非 Lisp 和 Markdown。 完整提示词:v 1.3 特别鸣谢:李继刚、Thinking Claude、Claude 3.5 Sonnet。 Yeadon:cursor 杀手!?超强性价比开发方案曝光!DeepSeekR1+RooCline: 环境配置指南: DeepSeek 平台设置:首先到 deepseek 的官网(https://www.deepseek.com/),进入右上角的 API 开放平台。早期 deepseek 有赠送额度,没有赠送余额可充值,支持美元和人民币两种结算方式及各种个性化充值方式,创建一个 API key,注意及时保存,因为 API key 只会出现一次。 设置代码编辑器:下载 cursor(https://www.cursor.com/)或 vscode(https://code.visualstudio.com/),以 cursor 为例,下载安装后在插件页面搜索并安装 Roocline,安装完打开三角箭头可看到 RooCline,选中并点击齿轮进入设置,依次设置基本参数,包括 API Provider 选择 DeepSeek、填入已创建的 key、选择 DeepSeekreasoner 模型、语言偏好设置等,记得把 HighRisk 选项都打开,最后点击 Done 保存修改,在聊天框输入产品需求,输入需求后点击星星优化提示词,最终得到想要的结果。 详解:DeepSeek 深度推理+联网搜索目前断档第一: 评论:游戏科学创始人、黑神话悟空制作人冯骥称 DeepSeek 可能是国运级别的科技成果,V3 已用一个月,R1 仅用 5 天。DeepSeek 做到了强大(比肩 O1 的推理能力)、便宜(参数少,训练开销与使用费用小了一个数量级)、开源(任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的 mini 模型)、免费(官方目前提供的服务完全免费,任何人随时随地可用)、联网(暂时唯一支持联网搜索的推理模型)、本土(由没有海外经历甚至没有资深从业经验的本土团队开发完成)。呼吁大家访问网页链接马上用起来,也有移动 APP。
2025-01-31
deepseek 使用手册
以下是关于 DeepSeek 的使用手册: 1. 效果对比:用 Coze 做了小测试,可对比查看 2. 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 DeepSeek。 认真阅读开场白之后,正式开始对话。 3. 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 用 XML 来进行更为规范的设定,而不是用 Lisp(对我来说有难度)和 Markdown(运行下来似乎不是很稳定)。 4. 完整提示词:v 1.3 5. 特别鸣谢:李继刚的【思考的七把武器】在前期为提供了很多思考方向;Thinking Claude 是现在最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。 6. 使用技巧: DeepSeek 的特点与优势: 推理型大模型:核心是推理型大模型,与指令型大模型不同,它不需要用户提供详细的步骤指令,而是通过理解用户的真实需求和场景来提供答案。 更懂人话:能够理解用户用“人话”表达的需求,而不需要用户学习和使用特定的提示词模板。 深度思考:在回答问题时能够进行深度思考,而不是简单地罗列信息。 文风转换器:可以模仿不同作家的文风进行写作,适用于多种文体和场景。 使用 DeepSeek 的正确方法: 可以扔掉提示词模板:用自然语言描述,直接描述真实场景和具体需求,提示词模板的目的是清晰表达,如果使用也完全没问题。 让 DeepSeek“说人话”:在提问时加上“说人话”“小学生能听懂”“菜市场大妈能听懂的话”等,可以让 DeepSeek 的回答更加通俗易懂。 激发深度思考:让 DeepSeek 进行批判性思考、反面思考和复盘,以恢复其深度思考能力。 文风转换:通过指定模仿的作家和文体,让 DeepSeek 生成符合特定风格的文本。
2025-01-31
deepseek最新消息
以下是关于 DeepSeek 的最新消息: DeepSeek 深夜发布大一统模型 JanusPro,将图像理解和生成统一在一个模型中。模型(7B):https://huggingface.co/deepseekai/JanusPro7B ;模型(1B):https://huggingface.co/deepseekai/JanusPro1B 。JanusPro 是一种新型的自回归框架,通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时利用单一的统一变压器架构进行处理,超越了之前的统一模型,并匹配或超过了特定任务模型的性能。 DeepSeek 以小成本实现媲美领先 AI 产品的性能,并在全球主要市场 App Store 登顶。高盛认为 DeepSeek 或改变科技格局,降低 AI 行业的进入门槛。 DeepSeek 在中文场景表现优秀,日常写作和表达习惯贴近人类,但专业论文总结略弱。数学能力不错,编程能力逊于 GPT。采用 GRPO 算法替代传统 PPO,提升语言评价灵活性与训练速度。 1 月 28 日(除夕)有一场关于 DeepSeek 的高质量闭门会,其创始人梁文锋强调团队文化与长远智能探索。DeepSeek 在技术上虽有优势,但资源有限,需聚焦核心;其推理模型推动效率提升,挑战传统 SFT 方法,标志着新的模型训练范式。 DeepSeek 近日开源了多模态模型 JanusPro,寓意古罗马双面神雅努斯,既能进行视觉理解,也能生成图像。与 DALLE 3 相比,JanusPro 在参数上领先,并具备图像识别、地标识别等多种能力。该模型通过更优化的训练策略、更海量的数据和更大规模的参数(70 亿)实现了更强的智能表现。全面开源,支持商用,MIT 协议,部署使用便捷,Benchmark 表现优异,能力更全面。
2025-01-30
deepseek的多模态大模型?
DeepSeek 发布了大一统模型 JanusPro,将图像理解和生成统一在一个模型中。以下是关于该模型的一些重要信息: 最新消息:DeepSeek 深夜发布该模型,它是一个强大的框架。 特点: 统一了多模态理解和生成,通过将视觉编码解耦为独立路径解决先前方法的局限性,利用单一的统一 Transformer 架构进行处理,缓解了视觉编码器在理解和生成中的角色冲突,增强了框架的灵活性。 超越了之前的统一模型,匹配或超过了特定任务模型的性能,其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 规模:提供 1B 和 7B 两种规模,适配多元应用场景。 开源及商用:全面开源,支持商用,采用 MIT 协议,部署使用便捷。 测试案例: 模型直接支持中文交互(图像理解+图像生成)。 云上 L4 测试,显存需 22GB。 图像生成速度约 15s/张。 图像理解质量方面,文字和信息识别基本准确,内容理解完整清晰,局部细节有欠缺。 Colab(需 Pro,因需 20GB 以上显存):https://colab.research.google.com/drive/1V3bH2oxhikj_B_EYy5yRG_9yqSqxxqgS?usp=sharing 模型地址: 7B 模型:https://huggingface.co/deepseekai/JanusPro7B 1B 模型:https://huggingface.co/deepseekai/JanusPro1B 下载地址:https://github.com/deepseekai/Janus
2025-01-30
Deepseek 使用逻辑
DeepSeek 的使用逻辑如下: 效果对比:用 Coze 做了小测试,可对比查看相关视频。 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 DeepSeek。 认真阅读开场白后正式开始对话。 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用,减轻调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力基础上优化输出质量,减轻 AI 味,增加可读性。 设计了阈值系统,可能会根据反馈修改。 用 XML 进行更为规范的设定,而非 Lisp 和 Markdown。 关于 DeepSeek 的其他信息: 1 月 26 日社区动态速览: 提示词框架包含四大模块:任务目的、计划规则、格式规则、输出说明。通过明晰的任务拆分与规则定义,让提示更具可操作性,但不可过度依赖,有示例模板可清晰展现相关内容。 Anthropic 的“计算机使用”模型,Claude 有新能力,如可识别屏幕截图,计算光标像素坐标并执行操作,结合了图像识别、推理和动作能力,能将用户指令转化为具体步骤并执行,少量软件训练后能自我纠正并迅速上手。 OpenAI Operator 工作机制,利用虚拟主机、Chrome 浏览器、CUA 实现网页实时操控,能执行复杂导航任务,结合 GPT4o 的视觉处理与强化学习,可处理屏幕截图、推理操作并发送指令,在感知—推理—动作循环中迭代,遇敏感任务则提示用户确认。 开源项目 Browser Use。 1 月 28 日社区动态速览: 华尔街分析师认为 DeepSeek 以小成本实现媲美领先 AI 产品的性能,并在全球主要市场 App Store 登顶,高盛认为其或改变科技格局,降低 AI 行业进入门槛。 DeepSeek 中文场景表现优秀,日常写作和表达习惯贴近人类,但专业论文总结略弱,数学能力不错,编程能力逊于 GPT,采用 GRPO 算法替代传统 PPO,提升语言评价灵活性与训练速度。 复旦大学 OpenMOSS 发布实时语音交互模型,中文语音体验近似 GPT4o 高级语音,响应时间低于 200 毫秒,支持打断和自然互动,可生成多情感、多风格语音,包含方言、戏剧化台词等,多语言适配,嘈杂环境下仍具备强逻辑推理能力。 阿里巴巴推出 Qwen2.51M 模型。
2025-01-30
deepseek
DeepSeek 是一家具有独特特点和优势的公司: 1. 秘方具有硅谷风格:在硅谷受到关注和追逐,其创新架构在硅谷引发轰动,与硅谷有更好的对话和交流。 2. 核心是推理型大模型:不需要用户提供详细步骤指令,能通过理解用户真实需求和场景提供答案。 3. 更懂人话:能够理解用户用自然语言表达的需求,无需学习特定提示词模板。 4. 深度思考:回答问题时能进行深度思考,而非简单罗列信息。 5. 文风转换器:可模仿不同作家文风写作,适用于多种文体和场景。 使用技巧: 1. 可以扔掉提示词模板,用自然语言描述,直接描述真实场景和具体需求,使用提示词模板也没问题。 2. 让 DeepSeek“说人话”,在提问时加上“说人话”“小学生能听懂”“菜市场大妈能听懂的话”等,使其回答更通俗易懂。 3. 激发深度思考,如让其进行批判性思考、反面思考和复盘,恢复深度思考能力。 4. 进行文风转换,通过指定模仿的作家和文体,让其生成符合特定风格的文本。 如果 V3 是 DeepSeek 的 GPT3 时刻,接下来的发展充满未知,但 DeepSeek 应会为全人类的人工智能事业做出更大贡献,且已是中国最全球化的 AI 公司之一。
2025-01-30