Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek公式的发展历程

Answer

DeepSeek 公式的发展历程如下:

  • 2025 年 2 月 9 日,陈财猫分享提示词及小说创作心得,提到 DeepSeek 热度极高,微信指数达 10 亿多次,并准备先讲讲该模型的特点。
  • DeepSeek R1 不同于先前的普通模型,如 ChatGPT-4、Claude 3.5 sonnet、豆包、通义等,它属于基于强化学习 RL 的推理模型,在回答用户问题前会先进行“自问自答”式的推理思考,以提升最终回答的质量。
  • 早在 2024 年 5 月 DeepSeek-V2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发了一场小范围的轰动。
Content generated by AI large model, please carefully verify (powered by aily)

References

🐋全新AI整活计划:DeepSeek小说家 2025年2月9日

[heading2]智能章节[00:00](https://waytoagi.feishu.cn/minutes/obcnmo3hj6o3pw99e79386lx?t=0)Deepseek热度高,陈财猫将分享提示词及小说创作心得本章节中,AJ提到Deepseek热度极高,微信指数达10亿多次,借此热度邀请陈财猫分享相关提示词用法。还设计一起写主题为“反转”、不超1000字小说的环节。随后陈财猫先做调查,见大家都用过Deepseek后,准备先讲讲该模型的特点。[03:40](https://waytoagi.feishu.cn/minutes/obcnmo3hj6o3pw99e79386lx?t=220000)财猫分享AI内容创作见解及对AI创作好文字的论证本章节财猫先进行自我介绍,分享过往经历及公司业务,认为AI加内容创作是现阶段好赛道。接着探讨大模型难以完成生产力任务,还介绍自身用AI创作的内容。此外,以纳伯科夫对好文字的定义论证AI能写出好文字,并借万能逼近定律说明大模型可引发情感共鸣。[11:00](https://waytoagi.feishu.cn/minutes/obcnmo3hj6o3pw99e79386lx?t=660000)AI写作探讨:从好文字基础到模型挑选及变化本章节财猫先引用美国大学心理学教材观点,阐述共鸣是文学基础,因人类共性大于差异,AI能写出好文字。还提到曾讲过如何用AI写出比人更好的文字,随着Deepseek re出现情况有变化。指出写出好文字首要挑选好模型,模型能力差异大,认为Deepseek R1是目前最好的模型。

非技术人 10 分钟读懂 Deepseek R1|天才模型养成与 AI 超越人类的破晓时刻

就我观察而言,大多数人讨论的DeepSeek,基本指的是它的深度思考版本——DeepSeek R1。DeepSeek R1不同于先前的普通模型(如ChatGPT-4、Claude 3.5 sonnet、豆包、通义等),它与OpenAI现在最先进的模型o1、o3一样,同属于一条技术路线:基于强化学习RL的推理(Reasoning)模型。其标志性表现就是,在回答用户问题前,R1会先进行“自问自答”式的推理思考,凭此提升最终回答的质量。这种“自问自答”,并非简单的自言自语,而是AI在模拟人类的深度思考。从用户初始问题“先有鸡还是先有蛋”出发,AI唤醒解决该问题所需的推理逻辑与知识,对问题进行多步推导,为最终回答提供更加完备的思考准备。这种能力,并非凭空而来。如果把AI比作人类,那么DeepSeek R1的“聪明”,源于其背后独特的“教育方式”。——在许多其他的AI模型还在接受“填鸭式教育”时,DeepSeek R1已经率先进入了“自学成才”的新阶段。

DeepSeek 的秘方是硅谷味儿的

将DeepSeek比喻成“AI界的拼多多”是偏颇的,认为DeepSeek的秘方就是多快好省也是不全面的。中国的大多数AI公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月DeepSeek-V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2的论文就引发了AI研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X和Reddit上AI从业者在讨论DeepSeek-V2,同时,DeepSeek在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。这也许能说明:DeepSeek跟硅谷更有对话和交流的密码,它的秘方应该是硅谷味儿的。

Others are asking
飞书多维表格如何 批量用DeepSeek提效
以下是关于飞书多维表格与 DeepSeek 结合提效的相关信息: 《喂饭级教程:飞书多维表格+DeepSeek=10 倍速用 AI》介绍了两者的结合方式,可实现批量处理信息、提升工作效率。用户能批量转换文风、快速回复消息、利用 AI 生成文案,操作简便,且无需编程知识。 《雪梅 May 的 AI 学习日记》中提到飞书多维表格插上 DeepSeek 的翅膀起飞,作为重度用户强推加了 AI 功能及 DeepSeek 的飞书多维表格。指出对于 AI agent,扣子只能做单次任务,而飞书多维表格的 agent 能做批量任务。使用 AI agent 可能是个人的事,但用飞书多维表格后可成为团队协作的事,能让团队小伙伴一起提交内容给 AI 批量处理并返回。 相关链接: 《最好的致敬是学习:DeepSeekR1 赏析》:https://mp.weixin.qq.com/s/_XGBipbywCOtcKu13QDW5Q 《DeepSeek 创新源于芯片封锁,Anthropic 或成最大输家;美国不是通过创新竞争,而是通过封锁竞争》:https://mp.weixin.qq.com/s/WiWTriENGR229S08BRFlSA 《喂饭级教程:飞书多维表格+DeepSeek=10 倍速用 AI》:https://mp.weixin.qq.com/s/aIi4tIy0CCINyQE_3AfF_Q 大仙课|当飞书遇上 DeepSeek 们:https://waytoagi.feishu.cn/wiki/QNOOwPTlRiziWikxPU2cqmUZnad 回放链接:https://www.feishu.cn/community/course/content?course_id=7469623322680999964&class_id=7469623322716717084&lesson_id=7469623696753360900&content_id=7469623696782770180
2025-02-22
DeepSeek的V3版本适合那些配置的电脑使用
DeepSeek 的 V3 版本在以下云计算厂商中的使用情况如下: 腾讯云(调用 API):API 调用 DeepSeek 系列模型限时免费,包括 DeepSeekV3。即日至北京时间 2025 年 2 月 25 日 23:59:59,所有腾讯云用户均可享受 DeepSeekV3 模型限时免费服务,单账号限制接口并发上限为 5。在此之后,模型价格将恢复至原价。 京东云:未提及 DeepSeekV3 版本的相关配置和使用情况。 Gitee AI:未提及 DeepSeekV3 版本的相关配置和使用情况。 需要注意的是,不同云计算厂商的配置和价格可能会有所变化,建议您在实际使用时进一步了解和确认。
2025-02-22
deepseek 写小说
以下是关于使用 DeepSeek 写小说的相关信息: 比赛要求: 主题:反转 字数:1000 字内 考量点:反差强烈、出乎意料、前文有铺垫且反转合理 制作工具:DeepSeek 使用地址:https://www.deepseek.com/ 推荐使用深度思考 R1 模型 允许人为轻微调整 不建议出现:鲜血、武器、鬼怪骷髅、知名人物、18X 等不符合国家政策的内容,可能导致落选 投稿方式:通往 AGI 之路腾讯频道【deepseek 专区】点击投稿,链接直达:https://pd.qq.com/s/p9z7r8c0?businessType=9 ,提交内容:小说名+具体正文(建议:用 AI 生成小说封面,同时上传封面更有吸引力) 社区直播 AI 评选: 时间:2 月 16 日晚 8 点 地址:通往 AGI 之路视频号现场直播看如何用 AI 评选出最佳小说家 须知:参与该挑战视作同意将作品的使用权授予本号用于社群运营、展览、展示等用途。主办方拥有最终解释权。 比赛周期: 开启时间:2025 年 2 月 9 日 截止时间:2025 年 2 月 16 日晚 8 点 评选时间:2025 年 2 月 16 日晚 8 点社区直播 AI 评选 社区共学:时间为 2 月 9 日晚 8 点,地址:通往 AGI 之路视频号解锁 DeepSeek 写小说。 此外,还有关于 DeepSeek 写小说的智能纪要,包括从 Deepseek R1 提示词过渡到小说写作的探讨,模型应用和创作的讨论,以及 AI 创作交流与线下活动分享等内容。
2025-02-22
deepseek
DeepSeek 是一家具有独特特点和影响力的公司: 1. 其秘方具有硅谷特色: 不是“中国式创新”的产物,不能简单地将其比喻成“AI 界的拼多多”或认为其秘方就是多快好省。 早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动。 是中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷味儿的。 2. V3 可能是 DeepSeek 的 GPT3 时刻,未来发展充满未知但值得期待。 3. 关于提升 DeepSeek 能力的提示词 HiDeepSeek: 效果对比:可通过 Coze 做小测试进行对比。 使用方法:包括搜索网站、点击“开始对话”、发送装有提示词的代码、阅读开场白后正式开始对话等步骤。 设计思路:将 Agent 封装成 Prompt 并储存于文件以减轻调试负担,实现联网和深度思考功能,优化输出质量,设计阈值系统,用 XML 进行规范设定等。 完整提示词:v 1.3。 特别鸣谢:李继刚的【思考的七把武器】提供思考方向,Thinking Claude 是设计灵感来源,Claude 3.5 Sonnet 是得力助手。
2025-02-22
Deepseek 从入门到精通
以下是关于 DeepSeek 从入门到精通的相关资源: 《》 ,由清华大学新闻与传播学院、新媒体研究中心、元宇宙文化实验室提供,类型为 PPT 课件。
2025-02-21
如何私有化部署deepseek
私有化部署 DeepSeek 的步骤如下: 1. 注册并登录火山引擎,点击立即体验进入控制台。 网址:https://zjsms.com/iP5QRuGW/ 火山引擎是字节跳动旗下的云服务平台。 2. 创建一个接入点: 点击在线推理创建推理接入点。 为接入点命名为 DeepSeekR1。 若提示“该模型未开通,开通后可创建推理接入点”,点击“立即开通”,勾选全部模型和协议,一路点击开通(免费)。 确认以下无误后,点击“确认接入”按钮。 自动返回创建页面,复制多出的接入点名为“DeepSeekR1”的推理点 ID 保存。 点击【API 调用】按钮,进入后点击【选择 API Key 并复制】,若没有则点击【创建 API key】,复制并保存。 3. 前往 DeepSeek 官网(https://www.deepseek.com/),进入右上角的 API 开放平台。 早期 DeepSeek 有赠送额度,若没有赠送余额可选择充值,支持美元和人民币两种结算方式及各种个性化充值方式。 创建一个 API key,注意 API key 只会出现一次请及时保存。 4. 下载代码编辑器,如 cursor(https://www.cursor.com/)或 vscode(https://code.visualstudio.com/)。 以 cursor 为例,下载安装后,在插件页面搜索并安装 Roocline。 安装完后,打开三角箭头,选中 RooCline 并点击齿轮,进入设置。 配置基本参数: API Provider:选择 DeepSeek。 API Key:填入已创建的 key。 模型:选择 DeepSeekreasoner。 语言偏好设置。 小贴士:记得把 HighRisk 选项都打开,最后点击 Done 保存修改。 在聊天框输入产品需求,输入需求后点击星星优化提示词,最终得到想要的结果。
2025-02-21
openAI过去几年的发展历程
OpenAI 在过去几年的发展历程如下: 在整个团队的努力下,迎来了技术高速发展的“黄金三年”,在自然语言处理领域取得突破性进展,推出了 GPT1、GPT2 和 GPT3 系列模型,每次模型迭代都使模型复杂度成指数级别上升,模型效果也越来越好。 2022 年 11 月 30 日,发布基于 GPT 3.5 的 ChatGPT,引发全球 AI 浪潮。 大约九年前创立,怀揣着对 AGI 潜力的坚定信念,渴望探索如何构建并使其惠及全人类。 创始人山姆·奥特曼回首创业历程,认为虽然有挑战和不愉快,但收获和成长巨大,也暴露出团队在管理上的不足。 展望 2025 年,坚信首批 AI Agent 将融入劳动力市场,目标已瞄准真正意义上的超级智能。新的一年充满反思,随着 AGI 脚步临近,是回顾公司发展历程的重要时刻。
2025-02-11
推荐可以做以时间轴的个人成长历程长页的工具
目前在 AI 领域中,暂时没有专门用于制作以时间轴呈现个人成长历程长页的特定工具。但您可以考虑使用一些通用的设计和内容创作工具来实现这一需求,例如 Adobe InDesign、Canva 等,它们具有丰富的模板和设计功能,能够帮助您创建出具有时间轴效果的个人成长历程页面。
2025-01-15
AI是怎么获得学习能力,是谁发现了这种学习模式,发展历程是什么?
AI 的学习能力主要通过以下几种方式实现: 1. 机器学习:电脑通过找规律进行学习,包括监督学习、无监督学习和强化学习。 监督学习:使用有标签的训练数据,算法旨在学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习:从反馈中学习,以最大化奖励或最小化损失,类似训练小狗。 2. 深度学习:这是一种参照人脑的方法,具有神经网络和神经元,由于有很多层所以称为深度。神经网络可用于监督学习、无监督学习和强化学习。 3. 生成式 AI:能够生成文本、图片、音频、视频等内容形式。 AI 学习模式的发现并非由单一的个人完成,而是众多研究者共同努力的成果。 AI 的发展历程中有重要的技术里程碑,如 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制来处理序列数据,而不需要依赖于循环神经网络或卷积神经网络。Transformer 比 RNN 更适合处理文本的长距离依赖性。对于大语言模型,生成只是其中一个处理任务,比如谷歌的 BERT 模型,可用于语义理解(如上下文理解、情感分析、文本分类),但不擅长文本生成。生成式 AI 生成的内容称为 AIGC。LLM 即大语言模型,对于生成式 AI,生成图像的扩散模型不属于大语言模型。
2024-12-04
AI的发展历程
AI 的发展历程可以分为以下几个阶段: 1. 早期阶段(1950s 1960s):包括专家系统、博弈论、机器学习初步理论。 2. 知识驱动时期(1970s 1980s):出现专家系统、知识表示、自动推理。 3. 统计学习时期(1990s 2000s):机器学习算法如决策树、支持向量机、贝叶斯方法等得到发展。 4. 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等技术兴起。 当前 AI 的前沿技术点包括: 1. 大模型,如 GPT、PaLM 等。 2. 多模态 AI,如视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 3. 自监督学习,如自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习,包括元学习、一次学习、提示学习等。 5. 可解释 AI,涉及模型可解释性、因果推理、符号推理等。 6. 机器人学,涵盖强化学习、运动规划、人机交互等。 7. 量子 AI,包含量子机器学习、量子神经网络等。 8. AI 芯片和硬件加速。 AI 的起源最早可以追溯到上世纪的 1943 年,心理学家麦卡洛克和数学家皮特斯提出了机器的神经元模型,为后续的神经网络奠定了基础。1950 年,计算机先驱图灵最早提出了图灵测试,作为判别机器是否具备智能的标准。1956 年,在美国达特茅斯学院召开的会议上,人工智能一词被正式提出,并作为一门学科被确立下来。此后近 70 年,AI 的发展起起落落。
2024-12-04
ai诈骗发展历程
AI 诈骗是随着 AI 技术的发展而出现的一种新型诈骗手段,其发展历程与 AI 技术的整体发展密切相关。 AI 技术的发展历程大致如下: 1. 早期阶段(1950s 1960s):出现专家系统、博弈论、机器学习初步理论。 2. 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理得到发展。 3. 统计学习时期(1990s 2000s):机器学习算法如决策树、支持向量机、贝叶斯方法等兴起。 4. 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等成为主流。 随着 AI 技术的进步,AI 幻觉等问题也逐渐显现。AI 幻觉并非新问题,从早期的“人工智障”到如今“一本正经地胡说八道”,其复杂性和隐蔽性不断提升。这一演变反映了 AI 技术从依赖人工规则到依靠数据驱动,再到深度学习的发展过程,在变得更“聪明”的同时也面临更多挑战。 在神经网络方面,如 CNN 的结构基于大脑细胞的级联模型,在计算上更高效、快速,在自然语言处理和图像识别等应用中表现出色,随着对大脑工作机制认知的加深,神经网络算法和模型不断进步。 目前,AI 技术的发展为诈骗手段的更新提供了可能,例如利用深度伪造技术制造虚假的语音、视频进行诈骗等。
2024-11-21
AI 图像识别的发展历程
AI 图像识别的发展历程如下: 早期处理印刷体图片的方法是将图片变成黑白、调整为固定尺寸,与数据库对比得出结论,但这种方法存在多种字体、拍摄角度等例外情况,且本质上是通过不断添加规则来解决问题,不可行。 神经网络专门处理未知规则的情况,如手写体识别。其发展得益于生物学研究的支持,并在数学上提供了方向。 CNN(卷积神经网络)的结构基于大脑中两类细胞的级联模型,在计算上更高效、快速,在自然语言处理和图像识别等应用中表现出色。 ImageNet 数据集变得越来越有名,为年度 DL 竞赛提供了基准,在短短七年内使获胜算法对图像中物体分类的准确率从 72%提高到 98%,超过人类平均能力,引领了 DL 革命,并开创了新数据集的先例。 2012 年以来,在 Deep Learning 理论和数据集的支持下,深度神经网络算法大爆发,如卷积神经网络(CNN)、递归神经网络(RNN)和长短期记忆网络(LSTM)等,每种都有不同特性。例如,递归神经网络是较高层神经元直接连接到较低层神经元;福岛邦彦创建的人工神经网络模型基于人脑中视觉的运作方式,架构基于初级视觉皮层中的简单细胞和复杂细胞,简单细胞检测局部特征,复杂细胞汇总信息。
2024-11-14
请帮我总结一份ai下达指令的万能公式
以下是一个关于 AI 下达指令的示例总结: 对于英语试题类的任务,如语法选择题: 步骤 1:提供清晰完整的试题图片。 步骤 2:下达指令,例如“这是一篇英语试题,给我图中的内容”。 对于英语阅读理解题: 指令:将英语正文翻译为准确流畅的中文,并提供中英文对照。
2025-02-21
AI图片生成视频的提示词公式
AI 图片生成视频的提示词公式如下: 1. 基础公式:主体+主体描述+运动+环境。例如:“一艘白色邮轮缓缓驶过海面。(A white cruise ship sails slowly across the sea.)” 2. 进阶技巧:对各部分进行详细描述,如“一只金色毛发的狗(描述主体)悠然自得地在阳光洒满的草地上行走,草叶轻轻地在它的爪下弯曲(详细描述环境和动作)。微风拂过,它的毛发随风轻动,时不时低下头嗅闻着大地。(进一步描述主体动作细节)远处,夕阳的余晖拉长了影子,营造出一种宁静祥和的氛围。(描述环境氛围)(A goldenhaired dog strolls leisurely across a sunlit grassy field,the blades of grass bending gently under its paws.A soft breeze passes by,causing its fur to sway,and it occasionally lowers its head to sniff the ground.In the distance,the setting sun casts long shadows,creating a peaceful and serene atmosphere.)”这样可以使生成的视频更稳定、提升美感。 3. 语法方面: 注意权重值最好不要超过 1.5。 可以通过 Prompt Editing 使得 AI 在不同的步数生成不一样的内容,语法为:例如“alandscape”,在一开始,读入的提示词为:the model will be drawing a fantasy landscape.在第 16 步之后,提示词将被替换为:a cyberpunk landscape,它将继续在之前的图像上计算。 提示词还可以轮转,比如在第一步时,提示词为“cow in a field”;在第二步时,提示词为“horse in a field.”;在第三步时,提示词为“cow in a field”,以此类推。 4. 其他方面: 指令参数:一般包括视频时长、分辨率、帧率等细节。PixVerse 默认生成 4s 时长的视频(会在后续更新中增加更长视频的生成),分辨率 1408×768。升级(Upscale)后,分辨率可以达到 4k,会导致生成所花费的时间比普通生成更长。 情感氛围:描述视频的情感基调或氛围,可用于人物的表情、环境氛围等的控制。 参考风格:可以输入参考的艺术风格等。
2025-01-25
WPS 表格公式AI
关于 WPS 表格公式的 AI 功能,目前有以下几种不同的工具和插件可以增强其数据处理和分析能力: 1. Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,允许用户直接在 Excel 中利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了 Word、Excel、PowerPoint、Outlook、Teams 等办公软件。用户通过聊天形式告知需求,如数据分析或格式创建,Copilot 会自动完成任务。 3. Formula Bot:提供了数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:这是一款支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 这些工具通过 AI 技术提升了 Excel 的数据处理能力,使用户能更高效地进行数据分析和决策。随着技术不断发展,未来可能会有更多 AI 功能被集成,进一步提高工作效率和数据处理的智能化水平。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-24
提示词万能公式
以下是关于提示词的万能公式相关知识: 1. 提示词语法: 权重值最好不要超过 1.5。 可以通过 Prompt Editing 使得 AI 在不同的步数生成不一样的内容,例如在某阶段后,绘制的主体由男人变成女人。 语法示例: alandscape,在第 16 步之后,提示词将被替换。 fantasy landscape with a,在不同步数提示词会发生变化。 提示词还可以轮转,比如在第一步时,提示词为“cow in a field”;在第二步时,提示词为“horse in a field.”;在第三步时,提示词为“cow in a field”,以此类推。 2. 提示词结构: 当提示词有清晰的结构时,提示效果最有效。 简单公式: 复杂公式: 例如:无结构提示词“小男孩喝咖啡”,有结构的提示词“摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)”。 3. 提示词编写要点: 根据想画的内容写出提示词,多个提示词之间使用英文半角符号。 一般而言,概念性的、大范围的、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词。 每个词语本身自带的权重可能有所不同,模型训练集中较多出现的关键词影响较大,较少出现的关键词可能输入多个相关词汇影响也有限。 提示词的顺序很重要,越靠后的权重越低。 关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。 可以使用括号人工修改提示词的权重,如:字符。
2025-01-15
微调所需要的算力计算公式
微调所需算力的计算较为复杂,会受到多种因素的影响。以下是一些相关的要点: 在一些教程中,如“大圣:全网最适合小白的 Llama3 部署和微调教程”,提到微调可能需要购买算力,预充值 50 元。 对于大型语言模型(LLM)的微调,由于模型规模大,更新每个权重可能需要很长时间的训练工作,还需考虑计算成本和服务麻烦。 调整用于微调的超参数通常可以产生产生更高质量输出的模型。例如,在某些情况中,可能需要配置以下内容: 模型:可选择“ada”、“babbage”、“curie”或“davinci”之一。 n_epochs:默认为 4,指训练模型的时期数。 batch_size:默认为训练集中示例数量的 0.2%,上限为 256。 learning_rate_multiplier:默认为 0.05、0.1 或 0.2,具体取决于 final batch_size。 compute_classification_metrics:默认为假,若为 True,在分类任务微调时在每个 epoch 结束时在验证集上计算特定分类指标。配置这些超参数可通过 OpenAI CLI 上的命令行标志传递。
2025-01-06
微调所需要的算力计算公式
微调所需算力的计算较为复杂,会受到多种因素的影响。以下为您提供一些相关信息: 在“大圣:全网最适合小白的 Llama3 部署和微调教程”中提到,微调可能需要预充值 50 元购买算力。 “9.生成式 AI Studio 简介”课程中指出,微调大型语言模型(LLM)时,由于模型规模大,更新每个权重可能需要很长时间的训练工作以及巨大的计算成本。 “微调(Finetuning)”部分提到,调整用于微调的超参数通常可以产生产生更高质量输出的模型。需要配置的超参数包括: model:要微调的基本模型的名称,可选择“ada”、“babbage”、“curie”或“davinci”之一。 n_epochs:默认为 4,指训练模型的时期数。 batch_size:默认为训练集中示例数量的 0.2%,上限为 256。 learning_rate_multiplier:默认为 0.05、0.1 或 0.2,具体取决于 final batch_size。 compute_classification_metrics:默认为假,若为 True,在分类任务微调时会在每个 epoch 结束时在验证集上计算特定指标。 需要注意的是,不同的模型和任务,其算力需求的计算方式可能会有所不同。
2025-01-06
未来5年AI的发展方向
未来 5 年 AI 的发展方向可能包括以下几个方面: 1. 模型发展:从小模型阶段向更强大的模型演进,如 GPT 的出现标志着 AGI 的拐点,Sora 的出现打开了 AGI 的大门,未来可能加大算力和训练,与具身机器人结合,加速智能提升。 2. 能力提升:从能与人类交流到具备对世界力量的感知和与物理世界互动的能力,逐步发展到强人工智能。 3. 应用拓展:在关键领域改变成本结构和提高生产力,如降低医疗、教育等领域的成本,使服务更易获得和负担得起。AI 涉及的领域不断扩大,应用范围更加广泛。 4. 社会影响:可能带来更好的教育、更健康的人口和更有生产力的人,解放人力去解决更重要的问题,创造更美好的社会。但也需要政府和民营企业共同努力,进行人员再培训和能力增强,以应对可能的就业机会变化。 5. 技术突破:如没有编码能力的人独自创建的应用程序或网站走红,OpenAl o1 的开源替代品在推理基准测试中超越它,苹果设备上的研究成果加速个人设备上 AI 的发展等。同时,在一些领域也存在挑战,如对人形机器人的投资水平可能下降,挑战者难以对 NVIDIA 的市场地位造成重大打击等。此外,还可能面临国家安全审查、立法实施等方面的问题。
2025-02-20
我想做一个产品(生涯规划领域的垂直大模型),这个产品服务的对象是所有人:帮助所有人进行更好的职业规划。每个人都能通过使用这个产品更好地了解自己,了解自己的天赋、兴趣、优势,然后找到自己的热爱的领域和热爱的事业,并且能够个性化地推荐相关的行业和职业,包括职业的主要工作内容和核心能力要求等等。 请对这个产品进行可行性分析,并给出产品的发展规划,别忘了给这个项目起一个名字。
以下是对您提出的生涯规划领域垂直大模型产品的可行性分析和发展规划,并为项目取名为“生涯智途”。 可行性分析: 1. 需求广泛:帮助人们进行职业规划是一个普遍存在的需求,涵盖了各个年龄段和职业阶段的人群。 2. 数据可用性:可以通过各种渠道收集大量与职业相关的数据,包括行业报告、职位描述、人才需求等。 3. 技术支持:当前大模型技术的发展为实现这样的产品提供了可能,能够处理和分析大量复杂的数据。 发展规划: 1. 数据收集与整理:广泛收集各类职业数据,建立丰富的数据库,确保数据的准确性和完整性。 2. 模型训练与优化:利用收集到的数据进行模型训练,不断优化模型,提高预测和推荐的准确性。 3. 功能开发: 个性化测评:开发能够准确评估用户天赋、兴趣、优势的功能模块。 精准推荐:根据用户的特点,提供个性化的行业和职业推荐,并详细介绍职业的工作内容和核心能力要求。 持续学习与更新:随着行业变化,及时更新数据和模型,以提供最新的职业信息。 4. 用户体验优化:设计简洁、易用的界面,提供良好的用户交互体验。 5. 市场推广:通过线上线下多种渠道进行推广,提高产品的知名度和用户覆盖面。 希望以上分析和规划对您有所帮助。
2025-02-18
目前ai发展成熟吗
目前 AI 仍处于不断发展的阶段,尚未完全成熟。 人类是工具的创造者,每一代都在前人的基础上创造出更强大的工具,如今 AGI 成为了人类进步的又一工具。长期以来,人类创新推动生活各方面繁荣改善,AI 也在持续快速发展。 例如,Transformer 架构早在 2017 年就已提出,但 AI 近几年才爆发,其中神经网络的规模是重要影响因素。以 GPT 模型为例,从 2018 年第一代的 1 亿左右参数量,到 2023 年第四代的万亿规模,规模越大智能程度越高,且在达到一定规模后出现“涌现”能力,智能程度飞速上升,但这种“涌现”出现的机理目前尚无统一解释。 在未来,AI 有望在多个领域取得进展,如 2024 年内,图片超短视频的精细操控、AI 音频能力、“全真 AI 颜值网红”、游戏 AI NPC、AI 男/女朋友聊天、实时生成的内容、AI Agent 等方面会有发展;2025 2027 年,AI 3D 技术、全真 AI 虚拟人、AR/VR 技术、具身智能等技术可能会有明显突破。 然而,AI 立法、伦理讨论仍大规模落后于技术进展,AI 造成的 DeepFake、诈骗、网络攻击等问题开始引发担忧,且可能导致结构性失业等社会问题。
2025-02-18
有关于数据标注行业发展趋势的文章吗?
以下是关于数据标注行业发展趋势的相关内容: 数据标注行业呈现出以下几个主要的发展趋势: 从量到质的转变:早期大模型训练侧重通过大量算力和大规模数据集来提升性能,但随着技术进步,数据质量成为提高模型性能的关键瓶颈,更注重提高数据的质量和相关性,而非单纯增加数据量和算力。 数据标注向知识密集型转变:多模态模型需处理多种类型数据,使数据标注过程更细致复杂。例如进行情绪判断或推理时,需要更高水平的理解和分析能力。这要求从事标注的人员不仅要接受专业培训,在某些情况下还需要特定领域专家执行。 数据标注的自动化和合成数据的使用:随着人工智能技术发展,数据标注领域正经历自动化转型,可使用大模型自动标注数据,提高标注效率并减少人力成本。合成数据使用越来越普遍,因其成本较低、能避免隐私问题及可生成长尾场景数据。例如在自动驾驶领域,可用于生成罕见但关键的路况场景,提高模型的鲁棒性和准确性。 此外,相关法律法规也对生成式人工智能技术研发过程中的数据标注做出规定,如提供者应制定清晰、具体、可操作的标注规则,开展数据标注质量评估,对标注人员进行必要培训等。
2025-02-17
DEEPSEEK发展现状介绍一下
DeepSeek 的发展现状如下: 1. 训练成本方面:远高于传闻的 600 万美元,总计约 13 亿美元。定价低于实际成本,导致高额亏损。MixtureofExpert 方法虽降低计算需求,但大规模内存使用可能增加总成本。 2. 竞争优势方面:以低成本开发顶级 AI 模型的 Mistral AI 被中国 DeepSeek 迅速赶超,DeepSeek 的“极简算力”模式可能削弱 Mistral 的竞争优势。 3. 市场表现方面:展示出媲美领先 AI 产品性能的模型,成本仅为一小部分,在全球主要市场的 App Store 登顶。 4. 实际使用体验方面:在文字能力上表现突出,尤其在中文场景中高度符合日常、写作习惯,但在专业论文总结方面稍弱。数学能力经过优化表现不错,编程能力略逊于 GPT。GRPO 算法替代传统 PPO,降低价值函数估计难度,提高语言评价场景的灵活性与训练速度。 5. 热度方面:微信指数达 10 亿多次,陈财猫将分享提示词及小说创作心得。
2025-02-17
AIagent的发展方向
AI Agent 被认为是大模型未来的主要发展方向之一,其发展具有以下特点和阶段: 从原理上看,中间的“智能体”通常是 LLM 或大模型,为其增加了工具、记忆、行动、规划四个能力。目前行业里主要用到的是 langchain 框架,它通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。 在人工智能的发展历程中,AI Agent 并非一蹴而就,其发展可分为几个阶段,并受到符号主义、连接主义、行为主义的影响。在人工智能的黎明时期,符号人工智能作为主导范式,以对符号逻辑的依赖著称,代表之作是基于知识的专家系统。其特点是基于逻辑和规则系统,使用符号来表示知识,通过符号操作进行推理。优点是推理过程明确、可解释性强,缺点是知识获取困难、缺乏常识、难以处理模糊性。时间为 20 世纪 50 70 年代。 近期出现的各类 AI 搜索引擎不断颠覆传统搜索引擎,如 perplexity.ai、metaso、360 搜索、ThinkAny 等。AI Agent 在辅助高效处理信息和简便信息表达方面表现出色,例如智能摘要能辅助快速筛选信息,自然语言描述可生成美观可用的图片。在工作流方面,每个人应根据自身情况找到适合的工具,如产品经理可使用 AI 进行用户画像、竞品调研、设计产品测试用例、绘制产品功能流程图等。关于 AI Agent 的未来,曾被认为异想天开的想法都可能成为现实,技术迭代会不断向前。
2025-02-15