Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

上一周 ai有什么新的进展

Answer

以下是上一周 AI 的一些新进展:

  • 应用形态的重构方面,AI Agent 取得突破,为机器人赋予自主行动能力,AI 编程工具的进展或预示人机协作模式的变革。
  • 2 月,OpenAI 发布视频生成模型 Sora,实现高质量文本生成视频,开创 AI 视频生成新纪元。
  • 3 月,Suno 发布 V3 版本,AI 音乐生成进入生产力可用状态。
  • 4 月,Meta 发布高性能开源大模型 Llama-3,降低了 AI 技术的准入门槛。
  • 5 月,GPT-4 发布,Ray-Ban 与 Meta 合作的智能眼镜销量突破百万,字节上线即梦 AI。
  • 6 月,快手发布可灵,Apple Intelligence 发布。
  • 9 月,OpenAI 发布 o1 预览版。
  • 10 月,Rosetta 和 AlphaFold 算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖,约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖,Anthropic 大模型 Claude 3.5 Sonnet 获得“computer use”功能。
  • 12 月,OpenAI 发布 o3 系列模型。

此外,还有一些关于 AI 的讨论和话题,如把 350 万条 Midjourney 提示词放进一张可视化图里,2 套权威的 AI 术语表,天工新功能的定位靠近元宇宙,NotebookLM 与 AI 播客的关系,Bob 类似于更轻巧的能选多种大模型的桌面端应用“豆包”,Monica.im 的发展,物圆 TreLoop 的情况,对 AGI 距离的讨论,Arc 浏览器的状态,李开复关于 AI 应用爆发和 AGI 的观点,李继刚的 Prompt 玩法,OpenAI 研究副总裁离职,15 岁开发者的开源项目被收购,关于 AI 编程效率的讨论等。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望

三、应用形态的重构。AI Agent的突破让行业看到更多可能性——机器人获得自主行动能力的新方向,而AI编程工具的进展,也许预示着人机协作模式的变革。2024 AI关键进展时间线2月OpenAI发布视频生成模型Sora,首次实现高质量文本生成视频,开创AI视频生成新纪元3月Suno发布V3版本,AI音乐生成方向进入生产力可用状态(production ready)4月Meta发布高性能开源大模型Llama-3,降低了AI技术的准入门槛5月GPT-4发布Ray-Ban与Meta合作的智能眼镜销量突破百万字节上线即梦AI6月快手发布可灵Apple Intelligence发布9月OpenAI发布o1预览版10月Rosetta和AlphaFold算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖Anthropic大模型Claude 3.5 Sonnet获得“computer use”功能12月OpenAI发布o3系列模型

AI50年度关键词——腾讯研究院.pdf

#P61#P62#P63#P64序言在过去一年,人工智能技术的迅猛发展正深刻重塑着社会的运行方式。从前沿动态追踪到实际应用场景,从教育辅导到科研创新,AI已然成为推动社会进步的重要力量。在AI技术快速迭代的背景下,系统性的信息整合与分析变得尤为重要。为降低信息获取成本,提升学习效率,腾讯研究院开发了一系列专业的AI资讯产品:•AI每日速递,一份高度凝练的日报产品,帮助读者用3-5分钟快速掌握AI领域当日十大关键进展,在信息过载的时代,为学习与研究“标注”出最有价值的高质量数据;•AI每周50关键词,作为周报产品,基于AI速递内容构建。通过梳理一周热点关键词并制作可交互索引,为研究者提供便捷的“检索增强”工具,助力快速定位所需信息;•科技九宫格,一档短视频栏目,以3-5分钟视频形式解读科技热点与关键技术原理。通过可视化呈现,促进读者对前沿技术的理解与讨论,为团队内容优化提供重要“反馈”;这些产品的运营过程,恰如大语言模型的迭代优化——持续不断地吸收新数据,萃取新知识,产生新洞见。在此基础上,团队还同步开展了AGI专题分析、AGI线上圆桌、AI&Society高端研讨会与AI&Society百人百问等系列研究探讨。

ShowMeAI周刊 No.11 | 上周最有讨论度的13个AI话题:李开复很忙、Monica进化、天工真会玩儿、15岁天才…

🔗原文链接:https://mp.weixin.qq.com/s/d8zmvulhon5js4ujd1S27Q🧭发布时间:2024-11-12📝原创作者:南乔@ShowMeAI研究中心[heading1]📝话题目录[content][heading2]ShowMeAI周刊No.11[content]1.把350万条Midjourney提示词,放进一张可视化图里?!!!2.2套权威的AI术语表,从此拿捏术语翻译:机器之心+GPT Academic+ChatPaper&清华大学3.天工新功能的定位竟然靠近元宇宙?以及,颜值果然是爆款第一生产力!4.NotebookLM≠AI播客,但开发者们把「AI播客」玩出了新花样5.Bob≈能选多种大模型的、更轻巧的「豆包」桌面端应用6.Monica.im:从浏览器插件到全家桶,之后还要推出中国版Cursor7.物圆TreLoop:AI版「闲鱼+小红书」火了,但团队觉得做产品不能太「AI」8.所以,AGI还太遥远,我们先回归对「产品本质」的讨论9.Arc浏览器进入维护状态,但公司决定整个大活儿,把新的浏览器做成应用平台10.李开复很忙:2025上半年2C应用爆发,2030年实现AGI,中国面对霸权要发展应用11.跟着李继刚玩Prompt似乎成了一种潮流?本周发现的新玩法、新讨论12.OpenAI研究副总裁(安全)翁茘(Lilian Weng)离职13.zmh:15岁已有7年开发经验,开源项目ChatNio被数百万收购14.讨论:关于AI编程我算了本「效率账」,结果发现有点亏(⊙_⊙)?✦✦✦

Others are asking
ai修改视频文案
以下是关于 AI 修改视频文案的相关内容: 在文案创作方面: 最初打算用旁白朗诵方式制作片子,类似《舌尖上的中国》,但直接让 GPT 写文案效果平淡,需更具体提出需求。 利用 360 浏览器字幕提取功能捕捉《爱我中华》视频文案,让 Kimi 和 ChatGPT 进行分析学习,以理解写作风格并融会贯通。对比发现,Kimi 在对中文的理解和写作能力上更突出。 让 AI 按此风格写作,整合两个 AI 的作品并调整,使文案更顺口,如将“钟山风雨起苍黄,江南佳丽地,金粉六朝都”改为“钟山风雨起苍黄,古都烟云梦犹长”。 在现阶段应用场景方面: 制作低成本的营销视频、企业宣传视频、培训课程,可使用 Synthesia、HeyGen AI、DID 等产品,用 Avatar 代替真人出镜。 出海企业给产品推广、介绍使用体验,诗云马良平台早在 21 年就推出给视频中模特换脸、切换语言的能力,近期 HenGen AI 也有相关能力,且能匹配 Avatar 口型与视频。 在歌词创作方面: 文案完成后,因剪映预设的 AI 语音效果不佳,决定为南京写歌并制作 MV。 将文案复制给 AI 进行歌词改写和取名,可定义风格和时间长度。 对比 Kimi 和 ChatGPT 写的歌词,最终修改 ChatGPT 写的歌词定稿,如“悠悠金陵风,古韵今犹存,钟山风雨起,金粉六朝魂。龙蟠虎踞地,文采风流情。梦开始之处,南京故事行。走过历史长廊,触摸时间痕迹,秦淮夜色下,灯火映繁华。夫子庙旧梦长,儒韵千古传,石头城波光里,岁月永流转。”
2025-03-18
Google AI Studio 怎么下载?
要下载 Google AI Studio,您可以按照以下步骤进行操作: 1. 打开浏览器,访问 https://aistudio.google.com/prompts/new_chat 。 2. 登录您的 Google 账户。 3. 在 model 选项处选择 Gemini 2.0 Flash Experimental 模型即可。 或者您也可以通过下载 Gemini 应用(Android 或 iOS)来使用。
2025-03-18
有什么ai可以视频转文字
以下是一些可以进行视频转文字的 AI 工具: 1. Memo AI:支持将 YouTube、播客、本地音频视频轻松转文字、字幕翻译、语音合成,还可以由多种 AI 模型提炼内容精华总结,生成思维导图。同时支持多语言,包括中文、英语。 2. 通义听悟(或飞书妙记):可以将音频上传生成文字稿。 此外,海螺 AI 工具不仅能进行声音克隆,还能嵌入完整的 AI 录视频工作流中,其中包括将视频中的音频提取并转文字的步骤。
2025-03-18
在AI生成中,1token大约是多少字符?
在 AI 生成中,对于英文文本,1 个 Token 大约相当于 4 个字符或 0.75 个单词。以中文为例,由于不同厂商的大模型采用了不同的文本切分方法,通常情况下 1 Token 约等于 1 2 个汉字。在 ChatGPT 4 中,“Learning AI Meticulously,Sharing Knowledge Joyfully”这句话被视为 10 个 Token,标点符号单独计算,“Joyfully”被拆分成“Joy”和“fully”。您可以查看 OpenAI 的分词器工具来了解更多关于文本如何转换为 Token 的信息。
2025-03-18
推荐一些AI作曲工具
以下是为您推荐的一些 AI 作曲工具: 1. Udio:由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。网址:https://www.udio.com/ 2. Suno AI:是一款革命性的人工智能音乐生成工具,它通过先进的深度学习技术,能够将用户的输入转化为富有情感且高质量的音乐作品。网址:https://suno.com/ 需要注意的是,内容由 AI 大模型生成,请仔细甄别。在使用 AI 作曲工具时,掌握一些基本的音乐知识,如基本的节拍参数、基础乐器的描述和组合、主歌副歌的结构常识等,对于创作制作至关重要。同时,要避免一些不切实际的想法,如传一首周杰伦的歌上去复制一堆周杰伦风格的歌等。另外,对于 AI 音乐 MV 的制作,建立角色资产可以考虑使用 AI 绘画平台,如 Midjourney(条件允许时的首选)、可灵 AI、即梦 AI 等成熟的综合类工具,或者 Krea 之类的集成平台。
2025-03-18
我准备用无影云电脑部署一个独属于我们公司的AI,在大模型方面我准备用deepseek的满血版,你有什么建议吗
以下是关于您准备用无影云电脑部署公司专属 AI 并使用 deepseek 满血版大模型的一些建议: 1. 本地部署方面:如果拥有云服务器,要了解如何进行本地部署以及满血版本地部署的实际情况。 2. 免费额度:在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 3. 平台服务差异:了解 DLC、DSW 和 EAS 等模型部署平台服务的差别。 4. 模型蒸馏微调:可以学习并实践模型的蒸馏和微调相关知识。 5. 获取 DeepSeekR1 满血版密钥: 注册并登录火山引擎,点击立即体验进入控制台。 创建一个接入点,点击在线推理创建推理接入点。 为接入点命名为 DeepSeekR1。 若有提示未开通模型,点击“立即开通”,勾选全部模型和协议一路开通。 确认无误后点击“确认接入”按钮。 复制推理点的 ID 并保存。 点击【API 调用】按钮,复制 API Key 并保存。 6. 模型选择与配置:可以参考理想的配置,如推理模型选择 gemini2.0flashthinking,代码模型选择 claude3.5sonet 或 gpt4omini,多模态模型选择 gemini2.0flash,常规模型选择 DeepSeek V3。同时,了解 OpenRouter 新发布的 BYOK 功能,它能集成第三方 Key,整合免费额度并解放更多槽位。若对现有供应商支持的模型不满意,还可考虑 simpleoneapi。
2025-03-18
帮我总结一下最近一周值得关注的AI新闻
以下是最近一周值得关注的 AI 新闻: 2024 年 6 月,苹果发布了 AI 原生操作系统,加强了硬件和模型布局;Claude Sonnet 3.5 发布,挑战 OpenAI;视频生成领域 Runway Gen3 和快手可灵表现优秀;AI 3D 技术逐渐崭露头角;Google 和月之暗面推出长上下文缓存技术。整体趋势是技术不断进步,各领域竞争激烈。 快手发布可灵网页版及大量模型更新;阶跃星辰发布多款模型;商汤打造类似 GPT4o 的实时语音演示;GraphRAG:微软开源新型 RAG 架构。 红杉资本美国合伙人 Pat Grady 在最新访谈中表示,AI 技术将为服务行业带来变革机遇,而非取代软件公司。AI 的潜力在于赋能服务行业,但人际关系和实际执行仍需人工。对于基础模型公司,Grady 认为它们可能像数据库公司一样发展,提供开发者 API,有机会进入应用层。他认为现有模型已足够强大,关键在于工程化优化和认知架构设计。 Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位。 Shopify 的 AI 助手 Sidekick 现已上线,它知道如何在 Shopify 中执行任何操作,包括提取相关数据、操作新功能或创建报告。 Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能。 OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展。 Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器。 2024 年 1 月,斯坦福大学 Mobile Aloha;1 月 10 号 LumaAl Genie 文生 3D;1 月 11 号 GPT store 上线;1 月 MagnificAl 高清放大爆火;1 月最后一天苹果 Vision Pro 宣布发售。
2025-03-06
目前我有个数据源头,可能是excle或mysql数据库。他们都含义以下字段: 发货日期 物料编号 物料描述 板块 实际已交货量 销售单位 金额(RMB) 金额(不含税RMB) 国家 品牌; 我需要创建一个智能体助手,用于分析这些数据,这个智能通助手需要能按用户需要,分析各个维度的数据,并按板块等维度汇总,并转为柱状图图表表现出现,并表现用户所有日期的近一周的变化,并阐明变化或波动是由哪些数据导致的? 结合以上需求,我需要在飞书上构建一个企业每日利润表分析与汇报助手,该选定哪种prompt框架
很抱歉,目前飞书知识库中没有关于您所描述的这种特定需求下应选定哪种 prompt 框架的相关内容。但一般来说,构建这样的企业每日利润表分析与汇报助手的 prompt 框架可以考虑以下几个方面: 1. 明确数据来源和格式:清晰描述数据来自 Excel 或 MySQL 数据库,以及包含的具体字段。 2. 定义分析维度和指标:如按板块、国家等维度汇总数据,关注利润相关的指标。 3. 设定时间范围:明确分析近一周的数据变化。 4. 描述图表要求:指定以柱状图展示数据。 5. 解释变化原因:阐明导致数据变化或波动的关键因素。 您可以根据实际情况进一步细化和完善这个框架。
2025-02-15
目前我有个数据源头,可能是excle或mysql数据库。他们都含义以下字段: 发货日期 物料编号 物料描述 板块 实际已交货量 销售单位 金额(RMB) 金额(不含税RMB) 国家 品牌; 我需要创建一个智能体助手,用于分析这些数据,这个智能通助手需要能按用户需要,分析各个维度的数据,并按板块等维度汇总,并转为柱状图图表表现出现,并表现用户所有日期的近一周的变化,并阐明变化或波动是由哪些数据导致的?
要创建这样一个智能体助手来分析您提供的数据,以下是一些建议的步骤: 1. 数据获取与预处理: 从 Excel 或 MySQL 数据库中读取数据。 对数据进行清洗和预处理,例如处理缺失值、异常值等。 2. 数据分析与计算: 按照用户需求的维度(如板块、国家、品牌等)对数据进行分组和汇总计算。 计算近一周的数据变化情况。 3. 图表生成: 使用合适的图表库(如 matplotlib、Seaborn 等)将汇总后的数据以柱状图的形式展示。 4. 变化原因分析: 通过比较不同维度的数据,找出导致变化或波动的关键因素。 在技术实现方面,您可以使用 Python 编程语言来完成上述任务。例如,使用 Pandas 库进行数据处理和分析,使用 Matplotlib 库生成图表。希望这些建议对您有所帮助,如果您在实现过程中遇到具体的技术问题,欢迎随时向我咨询。
2025-02-15
我在一周前的文章[1]里说对 DeepSeek-R1 只需要说大白话,但在三天前的文章[2]里又用了看起来还挺复杂的结构化提示词。有伙伴问我到底咋回事。这就来解释下喽。
以下是关于 DeepSeekR1 提示词的相关信息: 历史更新: 字节跳动推出新技术 OmniHuman,利用单张图片和音频生成生动视频。 DeepSeek 的出现标志着算力效率拐点显现,其优化算法架构提升算力利用效率,AI 基础大模型参数量迎来拐点,2025 年是算法变革元年,其训练过程聚焦强化学习提升推理能力。 提示词方法论: 核心原理认知:包括多模态理解、动态上下文、任务适应性等 AI 特性定位,以及采用意图识别+内容生成双通道处理等系统响应机制。 基础指令框架:包括四要素模板、格式控制语法等。 进阶控制技巧:如思维链引导、知识库调用、多模态输出。 高级调试策略:包括模糊指令优化、迭代优化法。 行业应用案例:涵盖技术开发场景、商业分析场景。 异常处理方案:如处理信息幻觉、格式偏离、深度不足等情况。 效能监测指标:包括首次响应准确率、多轮对话效率、复杂任务分解等。 在 R1 时代,使用 AI 提示词关键在于提供足够背景信息,简单大白话有效但信息量不足难达理想结果,示例和框架可助理清思路,最终影响在于思考和表达,利用乔哈里视窗分析信息需求,避免过度指令化,让 AI 自由思考以激发更高创意和效果。
2025-02-07
最近一周AI在B端有什么新闻吗
以下是最近一周 AI 在 B 端的部分新闻: 一位投资人分享了其用于深化人工智能/机器学习知识的工具和资源,包括简报(如 TLDR AI、The Sequence 等)、播客(如 No Priors podcast 等)、会议(如工业界 World AI Cannes Festival)。 AIGC Weekly32 提到:Netflix 列出年薪 90 万美元的机器学习平台产品经理岗位;Shopify 的 AI 助手 Sidekick 上线;Artifact 推出自定义内容阅读语音功能;OpenAI、谷歌、微软和 Anthropic 组建前沿模型论坛;OpenAI 下线 ChatGPT 生成内容的检测器。 XiaoHu.AI 日报中:Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能一次处理多达数百万份文档,主要面向金融服务公司等专业领域;Character AI 推出与 AI 角色通电话的新功能,支持多种语言且可在通话和短信间无缝切换;微软文本转语音虚拟数字人上线,支持 GPT4o 的集成。
2024-12-24
请推荐最新的AI相关进展新闻
以下是一些最新的 AI 相关进展新闻: 在医疗领域: ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究,AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。例如,AI 提前三年诊断胰腺癌;两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因;AI 帮助抗衰老,筛查出高效的药物候选物;利用 AI 寻找阿尔兹海默症的治疗方法;使用神经网络分析患者体液中的生物标志物以早期诊断帕金森。 在技术应用方面: AI Agent 的突破让行业看到更多可能性,如机器人获得自主行动能力。AI 编程工具的进展预示着人机协作模式的变革。 2024 年 AI 关键进展时间线包括:2 月 OpenAI 发布视频生成模型 Sora;3 月 Suno 发布 V3 版本;4 月 Meta 发布高性能开源大模型 Llama3;5 月 GPT4 发布等。 赛博月刊显示,AI 音频公司在效果和延迟方面取得突破,3D 世界生成领域处于初级阶段但有望在明年取得巨大进步,AI 应用的更新集中在搜索、知识库、编程等领域,越来越多应用公司受到资本青睐。
2025-03-16
transformer是通往AGI的必经之路吗?什么是世界模型,当前有哪些进展
Transformer 并非通往 AGI 的必经之路。在已知的 token space 中,Transformer 符合一些条件,但在更通用的场景中不太符合。AI 本质包含一堆 scaling law,一个值得被 scale up 的架构是基础,且架构要支持不断加入更多数据。当前在数据方面,如限定问题的数据生成有进展,但通用问题还没有完全的解法。 世界模型方面,目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统,其逻辑受指向描述变化,如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构,都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构,以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单,需要探寻 RL 与 LLM 的本质普遍性。
2025-03-16
请帮我整理关于AI最新进展和应用的介绍内容
以下是关于 AI 最新进展和应用的介绍: 医疗领域: ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究。AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。 提前三年诊断胰腺癌。 两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因。 帮助抗衰老,筛查超过 80 万种化合物发现高效药物候选物。 用于寻找阿尔兹海默症的治疗方法。 帮助早期诊断帕金森。 法律法规方面: AI 在许多领域已经取得重大进展和效率提升,如交通监控、银行账户欺诈检测、工业大规模安全关键实践等。 AI 具有巨大的潜力来改变社会和经济,可能产生与电力或互联网相当的影响。 大型语言模型等技术进步带来了变革性的发展机会。 基础通识课方面: 流式训练方式提升了训练速度和质量,基于 Transformer 模型进行流匹配优于扩大模型。 有多种 AI 生成工具,如能创作音乐的 so no 音频生成工具、创建个人 AI 智能体的豆包、生成播客的 Notebook LN。 端侧大模型能部署在手机端等设备,通过压缩解决存储和性能问题。 AI 工程平台对模型和应用有要求,如 define 平台,coach 平台有新版本模板和众多插件工具,还有工作流。 有魔搭社区等为大模型提供服务的平台。 预告了 AI 建站,需安装基础软件帮助文科生和无基础人员建站。
2025-03-15
新手如何更好使用该网站,主要了解人工智能或者AGI进展,主流软件的学习和应用
对于新手想要更好地使用该网站来了解人工智能或 AGI 进展以及主流软件的学习和应用,以下是一些相关内容: AE 软件: 基本功能:可通过图层软件抠元素加插件做特效,如利用 auto field 自动填充工具,轨道遮罩功能让图层按特定形状变化等。 与 AI 结合运用:如用 runway 生成烟花爆炸素材,结合 AE 的图层混合模式、遮罩等功能实现特效可控的画面。 其他应用:用内容识别填充功能处理视频画面,如抹掉入镜的人;从素材网站获取粒子素材为画面添加氛围感。 学习路径:可在 B 站找丰富的 AE 软件入门课程自学,也可从包图网下载工程文件学习。 学习方法:通过拆解视频、留意路边广告特效、按层级逻辑思考画面运动来学习 AE,还可参考模板。 与 AI 的关系:AI 出现后,AE 使用减少,有些动效可用 AI 完成。 在短剧中的应用:在火焰、文字、光线等方面有少量应用。 AI 相关技术与活动: AI 音乐创作:通过输入更高级的词汇与 AI 音乐对话能产生更好效果,有 AI 音乐的版块、挑战、分享会和教程,可通过王贝加入 AI 音乐社区。 数字人语音合成:介绍了声音克隆技术,提到了微软、阿里等的相关成果,常用的是 JPT service。 Config UI 的应用:能降低成本、提高效率,在图书出版、引流等方面有应用,岗位稀缺,社区有相关共学课程。 社区共创项目:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等活动。 作业与报名:作业是询问对 AI 方向的兴趣和想做的项目,活动报名可通过填写名字和申请新增学校参与。 线下寄送物料组织活动:会给大家寄送线下活动物料,在学校内组织。 AI 春晚即将开始:去年 300 人 30 天共创了 AI 春晚,今年的也即将开始,可报名参与多种岗位。 AIPO 活动及相关挑战:10 月 20 日的 AIPO 活动,可提前构思展示项目,有会话和视频相关的挑战赛。 共学活动与技能提升:接下来 10 天有从零基础到建站等内容的讲解,回放会放在链接里,可先从练习提示词入手。 硬件机器人材料购买:若搞硬件机器人,部分材料需尽快购买。 自媒体发布与流量扶持:在小红书发布活动内容带特定标签有流量扶持,作品也可发布在 GitHub 等平台。 活动奖项与历史玩法:设最佳创业奖和最佳投资奖各四个,有线下摆摊展示交流、IPO 路演等玩法,之前在多个城市举办过 AI 切磋大会。 工具使用与新大赛预告:可使用多种 AI 工具,新的大赛即将开启,有百万奖金池,相关动态会在社区活动栏目公布。 AI 音乐和数字人语音合成: AI 音乐方面,提到草爷、格林 king、狗哥带大家入门,有相关课程与教程,且淘宝上有套壳工具抄袭。社区伙伴做的 AI 音乐专辑不错。 数字人语音合成部分提到声音克隆,有新的声音克隆且音质很不错。 提到了微软新出的成果、阿里的 Cozy voice(指出其泛化能力不强)、大家常用的 GPT solve it、刚举办的 AI 3D 活动。 以小田的 config UI 基础工作流一日谈展开,讲述了多个案例,如许建拍摄场景图成本降低,郭佑萌在图书出版行业提升效率,影楼可进行换装等操作,文旅文创场景有有趣的合影生成方式,还提到该工作流岗位稀缺且社区有课程可供学习。 AJ 介绍平台资源,包括共学课程、专栏报告、数据等,还提及就业创业及一些企业专栏的内容。
2025-02-28
RAG最新进展
RAG(检索增强生成)是由 Lewis 等人于 2020 年中期提出的一种大语言模型领域的范式。 其发展经历了以下阶段: 1. 2017 年创始阶段,重点是通过预训练模型吸收额外知识以增强语言模型,主要集中在优化预训练方法。 2. 大型语言模型如 GPT 系列在自然语言处理方面取得显著成功,但在处理特定领域或高度专业化查询时存在局限性,易产生错误信息或“幻觉”,特别是在查询超出训练数据或需要最新信息时。 3. RAG 包括初始的检索步骤,查询外部数据源获取相关信息后再回答问题或生成文本,此过程为后续生成提供信息,确保回答基于检索证据,提高输出准确性和相关性。 4. 在推断阶段动态检索知识库信息能解决生成事实错误内容的问题,被迅速采用,成为完善聊天机器人能力和使大语言模型更适用于实际应用的关键技术。 RAG 在多个基准测试中表现出色,如在 Natural Questions、WebQuestions 和 CuratedTrec 等中表现抢眼。用 MSMARCO 和 Jeopardy 问题进行测试时,生成的答案更符合事实、具体和多样,FEVER 事实验证使用后也有更好结果。基于检索器的方法越来越流行,常与 ChatGPT 等流行大语言模型结合使用提高能力和事实一致性,在 LangChain 文档中有相关使用例子。 同时,对增强生成检索的兴趣增长促使了嵌入模型质量的提高,传统 RAG 解决方案中的问题也得到解决。
2025-02-20
deepseek最近有什么新进展
DeepSeek 近期有以下新进展: 深夜发布大一统模型 JanusPro,将图像理解和生成统一在一个模型中。 模型(7B):https://huggingface.co/deepseekai/JanusPro7B 模型(1B):https://huggingface.co/deepseekai/JanusPro1B JanusPro 是一种新型的自回归框架,通过将视觉编码解耦为独立的路径解决先前方法的局限性,同时利用单一的统一变压器架构进行处理。解耦缓解了视觉编码器在理解和生成中的角色冲突,增强了框架的灵活性,超越了之前的统一模型,并匹配或超过了特定任务模型的性能,成为下一代统一多模态模型的有力候选者。 在编码任务中已成为社区的最爱,其组合了速度、轻便性和准确性而推出的 deepseekcoderv2。
2025-02-19