Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

端到端语音技术现在进展到什么程度了

Answer

端到端语音技术目前取得了显著进展。

在语音合成方面:

  • 语音合成将文本转换为可听的声音信息,是人机交互的重要接口,一般包括 TTS、歌唱合成等领域。
  • 当代工业界主流语音合成系统包括文本前端和声学后端两个部分。文本前端将输入文本转换为层次化的语音学表征,声学后端基于此生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。
  • 端到端声学后端一般包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。

在全模态智能体方面:

  • OpenAI 发布的 GPT-4o 是新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,对音频输入的平均反应时间为 300 毫秒,与人类对话的反应时间相似。
  • 直接拿音频数据来训练的好处是模型能从数据中感悟到人类表达的情绪、语调、风格等,能听到几乎真实的人类的声音。
  • OpenAI 未公开 GPT-4o 的技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,目标是用端到端的方式扩大语音模型的能力。
Content generated by AI large model, please carefully verify (powered by aily)

References

TTS超全教程

语音合成(Speech Synthesis)将文本转换为可听的声音信息,它赋予了像人一样说话的能力,是人机交互的重要接口。一般来说,语音合成的概念比文语转换(Text-to-Speech,TTS)的涵盖范围更广,语音合成包括TTS、歌唱合成等领域,但大多数情况下可以混用。[awesome-tts-samples](https://github.com/seungwonpark/awesome-tts-samples)提供了一些端到端语音合成模型的样例,可以简单感受下目前语音合成的发展。人类可以通过一整套发音器官合成语音,具体来说,肺相当于动力源,喉相当于调制器,声道相当于滤波器,口唇相当于扩音器。研究人员提出了以源-滤波器(source-filter)模型为代表的多种模型建模该过程,语音中存在清音和浊音,分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。当代工业界主流语音合成系统包括文本前端和声学后端两个部分。文本前端将输入文本转换为层次化的语音学表征,主要包括文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征(linguistics feature)来生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。端到端声学后端一般包括声学模型和声码器两部分,同时也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征,比如梅尔频谱,直接决定合成语音的韵律;声码器将中间声学特征转换为语音波形,直接决定合成语音的音质。

TTS超全教程

和统计参数语音合成系统类似,深度学习语音合成系统也可大致分为两个部分:文本前端和声学后端。文本前端的主要作用是文本预处理,如:为文本添加韵律信息,并将文本词面转化为语言学特征序列(Linguistic Feature Sequence);声学后端又可以分为声学特征生成网络和声码器,其中声学特征生成网络根据文本前端输出的信息产生声学特征,如:将语言学特征序列映射到梅尔频谱或线性谱;声码器利用频谱等声学特征,生成语音样本点并重建时域波形,如:将梅尔频谱恢复为对应的语音。近年来,也出现了完全端到端的语音合成系统,将声学特征生成网络和声码器和合并起来,声学后端成为一个整体,直接将语言学特征序列,甚至文本词面端到端转换为语音波形。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

每一次平台型技术的出现,都会催生出新的人机交互方式,个人电脑时代的鼠标与键盘,移动时代的触摸屏,现在是智能时代,我们一度认为ChatGPT的LUI(自然语言对话式界面)就是这个时代交互的终点,但事实并非如此,知名科幻电影HER中,那种人类与AI全感知无障碍的对话形式,才是我们想要的。“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来”,Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o,并且用了个很前卫的新概念,全模态模型-Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者,新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,而不是用大家常用的工程手段,先各种数据先转换成文本后,交给LLM处理,然后再把输出的文本转换成对应的媒体形式。这样,GPT-4o对音频输入的平均反应时间为300毫秒,与人类对话的反应时间相似;而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等,你能听到几乎真实的人类的声音,在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节,唯一的线索就是来自他们内部模型炼丹师的一篇博客,项目名是AudioLM,2023年中启动,目标是用端到端的方式扩大语音模型的能力。

Others are asking
端到端 模型的应用场景
端到端模型的应用场景包括以下方面: 硬件领域,如机器人、耳机等。 处理垃圾情绪。 音视频应用,效果良好。 手机侧,作为原生 AI OS 的未来重点方向,有望成为新的交互入口,除生成内容外,还能调用手机上的各类应用程序,方便用户完成各类操作。 自动驾驶,输入为视觉,输出为油门、刹车、方向盘等。 物体分拣,输入包括视觉、指令、数值传感器,输出为抓取目标物体并放置到目标位置。
2025-01-02
如果要创建一个和你一样的ai,你可以把技术栈给我罗列出来吗,从数据库到后端到前端分别用到了哪些技术
如果要创建一个类似我的 AI ,以下是从数据库到后端到前端可能用到的技术栈: 前端:推荐使用 React.js 或 Vue.js 框架,它们适合构建动态的用户界面,且有丰富的组件库支持多媒体内容展示。 后端:采用 Node.js 加上 Express.js ,能使用 JavaScript 同时开发前端和后端,简化开发过程,Node.js 的非阻塞 IO 特性适合处理实时通讯需求。 数据库:选择 MongoDB ,对于可能需要存储的文档形式数据(如离谱生物档案和相关事件),它在存储此类灵活数据方面表现良好。 语音处理:可以考虑使用 Google Cloud SpeechtoText 和 TexttoSpeech API 来实现语音与文本的相互转换,以支持语音对话。
2024-08-25
什么是端到端,在智驾中体现在什么地方
端到端是指在处理问题或完成任务时,直接将输入数据映射到输出结果,中间不进行明显的分段或模块划分,实现从起点到终点的一体化处理。 在智驾中,端到端的体现主要有以下方面: 对于端到端训练的模型,类似 RFM1 的路径,直接将多模态输入(如传感器数据、图像等)映射到输出动作(如车辆的转向、加速、减速等)。 在具身智能中,存在大脑与小脑统一在一个大模型之中的端到端具身大模型解决方案。但在实际应用中,对于诸如力矩控制、电流控制等具体环节,对于做到哪一步才算端到端存在争议。 总之,端到端在智驾中的应用仍在不断探索和发展中。
2024-08-13
什么端到端
端到端(Endtoend)在不同领域有不同的含义: 在自动驾驶领域,基于深度强化学习的端到端控制架构是新兴研究热点,能克服传统方式依赖先验环境建模的问题,直接实现从感知到控制功能的映射。 在大模型领域,一个 AI 模型只要输入原始数据就可以输出最终结果。例如 Google 的 RTX 系列专注于机器人 HighLevel 决策问题,其中就使用 Transformer Model 进行端到端训练。
2024-08-13
端到端是什么意思?
端到端指的是输入端到输出端的整个流程,即从原始数据输入到最终结果输出的全过程。在 AI 领域中,端到端模型是指一种能够直接从输入数据到输出结果的模型,无需中间步骤的转换或预处理。
2024-04-29
我想了解如何在微信公众号搭建一个能发语音的数字人
以下是在微信公众号搭建能发语音的数字人的相关步骤: 1. 照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi: 工作流地址:https://github.com/chaojie/ComfyUImobvoiopenapi/blob/main/wf.json 相关文件: 记得下载节点包,放进您的 node 文件夹里,这样工作流打开就不会爆红了!ComfyUI 启动后就可以将 json 文件直接拖进去使用了! 2. 「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人: 组装&测试“AI 前线”Bot 机器人: 返回个人空间,在 Bots 栏下找到刚刚创建的“AI 前线”,点击进入即可。 组装&测试步骤: 将上文写好的 prompt 黏贴到【编排】模块,prompt 可随时调整。 在【技能】模块添加需要的技能:工作流、知识库。 【预览与调试】模块,直接输入问题,即可与机器人对话。 发布“AI 前线”Bot 机器人: 测试 OK 后,点击右上角“发布”按钮即可将“AI 前线”发布到微信、飞书等渠道。 发布到微信公众号上: 选择微信公众号渠道,点击右侧“配置”按钮。 根据以下截图,去微信公众号平台找到自己的 App ID,填入确定即可。不用了解绑即可。 最后去自己的微信公众号消息页面,就可以使用啦。
2025-02-18
如何可以通过ai语音转文字
以下是关于通过 AI 实现语音转文字的相关内容: 可以使用 GVoice 提供的语音录制和识别能力,其中文识别率优秀。语音识别的少量错误,ChatGPT 能正常理解和纠错,衔接较为流畅。 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。还有一个项目:https://huggingface.co/spaces/sanchitgandhi/whisperjax ,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 对于有字幕的 B 站视频,可通过安装油猴脚本获取字幕,然后将字幕文字内容复制发送给 GPTs 进行总结。
2025-02-17
开源文字转语音
以下是为您提供的开源文字转语音相关信息: WhisperSpeech:通过对 OpenAI Whisper 模型的反向工程实现,生成发音准确、自然的语音输出。 相关链接:https://github.com/collabora/WhisperSpeech 、https://x.com/xiaohuggg/status/1748572050271420663?s=20 StyleTTS 2:一个开源的媲美 Elevenlabs 的文本转语音工具,可结合文本角色内容和场景音快速生成有声小说。 主要特点:多样化的语音风格、更自然的语音、高效生成、精确的语音控制、接近真人的语音合成、适应不同说话者。 工作原理:利用风格扩散和与大型语音语言模型(SLM)的对抗性训练来实现接近人类水平的 TTS 合成,通过扩散模型将风格建模为一个潜在的随机变量,以生成最适合文本的风格,而不需要参考语音,实现了高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。 相关链接:暂无
2025-02-15
自动语音识别加字幕
以下是关于自动语音识别加字幕的相关内容: 制作 AI 数字人视频添加字幕的方法: 在显示区域,拖动背景图的角将其放大到适合尺寸,如覆盖视频窗口,并将数字人拖动到合适位置。点击文本 智能字幕 识别字幕,然后点击开始识别,软件会自动将文字智能分段并形成字幕。至此,数字人视频完成,可点击右上角“导出”按钮导出视频备用。 文旅片添加字幕的方法: 选择朗诵男生或清爽男生的音色进行朗读,点击开始朗读自动生成音频。鼠标右键点击当前音轨,找到识别字幕/歌词,耐心等待生成对应文本字幕。操作复杂的部分可观看录制的视频。若剪映的识别字幕功能需要 VIP,可准备好字幕文件,点击本地字幕并导入文件。 视频自动字幕工具推荐: 1. Reccloud:免费的在线 AI 字幕生成工具,可上传视频精准识别,能翻译字幕并生成双语字幕,处理过 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:一站式专业视频自动字幕编辑器,提供字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 3. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 4. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 您可根据自身需求选择适合的工具。
2025-02-14
有免费好用的文本转语音工具吗
以下是一些免费好用的文本转语音工具: 1. Eleven Labs:https://elevenlabs.io/ 这是一款功能强大且多功能的 AI 语音软件,能生成逼真、高品质的音频,可高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ 这是一款人工智能驱动的文本转语音工具,可将文本转换为音频文件,能作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,适用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal 这是一套服务,赋予应用程序“听懂、理解并与客户进行对话”的能力,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ 这一 AI 工具可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 此外,还有日语文本转语音软件 VOICEVOX,它提供多种语音角色,适用于不同场景,可调整语音的语调、速度、音高,开源且可商用。链接: 内容由 AI 大模型生成,请仔细甄别。
2025-02-12
语音转文字
以下是关于语音转文字的相关信息: 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 在声控游戏《神谕》中,使用 GVoice 提供的语音录制和识别能力进行语音转文字,中文识别率优秀。语音识别的少量错误,可被 chatgpt 正常理解和纠错,衔接流畅。 免费的会议语音转文字工具大多有使用时间限制,超过免费时间需付费。推荐工具包括:飞书妙记(https://www.feishu.cn/product/minutes)、通义听悟(https://tingwu.aliyun.com/home)、讯飞听见(https://www.iflyrec.com/)、Otter AI(https://otter.ai/)。更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。
2025-02-11
最新的AI行业动态和进展有哪些,包含2025年
以下是关于最新的 AI 行业动态和进展(包含 2025 年)的内容: 2024 年: 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 有一定操控能力的生成式短视频:风格化、动漫风最先成熟,真人稍晚。 AI 音频能力长足进展:带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟:记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 AI 的商业模式开始有明确用例:数据合成、工程平台、模型安全等。 可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功。 中国 AI 达到或超过 GPT4 水平;美国出现 GPT5;世界上开始现“主权 AI”。 华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年: AI 3D 技术、物理规则成熟:正常人无法区别 AI 生成还是实景拍摄。 全真 AI 虚拟人成熟:包含感情的 AI NPC 成熟,开放世界游戏成熟;游戏中几乎无法区别真人和 NPC。 AR/VR 技术大规模商用。 接近 AGI 的技术出现。 人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源。 具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破。 “人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉。 AI 引发的社会问题开始加重,结构性失业开始出现。 AGI 对于地缘政治的影响开始显露。 此外,还有以下相关动态: 算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。 逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。 人类劳动形式逐步“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。 AI 行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。 云厂商是产业链中毋庸置疑的“链主”。 2024 年,头部 AI 应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC 应用面临较大的挑战。 在 AI 应用领域,Copilot 和 AI Agent 是两种主要的技术实现方式。 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,众多中国 AI 公司积极出海。 2024 年 10 月的大事记包括: Gartner 发布 2025 年十大战略技术趋势。 DeepSeek 开源多模态 LLM 框架 Janus。 司南开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use,发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。
2025-02-17
最新的AI行业动态和进展有哪些
以下是最新的 AI 行业动态和进展: 1. 《2024 年度 AI 十大趋势报告》发布,其中提到大模型创新方面,架构优化加速涌现,融合迭代大势所趋;Scaling Law 泛化方面,推理能力成皇冠明珠,倒逼计算和数据变革;AGI 探索方面,视频生成点燃世界模型,空间智能统⼀虚拟和现实;AI 应用格局方面,第⼀轮洗牌结束,聚焦 20 赛道 5 大场景;AI 应用竞争方面,多领域竞速运营大于技术,AI 助手兵家必争;AI 应用增长方面,AI+X 赋能类产品大干快上,原生 AI 爆款难求;AI 产品趋势方面,多模态上马,Agent 席卷⼀切,高度个性化呼之欲出;AI 智变千行百业,左手变革生产力,右手重塑行业生态;AI 行业渗透率方面,数据基础决定初速度,用户需求成为加速度;AI 创投方面,投融资马太效应明显,国家队出手频率提升。 2. 2024 年 9 月的 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 ReaderLM 和 Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 3. 2024 年,国内 AI 行业融资总金额增加,但事件数同比下降,马太效应越发明显,资本更青睐热点和高成熟度赛道。智能驾驶在各细分赛道中独占鳌头,AI+教育、AI+游戏、AI+医疗等赛道投资总额也有增长。政府积极推进 AI 原生行业发展,北京、上海、武汉等城市出台系列政策吸引人才和企业,国家队频繁投资体现政策支持。
2025-02-17
最新的AI行业动态和进展有哪些
以下是最新的 AI 行业动态和进展: 1. 《2024 年度 AI 十大趋势报告》发布,其中提到: 大模型创新方面,架构优化加速涌现,融合迭代大势所趋。 Scaling Law 泛化,推理能力成皇冠明珠,倒逼计算和数据变革。 AGI 探索中,视频生成点燃世界模型,空间智能统⼀虚拟和现实。 AI 应用格局方面,第一轮洗牌结束,聚焦 20 赛道 5 大场景。 AI 应用竞争中,多领域竞速运营大于技术,AI 助手兵家必争。 AI 应用增长方面,AI+X 赋能类产品大干快上,原生 AI 爆款难求。 AI 产品趋势为多模态上马,Agent 席卷一切,高度个性化呼之欲出。 AI 智变千行百业,左手变革生产力,右手重塑行业生态。 AI 行业渗透率方面,数据基础决定初速度,用户需求成为加速度。 AI 创投方面,投融资马太效应明显,国家队出手频率提升。 2. 2024 年 9 月的 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 ReaderLM 和 Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立,国家队来了。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 3. 从行业视角来看,2024 年国内 AI 行业融资总金额增加,但事件数同比下降,马太效应越发明显,资本更青睐热点和高成熟度赛道。智能驾驶在各细分赛道中独占鳌头,AI+教育、AI+游戏、AI+医疗等赛道投资总额也有增长。在政策方面,政府积极推进 AI 原生行业发展,北京、上海、武汉等城市出台系列政策吸引人才和企业,国家队频繁出手投资体现政策支持。
2025-02-17
AI 在生成单元测试代码方面有什么新的进展与方向?
AI 在生成单元测试代码方面有以下新的进展与方向: 1. 基于规则的测试生成: 测试用例生成工具:如 Randoop 可基于代码路径和规则为 Java 应用程序生成测试用例,Pex 是微软开发的能为.NET 应用自动生成高覆盖率单元测试的工具。 模式识别:Clang Static Analyzer 利用静态分析技术识别代码模式和潜在缺陷来生成测试用例,Infer 是 Facebook 开发的能自动生成测试用例以帮助发现和修复潜在错误的工具。 2. 基于机器学习的测试生成: 深度学习模型:DeepTest 利用深度学习模型为自动驾驶系统生成测试用例以模拟不同驾驶场景并评估系统性能,DiffTest 基于对抗生成网络(GAN)生成测试用例来检测系统的脆弱性。 强化学习:RLTest 利用强化学习生成测试用例,通过与环境交互学习最优测试策略以提高测试效率和覆盖率,A3C 是基于强化学习通过策略梯度方法生成高质量测试用例的工具。 3. 基于自然语言处理(NLP)的测试生成: 文档驱动测试生成:Testim 是 AI 驱动的测试平台,能通过分析文档和用户故事自动生成测试用例以减少人工编写时间,Test.ai 利用 NLP 技术从需求文档中提取测试用例以确保测试覆盖业务需求。 自动化测试脚本生成:Selenium IDE 结合 NLP 技术可从自然语言描述中生成自动化测试脚本,Cucumber 使用 Gherkin 语言编写的行为驱动开发(BDD)框架能通过解析自然语言描述生成测试用例。 此外,峰瑞资本投资的 AI Coding 创业公司 Babel 专注于 AI Agent 的研发,其核心产品 Test Gru 已在美国上线,能为客户自动生成单元测试,客户侧 PR 接受率约为 70%。还有如 Cursor 等工具,可借助其生成测试代码提升代码可靠性,但使用时也需注意方法,如使用 Git 管理代码版本、对 AI 代码进行 Review 等。
2025-02-14
最新的AI 进展到什么程序了?
目前,AI 已经在许多领域取得了重大进展和效率提升。它悄然自动化了我们日常生活的诸多方面,例如优化交通监测系统使通勤更顺畅,检测银行账户中的欺诈行为。在工业领域,AI 已经彻底改变了大规模安全关键实践,如控制核聚变过程,还被用于加速科学进步,如发现新药或开发应对气候变化的技术。 但这仅仅是开始,AI 在各种场景中都有巨大的应用潜力,有可能像电力或互联网一样对社会和经济产生重大影响,并已被列为英国科技框架中的五项关键技术之一。大型语言模型等技术进步预示着未来更多的变革性发展。 然而,随着 AI 研究和开发的快速推进,其带来的风险也引起了更多关注。例如,生成式 AI 模型能力的近期发展带来了新的机遇,同时也引发了关于潜在风险的新辩论。一些 AI 风险可能是无意产生的后果,或者是由于缺乏适当的控制以确保负责任地使用 AI 而出现。对 AI 特定风险的初步评估确定了一系列高级风险,需要通过适当的干预措施来优先处理和减轻。
2025-02-10
deepseek 进展
DeepSeek 在 AI 领域有以下进展: 在编码任务中已成为社区的最爱,推出了组合速度、轻便性和准确性的 deepseekcoderv2。 发布了 2360 亿参数的 DeepSeekV2,该模型由 60 位专家混合开源,在数学、编码和推理方面表现出色,具有 236B 参数,21B 在生成过程中被激活,在 MTBench 上表现优异,中文能力强且性价比高。
2025-01-23
现在ai发展到什么程度了?
目前 AI 的发展呈现出以下情况: AGI 方面:AGI 尚未取得巨大进展,仍处于不断探索和发展的阶段。AGI 分为五个等级,分别是具备基本对话能力的聊天机器人、具备人类推理水平的推理者、能执行全自动化业务但仍需人类参与的智能体、能够协助人类完成新发明的创新者以及能够自动执行组织全部业务流程的组织。 ANI 方面:ANI 得到了巨大发展,如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。 机器学习方面:监督学习因现有数据快速增长、神经网络规模发展以及算力快速发展而近期发展迅速。 数据方面:数据集是由数据组成的集合,通常以表格形式出现,包括结构化数据和非结构化数据。获取数据的方式有手动标注、观察行为和网络下载等。同时,数据的质量和处理也很重要,并非数据多就有用,还需要有效处理不正确和缺少的数据。 大模型方面:开源大模型爆发,未来 AGI 竞争的关键是云端超级大模型,但通用大模型也遇到瓶颈,如算力和知识不够的问题。训大模型需要将饱含人类智慧的高含量知识训进去。
2025-02-09
开发agent有哪些主流的方案,并从功能性,开发难易程度,适用场景进行对比
以下是一些主流的 Agent 开发方案,并从功能性、开发难易程度、适用场景进行对比: 1. Coze: 功能性:集成丰富插件工具,拓展 Bot 能力边界。 开发难易程度:相对较易。 适用场景:适用于构建基于 AI 模型的各类问答 Bot。 2. Microsoft 的 Copilot Studio: 功能性:外挂数据、定义流程、调用 API 和操作,部署到各种渠道。 开发难易程度:适中。 适用场景:适用于多种场景。 3. 文心智能体: 功能性:基于文心大模型,支持开发者打造产品能力。 开发难易程度:适中。 适用场景:多种场景。 4. MindOS 的 Agent 平台: 功能性:允许用户定义 Agent 的个性、动机、知识,访问第三方数据和服务或执行工作流。 开发难易程度:适中。 适用场景:多种场景。 5. 斑头雁: 功能性:基于企业知识库构建专属 AI Agent,提供多种成熟模板,功能强大且开箱即用。 开发难易程度:相对较易。 适用场景:客服、营销、销售等。 6. 钉钉 AI 超级助理: 功能性:依托钉钉优势,提供环境感知和记忆功能,在高频工作场景表现出色。 开发难易程度:适中。 适用场景:销售、客服、行程安排等。 Copilot 和 Agent 的区别: 1. 核心功能: Copilot:辅助驾驶员,更多依赖人类指导和提示,功能局限于给定框架。 Agent:主驾驶,具有更高自主性和决策能力,能自主规划和调整处理流程。 2. 流程决策: Copilot:依赖人类确定的静态流程,参与局部环节。 Agent:自主确定动态流程,能自行规划和调整任务步骤。 3. 应用范围: Copilot:主要处理简单、特定任务,作为工具或助手。 Agent:能处理复杂、大型任务,在 LLM 薄弱阶段使用工具或 API 增强。 4. 开发重点: Copilot:依赖 LLM 性能,重点在于 Prompt Engineering。 Agent:依赖 LLM 性能,重点在于 Flow Engineering,把外围流程和框架系统化。 搭建工作流驱动的 Agent 简单情况分为 3 个步骤: 1. 规划: 制定任务关键方法。 总结任务目标与执行形式。 分解任务为子任务,确立逻辑顺序和依赖关系。 设计子任务执行方法。 2. 实施: 在 Coze 上搭建工作流框架,设定节点逻辑关系。 详细配置子任务节点,验证可用性。 3. 完善: 整体试运行 Agent,识别卡点。 反复测试和迭代,优化至达到预期水平。
2025-02-08
到目前为止,人工只能已经发展到什么样的一个程度了,未来前景怎么样?普通人如何通过人工智能挣到钱
目前人工智能的发展呈现出复杂的态势: 预计明年会有团体花费超过 10 亿美元训练单个大规模模型,通用人工智能的热潮仍在持续,但其成本也在不断增加。 政府和大型科技公司都面临着计算需求超出电网支持能力的问题。 人工智能对选举的影响尚未完全显现,但仍需关注。 以 OpenAI、Meta 以及中国实验室为代表,竞争激烈。 未来前景方面: 深度学习被证明有效,且随着规模扩大预期会改善,能帮助解决更多难题,对全球人民生活产生有意义的改善。 人工智能模型将作为个人助理执行特定任务,帮助构建更好的下一代系统,并推动各领域科学进展。 对于普通人如何通过人工智能挣钱,以下是一些可能的途径: 学习相关技能,如编程、数据分析等,参与人工智能项目的开发和维护。 利用人工智能工具进行内容创作,如写作、绘画等,并通过相关平台实现盈利。 关注人工智能领域的新兴应用,寻找创业机会。
2025-02-05
AI的发展现在到达一个什么程度
目前 AI 的发展呈现出以下特点和程度: 1. 在通用人工智能(AGI)方面,尚未取得巨大进展,但一直在努力接近这一目标。AGI 分为五个等级,分别是具备基本对话能力的聊天机器人、具备人类推理水平的推理者、能执行全自动化业务但仍需人类参与的智能体、能够协助人类完成新发明的创新者以及能够自动执行组织全部业务流程的组织。 2. 弱人工智能(ANI)得到了巨大发展,在智能音箱、网站搜索、自动驾驶、工厂与农场应用等领域有广泛应用。 3. 机器学习中的监督学习近期快速发展,这得益于现有数据的快速增长、神经网络规模的发展以及算力的快速发展。 4. 数据对于 AI 至关重要,包括数据集的定义、获取数据的方式(手动标注、观察行为、网络下载)、使用数据的方法以及数据的分类(结构化数据和非结构化数据)。 5. 在大模型方面,开源大模型爆发,未来 AGI 竞争的关键在于云端超级大模型,同时通用大模型也遇到了瓶颈,如算力和知识沉淀等问题。
2025-02-02
当前ai发展到什么程度了
当前 AI 的发展程度可以从以下几个方面来看: 1. 在通用人工智能(AGI)的发展等级方面: 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 推理者:具备人类推理水平,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多产品在执行任务后仍需人类参与。 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可加速科学研究和新药发现。 组织:最高级别,能够自动执行组织的全部业务流程。 2. 技术发展历程: 早期阶段(1950s 1960s):有专家系统、博弈论、机器学习初步理论。 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理得到发展。 统计学习时期(1990s 2000s):出现机器学习算法,如决策树、支持向量机、贝叶斯方法等。 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等兴起。 3. 当前前沿技术点: 大模型:如 GPT、PaLM 等。 多模态 AI:包括视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 自监督学习:自监督预训练、对比学习、掩码语言模型等。 小样本学习:元学习、一次学习、提示学习等。 可解释 AI:涉及模型可解释性、因果推理、符号推理等。 机器人学:强化学习、运动规划、人机交互等。 量子 AI:量子机器学习、量子神经网络等。 AI 芯片和硬件加速。 同时,开源大模型爆发,企业大模型市场崛起,但通用大模型也遇到瓶颈,如算力和知识沉淀等问题。
2025-01-11
Al发展到什么程度
目前 AI 的发展呈现出多方面的特点和趋势: 1. 千脑理论:新皮层由数以万计的皮质柱组成,每根柱子都会学习物体的模型,多模型设计发挥作用的关键是投票。智能机器的“大脑”也应由许多几乎相同的元素(模型)组成,并连接到各种可移动的传感器。大脑中的知识储存在参考框架中,机器也需要学会一个世界的模型。 2. 通用化趋势:AI 将从专用方案过渡到更多的通用方案。通用电脑因更好的成效比导致技术更快进步,更多努力用于加强受欢迎的设计和支持其生态系统,导致成本降低和性能提升。同时,一些重要的未来应用如探索火星等需要通用方案的灵活性,而当前专用的深度学习模型无法满足。 3. 游戏领域:随着生成式人工智能革命的进展,它将重塑用户生成内容(UGC),创造任何人都能构建游戏的世界,游戏创作将变得真正民主化,数以百万计的新游戏制作者将被创造出来。 4. 企业发展:OpenAI 公司成立于 2015 年,总部位于美国旧金山,早期是非营利机构,后来改成有限营利形式。其使命是推进人工智能技术发展,为全球创造更安全、智能的未来。关于 OpenAI 公司的时间线,可参考 Wiki(https://timelines.issarice.com/wiki/Timeline_of_OpenAI)和 OpenAI Blog(https://openai.com/blog/)。
2025-01-09