Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

人脸识别技术价值

Answer

人脸识别技术具有一定的价值。过去,AI 在人脸识别等分类判断任务上取得了成果,方便了我们的生活。然而,其使用过程中会让人感受到明显的机器感。相比之下,生成式 AI 在写文章、画画、写歌等方面展现出类似人类的智慧和能力。在 AI 研究中,搜索和学习是利用大量计算的两个重要技术类别。在计算机围棋、国际象棋、语音识别和计算机视觉等领域,都经历了从依赖人类知识到依靠统计方法和大量计算的转变。在 AI 相关的监管方面,对于像人脸识别这样的特定技术或应用,不采用僵化的法律定义,而是基于功能能力来设计应对挑战的方法,以适应 AI 的快速发展。

Content generated by AI large model, please carefully verify (powered by aily)

References

走入AI的世界

过去的其他AI,更多的应用成果是完成诸如人脸识别这样分类判断的任务,虽然方便了我们的生活,但在使用的过程中,我们能够清晰的感受到他不是人,而是充满机器感的僵硬程序。生成式AI的诞生,让我们看到原来AI可以和人一样创作交流,他没有像一些人期待的那样,最先做好擦桌子扫地的基础工作任务,而是在写文章、画画、写歌等方面涌现出人类般的智慧,其表现出的惊人能力,把一众平凡的人类个体“碾压的渣都不剩”。图4什么是生成式AI-1篇幅所限,更多有趣的知识和故事我们不做更多的展开了,关于AI发展史,我们就聊到这里。

苦涩的教训 The Bitter Lesson

of the special features of the game,but all those efforts proved irrelevant,or worse,once search was applied effectively at scale.Also important was the use of learning by self play to learn a value function(as it was in many other games and even in chess,although learning did not play a big role in the 1997 program that first beat a world champion).Learning by self play,and learning in general,is like search in that it enables massive computation to be brought to bear.Search and learning are the two most important classes of techniques for utilizing massive amounts of computation in AI research.In computer Go,as in computer chess,researchers'initial effort was directed towards utilizing human understanding(so that less search was needed)and only much later was much greater success had by embracing search and learning.In speech recognition,there was an early competition,sponsored by DARPA,in the 1970s.Entrants included a host of special methods that took advantage of human knowledge---knowledge of words,of phonemes,of the human vocal tract,etc.On the other side were newer methods that were more statistical in nature and did much more computation,based on hidden Markov models(HMMs).Again,the statistical methods won out over the human-knowledge-based methods.This led to a major change in all of natural language processing,gradually over decades,where statistics and computation came to dominate the field.The recent rise of deep learning in speech recognition is the most recent step in this consistent direction.Deep learning methods rely even less on human knowledge,and use even more computation,together with learning on huge training sets,to produce dramatically better speech recognition systems.As in the games,researchers always tried to make systems that worked the way the researchers thought their own minds worked---they tried to put that knowledge in their systems---but it proved ultimately counterproductive,and a colossal waste of researcher's time,when,through Moore's law,massive computation became available and a means was found to put it to good use.In computer vision,there has been a similar pattern.Early methods conceived of vision as searching for edges,or generalized cylinders,or

【法律法规】《促进创新的人工智能监管方法》.pdf

address the challenges created by these characteristics,we future-proof our framework againstunanticipated new technologies that are autonomous and adaptive.Because we are notcreating blanket new rules for specific technologies or applications of AI,like facial recognitionor LLMs,we do not need to use rigid legal definitions.Our use of these defining characteristicswas widely supported in responses to our policypaper,81as rigid definitions can quickly becomeoutdated and restrictive with the rapid evolution ofAI.82We will,however,retain the ability toOne of the biggest problems in regulating AI is agreeing on a definition,Carnegie Endowment for International Peace,2022.Establishing a pro-innovation approach to regulating AI,Office for Artificial Intelligence,2022.As stated in government guidance on using AI in the public sector,we consider machine learning to be a subset of AI.Whilemachine learning is the most widely-used form of AI and will be captured within our framework,our adaptive and autonomousA pro-innovation approach to AI regulationadapt our approach to defining AI if necessary,alongside the ongoing monitoring and iteration ofthe wider regulatory framework.

Others are asking
人脸识别
以下是关于人脸识别的相关信息: 视频模型“可灵”的测试内容包括场景识别(室内和室外)、物体识别(静态和动态)、人物识别(面部、姿态)、动作识别(基本动作)等方面。例如,测试了模型在不同室内环境(办公室、厨房、卧室等)和室外环境(街道、公园、商场等)中的表现,对不同面部特征(不同年龄、性别、种族等)、人物姿态(站立、坐下、躺卧等)和基本动作(走路、跑步、跳跃等)的识别能力。 11 月 24 日的 XiaoHu.AI 日报中提到: DeepFace 是面部识别和分析工具,功能包括面部验证、识别和属性分析,整合多个先进模型,准确率超越人类,支持实时视频分析和外部系统调用。 Comfyui 进行了 SVD Image 2 Video 优化,优化内存占用至 8GB,并提供 workflow 以供在不同显卡上运行。 有泄露的 GPTs 提示大集合,涵盖学术、占卜、医疗咨询等多个应用领域。 PixelDance 是高动态视频生成模型,能通过文本和图片生成复杂场景视频,在连贯性和视频质量方面表现卓越。
2024-09-06
模型微调对模型的影响和价值
模型微调对模型具有重要的影响和价值,主要体现在以下几个方面: 1. 提高结果质量:能够获得比即时设计更高质量的结果。 2. 增加训练示例:可以训练比提示中更多的例子,从而改进小样本学习,在大量任务中取得更好的效果。 3. 节省 Token 和成本:由于更短的提示而节省了 Token,对模型进行微调后,不再需要在提示中提供示例,能够节省成本并实现更低延迟的请求。 4. 提高模型效率:通过专门化模型,可以使用更小的模型,并且由于只对输入输出对进行训练,舍弃示例或指令,进一步改善延迟和成本。 5. 适应特定领域:针对特定领域进行微调,优化所有层的参数,提高模型在该领域的专业性。 目前,微调适用于以下基础模型:davinci、curie、babbage 和 ada。参数规模角度,大模型的微调分成全量微调 FFT(Full Fine Tuning)和 PEFT(ParameterEfficient Fine Tuning)两条技术路线,从成本和效果综合考虑,PEFT 是目前业界较流行的微调方案。 通用大模型如 GPT4.0、GPT3.5 等具有广泛的自然语言理解能力,但在特定领域表现可能不理想。而通过微调,可以在现有模型基础上,更经济、高效地适应新的应用领域,节省成本并加快模型部署和应用速度。
2025-01-06
模型微调对模型的影响和价值
模型微调对模型具有重要的影响和价值,主要体现在以下几个方面: 1. 提高结果质量:能够获得比即时设计更高质量的结果。 2. 增加训练示例:可以训练比提示中更多的例子,从而改进小样本学习,在大量任务中取得更好的效果。 3. 节省 Token 和成本:由于更短的提示而节省了 Token,对模型进行微调后,不再需要在提示中提供示例,能够节省成本并实现更低延迟的请求。 4. 提高模型效率:通过专门化模型,可以使用更小的模型,并且由于只对输入输出对进行训练,能够舍弃示例或指令,进一步改善延迟和成本。 5. 适应特定领域:针对特定领域进行微调,优化所有层的参数,提高模型在该领域的专业性,例如在法律或医学等领域表现更佳。 目前,微调适用于以下基础模型:davinci、curie、babbage 和 ada。从参数规模的角度,大模型的微调分成两条技术路线:全量微调 FFT(Full Fine Tuning)和 PEFT(ParameterEfficient Fine Tuning),从成本和效果综合考虑,PEFT 是目前业界较流行的微调方案。 微调是在较小的、特定领域的数据集上继续 LLM 的训练过程,把通用工具打磨成精密仪器。微调有两大好处:一是提高模型在特定任务中的性能,能够输入更多示例;二是提高模型效率,实现更低的延迟和更低的成本。 通用大模型如 GPT4.0、GPT3.5 等具有广泛的自然语言理解能力,但在特定领域表现可能不理想。而微调可以在现有模型基础上,更经济、高效地适应新的应用领域,节省成本并加快模型部署和应用速度。
2025-01-06
AI直播的技术价值
AI 直播具有以下技术价值: 1. 盈利方式: 直接销售数字人工具软件,包括实时驱动和非实时驱动两类。实时驱动价格较高,一年 4 6 万往上;非实时驱动一个月 600 元,效果差,市场价格混乱。 提供数字人运营服务,按直播间成交额抽佣。 2. 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;不适用于服装,因过品快且衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 适用于店播,效果较好,数据基本能保持跟真人一样;不适用于促销场景,涉及主播话术、套路和调动氛围能力等。 3. 壁垒和未来市场格局: 长期来看技术上没壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司,因其只是工具,迁移成本低。 能把客户服务好、能规模化扩张的公司更有价值,疯狂扩代理割韭菜、不考虑客户效果的公司售后问题麻烦。 有资源、有业务的大平台下场可能会带来降维打击,如提供数字人、货品供应链、数据复盘分析等全环节打通会绑定商家。 此外,还有相关的直播回顾,如 INDIGO LIVE/AI 撞墙与美国大选后的世界 月末直播回顾 2024.11,会用 AI 把全部的回放视频转录文本,配合直播用的完整 Keynote,重新创作成回顾文章。同时,还有 AI 春晚阶段性纪实,建立了 5000 人的飞书大群,欢迎加入或围观,也可通过填写问卷申请转播自媒体账号。
2024-12-25
学习设计专业,未来在Ai时代,如何提升价值,找到工作
在 AI 时代,学习设计专业的您可以通过以下几个方面提升价值并找到工作: 1. 设计专业方面: AI 重新定义了设计师的竞争力边界,您需要具备持续的学习习惯,并将所学快速转化为实践能力。 看似降低了设计门槛,但实则对需求理解、问题分析、审美判断、创意亮点提出了更高要求。 高阶设计师要更显性化设计思考与专业优势,提升设计质量。 2. 工具能力方面: 对现有 AI 工具进行严格评估和选型,确保其能提供标准化输出和一致性体验,提升设计质量和速度,减少设计差异。 建设参数文档库,而非基于个人喜好的自然语言。 基于业务场景特征,训练专属 AI 模型、集成相应 AI 能力形成新工具,形成更有效的设计资产。 3. 工作流程方面: 将 AI 深入到日常设计流程,形成新的工作方式与流程。 基于不同的 AI 能力特性,差异化对待不同业务形态和需求,使设计流程更加精细化。 找到更合理的人&机结合方式,持续探索优化。 4. 设计团队方面: 团队必须制定并执行明确的 AI 融合策略,保证所需硬件设备的支持。 营造积极主动的创新环境,增强对市场动态的快速适应能力,确保团队整体的未来发力方向。 总之,随着技术不断进步,AI 在视觉设计领域将扮演更重要角色,为设计师和用户创造更多可能性。现在开始学习相关知识和技能,您就可以保持领先优势。
2024-12-24
🚀接着上期SOP+AI:打造职场高效能人士的秘密武器的分享,今天继续聊聊SOP+AI的应用,🎯今天的主题是“怎样利用AI节约10倍内容创作时间?”📚最近跟团队有开始运营小红书账号,就想着先给自己打造点顺手的工具,于是乎「小红书文案专家」就出生啦~🎉[heading1]一、先介绍下我们小Bot[content]🛺BOT名称:小红书文案专家功能价值:见过多个爆款文案长啥样,只需输入一个网页链接或视频链接,就能生成对应的小红书文案,可以辅助创作者生成可以一键复制发布的初稿,提供创意和内容,1
以下是关于“SOP+AI”的相关内容: 怎样利用 AI 节约 10 倍内容创作时间? 最近团队开始运营小红书账号,于是打造了“小红书文案专家”。 BOT 名称:小红书文案专家 功能价值:见过多个爆款文案,输入网页或视频链接就能生成对应的小红书文案,辅助创作者生成可一键复制发布的初稿,提供创意和内容,节约 10 倍文字内容创作时间。 应用链接:https://www.coze.cn/s/ij5C6LWd/ 设计思路: 痛点:个人时间有限,希望有人写初稿并生成配图。 实现思路:为自己和团队设计工作流,让 AI 按运营思路和流程工作。 一期产品功能: 1. 提取任何链接中的标题和内容。 2. 按小红书平台文案风格重新整理内容。 3. 加入 emoji 表情包,使文案更有活力。 4. 为文案配图片。 二期计划功能:持续优化升级,增加全网搜索热点功能,提炼热点新闻或事件关键信息,结合用户想要生成的内容方向输出文案和配图。 SOP+AI:打造职场高效能人士的秘密武器 案例分享:X 公司客服团队引入 SOP 和 AI 助手后,工作效率显著提升。引入 SOP 前,客服工作流程混乱,效率低下,客户满意度不高。引入 SOP 标准化操作后,效率提高。进一步引入 AI 助手,自动回复常见问题、处理简单请求,减少客服工作量,还能及时发现问题帮助优化。结果客服团队工作效率提升 30%以上,客户满意度显著提高。SOP 能提升效率、减少失误、促进协作,借助 AI 助手,SOP 制定和优化更高效智能。
2024-12-20
智能图书馆的技术价值
智能图书馆的技术价值主要体现在以下方面: RAG(检索增强生成)技术: 工作原理: 检索(Retrieval):如同图书馆员根据描述从庞大知识库中找出相关书籍和文章,系统从知识库或文档集合中找到与用户问题相关的内容。 增强(Augmented):类似图书馆员挑选出最相关段落和信息并汇总,大模型对检索到的信息进行筛选和优化,确保选中最相关和有用的信息。 生成(Generation):如同图书馆员把汇总信息组织成连贯、易懂的回答,大模型将整合的信息生成自然流畅的回答。 综合解释:RAG 就像超级智能的图书馆员,先检索相关信息,再筛选优化,最后生成连贯回答。 优点: 成本效益:实现成本低于训练和维护大型专有模型。 灵活性:可利用多种数据源,包括结构化和非结构化数据,迅速适应不同领域和变化的数据。 可扩展性:随时增加或更新知识库内容,无需重新训练模型。 缺点:回答准确性不如专有模型的方案。 其他相关技术: DALLE 3:与 ChatGPT 结合,用户输入会话命令可获得匹配图像,改善了之前图像生成器的操作方式。 开放式有声读物集合:微软和麻省理工学院联手,使用文本转语音技术将 5000 本书转换为免费有声读物并在 Spotify 上提供。 AudioShake 的 AI 程序:可隔离预先录制音频的元素,分解成组成部分,解决老音乐音轨分离问题。 Ai Pin:磁性连接衣服成为 AI 助手,使用专有软件和 OpenAI 的 GPT,仅用声音就能完成多种操作。
2024-12-19
学习AI技术应该从哪里开始
学习 AI 技术可以从以下几个方面开始: 偏向技术研究方向: 1. 数学基础:包括线性代数、概率论、优化理论等。 2. 机器学习基础:如监督学习、无监督学习、强化学习等。 3. 深度学习:涵盖神经网络、卷积网络、递归网络、注意力机制等。 4. 自然语言处理:例如语言模型、文本分类、机器翻译等。 5. 计算机视觉:包含图像分类、目标检测、语义分割等。 6. 前沿领域:像大模型、多模态 AI、自监督学习、小样本学习等。 7. 科研实践:进行论文阅读、模型实现、实验设计等。 偏向应用方向: 1. 编程基础:例如 Python、C++等。 2. 机器学习基础:如监督学习、无监督学习等。 3. 深度学习框架:像 TensorFlow、PyTorch 等。 4. 应用领域:比如自然语言处理、计算机视觉、推荐系统等。 5. 数据处理:包括数据采集、清洗、特征工程等。 6. 模型部署:涉及模型优化、模型服务等。 7. 行业实践:参与项目实战、案例分析等。 无论是技术研究还是应用实践,数学和编程基础都是必不可少的。同时需要紧跟前沿技术发展动态,并结合实际问题进行实践锻炼。 对于新手学习 AI: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,了解其主要分支及联系。 浏览入门文章,了解 AI 的历史、应用和发展趋势。 2. 开始 AI 学习之旅: 在「」中找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按照自己的节奏学习,有机会获得证书。 3. 选择感兴趣的模块深入学习: 根据自己的兴趣选择特定的模块,如图像、音乐、视频等。 掌握提示词的技巧。 4. 实践和尝试: 理论学习后进行实践,巩固知识,尝试使用各种产品做出作品。 在知识库分享实践后的作品和文章。 5. 体验 AI 产品: 与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式。 对于中学生学习 AI: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始,学习编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台: 使用 ChatGPT、Midjourney 等 AI 生成工具体验应用场景。 探索面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术及在各领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注权威媒体和学者,了解最新进展,思考对未来社会的影响。 总之,中学生可以从编程基础、工具体验、知识学习、实践项目等多个方面入手,全面系统地学习 AI 知识和技能,为未来的 AI 发展做好准备。
2025-01-12
ChatGPT最新技术
ChatGPT 是由 OpenAI 开发的基于 GPT(生成式预训练变换器)架构的人工智能模型,是目前最先进的人工智能模型之一,是一种自然语言处理(NLP)工具,能够理解和生成接近人类水平的文本。 目前 ChatGPT 官网有两个版本,分别是 GPT3.5 和 GPT4。GPT3.5 为免费版本,拥有 GPT 账号即可使用,但智能程度不如 GPT4,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店、高级数据分析等插件。若想使用更多功能更智能的 GPT4,需升级到 PLUS 套餐,收费标准为 20 美金一个月。此外,GPT4 还有团队版和企业版,功能更多、限制更少,但费用更贵,一般推荐使用 PLUS 套餐。 在注册 ChatGPT 账号之前,建议先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,可省去很多日后的注册流程。目前注册谷歌账号支持国内手机号码和国内邮箱验证,过程简单。 ChatGPT 基于 OpenAI 最先进的语言模型 gpt3.5turbo,使用 OpenAI 的 API 可以用 gpt3.5turbo 构建应用,例如起草邮件、写 Python 代码、回答关于一组文档的问题、创建会话代理、给软件提供自然语言接口、辅导各种学科、语言翻译、假扮游戏或其他内容的角色。 ChatGPT 作为国际 AI 领域的明星产品,其成功具有开创性,是首批向公众开放的大规模商用 AI 对话系统之一,在全球掀起 AI 革命。它的用户体验精心设计,界面简洁直观,交互流畅自然,降低了普通人接触和使用 AI 的门槛。从技术角度看,其背后的 GPT 系列模型性能和能力领先,在语言理解深度和生成内容质量上表现出色。但也要认识到其局限性,随着 AI 技术发展,它已不是市场上唯一顶级选择,其他产品在特定领域可能超越它。对于国内用户,可能因网络连接问题遇到连接不稳定、响应延迟等困扰,影响使用体验。若身在海外或有稳定国际网络连接,ChatGPT 是极佳选择,否则国内用户可能需考虑本地化替代方案。
2025-01-12
视觉理解技术最新动态和趋势
以下是视觉理解技术的最新动态和趋势: 一、视觉分析技术 1. Transformer 视觉模型优点 2. Transformer 视觉模型的局限 二、图像语言模型 三、视频语言模型 四、LLM 多模态 Agent 五、应用场景 1. 多模态内容理解与处理 2. 智能交互与自动化 3. 具身智能 4. 未来发展趋势(2024 ?) 5. 视频生成模型 mapping 六、未来发展方向 1. 技术路径而言:利用预训练 LLMs 进行指令调整 最初,多模态融合方法常采用预训练的目标检测器,如 ViLBERT、VisualBERT 和 UnicoderVL,通过提取图像特征和执行交叉模态预训练任务,为后续的图像 文本任务奠定基础。 随着 ViT 的出现和普及,更多方法开始利用 ViT 作为图像编码器,强调大规模预训练,以提高模型的性能和泛化能力,例如 Flamingo。 近期,向多模态 LLMs 发展,从进行预训练到向指令调整(instruction tuning)转变,如 LLaVA 和 MiniGPT4,融合视觉和语言信息,能更有效地完成视觉理解相关任务,提升模型对于指令的理解能力和零样本性能,更好地泛化到未见过的任务和领域。 2. 应用场景而言:赋予机器理解多模态的能力 此外,李飞飞在 2015 年的 TED 演讲《我们怎么教计算机理解图片?》中提到了计算机视觉方面的研究进展,指出虽然在科技上取得了很多进步,但在计算机视觉方面仍存在一些问题,如自动驾驶车辆的视觉敏锐度、向盲人传递画面、无人机的视觉技术等。
2025-01-10
用UIZARD设计出来的UI界面,能直接给到技术使用吗
目前有一些基于人工智能生成内容的工具(AIGC)可用于产品原型设计,以下是相关介绍: 1. UIzard:这是一个利用 AI 技术生成用户界面的工具,能根据设计师提供的信息快速生成 UI 设计。 2. Figma:它是基于云的设计工具,提供自动布局和组件库,其社区开发的一些 AI 插件可增强设计流程。 3. Sketch:这是另一款流行的矢量图形设计工具,其插件系统中有些插件利用 AI 技术辅助设计工作,比如自动生成设计元素等。 这些工具中的 AI 功能通常包括自动生成设计元素、提供设计建议、优化用户界面布局等,能减少设计师的重复劳动,提高设计效率。随着 AI 技术的不断发展,未来可能会有更多专门针对产品原型设计的 AIGC 工具出现。 至于用 UIZARD 设计出来的 UI 界面能否直接给到技术使用,这取决于多种因素,如设计的完整性、与技术实现的兼容性、是否满足技术开发的要求等。一般来说,可能需要进一步的调整和优化才能更好地应用于技术开发。
2025-01-10
视频生成技术
2023 年是 AI 视频的突破年,年初市场上还没有面向公众的文本生成视频的模型,但一年时间内就见证了数十种视频生成工具的问世,全球已有数百万用户通过文字或图像提示来制作短视频。不过目前这些工具存在局限性,如大部分只能生成 3 到 4 秒的视频,视频质量参差不齐,像保持角色风格一致这样的难题还未解决。 Sora 是由 OpenAI 开发的视频生成模型,其技术原理包括:将视觉数据转换成补丁,通过专门的网络降低视觉数据维度,提取时空潜在补丁,扩展变换器用于视频生成。通俗来说,就是把视频和图片变成小方块,然后用这些小方块来学习和创造新的视频内容。 从交互方式来看,当前 AI 视频生成主要可分为文本生成视频、图片生成视频、视频生成视频三种形式。一些视频生成方法是先生成静态关键帧图像,然后构建为视频序列,也存在直接端到端生成视频的技术,如微软 NUWAXL 是通过逐步生成视频关键帧,形成视频的“粗略”故事情节,然后通过局部扩散模型递归地填充附近帧之间的内容。
2025-01-08
主流TTS-语音合成技术
语音合成(Speech Synthesis)是将文本转换为可听的声音信息,赋予了像人一样说话的能力,是人机交互的重要接口。一般而言,语音合成的概念比文语转换(TexttoSpeech,TTS)涵盖范围更广,包括 TTS、歌唱合成等领域,但多数情况下可混用。提供了一些端到端语音合成模型的样例,可感受目前语音合成的发展。 人类通过一整套发音器官合成语音,肺相当于动力源,喉相当于调制器,声道相当于滤波器,口唇相当于扩音器。研究人员提出以源滤波器(sourcefilter)模型为代表的多种模型建模该过程,语音中有清音和浊音,分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。 当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端将输入文本转换为层次化的语音学表征,主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征(如梅尔频谱),直接决定合成语音的韵律;声码器将中间声学特征转换为语音波形,直接决定合成语音的音质。
2025-01-07