以下是关于人工智能工作原理的解释:
在音频生成方面,以谷歌的 V2A 系统为例:
在生成式人工智能的整体领域中:
此外,大语言模型在写作、修改文本、翻译等方面有应用,但也存在编造故事产生错误信息的问题,需要鉴别信息准确性。人工智能作为一种通用技术,有大量的运用空间,如基于网络界面应用和基于软件程序应用等。
We experimented with autoregressive and diffusion approaches to discover the most scalable AI architecture,and the diffusion-based approach for audio generation gave the most realistic and compelling results for synchronizing video and audio information.我们尝试了自回归和扩散方法,以发现最具可扩展性的人工智能架构,而基于扩散的音频生成方法在同步视频和音频信息方面取得了最真实、最令人信服的结果。Our V2A system starts by encoding video input into a compressed representation.Then,the diffusion model iteratively refines the audio from random noise.This process is guided by the visual input and natural language prompts given to generate synchronized,realistic audio that closely aligns with the prompt.Finally,the audio output is decoded,turned into an audio waveform and combined with the video data.我们的V2A系统首先将视频输入编码为压缩表示。然后,扩散模型从随机噪声中迭代改进音频。这一过程以视觉输入和自然语言提示为指导,生成与提示密切配合的同步逼真音频。最后,对音频输出进行解码,将其转化为音频波形,并与视频数据相结合。Diagram of our V2A system,taking video pixel and audio prompt input to generate an audio waveform synchronized to the underlying video.First,V2A encodes the video and audio prompt input and iteratively runs it through the diffusion model.Then it generates compressed audio,which is decoded into an audio waveform.我们的V2A系统示意图,该系统利用视频像素和音频提示输入生成与底层视频同步的音频波形。首先,V2A对视频和音频提示输入进行编码,并通过扩散模型反复运行。然后生成压缩音频,并解码为音频波形。
We experimented with autoregressive and diffusion approaches to discover the most scalable AI architecture,and the diffusion-based approach for audio generation gave the most realistic and compelling results for synchronizing video and audio information.我们尝试了自回归和扩散方法,以发现最具可扩展性的人工智能架构,而基于扩散的音频生成方法在同步视频和音频信息方面取得了最真实、最令人信服的结果。Our V2A system starts by encoding video input into a compressed representation.Then,the diffusion model iteratively refines the audio from random noise.This process is guided by the visual input and natural language prompts given to generate synchronized,realistic audio that closely aligns with the prompt.Finally,the audio output is decoded,turned into an audio waveform and combined with the video data.我们的V2A系统首先将视频输入编码为压缩表示。然后,扩散模型从随机噪声中迭代改进音频。这一过程以视觉输入和自然语言提示为指导,生成与提示密切配合的同步逼真音频。最后,对音频输出进行解码,将其转化为音频波形,并与视频数据相结合。Diagram of our V2A system,taking video pixel and audio prompt input to generate an audio waveform synchronized to the underlying video.First,V2A encodes the video and audio prompt input and iteratively runs it through the diffusion model.Then it generates compressed audio,which is decoded into an audio waveform.我们的V2A系统示意图,该系统利用视频像素和音频提示输入生成与底层视频同步的音频波形。首先,V2A对视频和音频提示输入进行编码,并通过扩散模型反复运行。然后生成压缩音频,并解码为音频波形。
在整体的人工智能领域中,监督学习用于标记事物,一直占据很大比例。现在生成式AI在近期快速崛起,但强化学习与无监督学习也是AI领域重要的一种工具。生成式AI由监督学习技术搭建。2010-2020年是大规模监督学习的十年,这为现代人工智能奠定了基础。生成文本会使用到大语言模型,生成的过程是,大语言模式使用监督学习不断预测下一个词语,比如,i like,它会不断预测like后的词语是什么,经过大量的数据,它可能后面带的是,beaty,或者,eating,而eating后又大概率预测会有food。这样不断地生成新的文本内容。(这需要千亿,甚至万亿级别的单词数据库)[heading4]大语言模型是思考的朋友[content]运用大语言模型,来写故事,修改本文,非常有用。网络搜索与LLM的区别是,网络搜索可以追寻信息来源,同时你可以使用LLM提供相关的建议与策略。但大语言模型很会编造故事,所以会产生错误信息,这需要鉴别信息准确。[heading4]人工智能是一种通用技术(可以应用的空间)[content]人工智能有大量运用空间。现在通过网址来交互的应用——基于网络界面应用,如下方左图又或者将LLM内置与更大的软件来进行自动化——基于软件程序应用,如下方右图[heading4]写作[content]使用LLM来写作,集思广益,头脑风暴将非常有用。使用网页版的聊天信息时,提供更多的信息。翻译也可以使用LLM,翻译效果可能比机器翻译更好。但网络文本较少时,效果也不太好。可以让LLM将内容翻译成为海盗英语进行测试翻译准确度。