要让智能体拥有唱歌功能,需要从多个方面进行设计和构建:
此外,在技术实现上,需要强大的语音合成和音乐生成技术支持,以模拟真实的唱歌效果。同时,还需要不断优化和训练,以提高唱歌功能的质量和表现力。
在上一节中,我们讨论了智能体如何感受和表达情绪。紧接着,我们面临的下一个问题是如何设计一个拟人化智能体,或者说如何构建情感驱动的智能体。设计过程中涉及多个维度,这些维度通常是基于人类视角来考量的。大家看下方的图表,这张图展示了如何设计一个拟人化的角色。从图中我们可以看到,设计过程始于角色的基础信息,包括姓名、性别、年龄和职业等。不管是设计什么角色,这些都是最为基础和必要的。紧接着,我们需要考虑角色的背景和经历。这些元素与基础信息密切相关,它们之间存在着强烈的相互影响。虽然在某些情况下,这种关联可能不那么明显,但通常情况下,角色的身份背景和经历在很大程度上决定了他们的基本特征,反之亦然。让我们通过一个例子来说明这一点:假设我们正在设计一个从事低收入职业的角色。在这种情况下,我们可以合理推测,这个角色可能来自相对贫困的背景,教育程度可能不高。角色的背景和经历对人物形象的塑造有着深远的影响,尤其体现在爱好、特长、性格和价值观等方面。这些特质并非凭空而来,而是由角色的生活经历和成长环境共同塑造而成,它们之间存在着紧密的关联性。接下来,我们会看到一个相对弱关联的元素:规划和目标。这些可以是短期的,也可以是长期的愿景。让我们用一个现实生活中的例子来说明:假设一个角色特别喜欢唱歌,这个爱好很可能会影响他的长期规划,比如梦想成为一名专业歌手。这样的设定既合乎逻辑,又能为角色增添深度和动力。再看图表的右侧,我们可以看到性格和价值观这两个关键元素。这两者对角色的人际关系、社交能力以及语言风格都有直接的影响。例如,如果我们设定一个角色是典型的I型人格(性格内向),我们可以合理推断他可能不善言辞,社交圈子可能相对狭小。这种性格特征会直接反映在他的对话方式和社交行为中。
人工智能写的诗,能和人比吗?当我们站在赏鉴的角度再看诗歌相机的成诗,可以感受到人工智能和诗人作诗上的差异所在,人工智能写的诗有更明显地「描述」和「顺序」,用词上更连贯,比如「日光透过褪色的薄纱」「天花板的影子之舞,」,更像是用文雅的词描述一个场景,其中缺少了诗歌难以描述的抽象感和意象美。就像诗刊社在《GPT时代,诗歌的意义和价值所在?》里提到的,「 GPT的出现是对文本顺序的改变,它省略了世界与作者的概念,中间加入的是标准化、数字算法,却没法模仿诗歌的意象。」诗人夏宇所写的现代诗|图源:夏宇诗人欧阳江河也曾在采访里说到「写作背后的广阔性是人的生命、人的世界观。这些包括了生命的感动、生命的升华、生命的伤痛、生命的恐惧、生命的黑暗、生命的爱、生命的愚蠢、生命的局限性。但人工智能不可能有生命,人工智能太聪明了,它没有疼痛,没有生命的脆弱感和恐惧,而诗歌正是这些的产物。如果没有这样的来源,只剩下漂亮的句子是没有意义的。」诗不像围棋或公式,诗没有确定的答案,当我们质疑人工智能写诗的能力,我们更多是在质疑它诗的由来。就像在1982年的科幻电影《银翼杀手》里,人造人罗伊·巴蒂在死前留下了全片最富有诗歌气息的台词,这意味着人类,至少《银翼杀手》的创作团队相信,在共同经历了对生命的感受之后,人工智能体也能创作出优美且富有人性的诗歌。罗伊·巴蒂死前独白|图源:银翼杀手
很明显OpenAI是有计划的抢先发布,因为Google在第二天的I/O 2024大会上准备宣布他们最新的研究项目Project Astra,一个类似GPT-4o全模态模型,结果研究团队拿手机精心录制的与环境实时交互的视频,让OpenAI给提前一天全部展示了,而且功能更强大,完成度更高。OpenAI会在几个月内陆续更新ChatGPT应用,通过GPT-4o让其具备Assistant Agent能力,一个能够像人类一样互动的“数字形态”全能助理;Google也计划在今年内推出Gemini Live支持类似功能,我们可以把这种能沟通还能感知环境的AI称之为智能体(Intelligent Agent)。除了端到端的多模态之外,另一个重要的特点就是实时性,之前所有的交互都是回合对话式,包括API的调用;现在我们要从文字语音聊天升级到视频直播了,智能体保持一直在线。可以想像,用流媒体的形式来消耗Token,这对算力的开销得有多大,所以大家必须保持模型能力不变的情况下缩小参数规模,升级架构来提升性能;最好让终端也参与进来分担一部分模型的计算量。让科技变简单,是技术民主化最重要的一个趋势,没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路,可以设计从未有过的硬件产品,也能重新设计现有的产品,例如多年以前的Google Glass就可以因此而复活了;因为语音交互的流畅,智能体还能用手机之外的设备来实现视觉感知,那么手机的设计也会因此而进化,触摸交互更简单,在很多情况下,都只需要放在口袋里,给你的智能体提供本地算力。