我调用的是抖音集团的云雀大模型。
此外,文中还提到了多模态大模型相关的内容,如基于多模态大型模型为现实世界提供实时说明书,后端采用 llama.cpp 挂载 LLaVA 模型并部署 Flask 应用用于数据处理,前端页面采用 HTML5 等。
同时,还有关于 Gemini 模型的介绍,它是基于 Transformer 解码器构建,经过训练以支持 32k 的上下文长度,采用高效的注意机制,能适应与各种音频和视觉输入交织的文本输入,并可以生成文本和图像输出。
[问:飞书怎么做一个FAQ的机器人?](https://waytoagi.feishu.cn/wiki/AT6Aw2xH6iL9A5kYivYcHCIRn7b)[飞书机器人搭建waytoAGI问答机器人实战分享](https://waytoagi.feishu.cn/wiki/Cn5Mw5AAOiO3p9kjAincKlg2nR1)[如何基于飞书能力来开发问答机器人](https://waytoagi.feishu.cn/wiki/CSBwwS7mJi58aUkBz58cZO7Cn9c)类似问题:你是谁?你能做什么?我怎么搭建一个类似的机器人?你是调用哪个模型?——我调用的是抖音集团的云雀大模型。
随着ChatGPT()的蓬勃发展,大型模型正深刻地影响着各个行业,技术的飞速发展让人感觉仿佛“度日如年”(每天涌现的新技术数量甚至超过过去一年)。在这个快速发展的潮流中,多模态技术作为行业的前沿更是突飞猛进,呈现出一统计算机视觉(CV)和自然语言处理(NLP)的势头。本文介绍了一款能够迅速解释现实世界的应用,它基于多模态大型模型,为现实世界提供了一本实时说明书。将手机置于车载摄像机位置,该应用能够实时分析当前地区今年新春的最新流行趋势。不仅展示了多模态技术的强大之处,还为我们提供了对真实世界的深入解释。这是快速在手机上利用多模态技术的方式之一,「近距离地感受一下大模型对传统APP开发的降维打击」。在这种架构中,后端采用llama.cpp挂载LLaVA模型,为应用提供推理服务。同时,部署了一个Flask应用用于数据前处理和后处理,提供Stream流服务。前端页面采用HTML5,用于采集画面和用户输入,整体设计以简单高效为主打。[heading2]建立llama.cpp服务器[content][heading2]LLaVA模型[content]下载模型ggml_llava-v1.5-13b,这里选择是13b 4bit的模型。BakLLaVA推理速度更快,但对中文的支持较差,7b的模型在语义理解方面普遍存在不足,特别是在需要规范数据格式进行交互的场合。对于function call和action操作,极度依赖模型的AGI能力。希望开源社区在不断努力,早日赶上GPT-4V的水平。
Gemini模型是基于Transformer解码器构建的(Vaswani等人),对模型结构进行了优化,模型优化主要是为了大规模的稳定训练,以及在Google的TPU上进行推理优化。它们经过训练以支持32k的上下文长度,采用高效的注意机制(例如,多查询注意力(Shazeer,2019))。我们的第一个版本Gemini 1.0包括三种主要尺寸,以支持广泛的应用,如表1所述。Gemini模型经过训练,可以适应与各种音频和视觉输入(如自然图像、图表、屏幕截图、PDF和视频)交织的文本输入,并且可以生成文本和图像输出(请参见图2)。Gemini模型的视觉编码受到我们自己对基础模型的启发,包括Flamingo(Alayrac等人,2022)、CoCa(Yu等人,2022a)和PaLI(Chen等人,2022年),重要的区别在于这些模型从一开始就是多模态的,并且可以使用离散的图像标记(discrete image token)自然的输出图像(Ramesh等人2021;Yu et al.,2022b).通过将视频编码为大上下文窗口中的一系列帧来实现视频理解。视频帧或图像可以自然地与文本或音频交错作为模型输入的一部分。这些模型可以处理可变的输入分辨率,以便在需要细粒度理解的任务上,进行更多的计算。并且,Gemini能够直接的插入音频信号,来自Universal Speech Model(USM)16khz的特征。当音频自然地映射到文本输入时,通常会丢失细微差别(例如,参见网站上的音频理解演示),这使得模型能够捕获这些细微差别。