Chat with Wiki - 你是基于什么模型

Answer

我调用的是抖音集团的云雀大模型。

此外，文中还提到了多模态大模型相关的内容，如基于多模态大型模型为现实世界提供实时说明书，后端采用 llama.cpp 挂载 LLaVA 模型并部署 Flask 应用用于数据处理，前端页面采用 HTML5 等。

同时，还有关于 Gemini 模型的介绍，它是基于 Transformer 解码器构建，经过训练以支持 32k 的上下文长度，采用高效的注意机制，能适应与各种音频和视觉输入交织的文本输入，并可以生成文本和图像输出。

Content generated by AI large model, please carefully verify (powered by aily)

References

[问：飞书怎么做一个FAQ的机器人？](https://waytoagi.feishu.cn/wiki/AT6Aw2xH6iL9A5kYivYcHCIRn7b)[飞书机器人搭建waytoAGI问答机器人实战分享](https://waytoagi.feishu.cn/wiki/Cn5Mw5AAOiO3p9kjAincKlg2nR1)[如何基于飞书能力来开发问答机器人](https://waytoagi.feishu.cn/wiki/CSBwwS7mJi58aUkBz58cZO7Cn9c)类似问题：你是谁？你能做什么？我怎么搭建一个类似的机器人？你是调用哪个模型?——我调用的是抖音集团的云雀大模型。

基于多模态大模型给现实世界加一本说明书

随着ChatGPT()的蓬勃发展，大型模型正深刻地影响着各个行业，技术的飞速发展让人感觉仿佛“度日如年”（每天涌现的新技术数量甚至超过过去一年）。在这个快速发展的潮流中，多模态技术作为行业的前沿更是突飞猛进，呈现出一统计算机视觉（CV）和自然语言处理（NLP）的势头。本文介绍了一款能够迅速解释现实世界的应用，它基于多模态大型模型，为现实世界提供了一本实时说明书。将手机置于车载摄像机位置，该应用能够实时分析当前地区今年新春的最新流行趋势。不仅展示了多模态技术的强大之处，还为我们提供了对真实世界的深入解释。这是快速在手机上利用多模态技术的方式之一，「近距离地感受一下大模型对传统APP开发的降维打击」。在这种架构中，后端采用llama.cpp挂载LLaVA模型，为应用提供推理服务。同时，部署了一个Flask应用用于数据前处理和后处理，提供Stream流服务。前端页面采用HTML5，用于采集画面和用户输入，整体设计以简单高效为主打。[heading2]建立llama.cpp服务器[content][heading2]LLaVA模型[content]下载模型ggml_llava-v1.5-13b，这里选择是13b 4bit的模型。BakLLaVA推理速度更快，但对中文的支持较差，7b的模型在语义理解方面普遍存在不足，特别是在需要规范数据格式进行交互的场合。对于function call和action操作，极度依赖模型的AGI能力。希望开源社区在不断努力，早日赶上GPT-4V的水平。

Gemini report 中文翻译

Gemini模型是基于Transformer解码器构建的（Vaswani等人），对模型结构进行了优化，模型优化主要是为了大规模的稳定训练，以及在Google的TPU上进行推理优化。它们经过训练以支持32k的上下文长度，采用高效的注意机制（例如，多查询注意力（Shazeer，2019））。我们的第一个版本Gemini 1.0包括三种主要尺寸，以支持广泛的应用，如表1所述。Gemini模型经过训练，可以适应与各种音频和视觉输入（如自然图像、图表、屏幕截图、PDF和视频）交织的文本输入，并且可以生成文本和图像输出（请参见图2）。Gemini模型的视觉编码受到我们自己对基础模型的启发，包括Flamingo（Alayrac等人，2022）、CoCa（Yu等人，2022a）和PaLI（Chen等人，2022年），重要的区别在于这些模型从一开始就是多模态的，并且可以使用离散的图像标记（discrete image token）自然的输出图像（Ramesh等人2021；Yu et al.,2022b).通过将视频编码为大上下文窗口中的一系列帧来实现视频理解。视频帧或图像可以自然地与文本或音频交错作为模型输入的一部分。这些模型可以处理可变的输入分辨率，以便在需要细粒度理解的任务上，进行更多的计算。并且，Gemini能够直接的插入音频信号，来自Universal Speech Model（USM）16khz的特征。当音频自然地映射到文本输入时，通常会丢失细微差别（例如，参见网站上的音频理解演示），这使得模型能够捕获这些细微差别。