我调用的是抖音集团的云雀大模型。
Gemini 模型是基于 Transformer 解码器构建的,对模型结构进行了优化,主要为大规模稳定训练及在 Google 的 TPU 上推理优化。它能适应与各种音频和视觉输入交织的文本输入,并生成文本和图像输出,经过训练支持 32k 的上下文长度,采用高效的注意机制。
麦橘超然 MajicFlus 是一款基于 flux.dev 微调融合的模型,专注于高质量人像生成,尤其擅长亚洲女性,有卓越人像生成能力、广泛适用性、简单易用等特点。多位社区成员基于模型制作的 LoRA 一同发布,扩展了功能与表现力,但它对社区大部分的 lora 不完美兼容,需降低权重至 0.5 以下。
[问:飞书怎么做一个FAQ的机器人?](https://waytoagi.feishu.cn/wiki/AT6Aw2xH6iL9A5kYivYcHCIRn7b)[飞书机器人搭建waytoAGI问答机器人实战分享](https://waytoagi.feishu.cn/wiki/Cn5Mw5AAOiO3p9kjAincKlg2nR1)[如何基于飞书能力来开发问答机器人](https://waytoagi.feishu.cn/wiki/CSBwwS7mJi58aUkBz58cZO7Cn9c)类似问题:你是谁?你能做什么?我怎么搭建一个类似的机器人?你是调用哪个模型?——我调用的是抖音集团的云雀大模型。
Gemini模型是基于Transformer解码器构建的(Vaswani等人),对模型结构进行了优化,模型优化主要是为了大规模的稳定训练,以及在Google的TPU上进行推理优化。它们经过训练以支持32k的上下文长度,采用高效的注意机制(例如,多查询注意力(Shazeer,2019))。我们的第一个版本Gemini 1.0包括三种主要尺寸,以支持广泛的应用,如表1所述。Gemini模型经过训练,可以适应与各种音频和视觉输入(如自然图像、图表、屏幕截图、PDF和视频)交织的文本输入,并且可以生成文本和图像输出(请参见图2)。Gemini模型的视觉编码受到我们自己对基础模型的启发,包括Flamingo(Alayrac等人,2022)、CoCa(Yu等人,2022a)和PaLI(Chen等人,2022年),重要的区别在于这些模型从一开始就是多模态的,并且可以使用离散的图像标记(discrete image token)自然的输出图像(Ramesh等人2021;Yu et al.,2022b).通过将视频编码为大上下文窗口中的一系列帧来实现视频理解。视频帧或图像可以自然地与文本或音频交错作为模型输入的一部分。这些模型可以处理可变的输入分辨率,以便在需要细粒度理解的任务上,进行更多的计算。并且,Gemini能够直接的插入音频信号,来自Universal Speech Model(USM)16khz的特征。当音频自然地映射到文本输入时,通常会丢失细微差别(例如,参见网站上的音频理解演示),这使得模型能够捕获这些细微差别。
麦橘超然MajicFlus是一款基于flux.dev微调融合的模型,专注于高质量人像生成,尤其擅长表现亚洲女性的细腻与美感。模型以唯美、写实、易用为核心特色,能够通过简单的提示词生成优质效果,同时对复杂提示词也有出色的响应能力。[heading3]模型特点[content]卓越的人像生成能力:优化了在不同光影条件下的表现,确保人像在各种构图中的面部细节和肢体完整性。广泛的适用性:除了人像生成外,模型在生成非人生物和场景时也有显著改进,适应更多创作需求。简单易用:用户无需复杂的提示词即可生成高质量作品,同时支持更长提示词的精细控制。[heading3]社区适配[content]MajicFlus模型在发布的同时,多位社区成员基于模型制作的LoRA也将一同发布,进一步扩展了模型的功能与表现力。这些LoRA为用户提供了更多样化的创作可能性,使模型能够适应更多特定场景和风格需求。[heading3]弱点[content]MajicFlus并非为生成NSFW内容而设计。然而,如果有需要,可以使用相关LoRA来实现此类目的。MajicFlus的存在是为了解决国际社区中模型缺乏亚洲代表性的问题。如果您希望生成非亚洲种族的图像,请考虑使用其他高质量模型。由于该模型是个微调融合模型,对社区大部分的lora都是不完美兼容的,需要降低权重至0.5以下。推荐使用带有majicFlus标志的矩阵模型,搜索关键字majicflus就可以看到他们,认准标题和logo,现在已有超过50款风格各异的优质模型。