Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

gemini本地部署

Answer

Gemini 相关信息如下:

  • Mistral Small 3 仅 24B 参数,但性能媲美 70B 级别模型,适合本地部署。
  • Gemini 2.0 Flash 正式上线,高级用户支持 100 万 token(1M)上下文窗口,可处理 1500 页文件,新增 Deep Research&Gems 等高级功能,提升任务深度理解能力,图像生成功能升级至 Imagen 3,优化细节与指令解析,Gemini 1.5 Flash&Pro 将继续提供数周支持,助用户平稳过渡。
  • AlphaCode 团队构建了基于 Gemini 的 AlphaCode 2,将 Gemini 的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。同时,Gemini Nano 提升了效率,在设备上的任务中表现出色,如摘要、阅读理解、文本补全等,在推理、STEM、编码、多模态和多语言任务中展示出令人印象深刻的能力。在评估方面,涵盖了良好的研究 Benchmark 和人类偏好的评估,包括文本、代码、图像、音频和视频,包括英语性能和多语言能力。还讨论了部署方法,包括影响评估、制定模型策略、评估和减轻危害的过程。最后探讨了 Gemini 的更广泛影响、局限性和潜在应用。
Content generated by AI large model, please carefully verify (powered by aily)

References

2月1日 社区动态速览

估值达33亿美元,较去年增长3倍,总融资金额达2.81亿美元。投资方包括a16z、ICONIQ Growth、NEA等,资金将用于AI语音交互技术升级。CEO目标:让人与AI的对话自然如真人交流。🔗[X平台原文](https://x.com/imxiaohu/status/1885139948640354661)丨🔗[详细信息](https://www.xiaohu.ai/c/xiaohu-ai/elevenlabs-1-8-c-33)5⃣️🚀Mistral AI发布Mistral Small 3仅24B参数,性能媲美70B级别模型,适合本地部署。对比Llama 3.3 70B、Qwen 32B,是GPT-4o-mini的优秀开源替代品。MMLU基准测试81%,生成速度高达150 tokens/s,运行效率极高。🔗[X平台原文](https://x.com/imxiaohu/status/1885136176648266164)6⃣️⚡Gemini 2.0 Flash正式上线高级用户支持100万token(1M)上下文窗口,可处理1500页文件。新增Deep Research&Gems等高级功能,提升任务深度理解能力。图像生成功能升级至Imagen 3,优化细节与指令解析。Gemini 1.5 Flash&Pro将继续提供数周支持,助用户平稳过渡。🔗[X平台原文](https://x.com/imxiaohu/status/1885133436928868667)>>更多详细内容查看[XiaoHu.AI日报](https://waytoagi.feishu.cn/wiki/T2fUwmHBSiHU6Ukq9Imcu7n7nMh)

XiaoHu.AI日报

投资方包括a16z、ICONIQ Growth、NEA等。公司估值达33亿美元,较去年增长3倍。总融资金额达2.81亿美元,推动AI语音交互发展。CEO表示目标是让人与AI的对话像真人交流一样自然。🔗[https://x.com/imxiaohu/status/1885139948640354661](https://x.com/imxiaohu/status/1885139948640354661)📖详细信息:🔗[https://www.xiaohu.ai/c/xiaohu-ai/elevenlabs-1-8-c-33](https://www.xiaohu.ai/c/xiaohu-ai/elevenlabs-1-8-c-33)5⃣️🚀Mistral AI发布Mistral Small 3仅24B参数,但性能媲美70B级别模型,适合本地部署。对比Llama 3.3 70B或Qwen 32B,是GPT-4o-mini等专有模型的优秀开源替代品。MMLU基准测试81%,生成速度可达150 tokens/s,运行效率极高。🔗[https://x.com/imxiaohu/status/1885136176648266164](https://x.com/imxiaohu/status/1885136176648266164)6⃣️⚡Gemini 2.0 Flash正式上线

Gemini report 中文翻译

大型语言模型的推理能力,显示出在构建能够解决更复杂的多步问题的通用agents方面的潜力。AlphaCode团队构建了AlphaCode 2(Leblond等人,2023年),这是一个新的基于Gemini的agent,它将Gemini的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。AlphaCode 2在Codeforces竞技编程平台上排名前15%的参赛者中,相比于排名前50%的最新技术有了很大的改进(Li等人2022年)。同时,我们通过Gemini Nano提升了效率,这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并且相对于其大小,在推理、STEM、编码、多模态和多语言任务中展示出令人印象深刻的能力。在下面的部分中,我们首先提供模型架构、训练基础结构和训练数据集的概述。然后,我们提出了详细Gemini模型的评估,涵盖了良好的研究Benchmark和人类偏好的评估,包括文本,代码,图像,音频和视频,包括英语性能和多语言能力。我们还讨论了我们的部署方法,包括在部署决策之前进行影响评估、制定模型策略、评估和减轻危害的过程。最后,我们讨论了Gemini的更广泛影响,以及它的局限性和潜在应用,为人工智能研究和创新开辟了新时代的道路。

Others are asking
飞书多维表格如何接入gemini?
要将飞书多维表格接入 Gemini,以下是一些相关的操作步骤和说明: 首先,请注意部分操作需要搭配 Google 云服务或自备 API 才可以正常练习,具体内容)。友情提示,从这一部分及以后内容,多数都会是配合代码完成的,如果您是 0 代码学习者,尝试看懂提示词,并在一些 AI 产品上尝试使用。 接下来,课程将深入探讨代码部分。为了运行这个笔记本,需要执行一些设置代码。首先,需要导入 utils 并进行身份验证,这意味着需要设置一些凭证和项目 ID,以便能够从笔记本环境调用云端的 Gemini API。项目包含在云中使用的资源和 Gemini API。这个设置过程确保了笔记本能够正确连接和使用 Gemini 模型。 对于本课程,还需要指定一个区域,即代码将在哪里执行。在这种情况下,使用的是 uscentral1。 接下来,课程将导入 Vertex AI SDK。Vertex AI SDK 可以看作是一个 Python 工具包,帮助用户与 Gemini 交互。通过这个 SDK,可以使用 Python 调用 Gemini API 并获得响应。 在笔记本中,需要初始化 Vertex SDK。这意味着需要告诉 SDK 以下信息: 1. 使用的项目 2. 想要使用 Gemini 模型的区域 3. 用户凭证 通过提供这些信息,Gemini API 就能识别用户身份,并确认用户有权使用 API。 为了使用 Gemini API,需要从 SDK 中导入 generative_model。设置完成后,需要指定具体的模型。这可以通过设置 model 变量来完成,使用刚刚导入的 generative_model,并选择特定的 Gemini 模型。在这个案例中,课程将使用 Gemini 1.0 Pro 版本。这个选择反映了对于当前任务,Gemini Pro 可能是最合适的平衡点,提供了良好的性能和效率。 此外,Gemini 不仅是单一模型,而是一个模型系列,包含不同大小的模型,每种大小都针对特定的计算限制和应用需求而定制。首先是 Gemini Ultra,这是系列中最大和最强大的模型。Gemini Pro 被设计为多功能的主力模型,平衡了模型性能和速度。还有 Gemini Flash,这是一个专门为高容量任务设计的最快、最具成本效益的模型。最后是 Gemini Nano,它是 Gemini 家族中的轻量级成员,专门设计用于直接在用户设备上运行。
2025-03-28
Gemini是用什么训练的
Gemini 是在 Google 的 TPU AI 加速器上训练的,似乎没有使用英伟达的 GPU。Google 还推出了全新的 Cloud TPU v5p 和 AI Hypercomputer 超级计算机,将加速 Gemini 的开发,使 AI 模型的训练更快。 Cloud TPU v5p 是目前 Google 最强大、可扩展和灵活的 AI 加速器。它在 TPU v4 的基础上提供了超过 2 倍的 FLOPS(浮点运算次数/秒)和 3 倍的高带宽内存(HBM)。TPU v5p 可以比前一代 TPU v4 更快地训练大型语言模型(LLM),对于嵌入密集型模型,其训练速度比 TPU v42 快 1.9 倍。TPU v5p 的可扩展性是 TPU v4 的 4 倍。 AI Hypercomputer 是一个突破性的超级计算机架构,它采用了集成的系统,包括性能优化的硬件、开放软件、领先的机器学习框架,以及灵活的消费模型。通过系统级协同设计来提高 AI 训练、调优和服务的效率和生产力。具有性能优化的计算、存储和网络硬件,建立在超大规模数据中心基础设施之上,利用高密度占地面积、液体冷却和 Jupiter 数据中心网络技术。通过开放软件使开发者能够调整、管理和动态编排 AI 训练和推理工作负载。提供了一系列灵活和动态的消费选择,包括传统的承诺使用折扣(CUD)、按需定价和现货定价,以及为 AI 工作负载量身定制的消费模型。 Gemini 模型是在一个既包含多模态又包含多语言的数据集上进行训练的。预训练数据集使用来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。使用 SentencePiece 分词器,发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇,并进而提高模型性能。对所有数据集进行过滤,使用启发式规则和基于模型的分类器,还进行安全过滤以删除有害内容。从训练语料库中筛选出评估集。在训练过程中进行分阶段训练,通过增加领域相关数据的权重来改变混合组合,直到训练结束。
2025-03-26
gemini
Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的,它不仅支持文本、图片等提示,还支持视频、音频和代码提示。能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型,是一种“原生多模态大模型”,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 Gemini report 有中文翻译,翻译贡献者为林夕,源文档为 https://storage.googleapis.com/deepmindmedia/gemini/gemini_1_report.pdf 。本报告介绍了一种新的多模态模型 Gemini,它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸,适用于从复杂的推理任务到设备内存受限的应用场景。 可以使用 Gemini 拆解视频,例如使用 Gemini 1.5 Pro 进行视频分析和拆解。有测试者如阿强、张余、Ling、洋洋等进行了相关测试,反馈效果较好,准确度很高。
2025-03-24
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
Gemini现在的表现怎么样?
目前谷歌的 Gemini 多模态模型表现如下: 包括 Ultra、Pro 和 Nano 三种型号,能够处理图像、音频、视频和文本。 原生多模态能力是其优势,一个模型即可完成多种任务。 多模态能力有限,存在幻觉问题和多语言表现不佳的情况。 对中文的理解能力较弱,体验不如 ChatGPT,但在生成质量和与搜索生态结合方面有显著进步,体验比 Bing 和 GPT 好。 Gemini Ultra 在 MMLU(大规模多任务语言理解)上的表现超过了人类专家。 被设计为天生的多模态模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高其有效性。 在文生图方面,能一次性生成多套不同风格的设计,例如在 20 秒内生成 12 张;在抠图、换背景、打光影等方面也有出色表现,能在 10 秒内取得相当稳定的预期结果。 但目前开启条件存疑,例如使用美国加州 IP 和默认英语语言进入 Bard 可能无法找到模型选项进行修改。
2025-03-19
gemini
Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的,它不仅支持文本、图片等提示,还支持视频、音频和代码提示。能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型,是一种“原生多模态大模型”,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 Gemini report 有中文翻译,源文档为:https://storage.googleapis.com/deepmindmedia/gemini/gemini_1_report.pdf 。本报告介绍了一种新的多模态模型 Gemini,它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸,适用于从复杂的推理任务到设备内存受限的应用场景。 可以使用 Gemini 拆解视频,例如使用 Gemini 1.5 Pro 进行视频分析和拆解。有测试者表示拆解准确度很高,如阿强将用 AI 做的功夫熊猫相关视频丢进去分析,效果很好。
2025-03-18
本地部署大模型硬件配置
本地部署大模型的硬件配置如下: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 需要注意的是,最低配置可能运行速度非常慢。对于 SDXL 大模型的本地部署,其分为两个部分,base + refiner 是必须下载的,还有一个配套的 VAE 模型用于调节图片效果和色彩。要在 webUI 中使用 SDXL 的大模型,需在秋叶启动器中将 webUI 的版本升级到 1.5 以上,然后将模型放入对应的文件夹中。对于通义千问的 Qwen2.5 1M 模型的本地部署,使用以下命令启动服务时要根据硬件配置进行设置,如设置 GPU 数量、最大输入序列长度、Chunked Prefill 的块大小、限制并发处理的序列数量等。如果遇到问题,可参考相关的 Troubleshooting 内容。与模型交互可以使用 Curl 或 Python 等方法,对于更高级的使用方式,可以探索如 Qwen Agent 之类的框架。
2025-03-31
如何部署本地大模型
以下是本地部署大模型的一般步骤: 1. 部署大语言模型: 下载并安装 Ollama:根据您的电脑系统,从 https://ollama.com/download 下载。下载完成后,双击打开,点击“Install”。安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器中,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型(若设备充足可下载更大模型): Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 复制相关命令行并粘贴回车,等待自动下载完成。 2. 部署 SDXL 大模型: SDXL 的大模型分为 base+refiner(必须下载)和配套的 VAE 模型。 关注公众号【白马与少年】,回复【SDXL】获取下载链接。 在秋叶启动器中将 webUI 的版本升级到 1.5 以上。 将模型放入对应的文件夹:base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下;vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下。 3. ComfyUI ollama 本地大模型部署: 先下载 ollama 安装,安装完成后可在电脑桌面右下角或隐藏图标里找到。 下载对应的模型,选择模型并复制对应的命令。 打开命令行界面,输入对应的模型获取命令,等待下载完成。 设置目录,下载的模型会保存到 D:\\ollama\\blobs。 进行 docker 安装,安装会下载一些文件,安装后更改目录,不要放在 C 盘。 进行 Open webui 安装,输入相关命令,安装成功后回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 4. 错误解决:端口占用问题,在 Windows 上可能出现,运行下面两条命令可以解决。 5. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/
2025-03-31
本地用Ollama部署模型,使用哪个ChatBox客户端好?
目前在本地使用 Ollama 部署模型时,没有特别突出或被广泛推荐的特定 ChatBox 客户端。不同的客户端可能在功能、界面和兼容性方面存在差异,您可以根据自己的需求和使用习惯进行选择和尝试。常见的一些客户端包括但不限于 Web 端的简单界面工具,或者一些具有特定功能扩展的桌面应用程序。但具体哪个最适合您,还需要您亲自测试和评估。
2025-03-27
AI本地化部署
AI 本地化部署主要包括以下内容: 目前市面上的 AI 有线上和线下本地部署两种方式。线上部署出图速度快,不吃本地显卡配置,无需下载大模型,但出图分辨率受限;线下部署可自己添加插件,出图质量高,但使用时电脑易宕机,配置不高可能爆显存导致出图失败。 线上和线下平台可结合使用,充分发挥各自优势。线上用于找参考、测试模型,线下作为主要出图工具。具体操作如在在线绘图网站的绘图广场上发现想要的画风,点击创作会自动匹配创作使用的模型、lora 和 tag,截取游戏人物底图将线上算力集中在人物身上,多批次、多数量尝试不同画风得出符合游戏的模型+lora 组合,最后在 C 站下载对应模型到本地加载部署即可生图。 此外,Mistral AI 推出的 Mistral Saba 模型可本地部署,适用于单 GPU,能保障数据隐私。
2025-03-27
部署
以下是关于不同场景下部署的相关信息: AutoDL 部署 One2345 部署条件:需要有英伟达 GPU 显卡,且运行内存大于 18G,建议使用 RTX3090 及以上显卡。需要有 Ubuntu 系统操作基础。 部署步骤: 挑选设备:在 AutoDL 上挑选符合需求的设备,如 RTX4090/24GB。 镜像选择:选择与原作者要求相同的环境版本,如 PyTorch 2.0.1 与 cuda_11.8。 控制台打开设备:关机后想开机,直接点击即可。 打开终端,部署环境+代码:代码在数据盘中操作,Conda activate 报错输入 conda init bash,然后重启终端。安装步骤原文见:https://github.com/One2345/One2345 。注意:Huggingface 需要代理。 【保姆级】Meta Llama 3 部署到电脑上(Ollama+Open WebUI) 下载 Open WebUI: Windows 电脑:点击 win+R,输入 cmd,点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 输入命令等待下载,完成后点击或复制地址进入浏览器:http://localhost:3000/auth/ ,进行注册登录,选择“llama3:8b”即可。 在 Amazon SageMaker 上部署 Llama 3 要将与 llama 交互,使用常见的 OpenAI 格式 messages。 注意:Llama 3 是一个有门槛的模型,请在提交表单前访问并接受许可条款和可接受的使用政策。创建 HuggingFaceModel 后,使用 deploy 方法将其部署到 Amazon SageMaker,使用 ml.p4d.24xlarge 实例类型部署模型,部署可能需要 1015 分钟。
2025-03-27
本地部署
SDXL 的本地部署步骤如下: 1. 模型下载:SDXL 的大模型分为两个部分,第一部分 base + refiner 是必须下载的,base 是基础模型用于文生图操作,refiner 是精炼模型用于细化图片生成细节更丰富的图片;还有一个配套的 VAE 模型用于调节图片的画面效果和色彩。您可以关注公众号【白马与少年】,回复【SDXL】获取下载链接。 2. 版本升级:在秋叶启动器中将 webUI 的版本升级到 1.5 以上。 3. 放置模型:将 base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下,vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下。 4. 启动使用:启动 webUI,在模型中即可看到 SDXL 的模型。正常使用时,先在文生图中使用 base 模型填写提示词和常规参数生成图片,然后将图片发送到图生图中切换大模型为“refiner”重绘。对于不想在两个界面来回操作的情况,可以安装 refine 插件,在文生图界面直接使用 refine 模型。 另外,关于本地部署资讯问答机器人,实现 Langchain + Ollama + RSSHub 的 RAG 需: 1. 导入依赖库:加载所需的库和模块,如 feedparse 用于解析 RSS 订阅源,ollama 用于在 python 程序中跑大模型(使用前确保 ollama 服务已开启并下载好模型)。 2. 从订阅源获取内容:从指定的 RSS 订阅 url 提取内容,通过专门的文本拆分器将长文本拆分成较小的块,并附带相关元数据,最终合并成列表返回。 3. 为文档内容生成向量:使用文本向量模型 bgem3(https://huggingface.co/BAAI/bgem3),从 hf 下载好模型放置在指定路径,通过函数利用 FAISS 创建高效的向量存储。
2025-03-27