Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

多模态搜索

Answer

以下是关于多模态搜索的相关信息:

ThinkAny 搜索引擎

  • 产品特性:
    • 支持多模态检索(Multi-Mode-Search),可检索链接、图片、视频等模态内容。
    • 支持多维度输出(Multi-Form-Output),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。
    • 支持多信源检索(Multi-Retrieve-Source),可检索 Google、Wikipedia、Github 等信息源的内容。
  • 开源了 API 项目 rag-search,实现联网检索功能,并对检索结果进行重排和获取详情内容。
  • 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。

其他推荐的 AI 搜索引擎

  • 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。
  • Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。
  • 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。
  • 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。
  • Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。
  • Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。
  • Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。

提升 AI 搜索准确度

  • 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。
  • 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
Content generated by AI large model, please carefully verify (powered by aily)

References

工具:我做了一个 AI 搜索引擎

1.多模态检索Multi-Mode-Search支持检索链接/图片/视频等模态内容1.多维度输出Multi-Form-Output支持以对话/大纲/思维导图/时间线等形式输出搜索问答内容。202406251501281.多信源检索Multi-Retrieve-Source支持检索Google/Wikipedia/Github等信息源的内容,作为搜索问答的挂载上下文。另外,ThinkAny还开源了一个API项目:rag-search,完整实现了联网检索功能,并对检索结果进行重排(Reranking)/获取详情内容(Read Content),最终得到一份准确度还不错的检索结果。20240619163823ThinkAny产品的长期发展方向,会走AI Search+Anything的平台化路线。允许用户挂载自定义信息源(Sources)/创建自定义智能体(Agents)/实现自定义的流程编排(Workflows)ThinkAny要保证基础能力的完备性,结合第三方的创意,实现一个更智能的AI搜索平台,覆盖更多的搜索场景。

问:AI 搜索引擎

以下是一些推荐的AI搜索引擎:1.秘塔AI搜索:由秘塔科技开发,提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能,旨在提升用户的搜索效率和体验。2.Perplexity:一款聊天机器人式的搜索引擎,允许用户用自然语言提问,使用生成式AI技术从各种来源收集信息并给出答案。3.360AI搜索:360公司推出的AI搜索引擎,通过AI分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。4.天工AI搜索:昆仑万维推出的搜索引擎,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持图像、语音等多模态搜索。5.Flowith:一款创新的AI交互式搜索和对话工具,基于节点式交互方式,支持多种AI模型和图像生成技术,提供插件系统和社区功能。6.Devv:面向程序员的AI搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。7.Phind:专为开发者设计的AI搜索引擎,利用大型语言模型提供相关的搜索结果和动态答案,特别擅长处理编程和技术问题。这些AI搜索引擎通过不同的技术和功能,为用户提供更加精准、高效和个性化的搜索体验。内容由AI大模型生成,请仔细甄别

工具:我做了一个 AI 搜索引擎

提升AI搜索的准确度,在提示词的设计和调试方面也需要花很大的功夫。上述的很多个环节,都需要用到提示词,比如:通过提示词请求大模型判断是否需要联网通过提示词请求大模型改写问题,提取关键词通过提示词请求大模型回答问题,标注引用来源通过提示词请求大模型以思维导图的形式输出答案通过提示词请求大模型做Function Calling判断使用的Agents提示词工程是一个很系统的学科,有实操指南,有方法论。不能一招通吃,只有经过大量调试,才能设计出一套适合自身业务的提示词。1.多模态检索Multi Mode提升AI搜索的关键步骤是保证检索到的信息密度。只拿信息源检索返回的摘要内容肯定不够,前面我们也提到了要并行获取多个链接的详情内容。多模态检索是提升信息密度的一个重要措施。随着5G的发展,互联网上的信息越来越多元化,图片/视频/音频占了很大的比重。多模态检索就是为了尽可能多的获取不同形式的信息,再聚合起来作为引用参考。多模态检索的实现是非常困难的。涉及到海量信息源的处理和识别。现阶段可以在谷歌搜索的基础上完成多模态检索的需求。第一步我们可以使用谷歌的图片/视频检索API,拿到跟query匹配的图片/视频内容。第二步要做的工作是通过OCR图片识别/音视频转录等方法,拿到多模态信息的文本内容。

Others are asking
Qwen 多模态模型哪一个最顶?
目前阿里发布的 Qwen 多模态模型中,Qwen2.5VL 较为突出。它可处理长达数小时的视频,并在电脑上执行自动化任务。提供 3B、7B、72B 三种规模,旗舰版对标 GPT4o、Claude 3.5 Sonnet。具备全文档解析能力,支持手写、表格、图表、化学公式等多场景识别,还可操作电脑或手机界面,执行自动化任务,如点击按钮、填表等。详情可参考:https://www.xiaohu.ai/c/xiaohuai/qwen25vl285cee 。此外,Qwen2.5Max 也是阿里通义千问的大型专家模型(MoE),基于 SFT 和 RLHF 策略训练,在多项基准如 Arena Hard、LiveBench、LiveCodeBench、GPQADiamond 上超越 DeepSeek V3,引发社区关注。更多体验方式包括支持官方 Chat、API 接口、Hugging Face Demo 等,详情可参考:https://qwenlm.github.io/blog/qwen2.5max/ 、https://chat.qwenlm.ai 、https://alibabacloud.com/help/en/modelstudio/gettingstarted/firstapicalltoqwen?spm=a2c63.p38356.helpmenu2400256.d_0_1_0.1f6574a72ddbKE 、https://huggingface.co/spaces/Qwen/Qwen2.5MaxDemo 。
2025-03-25
如何构建多模态知识库?
构建多模态知识库可以参考以下步骤: 1. 图像知识库方面:通过多模态的能力对图片信息进行检索理解。效果测试时,上传一张图片,在图像数据库里找到相关信息,然后结合内容进行回复。 2. 构建图片索引: 新建结构化数据表时,将图片索引所在列的字段类型设置为 link。需注意新建数据表后,无法再新增或修改字段类型为 link。 创建结构化知识库时,对于需要建立图片索引的 link 类型字段,在旁边的下拉列表中选择图片。创建知识库后,无法再新建或修改图片索引。 3. 多模态知识库还包括构建图片型索引需结构化数据表,字段类型设置为 link,以实现 FAQ 中向用户推送图片信息。
2025-03-19
多模态达模型排行
以下是一些常见的多模态模型排行及相关信息: 1. 智谱·AI 开源模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩第一,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 2. Gemini 模型:Gemini Ultra 在表 7 中的各种图像理解基准测试中都是最先进的,在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。在 zeroshot 评估中表现更好,超过了几个专门在基准训练集上进行微调的现有模型,适用于大多数任务。在 MMMU 基准测试中取得了最好的分数,比最先进的结果提高了 5 个百分点以上,并在 6 个学科中的 5 个学科中超过了以前的最佳结果。 3. 多模态思维链提示方法:Zhang 等人(2023)提出了一种多模态思维链提示方法,多模态 CoT 模型(1B)在 ScienceQA 基准测试中的表现优于 GPT3.5。
2025-03-18
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
多模态是什么
多模态是指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据,将图像或文字“压缩”成能够捕捉深层关系的抽象向量。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-03-02
多模态大模型 原理是什么?
多模态大模型的原理如下: 基于大圆模型,能够识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧进行多模态理解,右侧生成输出。 典型的多模态大模型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为基于投影的、基于查询的和基于融合的三类,前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,最后一种类型则在 LLM 内部实现特征级融合。
2025-02-27
现在哪个ai搜索工具最好用
以下是一些好用的 AI 搜索工具: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升搜索效率和体验。 2. Perplexity:聊天机器人式的搜索引擎,允许用自然语言提问,通过生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持多模态搜索。 5. Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 此外,能联网检索的 AI 有: 1. ChatGPT Plus 用户现在可以开启 web browsing 功能,实现联网。 2. Perplexity,结合了 ChatGPT 式的问答和普通搜索引擎的功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型。 3. Bing Copilot,作为 AI 助手,旨在简化在线查询和浏览活动。 4. You.com 和 Neeva AI 等搜索引擎,提供基于人工智能的定制搜索体验,并保持用户数据的私密性。 在 2025 年必用的 AI 搜索工具中,Perplexity 被认为是年度最佳 AI 搜索。早在 2022 年,它就开始探索 AI 搜索领域,对许多后续产品有启发。一个 AI 搜索产品的优劣取决于 AI 的理解和整理能力,以及引用信息的质量。Perplexity 的官网是:https://perplexity.ai/,Pro 会员每月 20 美元,成为 Pro 会员后,可以使用高级模型,并享受无限制的 Pro 搜索。在专业搜索模式(Pro 搜索)中,对于复杂问题,可分别进行多次搜索以获取更全面的信息。
2025-03-24
请推荐搜索功能最强的AI
以下是一些搜索功能较强的 AI 搜索引擎推荐: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升用户搜索效率和体验。 2. Perplexity:聊天机器人式的搜索引擎,允许用自然语言提问,通过生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持多模态搜索。 5. Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 此外,腾讯元宝也是一款搜索功能出色的 AI 产品,它虽然推出较晚,但能凭借独特优势在市场站稳脚跟。其最大亮点是强大的 AI 搜索功能,最近更新了搜索体验,推出深度搜索等新功能,还能访问大量微信生态系统内的私域资源,包括微信公众号的内容以及腾讯内部、互联网上的其他优秀资源。同时,它依托腾讯“混元”大语言模型,能生成高质量内容,在深度搜索时能更全面、深入地回答用户问题,是 GPT Search 的良好替代选择,尤其适合需要访问中文内容和微信生态系统信息的用户。 Perplexity 更是被认为是 AI 搜索领域的“祖师爷”,早在 2022 年就已开始探索。其官网为 https://perplexity.ai/,Pro 会员每月 20 美元,成为 Pro 会员后可使用高级模型,并享受无限制的 Pro 搜索。在处理复杂问题时,其专业搜索模式表现出色。
2025-03-22
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
我想从Nanobrowser里植入DeepSeek的R1模型,来让它帮我做网页搜索之类的工作,我该怎么做,给出详细教程
以下是从 Nanobrowser 里植入 DeepSeek 的 R1 模型来进行网页搜索的详细教程: 1. 阿里云百炼平台相关: 模型广场:百炼平台的模型广场有各种模型,包括音频理解、视频理解等,通义的一些强模型也在其中。 无需部署:百炼平台无需部署,可直接使用 Deepseek R1 模型。 价格与免费额度:Deepseek R1 模型价格与各大平台差不多,有大量免费额度,如 100 万 token,不同版本的模型如 7B、14B、32B 等也送了 100 万 token,LLAVA 限时免费。 授权与实名认证:使用 Deepseek R1 模型需要解锁和授权,没有授权按钮的需要对阿里云进行实名认证,可通过支付宝扫码或在右上角头像处进行,共学群里有相关指引。 模型效果对比:在首页体验模型页面可对比不同模型的效果,如 V3 和 R1,R1 会先思考,速度较快。 多模态能力:多模态可以识别更多输入信息,如读文件、图片等,而 Deepseek R1 本身不是多模态模型。 连接 Chat Box:通过模型广场的 API 调用示例获取链接,截断后粘贴到 Chat Box 的设置中,添加自定义提供方,设置模型名称为 Deepseek R1,并获取 API key。 API key 重置:可删除旧的 API key 并重新创建,方便本地软件连接。 2. 工作流创建: 创建一个对话流,命名为 r1_with_net。 开始节点,直接使用默认的。 大模型分析关键词设置:模型选择豆包通用模型lite,输入直接使用开始节点的 USER_INPUT 作为大模型的输入,系统提示词为“你是关键词提炼专家”,用户提示词为“根据用户输入`{{input}}`提炼出用户问题的关键词用于相关内容的搜索”。 bingWebSearch搜索:插件选择 BingWebSearch,参数使用上一个节点大模型分析输出的关键词作为 query 的参数,结果中 data 下的 webPages 是网页搜索结果,将在下一个节点使用。 大模型R1 参考搜索结果回答:在输入区域开启“对话历史”,模型选择韦恩 AI 专用 DeepSeek(即火山方舟里配置的 DeepSeek R1 模型),输入包括搜索结果(选择搜索节点 data 下的 webPages)和开始节点的 USER_INPUT,开启对话历史,设置 10 轮,默认不开启对话历史,开启后默认是 3 轮,系统提示词不需要输入,用户提示词为空。 结束节点设置:输出变量选择大模型R1 参考搜索结果回答的输出,回答内容里直接输出:{{output}}。测试完成后,直接发布工作流。 3. 网页聊天相关: 安装插件:使用 Chrome 或 Microsoft Edge 浏览器,点击此链接,安装浏览器插件,添加到拓展程序:https://chromewebstore.google.com/detail/pageassist%E6%9C%AC%E5%9C%B0ai%E6%A8%A1%E5%9E%8B%E7%9A%84web/jfgfiigpkhlkbnfnbobbkinehhfdhndo 。 打开聊天页面:点击右上角的插件列表,找到 Page Assist 插件,点击打开。 配置“DeepSeekR1”模型的 API key:基础 URL 为 https://ark.cnbeijing.volces.com/api/v3 ,填好之后,点击保存,关掉提醒弹窗。 添加“DeepSeekR1”模型。 打开联网功能,支持联网搜索使用 R1。
2025-03-20
实践案例推荐,仅搜索教育、多邻国相关的内容
以下是与教育、多邻国相关的实践案例推荐: 张翼然:用 AI 为教师减负(3H) 教师的 AI 减负指南生成式人工智能在教学中的应用 教师使用 AI 小技巧 想让 AI 做好,首先你得会做 教学目标:是否明确,与课程标准和学生实际需求相符合 教学方法:是否使用多种,考虑学生不同学习风格 能力培养:是否注重培养学生的思维、创新和实践能力 教学实践 教案中的教学过程是否紧密结合学生现实生活和个人经验 群里“公开问”创造良好探究学习气氛,提问技巧可见的快速提高 是否充分利用课堂时间,让学生参与教学 是否在教学中关注学生反馈和理解,及时调整教学策略 师生关系 是否营造良好教学氛围和师生关系 是否平等尊重学生主体地位,体现尊重和关爱学生的教育理念 是否注重发挥学生积极性和主动性,激发学习热情 移动教学应用: 多邻国 六六写字 幕布 “遇见苏轼”项目式教学 在教育实践中,针对二年级学生对于抽象数学概念感到困惑的痛点问题,也有相关的探索和尝试。
2025-03-20
如何使用AI在网络搜索信息,并将信息填入表格内呢?
使用 AI 在网络搜索信息并填入表格内,您可以参考以下几种方法: 1. 利用 AI 与权威网站结合获取关键数据,并辅助提取结构化表格数据或编写抓取程序。例如,针对如何用 AI 撰写专业区域经济报告,信息收集时可这样操作。同时,针对报告需求将内容拆分,避免 AI 单次处理任务过长。数据处理时,借助传统工具如 Excel,结合 AI 指导高效操作数据筛选与图表生成。分析与撰写时,通过整理数据,利用 AI 辅助分析后撰写报告初稿,可指定风格并校验数据与结论准确性。但要注意,AI 仅作辅助,最终内容需人工主导校验,避免误导性结论。 2. 使用 Perplexity 进行搜索。Perplexity 的 Pro 搜索会将复杂问题拆分成不同关键词,进行多次搜索后整合结果,为用户提供全面、精准的答案。用户提问一次,Perplexity 会自动分多次搜索并把答案合并整理呈现,还会提供信息来源以便进一步查证。 3. 对于调研市场上主流的开源搜索引擎技术架构这类任务,可采用多智能体 AI 搜索引擎方案: 第一步,根据用户任务,使用搜索工具如 API WebSearchPro 补充更多信息,参考相关文档。 第二步,使用大模型如 GLM40520 把用户问题拆分成若干子搜索任务,并转换为 JSON 格式,参考相应 API 文档和 JSON 工具。 第三步,用具备联网搜索和自主分析能力的 AI 搜索智能体完成子任务,参考智能体 API 的调用方式。 第四步,智能体能调用各种插件生成思维导图等,根据工作需要选择,参考智能体 API 的调用方式。
2025-03-18