Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

多模态搜索

Answer

以下是关于多模态搜索的相关信息:

ThinkAny 搜索引擎

  • 产品特性:
    • 支持多模态检索(Multi-Mode-Search),可检索链接、图片、视频等模态内容。
    • 支持多维度输出(Multi-Form-Output),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。
    • 支持多信源检索(Multi-Retrieve-Source),可检索 Google、Wikipedia、Github 等信息源的内容。
  • 开源了 API 项目 rag-search,实现联网检索功能,并对检索结果进行重排和获取详情内容。
  • 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。

其他推荐的 AI 搜索引擎

  • 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。
  • Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。
  • 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。
  • 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。
  • Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。
  • Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。
  • Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。

提升 AI 搜索准确度

  • 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。
  • 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
Content generated by AI large model, please carefully verify (powered by aily)

References

工具:我做了一个 AI 搜索引擎

1.多模态检索Multi-Mode-Search支持检索链接/图片/视频等模态内容1.多维度输出Multi-Form-Output支持以对话/大纲/思维导图/时间线等形式输出搜索问答内容。202406251501281.多信源检索Multi-Retrieve-Source支持检索Google/Wikipedia/Github等信息源的内容,作为搜索问答的挂载上下文。另外,ThinkAny还开源了一个API项目:rag-search,完整实现了联网检索功能,并对检索结果进行重排(Reranking)/获取详情内容(Read Content),最终得到一份准确度还不错的检索结果。20240619163823ThinkAny产品的长期发展方向,会走AI Search+Anything的平台化路线。允许用户挂载自定义信息源(Sources)/创建自定义智能体(Agents)/实现自定义的流程编排(Workflows)ThinkAny要保证基础能力的完备性,结合第三方的创意,实现一个更智能的AI搜索平台,覆盖更多的搜索场景。

问:AI 搜索引擎

以下是一些推荐的AI搜索引擎:1.秘塔AI搜索:由秘塔科技开发,提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能,旨在提升用户的搜索效率和体验。2.Perplexity:一款聊天机器人式的搜索引擎,允许用户用自然语言提问,使用生成式AI技术从各种来源收集信息并给出答案。3.360AI搜索:360公司推出的AI搜索引擎,通过AI分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。4.天工AI搜索:昆仑万维推出的搜索引擎,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持图像、语音等多模态搜索。5.Flowith:一款创新的AI交互式搜索和对话工具,基于节点式交互方式,支持多种AI模型和图像生成技术,提供插件系统和社区功能。6.Devv:面向程序员的AI搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。7.Phind:专为开发者设计的AI搜索引擎,利用大型语言模型提供相关的搜索结果和动态答案,特别擅长处理编程和技术问题。这些AI搜索引擎通过不同的技术和功能,为用户提供更加精准、高效和个性化的搜索体验。内容由AI大模型生成,请仔细甄别

工具:我做了一个 AI 搜索引擎

提升AI搜索的准确度,在提示词的设计和调试方面也需要花很大的功夫。上述的很多个环节,都需要用到提示词,比如:通过提示词请求大模型判断是否需要联网通过提示词请求大模型改写问题,提取关键词通过提示词请求大模型回答问题,标注引用来源通过提示词请求大模型以思维导图的形式输出答案通过提示词请求大模型做Function Calling判断使用的Agents提示词工程是一个很系统的学科,有实操指南,有方法论。不能一招通吃,只有经过大量调试,才能设计出一套适合自身业务的提示词。1.多模态检索Multi Mode提升AI搜索的关键步骤是保证检索到的信息密度。只拿信息源检索返回的摘要内容肯定不够,前面我们也提到了要并行获取多个链接的详情内容。多模态检索是提升信息密度的一个重要措施。随着5G的发展,互联网上的信息越来越多元化,图片/视频/音频占了很大的比重。多模态检索就是为了尽可能多的获取不同形式的信息,再聚合起来作为引用参考。多模态检索的实现是非常困难的。涉及到海量信息源的处理和识别。现阶段可以在谷歌搜索的基础上完成多模态检索的需求。第一步我们可以使用谷歌的图片/视频检索API,拿到跟query匹配的图片/视频内容。第二步要做的工作是通过OCR图片识别/音视频转录等方法,拿到多模态信息的文本内容。

Others are asking
有什么支持多模态输入和输出的C端产品
以下是一些支持多模态输入和输出的 C 端产品: 1. 宝玉日报:支持文本或音频输入,输出可为文本、音频或混合数据。价格方面,1 小时音频输入成本为$12.8,输出为$25.6。相关链接: 2. Imagic 发布的 AI 驱动的无代码应用构建工具:支持多模态输入输出,包括文本、图片、3D 和视频。创建出来的应用立刻就能使用和发布。相关链接:https://get.imagica.ai/s 3. 面壁智能推出的 MiniCPMo 2.6:具有多模态能力,如 OCR、视频理解、连续视频与音频流处理,实时直播与多模态上下文理解,支持 30 多种语言的文本和语音输入输出。资源链接: 4. 世界首个支持手持产品展示的 AI 数字人 Product Avatar:上传产品图片,数字人即可手持产品进行口播展示,支持多语言,覆盖 28 种语言,可快速生成产品宣传视频。相关链接:
2025-02-21
多模态的AI工具有哪些
以下是一些多模态的 AI 工具: GPT4VAct:这是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。它可以识别网页上的元素并理解其功能,目的是自动完成一些人工操作任务以提高效率。主要特点包括有限的视觉处理能力、自动标记、鼠标和键盘操作等,但目前存在一些功能暂不支持。 Sora:是第一个能够根据人类指令生成长达一分钟视频的模型,标志着在生成式 AI 研究和开发中的重大突破。 DiT:能将视频分解为一帧帧图像并逐帧去噪生成流畅连贯的视频,不仅能生成高质量逐帧图像,还能在时间维度上保持一致性。 Topview.ai:是一款面向海外市场的多模态转换工具,作为 AI 驱动的营销视频生成工具,可自动实现模态转换,帮助社交媒体达人将素材一键转换为爆款商业短视频。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
国内有哪些多模态大模型
国内的多模态大模型有: “悟道・天鹰”(北京智源人工智能研究院):“悟道・天鹰”(Aquila)是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。 文心一言(百度):大语言模型,可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。
2025-02-14
多模态大模型
Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的,不仅支持文本、图片等提示,还支持视频、音频和代码提示。它能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出,被称为 Google 迄今为止最强大、最全面的模型,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 多模态大模型(MLLM)是一种在统一的框架下,集成了多种不同类型数据处理能力的深度学习模型,这些数据可以包括文本、图像、音频和视频等。通过整合这些多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息,在面对复杂任务时表现出更高的准确性和鲁棒性。其典型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器,以生成除文本之外的更多模态。连接器大致可分为基于投影的、基于查询的和基于融合的三类。 有基于多模态大模型给现实世界加一本说明书的应用,例如将手机置于车载摄像机位置,能够实时分析当前地区今年新春的最新流行趋势。该应用后端采用 llama.cpp 挂载 LLaVA 模型,为应用提供推理服务,同时部署了一个 Flask 应用用于数据前处理和后处理,提供 Stream 流服务,前端页面采用 HTML5 用于采集画面和用户输入。下载模型 ggml_llavav1.513b,BakLLaVA 推理速度更快,但对中文支持较差,7b 的模型在语义理解方面存在不足,特别是在需要规范数据格式进行交互的场合,对于 function call 和 action 操作极度依赖模型的 AGI 能力。
2025-02-09
自动网上搜索信息定期推送
以下是关于自动网上搜索信息定期推送的相关内容: Bot 智能体: 创意构思:创建 Bot 的初衷是让每个人拥有专属的市场和资讯助手,能以多模态形式(文字、图像、文档、语音等)自动推送最新资讯到不同平台,通过 Coze 等实现跨平台联动、针对不同客户需求检索、对检索内容分析处理并以友好格式输出。 效果呈现:Coze Bot 可通过不同提问触发检索功能,企业微信群能自动同步获得资讯检索结果,实现多平台联动,还能获取飞书云文档多维表格中的用户需求,Coze API 可接入微信进行对话交互检索。 自动总结公众号内容并定时推送到微信: 搭建工作流:包括将推送内容插入数据库(避免重复推送)、结束节点、试运行(输入数据测试,查看结果并发布)。 工作流拆解: 抓取公众号内容:可通过瓦斯阅读、WeWe RSS 等方式获取。 公众号内容总结:依靠大模型能力,如字节的豆包大模型,可使用批处理功能批量总结。 定时推送到微信:定时通过 Coze 平台触发器实现,推送需找第三方 API 方案。
2025-02-24
想要搜集社交媒体的爆款,建立对标账号库和选题库,该如何高效搜索?是否有可使用的AI工具?
以下是高效搜集社交媒体爆款、建立对标账号库和选题库的方法及可使用的 AI 工具: 1. 对于找对标账号的爆款文章: 在电脑微信上打开对标账号的微信公众号相关界面。手机支持长截图也可,但不推荐,因手机易被干扰。 刷文章时不仅看当前文章,还应点开作者后台查看其他文章,关注“低粉爆款”(即平常阅读量几百,突然有几万阅读量的异常值文章),大号的阅读量参考价值较低。 遇到不错的对标账号,想获取所有阅读量数据和标题时,可使用长截图结合中文识别能力强的大模型,如 kimichat,飞书客户端自带的长截图功能好用,其截图快捷键在设置中可查看和修改(Windows 为 Ctrl+Shift+A,Mac 为 Alt+Shift+A)。 2. 搭建选题库和标题库: 使用飞书文档创建一个文档,并打开选题库模板(https://zi6nfl20s5u.feishu.cn/wiki/J7KvwzJZLi7mX0k5B5EcQ0ahnIc?from=from_copylink),根据自身需要制作表格。 3. 可使用的 AI 工具:腾讯元宝,这是一个基于腾讯混元大模型的 AI 助手 App,提供包括 AI 搜索、AI 总结、AI 写作等多种功能,能在公众号等平台搜索和总结相关内容,使用提示词句式“去公众号搜索关于「xxx」的文章”。
2025-02-24
适合当作搜索引擎的大模型是什么?
以下是一些适合当作搜索引擎的大模型: Perplexity.ai:本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决了。能给出信息来源网址,根据搜索内容给出继续对话的问题建议。支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。访问地址: 。但要注意不要在开着浏览器翻译能力的同时使用,很可能会报错。另外,不使用 Copilot 能力的效果比较灾难,无法给出具体的酒店建议,只是列举了几个可以查酒店的渠道。
2025-02-22
AI搜索
以下是为您介绍的一些 AI 搜索引擎: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升用户搜索效率和体验。 2. Perplexity:聊天机器人式搜索引擎,允许用自然语言提问,通过生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理答案,支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持多模态搜索。 5. Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注提供编程、软件开发和人工智能等领域专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 开搜 AI 搜索是一款免费无广告、直达结果的面向大众的搜索工具。它在以下方面有出色表现: 1. 论文资料搜集与整理:帮助在校学生快速搜集专业学术资料,智能总结关键信息,助力撰写论文和报告,且支持查看来源出处,参考价值高。 2. 教学内容准备:让教育教师群体获取丰富教学资源,自动生成教案和课题研究报告,提高教学准备效率。 3. 职场信息检索:使职场办公人群高效查找工作所需信息,简化文案撰写、PPT 制作和工作汇报准备工作。 4. 行业研究分析:为学术研究人员提供深入行业分析,通过 AI 技术整合和总结大量数据,形成有深度的研究报告。 从 AI 搜索引出 RAG:在学习 RAG 之初,可从 AI 搜索切入。AI 大模型擅长语义理解和文本总结,不擅长获取实时信息;搜索引擎擅长获取实时信息,但信息分散,需人为总结。AI 与搜索引擎结合,给 AI 配备活字典,让其随时查阅。
2025-02-15
AI搜索如何商业变现
AI 搜索的商业变现方式主要有以下几种: 1. 开放接口 API:将联网判断、意图识别、问题改写、信息源检索等步骤封装进黑盒,导出标准 API,让 ChatBot 类产品快速集成。开放 API 后,ChatBot 类应用只需修改 API 的域名前缀即可集成联网检索功能,这对 AI 搜索产品自身而言,增加了面向小 B 的营收途径。 2. 自定义信息源 Source:允许用户自定义信息源,满足个性化搜索需求。比如允许第三方创作者通过 Form 表单填写信息源的相关信息,调试通过后完成集成。 在 AI 时代,一些优秀的 AI 搜索产品如秘塔搜索(https://metaso.cn/)、Perplexity(https://www.perplexity.ai/?loginsource=oneTapHome)已展现出强大的搜索能力。同时,大型科技公司在 AI 搜索领域的动作也备受关注,如微软和苹果自愿放弃 OpenAI 董事会观察员席位,监管机构关注大型科技公司与初创企业的关系。人工智能驱动的搜索虽已开始出现成效,但也存在可靠性等问题。
2025-02-11
ai搜索引擎
以下是为您提供的关于 AI 搜索引擎的相关信息: 推荐的 AI 搜索引擎: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升搜索效率和体验。 2. Perplexity:聊天机器人式搜索引擎,允许用自然语言提问,通过生成式 AI 技术收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理答案,支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持多模态搜索。 5. Flowith:创新的交互式搜索和对话工具,基于节点式交互,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员,专注提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 个人制作 AI 搜索引擎的经历: 选择做 AI 搜索引擎产品基于三个原则:感兴趣、有价值能带来成就感、在能力范围内。起初认为搜索引擎技术壁垒高,不敢尝试。但后来研究了贾扬清老师开源的 Lepton Search 源码和 float32 的 AI 搜索引擎源码,了解到底层技术“RAG”(检索增强生成),包括检索、增强、生成三个步骤,即拿用户 query 调搜索引擎 API 拿到搜索结果,设置提示词把检索结果作为挂载上下文,大模型回答问题并标注引用来源。之后决定在这个领域尝试,所做的 AI 搜索引擎产品取名“ThinkAny”。 XiaoHu.AI 日报中的相关内容: 4 月 27 28 日的 XiaoHu.AI 日报中提到了 Perplexica AI 驱动的搜索引擎,它提供多种搜索模式,如学术、视频等,并支持本地部署的大型语言模型。
2025-02-11