多模态搜索工具-WayToAGI

回答

以下是为您介绍的多模态搜索工具：

推荐的 AI 搜索引擎：
- 秘塔 AI 搜索：由秘塔科技开发，具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能，提升用户搜索效率和体验。
- Perplexity：聊天机器人式搜索引擎，允许自然语言提问，用生成式 AI 技术收集信息并给出答案。
- 360AI 搜索：360 公司推出，通过 AI 分析问题生成答案，支持增强模式和智能排序。
- 天工 AI 搜索：昆仑万维推出，采用生成式搜索技术，支持自然语言交互和深度追问，未来支持图像、语音等多模态搜索。
- Flowith：创新的 AI 交互式搜索和对话工具，基于节点式交互，支持多种 AI 模型和图像生成技术，有插件系统和社区功能。
- Devv：面向程序员的 AI 搜索引擎，提供编程等领域专业建议和指导。
- Phind：专为开发者设计，利用大型语言模型提供相关搜索结果和动态答案，擅长处理编程和技术问题。
关于提升 AI 搜索准确度和多模态检索：
- 提升准确度的方法：通过提示词请求大模型以思维导图形式输出答案，通过提示词请求大模型做 Function Calling 判断使用的 Agents。提示词工程是系统学科，需大量调试设计适合业务的提示词。
- 多模态检索：是提升信息密度的重要措施，随着 5G 发展，互联网信息多元化，图片/视频/音频比重增大。多模态检索要获取不同形式信息聚合参考，实现困难，涉及海量信息源处理和识别，现阶段可基于谷歌搜索，先使用其图片/视频检索 API 拿到匹配内容，再通过 OCR 图片识别/音视频转录等方法获取文本内容。
ThinkAny 的相关情况：
- 冷启动：未提及具体冷启动方式。
- 产品特性：
  - 部署方案：当前线上服务采用 Vercel + Supabase 的云平台部署，后续将迁移至基于 AWS 搭建的 K8S 集群，以提升服务稳定性和动态扩容表现。
  - 功能创新：支持 Search / Chat / Summarize 三种模式，对应检索问答/大模型对话/网页摘要三种使用场景；集成包括 Llama 3 70B / Claude 3 Opus / GPT-4 Turbo 在内的 10+大语言模型；支持检索链接/图片/视频等模态内容；支持以对话/大纲/思维导图/时间线等形式输出搜索问答内容；支持检索 Google / Wikipedia / Github 等信息源的内容，作为搜索问答的挂载上下文。此外，还开源了一个 API 项目 rag-search，实现联网检索功能，并对检索结果进行重排和获取详情内容，得到准确度不错的检索结果。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

以下是一些推荐的AI搜索引擎：1.秘塔AI搜索：由秘塔科技开发，提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能，旨在提升用户的搜索效率和体验。1.Perplexity：一款聊天机器人式的搜索引擎，允许用户用自然语言提问，使用生成式AI技术从各种来源收集信息并给出答案。1.360AI搜索：360公司推出的AI搜索引擎，通过AI分析问题，生成清晰、有理的答案，并支持增强模式和智能排序。1.天工AI搜索：昆仑万维推出的搜索引擎，采用生成式搜索技术，支持自然语言交互和深度追问，未来还将支持图像、语音等多模态搜索。1.Flowith：一款创新的AI交互式搜索和对话工具，基于节点式交互方式，支持多种AI模型和图像生成技术，提供插件系统和社区功能。1.Devv：面向程序员的AI搜索引擎，专注于提供编程、软件开发和人工智能等领域的专业建议和指导。1.Phind：专为开发者设计的AI搜索引擎，利用大型语言模型提供相关的搜索结果和动态答案，特别擅长处理编程和技术问题。这些AI搜索引擎通过不同的技术和功能，为用户提供更加精准、高效和个性化的搜索体验。内容由AI大模型生成，请仔细甄别

工具：我做了一个 AI 搜索引擎

通过提示词请求大模型以思维导图的形式输出答案通过提示词请求大模型做Function Calling判断使用的Agents提示词工程是一个很系统的学科，有实操指南，有方法论。不能一招通吃，只有经过大量调试，才能设计出一套适合自身业务的提示词。1.多模态检索Multi Mode提升AI搜索的关键步骤是保证检索到的信息密度。只拿信息源检索返回的摘要内容肯定不够，前面我们也提到了要并行获取多个链接的详情内容。多模态检索是提升信息密度的一个重要措施。随着5G的发展，互联网上的信息越来越多元化，图片/视频/音频占了很大的比重。多模态检索就是为了尽可能多的获取不同形式的信息，再聚合起来作为引用参考。多模态检索的实现是非常困难的。涉及到海量信息源的处理和识别。现阶段可以在谷歌搜索的基础上完成多模态检索的需求。第一步我们可以使用谷歌的图片/视频检索API，拿到跟query匹配的图片/视频内容。第二步要做的工作是通过OCR图片识别/音视频转录等方法，拿到多模态信息的文本内容。

工具：我做了一个 AI 搜索引擎

ThinkAny当前的线上服务采用的是Vercel + Supabase的云平台部署方案。用户量和数据量起来之后也有会比较大的性能瓶颈，目前也在基于AWS搭建自己的K8S集群，后续迁移过来，在服务稳定性和动态扩容方面会有更好的表现。除了以上三个核心问题之外，ThinkAny五月初发布的第二个大版本，在功能差异化方面做了很多创新。1.多模式使用Multi-Usage-Mode支持Search / Chat / Summarize三种模式，对应检索问答/大模型对话/网页摘要三种使用场景。202406191635071.多模型对话Multi-Chat-Model集成了包括Llama 3 70B / Claude 3 Opus / GPT-4 Turbo在内的10+大语言模型。1.多模态检索Multi-Mode-Search支持检索链接/图片/视频等模态内容1.多维度输出Multi-Form-Output支持以对话/大纲/思维导图/时间线等形式输出搜索问答内容。202406251501281.多信源检索Multi-Retrieve-Source支持检索Google / Wikipedia / Github等信息源的内容，作为搜索问答的挂载上下文。另外，ThinkAny还开源了一个API项目：rag-search，完整实现了联网检索功能，并对检索结果进行重排（Reranking）/获取详情内容（Read Content），最终得到一份准确度还不错的检索结果。