Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何根据文本内容从在线图片库、本地图片库中精准检索出与其文本内容相对应的图片?有没有对应的工作流推荐?

Answer

以下是根据文本内容为您整理的从在线图片库、本地图片库中精准检索对应图片的方法和工作流推荐:

在线图片库检索

  • 利用公众号搜索同行的封面图。例如,在微信中搜一搜相关关键词,如“Claude”,查看文章中的封面图。若正文里没有封面图,可使用壹伴浏览器插件的“查看封面”按钮(需会员),或者使用秘塔 AI 搜索工具,输入文章链接获取封面。工具链接:https://www.mgpaiban.com/tool/wxfm.html 。

本地图片库检索

  • 对于一些特定的设计工具,如星流一站式 AI 设计工具,其左侧图片案例板块具有图像筛选功能,包括根据正常生图参数进行推荐、推荐热门图片以及输入需求描述进行搜索。同时,还可以通过点击“发送到画布”将图像发送到“无限画布”中,或者进行生图参数的整体或单个调取。

在图像检索过程中,还涉及到一些其他相关操作,如视频理解模型测试、图像风格化转换、OCR 识别、图片分享工作流、智能抠图、画板操作与背景添加、品牌 LOGO 添加与自适应调整、图像流与工作流结合,以及在图像与文本处理工作中的调试与优化,包括获取文本信息与调整提示词、处理图像流与添加参数、解决排版与发布中的问题等。

Content generated by AI large model, please carefully verify (powered by aily)

References

0基础跨界AI编程共学 零基础手搓AI拍立得-银海

[heading2]总结拍立得工作流相关介绍视频理解模型测试:尝试上传视频进行理解测试,可根据画面解读,效果较好,还对比了不同模型。图像风格化转换:通过添加风格滤镜实现图像风格转换,如将皮卡丘转换为粘土风格。OCR识别:对图片进行OCR识别,获取图片中的文本信息,对识别结果进行调整和优化。图片分享工作流:介绍了图片分享的工作流,包括输入图片和文本信息,利用画板生成分享卡片,还提到串联多个工作流及更新图片和推广语的方式。利用图像流和工作流生成完整图片及相关操作图像流中的智能抠图:在图像流中,选择智能抠图能力对商品图片如电饭锅进行抠图,并测试不同复杂程度图片的抠图效果。画板操作与背景添加:在画板中添加抠图元素,调整尺寸和位置,通过搞定设计寻找合适的背景模板并添加。品牌LOGO添加与自适应调整:添加品牌LOGO,根据自适应效果调整图片显示,使电饭锅完整显示。图像流与工作流结合:创建工作流,将图像流与工作流结合,通过图像理解和OCR生成文案标题和文案,以生成完整图片。图像与文本处理工作中的调试与优化获取文本信息与调整提示词:探讨了如何获取文本信息,通过模仿示例风格输出,发现结果不理想,需要通过提示修饰来接近期望风格。处理图像流与添加参数:在图像流处理中,需要给文本添加占位符、参数,并调整相关设置。排版与发布中的问题:在排版与发布过程中,遇到文本居中、元素搭配等问题,虽有优化空间但仍存在部分未解决的问题。

夙愿:AI 工作流,赋能我的十倍增长

如果你不喜欢用模板,觉得风格单调,还有个思路就是根据文章内容找一张匹配的封面。此时,你会上哪找封面?百度图片搜索?谷歌图片搜索?某某图片网站?nonono,最快的方法当然是"在有鱼的地方钓鱼"!哪里的"鱼"(也就是封面)最多呢?当然是公众号了,去搜一下同行的封面是什么样的,直接"拿来主义"就行。比如我上面这篇写Claude的文章,直接去微信搜一搜"Claude"。你看第三张图,带有表情包属性的骚图,在百度、谷歌上是很难搜到的。打开一看,这张图已经在正文里了,直接复制过来就好。那要是正文里没有封面图怎么办?还记得我们之前安装的壹伴浏览器插件吗,用浏览器打开这篇文章,插件里有个"查看封面"按钮,点一下就能复制保存封面了。但我发现,壹伴浏览器插件获取封面,需要会员才能使用,有时候没买会员的时候,就用不了,所以我去找了其他获取微信公众号文章封面的方法。那怎么获取微信公众号文章封面?答:最快的方法当然就是搜索,而搜索,最快的方法就是使用AI搜索工具,这里用的是秘塔AI搜索。稍微一搜,就找到了一个在线工具。这个在线工具输入一个文章链接,即可获取封面,好用。工具链接:https://www.mgpaiban.com/tool/wxfm.html为了防止下一次找不到了,又要重新打开秘塔去搜索,我把这个网站收藏到了我的文件夹里

星流一站式 AI 设计工具

左侧图片案例板块中包含了大量的图像例图与生图信息,滑动鼠标到图像的“info”区域可直接将图像发送到画布与生图信息调取。[heading4]图像筛选功能[content]1.推荐:根据你正常进行的生图参数(模型、提示词)进行推荐,比如你正在生成女性摄影方向的图,图片推荐中就会向你推荐这一类型的图。2.热门:向你推荐浏览量最高的图片3.搜索:输入对需求图像的描述,进行图像搜索。[heading4]图像调取[content]1.点击“发送到画布”直接将图像发送到“无限画布”中[heading4]生图参数调取[content]整体调取:点击“发送到生成器”将全部参数进行调取单个调取:可点击右侧单独的发动键调取单个参数

Others are asking
朗读文本的ai工具有哪些
以下是一些常见的朗读文本的 AI 工具: 1. 剪映中的文本朗读功能:可将输入的文本转换成剪映系统自带的各种成品音色,如四郎等,选择合适音色点击开始朗读即可生成。 2. DubbingX:一款不错的配音工具。 3. Eleven Labs:功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 4. Speechify:人工智能驱动的文本转语音工具,可将文本转换为音频文件,可在多种平台使用。 5. Azure AI Speech Studio:提供支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供自定义的语音模型。 6. Voicemaker:可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用。 您可以根据自己的需求选择适合的工具。
2025-04-14
推荐一下从文本生成播客音频的AI 工具
以下是一些可以从文本生成播客音频的 AI 工具: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :Wondercraft 使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 此外,还有 NotebookLlama:Meta 的播客生成教程,它使用 Llama 模型从 PDF 中提取文本,生成干净的.txt 文件,转化文本为播客转录,创造富有创意的内容,对转录进行戏剧化处理,提高互动性和吸引力,最终将文本转换为播客音频,支持多种 TTS 模型。详细介绍:
2025-04-12
请为我生成一些提示词以用于将视频中的对话转化为文本形式
以下是为您生成的一些用于将视频中的对话转化为文本形式的提示词: 1. 角色:专业视频转文本工作者 2. 版本:1.0 3. 描述:能够准确、清晰地将视频中的对话转换为文本 4. 目标:完整、无误地将视频中的对话转化为易于理解的文本 5. 限制:不遗漏重要信息,不添加主观内容 6. 技能:熟练掌握语音识别和文字转换技巧 7. 工作流程:先仔细聆听视频对话,然后逐句转换为文字,注意标点和语法的正确使用 8. 初始化:您好,我准备开始将视频对话转换为文本 事件驱动句式: 1. As the video plays... 2. When the speakers start talking... 3. At the beginning of the video... 空间锁定技巧: 1. on the left side of the screen... 2. behind the main character... 3. from the top corner of the frame... 动态呼应原则: 1. swaying with the background music... 2. reacting to the other characters' actions... 3. matching the tone of the video...
2025-04-11
我是一个新手,请给我一些AI文本工具的操作指南
以下是为您提供的一些 AI 文本工具的操作指南: AI 内容检测工具 1. 功能:提供免费的 AI 内容检测工具,可识别文本是否由 AI 生成。 使用方法:将文本粘贴到在线工具中,点击检测按钮,系统会提供分析结果。 2. GPTZero 功能:专门设计用于检测由 GPT3 生成的内容,适用于教育和出版行业。 使用方法:上传文档或输入文本,系统会分析并提供报告,显示文本是否由 GPT3 生成。 3. Content at Scale 功能:提供 AI 内容检测功能,帮助识别文本是否由 AI 生成。 使用方法:将文本粘贴到在线检测工具中,系统会分析并提供结果。 TecCreative 创意工具箱 1. AI 字幕 操作指引:点击上传视频——开始生成——字幕解析完成——下载 SRT 字幕。 注意:支持 MP4 文件类型,大小上限为 50M。 2. 文生图 操作指引:输入文本描述(关键词或场景描述等)——选择模型(注意 FLUX 模型不可商用)——开始生成——下载。 3. AI 翻译 操作指引:输入原始文本——选择翻译的目标语言——开始生成。 4. TikTok 风格数字人 操作指引:输入口播文案——选择数字人角色——点击开始生成。 视频默认输出语言和输入文案语言保持一致,默认尺寸为 9:16 竖版。 5. 多场景数字人口播配音 操作指引:输入口播文案——选择数字人角色和场景——选择输出类型——点击开始生成。 视频默认输出语言和输入文案语言保持一致。 AI 文章排版工具 1. Grammarly 不仅是语法和拼写检查工具,还提供排版功能,可改进文档整体风格和流畅性。 2. QuillBot AI 驱动的写作和排版工具,可改进文本清晰度和流畅性,保持原意。 3. Latex 虽不是纯粹的 AI 工具,但广泛用于学术论文排版,使用标记语言描述文档格式,有许多 AI 辅助的编辑器和插件简化排版过程。 4. PandaDoc 文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune AI 写作助手,可重新表述和改进文本,使其更清晰专业,保持原始意图。 6. Overleaf 在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的 AI 文章排版工具取决于您的具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 受欢迎,因其提供强大排版功能和广泛学术支持。对于一般文章和商业文档,Grammarly 和 PandaDoc 等工具可能更适用。
2025-04-11
AI文本工具操作文档
以下是为您整理的一些 AI 文本工具的操作文档: AIGC 论文检测网站 1. 功能:提供免费的 AI 内容检测工具,可识别文本是否由 AI 生成。 使用方法:将文本粘贴到在线工具中,点击检测按钮,系统会提供分析结果。 2. GPTZero 功能:专门设计用于检测由 GPT3 生成的内容,适用于教育和出版行业。 使用方法:上传文档或输入文本,系统会分析并提供报告,显示文本是否由 GPT3 生成。 3. Content at Scale 功能:提供 AI 内容检测功能,帮助用户识别文本是否由 AI 生成。 使用方法:将文本粘贴到在线检测工具中,系统会分析并提供结果。 【TecCreative】帮助手册 1. 创意工具箱 AI 字幕 智能识别视频语言并生成对应字幕,满足海外多国投放场景需求。 操作指引:点击上传视频——开始生成——字幕解析完成——下载 SRT 字幕。注意:支持 MP4 文件类型,大小上限为 50M。 文生图 仅需输入文本描述,即可一键生成图片素材,海量创意灵感信手拈来! 操作指引:输入文本描述(关键词或场景描述等)——选择模型(注意 FLUX 模型不可商用)——开始生成——下载。 AI 翻译 支持多语种文本翻译,翻译结果实时准确,助力海外投放无语言障碍! 操作指引:输入原始文本——选择翻译的目标语言——开始生成。 TikTok 风格数字人 适配 TikTok 媒体平台的数字人形象上线,100+数字人模板可供选择,助力 TikTok 营销素材生产无难度! 操作指引:输入口播文案——选择数字人角色——点击开始生成。视频默认输出语言和输入文案语言保持一致,默认尺寸为 9:16 竖版。 多场景数字人口播配音 支持生成不同场景下(室内、户外、站姿、坐姿等)的数字人口播视频,一键满足多场景投放需求! 操作指引:输入口播文案——选择数字人角色和场景——选择输出类型——点击开始生成。视频默认输出语言和输入文案语言保持一致。 工具教程:AI 漫画 Anifusion 网址:https://anifusion.ai/ ,twitter 账号:https://x.com/anifusion_ai 功能: AI 文本生成漫画:用户输入描述性提示,AI 会根据文本生成相应的漫画页面或面板。 直观的布局工具:提供预设模板,用户也可自定义漫画布局,设计独特的面板结构。 强大的画布编辑器:在浏览器中直接优化和完善 AI 生成的艺术作品,调整角色姿势、面部细节等。 多种 AI 模型支持:高级用户可访问多种 LoRA 模型,实现不同的艺术风格和效果。 商业使用权:用户对在平台上创作的所有作品拥有完整的商业使用权,可自由用于商业目的。 使用案例: 独立漫画创作:有抱负的漫画艺术家无需高级绘画技能即可将他们的故事变为现实。 快速原型设计:专业艺术家可以在详细插图之前快速可视化故事概念和布局。 教育内容:教师和教育工作者可以为课程和演示创建引人入胜的视觉内容。 营销材料:企业可以制作动漫风格的促销漫画或用于活动的分镜脚本。 粉丝艺术和同人志:粉丝可以基于他们最喜欢的动漫和漫画系列创作衍生作品。 优点: 非艺术家也可轻松进行漫画创作。 基于浏览器的全方位解决方案,无需安装额外软件。 快速迭代和原型设计能力。 创作的全部商业权利。 缺点:(未提及)
2025-04-11
AI文本工具
以下是关于 AI 文本工具的相关信息: AI 文章排版工具: AI 文章排版工具主要用于自动化和优化文档的布局和格式,特别是在处理学术论文和专业文档时。以下是一些流行的工具: 1. Grammarly:不仅是语法和拼写检查工具,还提供排版功能,可改进文档风格和流畅性。 2. QuillBot:AI 驱动的写作和排版工具,能改进文本清晰度和流畅性,保持原意。 3. Latex:常用于学术论文排版,使用标记语言描述格式,有许多 AI 辅助的编辑器和插件。 4. PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune:AI 写作助手,重新表述和改进文本,使其更清晰专业,保持原始意图。 6. Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 受欢迎;对于一般文章和商业文档,Grammarly 和 PandaDoc 等更适用。 在线 TTS 工具: Text to Speech(TTS)将文本转换为自然的语音输出。在 WaytoAGI 的工具网站上有一系列推荐:https://www.waytoagi.com/sites/category/50 。以下是几个编辑精选的工具: 1. Eleven Labs:https://elevenlabs.io/ ,功能强大且多功能的 AI 语音软件,能生成逼真、高品质音频,可根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,人工智能驱动的文本转语音工具,可作为多种应用使用,用于收听网页、文档等。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,提供支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供自定义语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,适合为视频制作画外音或帮助视障人士。 AIGC 论文检测网站: 1. :提供免费的 AI 内容检测工具,可识别文本是否由 AI 生成。使用方法是将文本粘贴到在线工具中,点击检测按钮获取分析结果。 2. GPTZero:专门设计用于检测由 GPT3 生成内容的工具,适用于教育和出版行业。使用时上传文档或输入文本,系统会分析并提供报告。 3. Content at Scale:提供 AI 内容检测功能,将文本粘贴到在线检测工具中,系统会分析并提供结果。 这些工具和网站可帮助教育机构、研究人员和编辑识别 AI 生成的内容,确保学术和出版的原创性和诚信。可根据具体需求选择适合的工具进行检测。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-11
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
我是一个实体店家,我怎么能利用AI产生内容进而帮助我在流量平台拓客
以下是一些利用 AI 为实体店在流量平台拓客的方法和思路: 1. 借助抖音平台:利用抖音对实体商家的流量扶持,购买 AI 抖音发广告的软件。这需要懂软件开发的技术人员,并且熟悉抖音。 2. 利用 AI 私域做客户培育/用户旅程:通过 AI 软件自动跟进和培育客户,需求是懂软件开发的技术人员且熟悉微信。 3. 打造特定领域的 AI 工具:比如针对法律、健康、财务、教育、销售、HR 等领域,开发如“AI 合同助手”“AI 健康管家”“AI 课程生成器”“AI 销售助理”等垂类工具。 4. 作为引流者:把 AI 工具做成“公众号插件”“小程序入口”或“微信机器人”进行推广,获取分成。 5. 参考优秀作品:如商业综合体 AI 伴侣、客流诊断师、跨境商品不求人、公私域全流程内容规划师、公众号 10W+爆文工厂、营销内容文案合规检查、提示词定制神器、Nicole 咖啡门店分析师、3C 软文文案撰写、网购评论助手、万能 AI 营销助手、贴心平替推荐精灵、产品一键生成一篇高质量的知乎种草文、One thing AI 目标达成教练、润物等,从中获取灵感和思路。
2025-04-15
如何识别网页内容
识别网页内容通常可以通过以下步骤实现: 1. 内容识别:使用智能算法分析网页的 HTML 结构,确定网页的主要内容区域。 2. 文本提取:在识别出内容区域后,提取这些区域的文本内容,包括从 HTML 标签中获取可见文本,同时忽略脚本、样式和其他无需翻译的代码。 3. 预处理:对提取出的文本进行处理,清除不必要的空格、特殊字符和格式信息,进行标准化。 4. 翻译调用:将预处理后的文本拼接到 Prompt 模板中请求相关模型的 API 进行翻译。 5. 结果整合:翻译完成后,将原文和译文对照整合回网页、字幕中,常见的展示形式有原文保持不变,译文以悬浮框、下划线注释或平行文本呈现。 6. 用户界面交互:用户可通过鼠标悬停、点击等操作控制翻译的显示与否,工具会根据用户操作实时显示或隐藏译文。 另外,在获取网页内容时,初版提示词实验中对大模型对话产品的外链解析能力依赖较大,但这种方式易受平台反爬机制制裁。转换思路,通过用户浏览器以浏览器插件形式本地提取网页内容是一种稳定且经济的解决方案。开发时,可拿着初版提示词询问 AI 来确定需要插件获取哪些网页元素。例如 SeeAct 能力可以在多种不同网站上识别网页上的各种元素,执行不同任务。
2025-04-15
我想做一个,基于我个人知识库的chatbot,以供我随时搜索和提问,且优先搜索知识库内的内容而非联网搜索,你有什么建议吗?
以下是为您提供的关于创建基于个人知识库的 chatbot 的建议: 1. 选择合适的平台和工具:例如可以考虑使用飞书智能伙伴创建平台(Aily)或扣子(https://www.coze.cn/home)等。 2. 数据分段储存:由于大模型的上下文长度有限制,需要将上传的资料根据特定符号或字符长度进行分段,如将 8000 字文档按每 800 字分成一个片段储存。 3. 增强检索:当用户输入问题,大模型会根据相似度检索出若干最相关的数据片段,再据此生成答案,这一技术称为 RAG(检索增强生成)。 4. 配置知识库: 在 Bot 内使用知识库: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 (可选)添加知识库后,可以在自动调用下拉界面内,调整知识库的配置项,如最大召回数量、最小匹配度、调用方式等。 在工作流内使用 Knowledge 节点: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入工作流页面,并打开指定的工作流。 在左侧基础节点列表内,选择添加 Knowledge 节点。 5. 注意使用限制:单用户最多创建 1000 个知识库,文本类型知识库下最多支持添加 100 个文档,单用户每月最多新增 2GB 数据,累计上限是 10GB。 此外,知识库可以解决大模型幻觉、专业领域知识不足的问题,提升大模型回复的准确率。您可以将知识库直接与 Bot 进行关联用于响应用户回复,也可以在工作流中添加知识库节点,成为工作流中的一环。
2025-04-14
mcp 的内容
MCP(模型上下文协议)是一种创新的开放协议,由 Anthropic 公司在 2024 年 11 月推出并开源。 其主要特点和功能包括: 统一了交互标准,是链接所有 AI 应用与工具的桥梁,兼容所有 AI 应用。 具有三大功能:工具(Tools),底层使用 Function call 实现,与 OpenAI 格式兼容;资源(Resources),为 AI 提供参考信息;提示词(Prompts),预设对话模板。 主要接口路径包括获取工具列表、调用工具、获取资源列表、读取资源内容、获取提示词列表、获取提示词内容等。 转换步骤包括客户端向 MCP 服务器请求工具列表,将 MCP 工具定义转换为 Function call 格式,发送 Function Call 定义给 LLM,接收 LLM 生成的 Function call,将 Function call 转为 MCP 工具调用,发送工具调用结果给 LLM。 MCP 就像一个“转接头”或“通用插座”,其核心作用是统一不同外部服务,通过标准化接口与 AI 模型对接。它与传统 API 的关键区别在于: 单一协议:MCP 像一个统一接口,只要一次整合,就能连接多个服务。 动态发现:AI 模型能自动识别并使用可用的工具,不用提前写死每个接口。 双向通信:MCP 支持类似 WebSockets 的实时双向通信,模型不仅能查询数据,还能主动触发操作。 MCP 最早由 Anthropic 公司开发,目的是帮助 AI 模型(如 Claude)更容易地连接工具和数据源,现在已成为一个开放协议,被越来越多的企业和开发者采用,逐渐成为 AI 与工具互动的新标准。 官方文档:https://modelcontextprotocol.io/
2025-04-13
知识库中的LangChain和LangGraph的内容有哪些 ?
以下是关于 LangChain 和 LangGraph 的相关内容: LangChain: LangChain 是一个由 Harrison Chase 开发的开源 Python 库,旨在支持使用大型语言模型(LLM)和外部资源(如数据源或语言处理系统)开发应用程序。 它提供了标准的接口,与其他工具集成,并为常见应用程序提供端到端链。 设计主张集中在模块化组件上,这些组件提供用于使用 LLM 的行为抽象,并为每个抽象提供实现的集合,从而允许开发人员构造新链或实现现成的链。 LangChain 和 RAG 的关系: LangChain 是一个用于构建高级语言模型应用程序的框架,提供了实现 RAG 所必需的工具和组件。 RAG 即检索增强生成,是一种结合了检索(检索外部知识库中相关信息)和生成(利用 LLM 生成文本)的技术。 LangChain 作为框架,与 RAG 的关系包括:是框架与技术的关系,允许通过模块化组件构建 RAG 应用程序,简化开发过程,提高性能,支持构建复杂的 RAG 应用。 关于大模型 RAG 应用中的 LangChain: 有从产品视角出发的分享,包括项目背景、初步体验和评测结果等。 预计会分成 3 篇分享,分别是 LangChain 框架初体验、调优思路分享、如何测评。
2025-04-12
联网检索的ai
以下是关于联网检索的 AI 的相关信息: 存在能联网检索的 AI,它们通过连接互联网,实时搜索、筛选并整合所需数据,为用户提供更精准和个性化的信息。 例如 ChatGPT Plus 用户现在可以开启 web browsing 功能实现联网。 Perplexity 结合了 ChatGPT 式的问答和普通搜索引擎的功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型。 Bing Copilot 作为 AI 助手,旨在简化在线查询和浏览活动。 还有如 You.com 和 Neeva AI 等搜索引擎,提供基于人工智能的定制搜索体验,并保持用户数据的私密性。 常见的 AI 助手采用通过联网搜索获取实时信息。当用户开启联网搜索时,助手先将用户的请求发送至搜索引擎,再将返回内容与用户输入一起提供给大模型,最终生成回答。搜索引擎在此作为实时信息源,为大语言模型提供额外的上下文。 如果希望 AI 能提供行业内部信息、或者研发的自有系统内的信息,AI 联网搜索的效果就很不好,甚至无法实现。用户可以自行搭建 AI 代理,将自有系统的数据通过 API 的形式接入 AI 助手,为大语言模型补充提供丰富的上下文信息。 MCP 协议解决了 AI 大模型与数据源集成碎片化的问题,提供统一标准,让开发者无需为每个数据源和 AI 助手单独开发连接器。通过 MCP,数据源和 AI 工具可建立安全双向连接,使 AI 在不同工具和数据集间流畅协作,实现更可持续的架构。 在完成意图识别,确认需要联网检索之后,可以对用户的 query 进行改写(Rewrite)。Query Rewrite 的目的,是为了得到更高的检索召回率。Query Rewrite 可以通过设置提示词请求大模型完成,主要包括三个维度的改写: 让提问有更精准/更专业的表达。比如用户搜索“ThinkAny”,改写后的 query 可以是“ThinkAny 是什么?”,再把问题翻译成英文“ What is ThinkAny ”,同一个问题,双语分别检索一次,得到更多的参考信息。 补全上下文,做指代消解。比如用户搜索“ThinkAny 是什么?”,得到第一次回复后继续追问“它有什么特点?”,用历史对话内容作为上下文,把第二次 query 改写成“ThinkAny 有什么特点?”,指代消解后再去检索,会有更高的召回率。 名词提取。比如用户搜索“ThinkAny 和 Perplexity 有什么区别?”,可以把“ThinkAny”和“Perplexity”两个名词提取出来,分别检索。 提升 AI 搜索准确度,另一个关键措施就是做多信息源整合。结合上面提到的意图识别和问题改写,假设用户搜索“ThinkAny 和 Perplexity 的区别是什么?”,根据意图识别,判断需要联网,并且是信息查询类的搜索意图。在问题改写阶段,提取出来“ThinkAny”和“Perplexity”两个概念名词,除谷歌检索之外,还可以检索 Wikipedia/Twitter 等信息源,拿到百科词条内容和 Twitter 的用户反馈信息,可以更好地回答这个问题。AI 搜索最大的壁垒在于数据。 内容由 AI 大模型生成,请仔细甄别。
2025-04-09
你这个知识库和检索是用什么搭建的?
我们的知识库和检索主要基于以下原理和流程搭建: 1. 文本预处理:包括去除无关字符、标准化文本(如将所有字符转换为小写)、分词等,以清洁和准备文本数据。 2. 嵌入表示:将预处理后的文本(词或短语)转换为向量。通常通过使用预训练的嵌入模型,如 Word2Vec、GloVe、BERT 等,将每个词或短语映射到高维空间中的一个点(即向量)。 3. 特征提取:对于整个问题句子,可能应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如 BERT)直接提取整个句子的表示,以捕捉句子的上下文信息。 4. 向量优化:在某些情况下,问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。 在知识库检索阶段: 1. 首先需要有一个知识库。在大模型的检索中,并非依靠传统的关键字搜索,而是依靠问题在空间中的向量位置,去寻找距离这个向量最近的其他词句,然后完成检索。 2. 要在向量中进行检索,我们的知识库会被转化成一个巨大的向量库。具体流程包括文档向量化、文档加载(从多种不同来源加载文档)、文本分割(把文档切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量的形式,并将向量数据存储到向量数据库)、检索(通过某种检索算法找到与输入问题相似的嵌入片)以及输出(把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起生成更加合理的答案)。
2025-03-25
检索有关AI入门必读书籍
以下是为您推荐的 AI 入门必读书籍: 1. 「」,有助于熟悉 AI 的术语和基础概念。 2. 「」,其中包含为初学者设计的课程。 3. GPT1 到 Deepseek R1 所有公开论文 The 2025 AI Engineer Reading List:涉及人工智能工程的 10 个领域,包括 LLMs、基准、提示、RAG、代理、CodeGen、视觉、语音、扩散、微调。如果您想从零开始,可以从此处开始。 4. 入门经典必读:作者为 ,原文地址:https://a16z.com/2023/05/25/aicanon/ 。文中分享了一份用于更深入了解现代 AI 的精选资源列表。
2025-03-17
如何设置知识库才可以提高检索效率
以下是一些提高知识库检索效率的方法: 1. 文档分块: 分块是为了后续的检索能返回更精准的答案。 避免把整个使用手册作为一个整体检索,防止返回大量无关信息。 适应模型输入限制,确保能将相关信息输入到模型中,不超出其处理能力。 提升回答质量,让大语言模型更集中地理解和回答特定问题。 优化向量表示,得到更精确的向量,提高检索准确性。 2. 选择合适的工具和平台: 如使用 Coze 时: 可以使用外贸大师产品的帮助文档进行演示。 选择其中一个文档创建知识库,如“购买后新人常见问题汇总·语雀”。 点击创建知识库,从知识库中添加知识单元,使用 Local doucuments 的方式,上传 Markdown 格式文档,注意每个问题使用“”开头。 但要注意文档的分片策略会严重影响查询结果,跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等是基于 RAG 方案自身原理导致的问题。 如使用百炼时: 在百炼控制台的中的非结构化数据页签中点击导入数据,上传相关文档。 根据文档大小,百炼需要一定时间解析,通常占用 1 6 分钟。 进入,创建新的知识库并选择上传的文件,其他参数保持默认,建立索引。 选择向量存储类型时,若希望集中存储、灵活管理多个应用的向量数据,可选择 ADB PG。 完成知识库创建后,返回,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。 特别需要注意的是,不同工具和平台可能存在各自的特点和限制,需要根据实际情况进行选择和优化。
2025-03-14
有没有路径可以围绕DS、豆包等大模型的检索结果做优化的路径
围绕 DS、豆包等大模型的检索结果做优化的路径包括以下方面: 首先,通过集成收集 AI 反馈(AIF)聊天模型完成情况,然后利用 GPT4(UltraFeedback)进行评分并二值化为偏好。其中,Step2AIF 在某种程度上是一种 selfplay,通过多模型 prompt 生成来进行 RL。在模型最终采用的 DPO 算法的 SFT 过程中,用于最终模型 SFT 所训练的 AIF 数据集与原始 pretraining 数据集在数据(tokens)序列组织构象上存在差异,这是一种 Synthetic Data 的路径,关键在于这种 Synthetic Data 与原始 Data 在特征与知识分布上的差异。 DPO 算法通俗来讲,当一个答案是好的答案时,模型要尽可能增大其被策略模型生成的概率;当一个答案是差的答案时,模型则需要尽可能降低其被策略模型生成的概率。 以上是在 RL×LLM 方面的一些探索,接下来需要将上述模型案例以及延展的思考进行沉淀,回归第一性原理进行更进一步的本质探寻,以找到两者之间隐含的共性、差异以及呈现当前技术发展路径与现状的必然性。
2025-03-04
增强检索生成
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 通用语言模型通过微调可完成常见任务,而对于更复杂和知识密集型任务,基于语言模型构建访问外部知识源的系统能使结果更符合事实、更可靠,缓解“幻觉”问题。Meta AI 的研究人员引入了 RAG 方法来完成这类任务,它把信息检索组件和文本生成模型结合在一起,可微调且内部知识修改高效,无需重新训练整个模型。 RAG 工作流程如下: 1. 检索:利用用户查询从外部知识源获取相关信息,将查询转化为向量与向量数据库比对,找到最匹配的前 k 个数据作为补充背景信息。 2. 数据库索引:包括离线获取数据、清理提取原始数据、转换文件格式、分块、嵌入和创建索引等步骤。 3. 增强:将用户查询和检索到的额外信息嵌入预设提示模板。 4. 生成:将问题与相关文档合并为新提示信息,由大语言模型回答问题,可选择依赖知识库或仅基于给定信息,也可融入历史对话信息支持多轮对话。 LLM 需要 RAG 的原因在于 LLM 存在一些缺点: 1. 无法记住所有知识,尤其是长尾知识,接受能力不高。 2. 知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. 输出难以解释和验证,易受幻觉等问题干扰。 4. 容易泄露隐私训练数据。 5. 规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,无学习风险。 2. 数据库数据更新敏捷,可解释且不影响原有知识。 3. 数据库内容明确结构化,降低大模型输出出错可能。 4. 便于管控用户隐私数据,可控、稳定、准确。 5. 降低大模型训练成本,新知识存储在数据库无需频繁更新模型。
2025-02-24