Chat with Wiki - 阅读大量特定网页并提取信息的大模型推荐

Answer

以下为您推荐几款能够阅读大量特定网页并提取信息的大模型：

一款 AI 浏览器插件：
- 其 idea 来自早先挖的坑，在词生卡刚火时，想进一步发挥大模型对话产品的能力，做一个真正的提示词智能体。
- 目标是输入任意文章链接后，AI 自动生成适合微信分享的文章推荐卡片。
- 为达到这一效果，大模型对话产品需完成关键步骤：自行访问链接并解析网页内容、根据提示词要求提炼标题等信息、利用 qrcode.js 库生成二维码图片、基于特定模板设计要求生成卡片样式。
- 编写的「网页分享卡片生成」词生卡 Prompt 有新的组织方法，把设计要求拆分为“设计规范”和“内容结构”，再细分为“布局与尺寸”等独立模块，并结合“内容结构”进行要求提示。这种方式具有模型通用性、提示简易性和生成稳定性的优势。
本地部署资讯问答机器人：
- 导入依赖库，包括 feedparse 用于解析 RSS 订阅源，ollama 用于在 python 程序中跑大模型。
- 从订阅源获取内容，通过函数从指定的 RSS 订阅 url 提取内容，将长文本拆分成较小的块并附带相关元数据，最终合并成列表返回。
- 为文档内容生成向量，使用文本向量模型 bge-m3，其具有支持多语言等特点。从 hf 下载好模型后，通过函数利用 FAISS 创建高效的向量存储。
伊登：
- 工作流程包括内容获取，只需输入新闻链接，系统就能自动提取核心内容。
- 开始节点输入新闻链接和视频合成插件 api_key，添加网页图片链接提取插件获取图片，使用链接读取节点提取文字内容，利用大模型节点重写新闻成为口播稿子，可使用 DeepseekR1 模型生成有吸引力的口播内容。

Content generated by AI large model, please carefully verify (powered by aily)

References

插件的idea其实来自早先挖的一个坑，在词生卡刚火那阵子，就想更进一步的发挥大模型对话产品的能力，做一个真正的提示词智能体。目标是实现输入任意文章链接后，AI自动生成适合微信分享的文章推荐卡片。为了达到这一效果，大模型对话产品需要完成以下关键步骤：1.网页爬取：自行访问链接，解析网页内容2.内容总结：根据提示词要求，提炼标题、摘要、要点等信息3.二维码生成：利用qrcode.js库，将URL转换为二维码图片4.卡片样式生成：基于特定模板设计要求（暂不考虑自适应样式主题），将卡片内容、二维码组合为精美的分享卡片理论上来说，这类词生卡任务正是大模型对话产品的天然“舒适区”。所以直接编写「网页分享卡片生成」词生卡Prompt如下：值得一提的是，通过实践探索，我发现了新的词生卡Prompt组织方法：把设计要求拆分为“设计规范”和“内容结构”，再细分为“布局与尺寸”、“字体规范”、“颜色规范”的独立模块，并结合“内容结构”进行要求提示。这种提示词组织方式有3个显著优势：1.模型通用性：采用纯Markdown格式编写，不依赖特定模型的特性，可以适配不同的大语言模型2.提示简易性：提示词结构清晰易读，便于自然语言编写，降低使用门槛。3.生成稳定性：通过清晰的模块划分和自然语言描述，避免了指令间的相互干扰，提高了AI生成样式代码的准确性和一致性

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

|导入依赖库加载所需的库和模块。其中，feedparse用于解析RSS订阅源ollama用于在python程序中跑大模型，使用前请确保ollama服务已经开启并下载好模型|从订阅源获取内容下面函数用于从指定的RSS订阅url提取内容，这里只是给了一个url，如果需要接收多个url，只要稍微改动即可。然后，通过一个专门的文本拆分器将长文本拆分成较小的块，并附带相关的元数据如标题、发布日期和链接。最终，这些文档被合并成一个列表并返回，可用于进一步的数据处理或信息提取任务。|为文档内容生成向量这里，我们使用文本向量模型bge-m3。https://huggingface.co/BAAI/bge-m3bge-m3是智源研究院发布的新一代通用向量模型，它具有以下特点：支持超过100种语言的语义表示及检索任务，多语言、跨语言能力全面领先（M ulti-Lingual）最高支持8192长度的输入文本，高效实现句子、段落、篇章、文档等不同粒度的检索任务（M ulti-Granularity）同时集成了稠密检索、稀疏检索、多向量检索三大能力，一站式支撑不同语义检索场景（M ulti-Functionality）从hf下载好模型之后，假设放置在某个路径/path/to/bge-m3，通过下面函数，利用FAISS创建一个高效的向量存储。|实现RAG

伊登：最新Deepseek+coze实现新闻播报自动化工作流

只需输入新闻链接，系统就能自动提取核心内容开始节点，入参：1、新闻链接2、视频合成插件api_key添加网页图片链接提取插件，承接开始节点的新闻链接获取网页里的图片，我们这里以1ai.net的资讯为例子，这里的资讯都比较简单，只有一张主图，标题，内容都齐全，所以适合我们来操作当我们输入1ai.net的一则新闻，发现，提取出很多链接有趣的是，第一条链接就是新闻主图，其他内容都是不重要的icon所有我们就要添加图片链接提取节点，如果我们为了节省写代码时间，直接用大模型节点帮我们提取，只拿提取的链接集合的第一条，这样新闻的主要图片就搞定了。图片链接提取提示词接着利用，调整图片的节点，将url属性的图片内容转化为image属性的图片（因为url节点在画板中是string的格式，所以必须转为img格式）现在到了文字部分，使用链接读取节点，将文字内容提取出来在提取链接后面接上一个大模型节点，用来重写新闻成为口播稿子，这里用到最强的DeepseekR1模型，来生成有吸引力的口播内容小tips，如果想要加上自己的特征，可以在提示词里写：”开头加上‘这里是伊登AI’之类的个性化台词防伪“PS：这里的deepseekR1基础版本是限额使用，我们可以在专业版手动接入DeepseekR1手动接入推理模型