Chat with Wiki - 使用llm的爬虫工具推荐下，开源免费

Answer

以下是为您推荐的开源免费的使用 LLM 的爬虫工具：

Jina 开源的网页内容爬取工具：Reader API 能从网址提取出核心内容，并将其转化为干净、易于大语言模型处理的文本，确保为您的 AI 智能体及 RAG 系统提供高品质的数据输入。
Scrapy 库（Python 语言）：在 crawlab 可以做到分布式爬取，非常高效。
GPT Crawler：主要运用 typescript 进行数据爬取。
在开源的项目中，为实现对含有 JavaScript 内容的网页抓取，不使用 Python 自己的 request 库，而是使用 playwright 之类的浏览器，并将网页内容按照一定规则转化成 markdown 格式，方便 LLM 后续的理解和抓取。

同时，对于爬虫工具的选择，还需根据您的具体需求和技术熟悉程度来决定。

Content generated by AI large model, please carefully verify (powered by aily)

References

[Reader：jina开源的网页内容爬取工具](https://jina.ai/reader/)[content]将网络信息灌输到大语言模型（LLM）中是实现信息实体化的关键步骤，但这一过程充满挑战。最直接的方法是直接抓取网页内容并提取其HTML数据。然而，抓取操作往往复杂且容易受到封锁，且原始HTML往往包含大量无用的元素，如多余的标记和脚本代码。Reader API解决了这些问题，它能从网址提取出核心内容，并将其转化为干净、易于大语言模型处理的文本，确保为你的AI智能体及RAG系统提供高品质的数据输入。[heading2][CiCi：字节AI聊天机器人推出客户端和浏览器插件](https://www.ciciai.c[content]字节的豆包或者CiCi虽然移动版的体验非常离谱，过于想把每个能力都在界面上展示了。但是网页是真不错，尤其是海外版本还避免了模型问题，浏览器插件和客户端也还行。特别是浏览器插件支持翻译和总结，翻译体验做的很好，总结的内容和客户端还是同步的。有需求的可以白嫖一下。[heading2][Perplexity-Inspired LLM Answer Engine：开源的AI搜索应用[content]一个开源的类似Perplexity的AI搜索应用，含构建复杂答案引擎所需的代码和指令，利用Groq、米斯特拉尔人工智能的Mixtral、Langchain.JS、勇敢搜索、服务器应用编程接口和开放人工智能的功能。该项目旨在根据用户查询有效返回来源、答案、图像、视频和后续问题，是对自然语言处理和搜索技术感兴趣的开发人员的理想起点。

巧妇还要种米来炊：怎么准备LLM的数据？很接地气的经验总结

爬虫行业数据对于常识性内容，需要和产品、项目和相关内容专家确认范围，先请判断需要哪些论文或者文本，网站，或者是网站上面存有的文件等等。如果是下载好的论文和文本放在本地放在第二阶段处理。这里第一阶段，我们主要用网络爬虫的方法进行爬取，针对于网页的文本和图片进行爬取。我在工程事件里采用的爬虫主要是用python语言的scrapy库，在crawlab可以做到分布式爬取，非常高效。这里有教程。Scrapy入门教程|菜鸟教程(runoob.com)https://www.runoob.com/w3cnote/scrapy-detail.html快速教程(crawlab.cn)https://docs.crawlab.cn/zh/guide/basic-tutorial/#%E5%88%9B%E5%BB%BA%E7%88%AC%E8%99%AB界面非常友好，可以同时跑好多任务做到csv或json导出举个例子，我这里要爬取国家基础教育资源网的实验材料。这种有结构清晰的网页比较好爬取按教程里做网页结构分析，一次可以跑很多个网页任务。然后获得如下内容：比如这里获取到网页内容和网页指向的文件等等...这里也有一个开源的爬虫工具很好用，GPT Crawler，主要运用typescript进行数据爬取。这里有链接GitHub：https://github.com/BuilderIO/gpt-crawler爬虫方法只能针对一个网址里包含某一系列内容进行爬取，即对于每个网址需要个性化定制爬虫脚本。而且在GPT Crawler里，我尝试过爬虫，认为它自由度不是很高，无法handle多变多样的网页，也可能是我对typescript不熟的原因，我强烈推荐用scrapy或者美丽汤BeautifulSoup，当然别的语言也可以，但我主要用python。

[Agentic AI] 搏一搏，$20变$500：一小时魔改Cursor变身Devin

相比于Cursor，Devin的一个很大的优势是它可以使用更多的工具。比如可以调用浏览器进行搜索，可以浏览网页，甚至可以调用它自己的大脑，用LLM的智能对内容进行分析。这些在Cursor里都是不支持的，但好消息是，因为我们可以通过.cursorrules直接控制给Cursor的prompt，而且它又有运行命令的能力，因此这又构成了一个闭环。我们可以事先准备好一些写好的程序，比如Python库或者命令行，然后在.cursorrules里面向它介绍这些工具的用法，这样它就可以learning on the fly，自然而然的学会如何使用这些工具来完成它的任务。而事实上，这些工具本身也可以使用Cursor在一两分钟内写出来。比如对于网页浏览这个工具，我在[开源的项目](https://github.com/grapeot/devin.cursorrules)里就用Cursor做了一个参考实现。其中有一些需要注意的技术决策，比如为了实现对含有JavaScript内容的网页的抓取，我们在这里不使用Python自己的request库，而是使用playwright之类的浏览器。同时，为了更好地跟LLM沟通，方便它对后续内容的理解和抓取，我们并没有单纯地使用beautiful soup来提取这个网页的文本内容，而是将它按照一定规则转化成了markdown格式，因而保留了它的class name和超链接等等更细节的基础信息，通过这样的方式，在更底层的方面支持LLM撰写后续的爬虫。类似的，对于搜索的工具，有一个小坑是，不论是Bing还是Google，它们的API的搜索质量都远远不如客户端，这主要是历史原因造成的，API和网页端分别是不同的组来负责，但是duckduckgo则没有这样的问题，因此我们使用的参考实现用的是duckduckgo的免费API。