以下是为您推荐的开源免费的使用 LLM 的爬虫工具:
同时,对于爬虫工具的选择,还需根据您的具体需求和技术熟悉程度来决定。
[Reader:jina开源的网页内容爬取工具](https://jina.ai/reader/)[content]将网络信息灌输到大语言模型(LLM)中是实现信息实体化的关键步骤,但这一过程充满挑战。最直接的方法是直接抓取网页内容并提取其HTML数据。然而,抓取操作往往复杂且容易受到封锁,且原始HTML往往包含大量无用的元素,如多余的标记和脚本代码。Reader API解决了这些问题,它能从网址提取出核心内容,并将其转化为干净、易于大语言模型处理的文本,确保为你的AI智能体及RAG系统提供高品质的数据输入。[heading2][CiCi:字节AI聊天机器人推出客户端和浏览器插件](https://www.ciciai.c[content]字节的豆包或者CiCi虽然移动版的体验非常离谱,过于想把每个能力都在界面上展示了。但是网页是真不错,尤其是海外版本还避免了模型问题,浏览器插件和客户端也还行。特别是浏览器插件支持翻译和总结,翻译体验做的很好,总结的内容和客户端还是同步的。有需求的可以白嫖一下。[heading2][Perplexity-Inspired LLM Answer Engine:开源的AI搜索应用[content]一个开源的类似Perplexity的AI搜索应用,含构建复杂答案引擎所需的代码和指令,利用Groq、米斯特拉尔人工智能的Mixtral、Langchain.JS、勇敢搜索、服务器应用编程接口和开放人工智能的功能。该项目旨在根据用户查询有效返回来源、答案、图像、视频和后续问题,是对自然语言处理和搜索技术感兴趣的开发人员的理想起点。
爬虫行业数据对于常识性内容,需要和产品、项目和相关内容专家确认范围,先请判断需要哪些论文或者文本,网站,或者是网站上面存有的文件等等。如果是下载好的论文和文本放在本地放在第二阶段处理。这里第一阶段,我们主要用网络爬虫的方法进行爬取,针对于网页的文本和图片进行爬取。我在工程事件里采用的爬虫主要是用python语言的scrapy库,在crawlab可以做到分布式爬取,非常高效。这里有教程。Scrapy入门教程|菜鸟教程(runoob.com)https://www.runoob.com/w3cnote/scrapy-detail.html快速教程(crawlab.cn)https://docs.crawlab.cn/zh/guide/basic-tutorial/#%E5%88%9B%E5%BB%BA%E7%88%AC%E8%99%AB界面非常友好,可以同时跑好多任务做到csv或json导出举个例子,我这里要爬取国家基础教育资源网的实验材料。这种有结构清晰的网页比较好爬取按教程里做网页结构分析,一次可以跑很多个网页任务。然后获得如下内容:比如这里获取到网页内容和网页指向的文件等等...这里也有一个开源的爬虫工具很好用,GPT Crawler,主要运用typescript进行数据爬取。这里有链接GitHub:https://github.com/BuilderIO/gpt-crawler爬虫方法只能针对一个网址里包含某一系列内容进行爬取,即对于每个网址需要个性化定制爬虫脚本。而且在GPT Crawler里,我尝试过爬虫,认为它自由度不是很高,无法handle多变多样的网页,也可能是我对typescript不熟的原因,我强烈推荐用scrapy或者美丽汤BeautifulSoup,当然别的语言也可以,但我主要用python。
相比于Cursor,Devin的一个很大的优势是它可以使用更多的工具。比如可以调用浏览器进行搜索,可以浏览网页,甚至可以调用它自己的大脑,用LLM的智能对内容进行分析。这些在Cursor里都是不支持的,但好消息是,因为我们可以通过.cursorrules直接控制给Cursor的prompt,而且它又有运行命令的能力,因此这又构成了一个闭环。我们可以事先准备好一些写好的程序,比如Python库或者命令行,然后在.cursorrules里面向它介绍这些工具的用法,这样它就可以learning on the fly,自然而然的学会如何使用这些工具来完成它的任务。而事实上,这些工具本身也可以使用Cursor在一两分钟内写出来。比如对于网页浏览这个工具,我在[开源的项目](https://github.com/grapeot/devin.cursorrules)里就用Cursor做了一个参考实现。其中有一些需要注意的技术决策,比如为了实现对含有JavaScript内容的网页的抓取,我们在这里不使用Python自己的request库,而是使用playwright之类的浏览器。同时,为了更好地跟LLM沟通,方便它对后续内容的理解和抓取,我们并没有单纯地使用beautiful soup来提取这个网页的文本内容,而是将它按照一定规则转化成了markdown格式,因而保留了它的class name和超链接等等更细节的基础信息,通过这样的方式,在更底层的方面支持LLM撰写后续的爬虫。类似的,对于搜索的工具,有一个小坑是,不论是Bing还是Google,它们的API的搜索质量都远远不如客户端,这主要是历史原因造成的,API和网页端分别是不同的组来负责,但是duckduckgo则没有这样的问题,因此我们使用的参考实现用的是duckduckgo的免费API。