以下是一些免费的网页爬虫相关 AI 工具:
此外,在开源项目方面:
🍓JamGPTAI Debug小助手。🔗https://jam.dev/jamgpt💡ChatGPT-2D使用ChatGPT生成二维知识图谱。🔗https://www.superusapp.com/chatgpt2d/💾Motörhead by metal.用于LLM的开源内存和信息检索服务器。🔗https://github.com/getmetal/motorhead网页抓取过去两周,冒出了许多AI驱动的网页信息自动抓取工具,虽然当前用Gen AI做网页抓取并非主流技术方案,但其优势也是显而易见的,例如,可以更好地理解分析非结构化数据,实现更精准的抓取。以下是三个比较受欢迎的AI网页抓取小工具:✅Hexomatic🔗https://hexomatic.com/✅WebscrapeAI🔗https://webscrapeai.com/✅Kadoa🔗https://www.kadoa.com/[heading4]个人数据[heading5]✅非结构化数据处理-Bloks[content]个人笔记、任务列表和会议记录自动处理。🔗https://www.bloks.app/[heading5]✅文本处理-Lettria[content]个人文本材料处理。🔗https://www.lettria.com/[heading5]✅数据处理-Quadratic[content]使用AI、Python、SQL和公式分析个人数据。🔗https://www.quadratichq.com/?ref=producthunt
|名称|简述||-|-||[clone-voice](https://github.com/jianchang512/clone-voice)|一个带Web界面简单易用的声音克隆工具。可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。||[Amphion](https://github.com/open-mmlab/Amphion)|一个开源的音频、音乐和语音生成整合工具包。||[Lobe Chat](https://github.com/lobehub/lobe-chat)|一键部署私人GPT/LLM的聊天机器人。支持语音合成、多模态和可扩展的插件系统,可以联网、画图、爬虫等。||[GPT Crawler](https://github.com/BuilderIO/gpt-crawler)|能够利用爬虫,自动抓取与整合指定URL地址中的各种信息,并生成一个output.json的数据文件。将其喂给ChatGPT,便可快速定制你的专属GPT,打造个人知识库或者智能助理。||[screenshot-to-code](https://github.com/abi/screenshot-to-code)|给AI看一眼截屏,便能直接生成代码。该项目可借助GPT-4 Vision的能力,直接给你将屏幕截图转换为HTML/Tailwind CSS,并利用DALL-E 3的图像生成能力,生成外观相似的图像。||[Open Interpreter](https://github.com/KillianLucas/open-interpreter)|可在命令行终端,直接调用与展示各种大模型能力。实现了视频和照片编辑、系统配置更改、自动生成并运行Demo源码,AI一对一聊天问答等功能。||[GPT Prompt Engineer](https://github.com/mshumer/gpt-prompt-engineer)|该工具便会自动帮你生成各种Prompt,自动对Prompt测试和评分,帮你尽可能找到最优项目提示。|
相比于Cursor,Devin的一个很大的优势是它可以使用更多的工具。比如可以调用浏览器进行搜索,可以浏览网页,甚至可以调用它自己的大脑,用LLM的智能对内容进行分析。这些在Cursor里都是不支持的,但好消息是,因为我们可以通过.cursorrules直接控制给Cursor的prompt,而且它又有运行命令的能力,因此这又构成了一个闭环。我们可以事先准备好一些写好的程序,比如Python库或者命令行,然后在.cursorrules里面向它介绍这些工具的用法,这样它就可以learning on the fly,自然而然的学会如何使用这些工具来完成它的任务。而事实上,这些工具本身也可以使用Cursor在一两分钟内写出来。比如对于网页浏览这个工具,我在[开源的项目](https://github.com/grapeot/devin.cursorrules)里就用Cursor做了一个参考实现。其中有一些需要注意的技术决策,比如为了实现对含有JavaScript内容的网页的抓取,我们在这里不使用Python自己的request库,而是使用playwright之类的浏览器。同时,为了更好地跟LLM沟通,方便它对后续内容的理解和抓取,我们并没有单纯地使用beautiful soup来提取这个网页的文本内容,而是将它按照一定规则转化成了markdown格式,因而保留了它的class name和超链接等等更细节的基础信息,通过这样的方式,在更底层的方面支持LLM撰写后续的爬虫。类似的,对于搜索的工具,有一个小坑是,不论是Bing还是Google,它们的API的搜索质量都远远不如客户端,这主要是历史原因造成的,API和网页端分别是不同的组来负责,但是duckduckgo则没有这样的问题,因此我们使用的参考实现用的是duckduckgo的免费API。