Chat with Wiki - 免费的网页爬虫相关Ai工具

Answer

以下是一些免费的网页爬虫相关 AI 工具：

Hexomatic：https://hexomatic.com/
WebscrapeAI：https://webscrapeai.com/
Kadoa：https://www.kadoa.com/
GPT Crawler：https://github.com/BuilderIO/gpt-crawler 能够利用爬虫，自动抓取与整合指定 URL 地址中的各种信息，并生成一个 output.json 的数据文件。将其喂给 ChatGPT，便可快速定制您的专属 GPT，打造个人知识库或者智能助理。

此外，在开源项目方面：

在开源的项目里有用 Cursor 做的网页浏览工具的参考实现。其中为实现对含有 JavaScript 内容的网页抓取，使用 playwright 之类的浏览器而非 Python 自己的 request 库，同时为方便 LLM 理解和抓取，将网页内容按规则转化成 markdown 格式保留细节基础信息。
对于搜索工具，duckduckgo 的免费 API 被用于参考实现，因其搜索质量优于 Bing 和 Google 的 API。

Content generated by AI large model, please carefully verify (powered by aily)

References

🍓JamGPTAI Debug小助手。🔗https://jam.dev/jamgpt💡ChatGPT-2D使用ChatGPT生成二维知识图谱。🔗https://www.superusapp.com/chatgpt2d/💾Motörhead by metal.用于LLM的开源内存和信息检索服务器。🔗https://github.com/getmetal/motorhead网页抓取过去两周，冒出了许多AI驱动的网页信息自动抓取工具，虽然当前用Gen AI做网页抓取并非主流技术方案，但其优势也是显而易见的，例如，可以更好地理解分析非结构化数据，实现更精准的抓取。以下是三个比较受欢迎的AI网页抓取小工具：✅Hexomatic🔗https://hexomatic.com/✅WebscrapeAI🔗https://webscrapeai.com/✅Kadoa🔗https://www.kadoa.com/[heading4]个人数据[heading5]✅非结构化数据处理-Bloks[content]个人笔记、任务列表和会议记录自动处理。🔗https://www.bloks.app/[heading5]✅文本处理-Lettria[content]个人文本材料处理。🔗https://www.lettria.com/[heading5]✅数据处理-Quadratic[content]使用AI、Python、SQL和公式分析个人数据。🔗https://www.quadratichq.com/?ref=producthunt

GitHubDaily 开源项目列表

|名称|简述||-|-||[clone-voice](https://github.com/jianchang512/clone-voice)|一个带Web界面简单易用的声音克隆工具。可使用任何人类音色，将一段文字合成为使用该音色说话的声音，或者将一个声音使用该音色转换为另一个声音。||[Amphion](https://github.com/open-mmlab/Amphion)|一个开源的音频、音乐和语音生成整合工具包。||[Lobe Chat](https://github.com/lobehub/lobe-chat)|一键部署私人GPT/LLM的聊天机器人。支持语音合成、多模态和可扩展的插件系统，可以联网、画图、爬虫等。||[GPT Crawler](https://github.com/BuilderIO/gpt-crawler)|能够利用爬虫，自动抓取与整合指定URL地址中的各种信息，并生成一个output.json的数据文件。将其喂给ChatGPT，便可快速定制你的专属GPT，打造个人知识库或者智能助理。||[screenshot-to-code](https://github.com/abi/screenshot-to-code)|给AI看一眼截屏，便能直接生成代码。该项目可借助GPT-4 Vision的能力，直接给你将屏幕截图转换为HTML/Tailwind CSS，并利用DALL-E 3的图像生成能力，生成外观相似的图像。||[Open Interpreter](https://github.com/KillianLucas/open-interpreter)|可在命令行终端，直接调用与展示各种大模型能力。实现了视频和照片编辑、系统配置更改、自动生成并运行Demo源码，AI一对一聊天问答等功能。||[GPT Prompt Engineer](https://github.com/mshumer/gpt-prompt-engineer)|该工具便会自动帮你生成各种Prompt，自动对Prompt测试和评分，帮你尽可能找到最优项目提示。|

[Agentic AI] 搏一搏，$20变$500：一小时魔改Cursor变身Devin

相比于Cursor，Devin的一个很大的优势是它可以使用更多的工具。比如可以调用浏览器进行搜索，可以浏览网页，甚至可以调用它自己的大脑，用LLM的智能对内容进行分析。这些在Cursor里都是不支持的，但好消息是，因为我们可以通过.cursorrules直接控制给Cursor的prompt，而且它又有运行命令的能力，因此这又构成了一个闭环。我们可以事先准备好一些写好的程序，比如Python库或者命令行，然后在.cursorrules里面向它介绍这些工具的用法，这样它就可以learning on the fly，自然而然的学会如何使用这些工具来完成它的任务。而事实上，这些工具本身也可以使用Cursor在一两分钟内写出来。比如对于网页浏览这个工具，我在[开源的项目](https://github.com/grapeot/devin.cursorrules)里就用Cursor做了一个参考实现。其中有一些需要注意的技术决策，比如为了实现对含有JavaScript内容的网页的抓取，我们在这里不使用Python自己的request库，而是使用playwright之类的浏览器。同时，为了更好地跟LLM沟通，方便它对后续内容的理解和抓取，我们并没有单纯地使用beautiful soup来提取这个网页的文本内容，而是将它按照一定规则转化成了markdown格式，因而保留了它的class name和超链接等等更细节的基础信息，通过这样的方式，在更底层的方面支持LLM撰写后续的爬虫。类似的，对于搜索的工具，有一个小坑是，不论是Bing还是Google，它们的API的搜索质量都远远不如客户端，这主要是历史原因造成的，API和网页端分别是不同的组来负责，但是duckduckgo则没有这样的问题，因此我们使用的参考实现用的是duckduckgo的免费API。