以下是一些可以抓取公众号文章的方法和相关信息:
我们可以通过读这个SQLiteDB或者获取RSS XML页面http://127.0.0.1:4000/feeds/all.atom,获取到更新的公众号,个人选择在公众号订阅不太多时,建议使用分析XML页面比较简单,其实都不难。这样我们就可以写个程序获得公众号的更新文章,因为本地部署,无法直接将文章同步到Coze,所以我选择使用多维表格(当在线数据库,事实飞书多维表格后台也是使用类似redis或TiDB这样的数据库实现的)及飞书机器人API的方式来实现中间数据的传递。我们只要在多维表格中设置一个状态转换,就可以知道文章是否已经被解读和推送,后面我还想将文章解读得到关键词来作为词云和键值搜索,实现文章的RAG,这是后话,这里先不这么复杂。然后我们就可以在Coze上拱建工作流。
最近[wiseflow](https://github.com/TeamWiseFlow/wiseflow)首席情报官很火,到处在转发其Demo视频,但仔细搜了一下,几乎没有教程和有人搭建成功的案例。代码更新也是停留在2周前了。查看了下代码(https://github.com/TeamWiseFlow/wiseflow/blob/master/dashboard/get_search.py),发现其实就是用了爬虫通过搜狗搜索公众号内容来实现,殊不知几年前我就用这个(爬Sogou的方式)发现其实是会触发Sogou和微信公众号反爬robots.txt的。所以这个方案不可行,而且wiseflow还是得依赖收费的OpenAI API的。有没有可行的Free方案?这里我详细介绍一种通过文章链接订阅公众号,定时推送情报消息,并实现情报CoT问答的一种方式。先上效果图:再上架构:搭建情报官Agent全过程[heading2]0x01 wewe-rss[content]建议使用Docker(假设已经装上)浏览器打开:http://127.0.0.1:4000也可以http://wewe-rss服务的IP:端口为上面设置的外部端口/点开输入Dash管理页面密码:先点帐号管理,然后点“添加读书帐号”(即使用微信读书来实现公众号订阅),扫码添加帐号然后在公众号源上,点添加然后将你想订阅的公众号的一篇文章链接粘贴并点确定即可订阅公众号文章。譬如:我们收集AI相关信息的公众号。但是建议不要太过贪心短时间订阅太多公众号,并且不要订阅太多公众号(经测试最好不要超40个)。然后在本地data/目录就会生成一个SQLite数据库文件wewe-rss.db
我们再来看看这个流程中每一步都涉及到哪些核心要素:1、抓取公众号内容:首先先在平台搜搜有没有现成的插件,Coze平台确实有一些读取公众号内容的插件,但是都已经荒废了,用不了了。所以现在要么写爬虫自己抓(我不会啊……),要么就看看有没有现成的服务,可以通过API的方式直接调用。这时候想起来原来折腾RSS订阅的时候,有个平台叫「瓦斯阅读」,可以稳定的抓取公众号的内容,用这个先试试,成功获取刘润公众号的内容!但是马上新的问题就出现了,平台上公众号也太不全了吧,我搜了10个,有7个都没有(晕倒),比如搜索Coze的官方账号就查无此人。看来还得找找其他的方案,功夫不负有心人,在GitHub上有个项目叫做WeWe RSS。这个工具可以通过微信读书的方式,订阅公众号,感觉可行!看着也挺优雅!2、公众号内容总结:这个主要就是依靠大模型的能力了,总结任务应该算是大模型最擅长的任务之一了吧,字节的豆包大模型应该就可以胜任。这步主要涉及一个批量化操作:批量对抓取到的公众号内容进行总结,可以使用「批处理」功能搞定,后边会有详细介绍。3、定时推送到微信:这里头有两个点:一个是定时,这个Coze平台的触发器可以实现;另一个是推送到微信,Coze平台没有这类的插件,看来还得找第三方API的方案解决。