基于 RSS 搭建个人信息收集、处理系统的经验

本文主要分享如何搜集、生成、翻译 RSS 源,使用 RSS 阅读器订阅、处理、阅读,使用 AI 和 Logseq 记录信息,以及后续分发等。

本文提及的工具都可以在https://morerss.com/tools_zh.html查看。

一、什么是 RSS,为什么需要 RSS?在哪里找到 RSS?

1、什么是 RSS?

RSS(Really Simple Syndication)是一种基于XML标准的内容分发和聚合协议。它允许网站以标准化的格式发布内容更新,使得用户可以通过RSS阅读器或聚合器订阅多个内容源,从而在一个地方集中接收和查看更新。

RSS 有3个常见标准,RSS1、RSS2、ATOM (Atom Syndication Format),可以理解为不同的语法格式要求,具体区别此处不详细介绍,感兴趣可以自行搜索一下。

Feed:支持 RSS 标准的网址被称为 feed,中文可以称为信息源。例如本博客的 feed 是:https://www.zyzhang.com/feed/,使用 RSS 2.0 标准。

2、为什么需要 RSS?

在我看来,RSS 有以下几个显著的优点

2.1、RSS 源作为一类内容的优点

首先,RSS 背后是优质的信息,以最普遍使用 RSS 的群体博客来说,我觉得,博客有以下的典型特征:独立(否则会选择公众号),爱折腾(搭建博客可不是人人都能够的,即使并不难),爱分享,不求名利(博客是没多少流量和收入的),我很想看这类人在思考、关注什么?本来想说「更优质」的信息,但想了下其实不见得,实际上最优质的可能还是在传统媒体、专业自媒体,因为他们有商业目的,所以会更认真的写作。但是,RSS 也不仅仅是博客,也可以订阅传统媒体,例如《财新》《华尔街日报》都可以。当然也可以订阅公众号(PS.因为微信很封闭,所以订阅公众号挺难挺不稳定的,但也有方案)。

其次,现在最受欢迎的媒体,例如头条和公众号,基本都是用算法给用户推内容,结果是把用户困在信息茧房里,而 RSS 依然坚守时间线方式,让用户自己掌握自己的信息。

2.2、RSS 作为一种协议的优点

首先,某些媒体特别是博客,更新频率很低,有的甚至是年更,这样如果挨个去访问,就会很浪费时间,而使用 RSS 服务,则它更新的时候,就会主动推送给你。

其次,使用 RSS 服务,可以对信息做预处理,下段会详细说。

再次,一些 RSS 源可以直接输出全文,这样就可以直接在 RSS 阅读器阅读,体验更佳、没有广告。

3、怎么找到 RSS?

很多网站会提供 RSS,一般会以以下方式显示

3.1、直接显示「RSS」文字。

3.2、显示 RSS 图标,长得有点像放平的WIFI图标,即

img

3.3、有的网站直接提供了一键订阅的图标,例如本站首页右侧这样,点击就可以直接订阅到指定的 RSS 阅读器。

4、查找RSS的进阶方法

4.1、MoreRSS,这个网站提供中、英文的RSS源,并且显示源的订阅量,对于一些受欢迎的英文 RSS,还提供了中文翻译。但此网站还在建设中,收录量不大、功能也不完善,可以关注其更新。

4.2、有一些中文博客聚合网站,收录了多则1000+少则几百的中文博客(PS.经查世界上现存的大熊猫数量约2600只),知名的有十年之约博友圈BlogFinder 、积薪、川流 等,不一一列举了。

4.3、Feedsearch,如果在网站的首页看不到 RSS 信息,可以使用这个 RSS 源搜索服务,实测准确度很高,我用它找出来很多隐藏的 RSS 源,如果这个网站搜不到,那可能是网站确实没有提供 RSS。

4.4、RSSHub,这个网站为没有 RSS 的网站生成 RSS,强大并广受欢迎,除了博客、媒体外,还可以订阅很多社会化网络的信息,例如微博、哔哩哔哩、小红书等。

4.5 、RSSAnything ,如果 RSSHub 也没有找到需要的 RSS,可以尝试使用这个网站生成 RSS,这是我试过的效果最好的,但要看运气,有的时候效果很好,有的时候达不到期望值。

4.6、有一些针对具体的社会化媒体生成 RSS 的服务,但或者收费,或者稳定性欠佳失效,或者收费且稳定性欠佳失效(我就订阅了一个微信公众号的 RSS 服务,没用多久就失效了还不退款),想了下,就不在这里列举了,感兴趣可以直接在https://morerss.com/tools_zh.html查找。

4.7、最后的办法就是自己生成 RSS,可以使用上面说的 RSSHub,这个门槛就高了。

5、希望订阅外语信息源但外语不够好怎么办?

可以把外语信息源翻译为中文的,这里推荐的服务器是 RSS-Translator,功能强大但需要一定的能力。MoreRSS 基于 RSS-Translator 的服务,翻译了一批优质的外语信息源,可以直接订阅。

二、怎么订阅 RSS 和阅读?

有了 RSS 源后,我们需要使用专门的 RSS 阅读器来订阅他,之后就可以在阅读器里阅读。

1、常见的 RSS 阅读器

大体可以分为两种,在线 RSS 阅读器(通常也提供客户端)和本地 RSS 阅读器。

目前最受欢迎的在线 RSS阅读器是 InoreaderFeedly,我的感受是前者功能更强大,后者UI体验更佳。

我使用过并推荐的本地 RSS 阅读器是 Reeder,但仅有 IOS 和 Mac 端 ,可以直接使用 Inoreader 或 Feedly 登录并使用其上订阅源,也可以直接订阅 RSS 源,主要优点是 UI 美观、体验好。

其他的阅读器可以在https://morerss.com/tools_zh.html查找,例如有的用户会喜欢开源的版本。

Reeder 之前是我的主力阅读器,但因为现在使用不少 Inoreader 的附加功能,改为直接使用 Inoreader 在线版了。

2、订阅和阅读

因为现在主要用 Inoreader,所以就拿 Inoreader 来举例,大同小异。

2.1、订阅RSS

打开 Inoreader,点击「新增」,可以看到能订阅订阅源、Google News、Telegram等,但有些是付费功能,按需决定是否付费,因为我是重度用户,所以一直是付费的。

然后输入 feed 地址,回车就可以订阅,之后可以把 feed 分配到不同的目录。

2.2、导入和订阅 OPML

OPML(Outline Processor Markup Language)是一种基于XML的文件格式,用于表示网页内容的大纲或结构。简单说,OPML 就是一批 feeds 的聚合,通常会有名字、url、feed url、目录。OPML 主要是为了便于RSS迁移或批量订阅的。

可以在其他阅读器导出 OPML,MoreRSS 也提供指定主题的 OPML 下载(注意此功能还不完善)。

在 Inoreader的「偏好设置」里的「导入、导出和备份」可以导入 OPML 文件。

此外,订阅 OPML 应该是 Inoread 的独家功能,反正我没看到其他的阅读器有这个功能。这个功能是直接输入一个 OPML 地址,OPML 里的 feeds 发生变化时,会自动同步到 Inoreader。

SCR-20240405-hfn.png
SCR–20240405-hfn.png

2.3、阅读

订阅之后,在页面左侧就会显示出自己订阅的 RSS,点击就能看到文章列表并阅读,Inoreader 提供一些快捷键,例如按「O」是收起或展开文章列表。

到这里就算入门了。

三、我的进阶用法

其实 RSS 本身就是为了简单而生,所以所谓进阶其实也都是很简单的,但对我来说是有些价值的,所以提一下。

1、在 Inoreader 点开文章,上面会显示一排小按钮,包含的功能有:收藏、加标签、载入文章(如果RSS只提供摘要,会尝试载入全文)、翻译、语音阅读等,都是比较实用的功能,试一下就很快会了解。

2、规则:是 Inoreader 的进阶功能,规则分为3步,当、如果、Then,列举几个我的用法:

2.1、当有新文章,如果文章标题含有「美团」「拼多多」等,Then分配标签「重点关注」。

2.2、当有新文章,如果标题或内容含有「蛇」「优惠总结」等,直接删除。

2.3、当有新的文章被加入收藏,Then 同步到 instapaper、邮箱。

3、过滤器:是 Inoreader 的进阶功能,这个功能很简单,可以删除指定目录下重复的文章,而且可以按照重复的程度删除。

4、荧光标:Inoreader 的一个实用功能,给指定关键词加不同颜色荧光,这样在一大片列表里,可以快速找到关键词。效果如下图

SCR-20240405-hdo.png
SCR–20240405-hdo.png

5、目录、优先级和标签

到写此文时,我订阅了 2781 个 feed,每天可能更新几万条内容,显然我是不可能全部读完的,所以需要有一些优先级,我主要是使用目录和标签来设定优先级。

首先,第一优先级。我有一个「A BOX」文件夹,会把必读的 feeds 放进去,每天无论多忙,「A BOX」里的是必须读完的,之所以这么命名,是因为设置了目录按照名称排序,「A BOX」会始终在最上面。

然后,第二优先级。有一些类似于「A Important」「A Blog CN」「A EN MUST」「A SM」的文件夹,这些也是有潜在的优先级排序,例如「A Important」是重要但没「A BOX」重要,一定会看但不着急,「A EN MUST」是翻译的英文信息源,「A Blog CN」是博客,内容少所以肯定能看完也不着急,「A SM」是通过 s.morerss 订阅的Telegram、微博等信息源,这类信息源的优点是是信息密度高,一个新闻正常几千字,Telegram 频道会缩略为几十字。

接着,第三优先级。

以上之外,都是进一步分类的文件夹,例如「Media CN」「Google News」等,这类动辄几万的未读,是不可能去看的。

之所以还有订阅这些,是因为有上文提及的功能,如果包含指定的关键词就加标签「重点关注」,所以第三优先级是直接浏览打了标签的内容。

最后,剩下还没读的,也没可能去读,就直接一键「全部设为已读」清空列表。

四、保存、输出、思考

到以上就算说完了,后面的和 RSS 没有关系,大略提一下,提及的软件什么也不具体介绍了。

1、读到的好的文章,如果想全文收藏,就直接点一下收藏,所有收藏的文章,会通过 Inoreader 同步到 instapaper 备份,同时,会通过 IFTTT 同步到 shoucang.zyzhang.com 作为备份,以及便于定期 review。我现在完全不使用稍后读了,因为稍后读对绝大多数人,至少对我来说属于再也不读,所以我收藏和同步的,主要是备份和再读。例如黄铮的《如创业的投资和如投资的创业》我看了不下10遍。

2、如果不需要全文收藏,但属于有价值的信息,例如某个关注公司的某个变化,会首先用 KIMI 把内容概括一下,然后记录到 Logseq 并且打上标签。Logseq 的 journals 会使用 Syncthing 同步到 VPS,然后使用 python 定期进行处理并把内容和标签分别导入到MySQL数据库,之后就可以调用不同的内容,例如直接调用打了「美团」标签所有的内容。

3、段落标题提了「思考」,主要是自我反省,在 Logseq 里有个「Thought」的标签,专门用于记录自己的思考,但使用比较少,我自我感觉和批评是:沉迷于收集信息,但属于思考信息和行动。是以后要着力改变的。

五、如果你有其他使用 RSS 的经验、技巧,欢迎评论。

《基于 RSS 搭建个人信息收集、处理系统的经验》有8条评论

  1. 感谢你的分享,很有价值,也给了我很多启发。RSS现在对于我最大的不便是很多网站没有RSS,我会尝试你说的这个服务。另一个是没有多级文件夹,不太好分类。

    回复
    • 多级文件夹需求可以配和Tags用,但我整体感觉是伪需求。我感觉像我订阅2000+的很少,一半人几十几百个很多了,其实不太用得着多级文件夹。

      回复

发表评论