用 RSS 作为唯一信息源

date
Mar 27, 2022
slug
rss-as-the-only-source-of-information
status
Published
summary
目前,我对于信息的主要方式就是依靠 RSS 来订阅一切信息,当然很多信息确实是无法直接订阅的,只能通过 RSSHub Huginn 等服务……
tags
信息源
RSS
type
Post
目前我对于信息的主要获取方式是依靠 RSS,当然很多信息确实是无法直接订阅的,只能通过 RSSHub Huginn 等服务来输出。
但是最近越发觉得收集的很多信息源是无用的,比如说人人都是产品经理、PMCAFF、还有一些博客,这些信息源的文章要么越来越重复和营销化,要么越来越套路。当然真正的原因还是现阶段它们已经很难满足我对于信息质量的要求了。
而越来越多的优质信息源只能靠付费获取了。这也许是大环境的问题,也许是内容无授权转载这个现象越来越严重(比如说少数派关闭了 RSS 的全文输出)。
但我个人觉得这是在信息爆炸的时代下必然会产生的现象,更多的人开始关注起了内容价值,同时也愿意为之付费,需求端逐渐发生了变化。
而在供给端,很多作者对于平台分发内容越来越不满,因此会更偏向于使用私域来分发他们的内容(或者是比较有价值的内容),一方面是由于私域能够直接为自己带来价值,另一方面有可能是因为想避免这种场景:我是一名循证医学拥护者(打个比方),有一天发了一篇相关的文章,其中无可避免地提起了中医,然后就被一些人喷成了“筛子”。
Newsletter 似乎成为了很多作者选择的内容输出渠道,比如说这里有一份中文 Newsletter 导航
在国外,Newsletter 的赛道中也存在着 Substack 这样的知名公司。而且根据 Campaign Monitor 的数据:全球电子邮件账户超过 39 亿个,每天发送的电子邮件超过 2930 亿封,电子邮件的平均打开率在 20%-30% 之间,点击率在 3% 左右。而 Facebook 每月有超过10亿活跃用户,Twitter 号称有2.55亿,电子邮件账户的数量是 Facebook 和 Twitter 账户总和的3倍。Facebook的帖子被看到的 6%,Tweets 的点击率通常在0.5% 之间。初次在产品沉思录 2021 年精选中看到这个数据时,我也是很吃惊的,而且这样其实也不难理解为什么 Newsletter 被认为可能会成为内容分发的重要途径了。
当然国内外环境不太一样,国内也出现了小报童 竹白 这样服务,也是相当有意思了。当然最近也看到了一些关于 RSS3 的内容,和 Web 3.0 一样,我依然无法在脑中清晰地描绘出它们具体是什么样子,只能粗略地理解为支持付费的 RSS。
不过 RSS3 毕竟还没有全面开花,还是要思考怎么解决付费信息源的订阅问题,因为有一些信息源是不支持 RSS 的,甚至不支持 Email,比如说我在少数派买的《产品沉思录》,而且还涉及到了需要登录的问题。因此只能考虑爬虫了,结合现有情况,我最终选择使用 Huginn + 在 Unraid 服务器上运行 Browserless 容器来解决。
但是又发现了一个难搞的问题:产品沉思录中的 Notion 文章比少数派上的更完整一些,所以又得思考怎么爬取 Notion。
其实爬取 Notion 也不算很麻烦,问题在于如何展示——我用的是 TinyTinyRSS ,它的文章内容似乎无法按照我定义的 HTML 来展示。
于是在试了各种办法后最终选择了将 Feed XML 中的 description 改为 iframe ,再嵌入自己用 Python 写了一个获取 Notion 链接展示 Page 内容的 API:
  1. 调用 Browserless 获取页面信息
  1. 使用 FastAPI + Jinja2 模板输出爬取的内容
  1. 使用 Redis 缓存。
notion image
绕了一大圈……最终的成果就是这样:https://github.com/xukecheng/RssGetContent(不要期望代码多么符合规范 0.0)
现在改为通过 react-notion-x 项目中 examples 去解决问题,并部署在 Vercel 上。
付费资源也有一个问题:输出的内容并不能标准化。比如说有些在知识星球或其他付费平台,那我也只能按照上述思路重新来一遍。