我自己在网页上浏览信息时,比较不喜欢各种侧边栏广告、浮动的订阅弹窗,以及底部那些没有意义的评论区。

所以过去我一直有使用「阅读模式」的浏览器插件来强化阅读体验,但实际使用下来的效果并不是很好,即便谷歌浏览器内置的这种功能都不好用。

自己过去也写过一些类似屏蔽干扰的插件,但没办法做到很完善的适配,可能针对 A 网站比较适用,但在 B 网站使用时便又不行了。

然后这几天在浏览信息时看到个不错的项目,我觉得可以很好满足只看内容正文的这种需求。

看信息介绍,这款工具是 Obsidian 的首席执行官 Steph Ango 开发的,能非常方便的从混乱的网页中剔除与主要内容无关元素,还原内容最本真的模样

不同于 Readability 这样的开源库,这款工具是为了满足更现代更结构化的内容提取需求而设计的。

使用起来非常简单,直接将内容链接扔进来,分分钟便可以获取到清晰版的正文内容。

下午我自己测试了十几个不同网站上的内容,其正文内容的呈现都没有任何问题。

所以如果你是 Markdown 笔记的拥趸,或者 Obsidian 这款笔记软件的深度用户,那这款工具就真的非常适合了。

出于好奇,我下午也搜索了解了这款工具的核心原理,发现这款工具的出众点就在于其移动端优先的设计思路。

它会利用网页的移动端样式来猜测哪些是核心元素,哪些是装饰性元素。

并通过对 DOM 节点进行打分(考虑链接密度、文字长度、特定 CSS 类名等),从而更准确地识别出导航栏、社交分享按钮等等噪音。

比如上面这个截图,就是我自己看自己博客中某篇文章的示例,做的真的非常优秀。

另外这款开源库,也是可以集成到我们自己的开发项目中的。

如果你不喜欢频繁打开工具官网,也可以尝试使用 CLI 命令行工具来直接使用,或者将这个开源库集成到自己的浏览器插件中去。


点赞(10) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部