这几天在做一个网站的内容迁移,过程中需要写一些内容抓取爬虫来做信息下载。
在做的过程中比较让我痛苦的,就是虽然都是产品详情页面,但是很多页面的模板不一样,并不规整。
这个页面不是多个区块,就是那个页面少一个区块,且不同区块直接的 ID 又不一样。
所以这种情况下,用一套简单的爬虫去处理这类信息采集就不怎么现实了。
最后任务做完,也是针对不同的页面结构,写了好几个版本的爬虫才将所有数据采集完。
正是这样的经历,让我这两天开始正式实操 AI 爬虫,因为 AI 做这类数据整理与数据清洗工具简直是小菜一碟。
我先是了解了 Firecrawl,觉得这种方案最大的好处就在于,能自动处理 JS 渲染,也能自动绕过反爬措施,最终返回干净的 Markdown 格式文本。
用这款工具做了几个 Demo 之后,继续了解了下 Jina。
Jina 的操作就更简单了,且 Jina Reader 是完全免费的,可以作为自己的替补方案。
所以综合一番搜索下来,我觉得我更想做的是一款综合的数据抓取工具,以 AI 为基础去清洗出干净的核心数据。
不然每次有数据采集需求,都需要单独去开发相应的脚本会非常耗时。
等过几天放假,再去仔细研究下市面上的开源方案,看看能不能将这部分需求做出来。
晚上有事,随意分享下。

文章为作者独立观点,不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有,如需转载,请联系作者 )
网站运营至今,离不开小伙伴们的支持。 为了给小伙伴们提供一个互相交流的平台和资源的对接,特地开通了独立站交流群。
群里有不少运营大神,不时会分享一些运营技巧,更有一些资源收藏爱好者不时分享一些优质的学习资料。
现在可以扫码进群,备注【加群】。 ( 群完全免费,不广告不卖课!)

发表评论 取消回复