Google 悄悄更新了他们的 Google 搜索中心文档,指出他们现在正在为 .csv 文件建立索引。这开辟了一种新的爬网方式,或者如果发布商不希望其 .csv 文件被爬网,则可能意味着需要更新 robots.txt 以排除这些文件。

CSV

CSV文件是以表格格式保存数据的文本文件,可以显示为电子表格。CSV文件包含纯文本数据,这意味着 CSV 文件不包含字体等样式元素,也不包含图像或链接。它们对于执行一些操作非常有用,例如上传 URL 列表以供爬行到 Screaming Frog 等软件。但它们对于组织电子表格中的数据也很有用。

CSV 文件索引是新功能

Google 索引 CSV 文件的能力是一项新功能,因为在 Google 上搜索 CSV 文件的“文件类型”当前不会返回 CSV 文件。

目前,如下搜索不会返回 CSV 文件:

  • Filetype:csv site:.gov

  • Filetype:csv site:.edu

  • Filetype:csv site:.com

Google 已经间接使用了 CSV 文件

Google 的数据集搜索外观已经使用了 CSV 文件,但显然仅在使用结构化数据进行描述时才使用。Google 旧开发人员文档中的数据集结构化数据文档(可在 Archive.org 上查看)指出,CSV 文件是出现在数据集搜索功能中的可接受标准。使用表格数据作为搜索外观可以追溯到 2018 年,当时谷歌宣布,当数据包含结构化数据时,他们将在搜索中显示此类数据。

根据原始文档:

“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats are provided as structured data…“当您提供支持信息(例如数据集的名称、描述、创建者和分发格式)作为结构化数据提供时,更容易找到数据集......

Here are some examples of what can qualify as a dataset:以下是一些符合数据集资格的示例:

  • A table or a CSV file with some data包含一些数据的表格或 CSV 文件

  • An organized collection of tables有组织的表格集合

  • A file in a proprietary format that contains data包含数据的专有格式的文件

  • A collection of files that together constitute some meaningful dataset共同构成一些有意义的数据集的文件集合

  • A structured object with data in some other format that you might want to load into a special tool for processing包含其他格式数据的结构化对象,您可能希望将其加载到特殊工具中进行处理

  • Images capturing data图像捕获数据

  • Files relating to machine learning, such as trained parameters or neural network structure definitions与机器学习相关的文件,例如训练参数或神经网络结构定义

  • Anything that looks like a dataset to you” 任何对你来说看起来像数据集的东西

Google 在 2022 年更新了上述文档,并将其重定向到新的搜索中心文档。更新后的文档更清楚地表明,Google 依赖结构化数据在其数据集搜索外观中使用 CSV 文件。但这一变化是否意味着 Google 最终将抓取 CSV 文件并将其用于搜索外观(除了结构化数据中标注的表格数据)?

这就是当前文档的解释:

“Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats as structured data.“当您以结构化数据的形式提供支持信息(例如数据集的名称、描述、创建者和分发格式)时,更容易找到数据集。

Google’s approach to dataset discovery makes use of schema.org and other metadata standards that can be added to pages that describe datasets…Google 的数据集发现方法利用了 schema.org 和其他元数据标准,这些标准可以添加到描述数据集的页面中......

Here are some examples of what can qualify as a dataset:以下是一些符合数据集资格的示例:

A table or a CSV file with some data…”包含一些数据的表格或 CSV 文件……”

Google 索引 CSV 与最近更新相关吗?

核心算法更新的定义是谷歌对其核心算法进行“重大”和“广泛的改变”。CSV 文件的索引和核心算法的更新几乎同时发生,这可能是一个巧合。但值得考虑的是,Google 是否改进了其抓取引擎,使其能够索引 CSV。


整理翻译作品,原作者:Roger Montti



点赞(1) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部