Google 搜索的工作原理:抓取、编入索引、排名和投放

值得一看 阅读 206

Google 搜索的工作原理:抓取、编入索引、排名和投放

谷歌是世界上使用最多的搜索引擎。它包含数十亿个不同类别的页面。此外,还会不断添加新页面。Google 通过一个复杂的自动化流程来发现、抓取和提供网页,该流程涉及多个步骤。嗯,它通过四个主要过程发生:抓取、索引、排名和服务。

什么是 SEO 中的抓取?

Google 抓取工具是 Google 用来扫描网页并查找要添加到其索引的新页面或更新页面的程序。谷歌爬虫会检查所有类型的内容,包括文本、图像、视频、网页、链接等。Google 抓取工具会跟踪从一个页面到另一个页面的链接,并遵守robots.txt 文件中指定的规则。

为了开发和维护搜索引擎的索引,网络爬虫旨在彻底而有条不紊地在互联网上搜索新鲜内容。搜索引擎可以通过定期发现和查看网页来保持其搜索结果的最新状态并与用户查询相关。

抓取是如何工作的?

抓取是发现和更新谷歌索引上的新页面的过程。众所周知的 Google 爬虫被称为 Google Bot。它负责获取网络,通过链接从一个页面移动到另一个页面,并将页面添加到 Google 的已知页面列表中。Google 抓取网站所有者在 Search Console 上或通过站点地图存放的页面。站点地图是一个文件,用于说明网站中有多少页及其结构。Google 还会根据多种因素自动抓取网页并将其编入索引。

决定要抓取哪些页面的因素:

  • 网站和页面的受欢迎程度和权威性,通过来自其他网站和页面的链接的数量和质量来衡量。

  • 网站和页面上更新的新鲜度和频率,以上次修改或发布的日期和时间来衡量。

  • 网站的爬网预算和速率限制,由网站的大小、速度和响应能力决定。

  • 页面的爬网需求和优先级,由用户兴趣、查询新鲜度和页面重要性决定。

  • 网站的抓取规则和指令,由网站所有者在 robots.txt 文件、站点地图、元标记、HTTP 标头和其他工具中指定。

因此,在抓取您的网站后,您的网站会被谷歌知道或被谷歌发现。

谷歌抓取工具如何查看网页?

谷歌抓取工具从上到下查看页面。但是,谷歌机器人不会像人类那样完全看到页面,因为它不会使用 CSS 渲染页面或执行 JavaScript。Google 机器人会查看和分析页面的内容,并尝试确定页面的用途。Google 机器人会查看页面提供的其他信号,例如 robot.txt 告诉 googlebot 允许抓取哪个网页的文件。

您可以使用robot.txt文件阻止网页被 Googlebot 抓取

  • 内容重复的页面

  • 私人页面

  • 带有查询参数的 URL

  • 内容稀薄的页面

  • 测试页面

让我们看看谷歌机器人是如何工作的:

  • googlebot 在页面中看到的第一件事就是<!DOCTYPE>声明,它告诉谷歌机器人关于 HTML 的版本

  • 接下来,它将在页面中看到 html 标签,它可能还具有语言属性。这有助于 Googlebot 了解内容并提供相关结果

  • 之后,googlebot 将查看包含未向用户显示的标题的 head 标签,然后是定义可能出现在搜索结果中的页面的简短摘要的元描述标签。

  • <head> 标记还可能包含指向外部资源(如样式表、脚本、图标和字体)的链接,这些资源会影响页面的外观和行为

  • <body> 标记可能具有构建和格式化内容的各种元素,例如标题(<h1>、<h2> 等)、段落 (<p>)、列表 (<ul>、<ol> 等)、表格 (<table>)、图像 (<img>)、链接 (<a>)、表单 (<form>) 等。

例如:

Googlebot 可能会使用标题来标识网页的主要主题,使用图片来增强网页的视觉吸引力,并使用链接来发现要抓取的新网页。之后,它将检查关闭头部标签。

什么会影响爬虫的行为?

以下是影响爬虫行为的因素:

  • 它有一个抓取预算,这意味着如果网站一天的抓取限制超过爬虫不会抓取更多页面,它将在特定时间段内抓取的页面数量受到限制

  • 抓取需求代表谷歌对特定网站的兴趣。

  • 有各种算法可以指导爬虫遵循哪些链接,根据相关性和新鲜度对页面进行优先级排序,不索引重复页面。

  • 它遵循网页上的指令和元标记,这些指令和元标记指示应如何处理某些内容或页面,例如 noindex、nofollow 或 nosnippet。

什么是 SEO 中的索引?

谷歌使用大量网页集合或海量库向用户提供结果。它是根据不同因素分析网页并将它们存储到索引的过程。谷歌索引是一个庞大的谷歌数据库,用于存储网页并以适当的方式组织它们。以便谷歌检索信息并在用户在谷歌上搜索时将其提供给用户。

索引是生成搜索引擎结果页面 (SERP) 的基础。它允许搜索引擎快速将用户查询与相关网页匹配,并按排名顺序显示。定期更新索引和完善排名算法是确保搜索引擎为用户提供最佳结果的持续过程。

索引:Google 如何组织网页

谷歌会根据几个因素将你的网站编入索引:

  • 页面标题:网页的标题通常显示在浏览器选项卡和搜索结果中。它应该以简洁准确的方式描述页面的主要主题或目的。

  • 标题:标题是网页的重要组成部分。它应该包含重要且相关的关键字。应使用单个 H1 标签页面。

  • 元描述:元描述是一小块文本,告诉用户网站的内容。他们向用户描述您的整个网站。它显示在谷歌上显示的网站标题下方。因此,不要让它太短或太长,并添加人们应该在其中访问您的网站的原因。

  • 关键字:关键字是描述网页内容的单词或短语。它们应该与用户在谷歌上的搜索相匹配,而您的网站不应该看起来像 AI。

  • 图片:图片可以增强网页的视觉吸引力和理解力。它们应该具有描述性的替代文本(alt 文本),以解释它们在屏幕阅读器无法显示或访问的情况下显示的内容。

  • 网站结构:它是指网站的组织方式以及不同页面的链接方式。您为用户提供的导航有多简单?用户不应该费力地找到需要的内容。

  • 移动友好性:网站应该是移动友好的,因为谷歌知道他们必须在不同平台的用户面前为网站提供服务。适合移动设备的网页应快速加载,使用响应式设计,避免弹出窗口,并提供用户友好的界面。

  • 加载速度:加载速度是您的网页加载其内容(如文本、图像、脚本等)的速度。影响加载速度的因素包括服务器响应时间、考虑使用 webp 以获得更好加载的图像大小、缓存、代码效率等。

什么是 SEO 排名?

排名是搜索引擎确定网页在搜索引擎结果页面 (SERP) 中出现的顺序以响应用户的搜索查询的过程。这是搜索引擎过程中的关键步骤,因为它直接影响用户对网页的可见性和可访问性。

排名过程是一个连续的循环,搜索引擎努力为用户提供最相关和最高质量的结果。这是一个复杂而动态的领域,因为互联网的内容和用户行为在不断发展,需要搜索引擎相应地调整其算法和排名因素。

排名:搜索引擎对 URL 的排名如何?

搜索引擎使用一种复杂的方法对 URL 进行排名,该方法包括许多算法和标准。目的是根据用户响应内容的质量和相关性对搜索引擎结果页面 (SERP) 中的网页进行排名。以下是搜索引擎如何对 URL 进行排名的摘要:

  • 抓取和索引搜索引擎必须首先查找并索引 URL,然后才能对它们进行排名。网络爬虫访问网站,收集信息,然后将其存储在结构化数据库(搜索引擎的索引)中,以实现这一目标。

  • 查询分析当用户输入搜索查询时,搜索引擎会分析查询的关键字、短语和上下文,以了解用户的意图。

  • 关键字匹配搜索引擎在其数据库中查找与用户查询相关的信息的网站。这需要将查询中的关键字与页面元数据和内容中的关键字进行比较。

  • 相关性评估搜索引擎评估每个网页与用户查询的相关性。它们考虑了许多因素,例如:

    • 关键字相关性网页内容与查询关键字的匹配程度。

    • 内容质量:页面上内容的整体质量、深度和相关性。

    • 反向链接:指向页面的反向链接的数量和质量,表明信任和权威。

    • 用户参与度:点击率 (CTR)、在页面上花费的时间和跳出率等指标

    • 户意图页面满足用户查询背后的特定意图的程度。

  • 评分和排名每个网页都会根据搜索引擎对其质量和相关性的评估从搜索引擎那里获得分数。该页面在 SERP 中的排名基于此分数。得分较高的网页排名较高,在搜索结果中显示在第一位,而得分较低的网页则显示在页面的下方,甚至根本不显示。

  • 算法因素搜索引擎使用许多排名变量,包括内容、关键字使用和元数据等页面元素,反向链接和社交信号等页外因素,以及点击率、停留时间和移动友好性等用户体验因素。搜索引擎可能在算法的细节和分配给某些因素的权重方面有所不同。

  • 新鲜度和新近度材料的新鲜度是几种类型查询的重要排名因素。特别是对于与新闻或时事有关的问题,及时和最新的信息可能是首选。

  • 用户本地化为了提供本地化的结果,搜索引擎会考虑用户的位置。对于有关公司、服务和地点的查询,这是必不可少的。

  • 个性化根据用户的搜索历史和偏好,搜索引擎可能会定制结果。个性化的目标是提供根据每个用户的偏好和要求定制的结果。

  • 反馈和迭代搜索引擎会持续监控用户与搜索结果的交互。他们使用这些信息来改进搜索引擎结果、磨练排名算法并阻止垃圾邮件或低质量内容。

  • 算法更新:为了提高结果质量、应对新趋势和打击操纵,搜索引擎会定期更改其排名算法。这些修改可能包括添加新变量、更改当前变量的权重或更改排名标准。

排名过程非常动态,并受到不断变化的数字环境的影响。因此,为了确保他们的 URL 在搜索引擎结果中排名靠前,网站管理员和内容制作者需要及时了解 SEO 最佳实践。

投放:Google 如何展示网页

投放是从索引中返回用户搜索查询的相关结果的过程。当有人在 Google 上搜索某些内容时,Google 会将查询与其庞大的索引进行匹配,并根据数百个排名信号提供最相关的结果,例如更多浏览量、文章质量、与用户的互动时间等。

以下是 Google Serving 的几个步骤:

1. 解析:

这是一个将用户搜索查询分解为小关键字以使其更易于理解的过程

示例

有人搜索了“如何制作网站”,谷歌会将其理解为一组关键字,如“如何”、“制作”、“网站”。通过这种方式,它了解用户正在搜索制作网站的过程

2.匹配:

了解后,谷歌将在其索引中搜索具有与之相似的关键字和短语的网页。

例:

如果有人搜索“如何制作网站”,Google 会将查询与内容或元数据中包含“如何”、“制作”和“网站”字样的网页进行匹配。

3. 排名:

它是一个对从该搜索查询的 Google 索引中找到的网页进行排序的过程。

例:

当您在谷歌上搜索某些内容时,它会提供大量网页标题作为结果。

网站的质量和相关性将决定其在谷歌结果中的顺序。它对具有最相关和高质量内容的页面进行排名,使网站高于相关或低质量内容的页面。

4. 显示:

显示是以用户友好且信息丰富的方式向用户显示排名结果的过程。

例如:

如果有人搜索“如何制作网站”,谷歌将显示带有标题、片段、图像、评级和其他功能的结果,以帮助用户决定点击哪个结果。

常见问题 

Google 可以抓取受密码保护的网页并将其编入索引吗?

不可以,Google 无法访问登录墙或密码保护后面的内容。

什么是 PageRank 算法,它如何影响抓取?

PageRank 按重要性对网页进行排名,影响抓取频率和索引。

Google 在抓取过程中会优先考虑适合移动设备的网页吗?

是的,Google 会优先考虑适合移动设备的网页作为其移动搜索索引。

Google 在抓取过程中如何处理基于 JavaScript 的内容?

Google 可以抓取 JavaScript 呈现的内容并将其编入索引,但更喜欢静态 HTML。

Google 可以抓取 iframe 中的内容并将其编入索引吗?

是的,如果可以通过 HTML 访问,Google 可以将 iframe 中的内容编入索引。

当 Google 在链接上遇到“nofollow”属性时会发生什么?

Google 不会通过“nofollow”链接关注或传递 PageRank。

Google 多久重新抓取一次网页以更新其索引?

这取决于页面的重要性和更新频率,从几天到几个月不等。

Googlebot 在抓取过程中扮演什么角色?

Googlebot 是 Google 的网络抓取工具,用于获取网页并将其编入索引。

Google 如何处理不同网页上的重复内容?

Google 会识别并可能将重复的内容合并到一个规范网址下。

结论

谷歌的搜索引擎在不断发展,它使用复杂的算法为用户提供最相关和最高质量的搜索结果。网站所有者和 SEO 专业人员经常努力优化他们的网站,以便在 Google 的搜索结果中提高可见性。

相关推荐

用户留言

尚未登录无法发表查看留言点击登录

HI ! 请登录

立即登录
免费壁纸小程序
免费壁纸小程序