l

A.Y.

2022年6月2日

如何查询网站是否被谷歌收录? 如何让谷歌快速收录网站
l

A.Y.

2022年6月2日

创建网站的初期目的之一就是要让搜索引擎收录我们的各个网页, 因为只有先被搜索引擎收录后, 网页才能够获得搜索排名. 也就是说网页收录是网站获取排名的基础, 而网页收录量在一定程度上决定了我们获取排名的几率.

谷歌收录的意思是, 谷歌的搜索引擎将我们的网页收录到它自己的数据库中. 具体反应为: 当使用对应的关键词进行谷歌搜索时, 我们的网页能够出现在对应的搜索结果页(SERP)中, 无论排名在什么位置.

Adam Y.

如何查询网站收录情况

既然收录是排名的前提条件, 那么当网站做好SEO之后, 我们就应该来查询网站收录情况.

不管是什么搜索引擎, 谷歌、百度、必应… 有一个通用的查询方式:

site:域名

比如我们来查询一下tesla的网站有多少网页被谷歌收录:

site:tesla.com

Adam Y笔记 | adamy.top

图片来源:  Y 笔记

你会看到这个域名下大约收录了40w+页面, 以及下面显示的每一个页面都是来自于 tesla.com

如果我们想要查询域名下某个关键词相关的页面, 可以使用

site:域名 “关键词”

Adam Y笔记 | adamy.top

图片来源: adamy.top

进一步的指令搜索涉及到更多的关于谷歌指令搜索的内容, 这里先挖一个坑, 后续有空的时候再写, 现在我们暂时用不到更多的谷歌指令.

也可以使用浏览器插件来查询网站的收录情况:

我们也可以使用谷歌站长工具来查询网站的收录情况:

  1. 部署Google Search Console, 需要网站所有者/管理员身份;
  2. 打开谷歌站长工具对应网站资源的后台 > 索引 > 覆盖率

为什么谷歌不收录某些页面

我们必须认清一个残酷的现实: 不是所有网站都像 tesla.com 一样被谷歌收录大量页面, 新手刚刚完成建站 & SEO时, 很有可能只收录了你的网站首页, 如果你的内容没有做好的话, 首页也未必收录.

那么为什么谷歌不收录我们的页面呢?

因为自2014年以来(对, 就是毛子闪电攻下克里米亚那年), 谷歌搜索引擎就不缺数据了, 所以它会越来越倾向于只收录有价值的页面, 就像高校学府的择优录取.

有价值的页面意味着能够给用户提供价值、处理问题 & 解决痛点.

谷歌不收录页面的一些原因(供参考);

  • 页面内容不够
  • 页面速度异常
  • 页面内容抄袭
  • 页面内容主题不明确
  • 非法主题页面(Huáng.Dǔ.Dú)
  • 内容被禁止爬虫抓取
  • 服务器主机稳定性差
  • 新网站, 上线时间短

查漏补缺, 让谷歌快速收录

其实上面这些原因都是一些简单的原因, 很容易找到解决方法, 服务器无非是选用稳定更好的, 有钱即可, 页面速度优化按照链接提示处理即可, 内容主题我在On-Page SEO里也有讲过, 至于内容抄袭, 肯定是要改的…

对于新建网站

首要任务我们要生成站点地图并向谷歌提交.

站点地图一般为 sitemap.xml 格式的文件, 里面包含了网站域名下所有的分类页面链接

如果你是使用 WordPress 建站, 有些主题会自动生成 sitemap.xml 在网站服务器的根目录下, 有时也会命名为 wp-sitemap.xml

如果你的网站没有 sitemap.xml 的话, 可以使用XML Sitemaps插件来进行网站地图的创建, 创建好之后的地址一般是这样的:

域名/sitemap.xml

比如: tesla.com/sitemap.xml
你只要将这个站点地图提交到Google Search Console谷歌站长平台中, 然后等待收录即可.

Notes:
一般来说谷歌收录需要一定的时间, 而且常常不会收录所有的页面. 因此, 保持各个页面具有不同的功能, 保持主题明确以及足够的内容是我们SEOer的职责所在.

对于旧网站

如果我们已经提交了站点地图, 经过了很长时间以后发现收录量还是不理想, 我们可以在谷歌站长平台后台中查看网站资源: 后台 > 索引 > 覆盖率 > 打开报告

然后我们可以从”已排除”类别中查看网页被排除的原因:

Adam Y笔记 | adamy.top
  • 已发现 – 尚未编入索引: 谷歌已经发现网站上的该页面, 但是还没有进行抓取, 这种一般需要等待;
  • 已抓取 – 尚未编入索引: 谷歌爬虫已经抓取了这个页面, 但是暂时还没有编入它的数据库中, 一般也需要等待;
  • 被”noidex”标记排除: 网站设置了不抓取该页面, 因此谷歌爬虫跳过了该网页抓取和收录;
  • 抓取异常: 抓取异常通常包括多种原因, 但不一定说明页面有问题. 比如服务器不稳定、或者抓取时页面处于异常状态等…

另外, 对于一些其他网页自身原因, 也会导致不收录:

关于 robots.txt
robots.txt 是一个位于网站服务器根目录的文件, 通过向这个文件里添加相应的规则内容, 可以规定搜索引擎如何爬取网站页面. 这是一个只为搜索引擎爬虫准备的文件, 在没有该文件的情况下, 默认开放全站内容供爬虫抓取.

一般来说, 营销型网站可以不配置robots.txt. 尤其在新手不了解规则的情况下, 配置往往有可能因为错误理解或误操作导致某些爬虫无法爬取网站, 造成间接损失.

加快网站收录方法

如果我们判断页面内容没有问题, 并且没有加载速度服务器等外部因素影响时, 可以通过下列方法来让谷歌尽早抓取和收录页面:

 

1. Google Search Console 手动提交

    1. 注册Google Search Console并认证网站的所有权;
    2. 从站长工具后台顶栏的地址栏中输入你想要手动提交的完整url地址;
    3. 在检测该页面的可用性后, 可以点击”请求编入索引”.

2. 合理使用内链

外链不同的是, 内链指的是从网站页面A跳到同一个网站页面B的链接, 即跳转之后我们还是在同一个网站的不同页面内.

比如, 上一段文字中的 “反向链接” 指向的就是我的另外一篇博客, 这就是一个标准的内链.

事实证明, 网站中多个内链指向的页面往往能够让搜索引擎更快地识别和抓取. 在已经被抓取的重要页面中留下的其他内链作用更大.

需要注意的一点是: 锚文本反向链接的插入和排布需要自然, 并且与该页面的内容有相关性, 不能过多滥用和硬塞.

3. 尽量减少低质量页面

对于一些没有实质性意义的页面, 尽量删除或进行同类整合. 比如一些产品往往大多数参数都相同, 只有某个属性不一样, 可以整合起来做多SKU: 普通网站的产品页是比较难收录的, 大量类似产品的产品页会让你整个站失去重心, 大部分页面内容相同的SEO并不能让你的排名更好.

4. 增加反向链接

好的外链对于目标网页的收录起着积极的作用. 因此增加外链数量也是一个促进谷歌收录的好方法.

但是外链永远是重在质量. 借用一句圈内人的金句: 一条好的外链永远胜过100条垃圾外链.