如何系统性的做好SEO-网页抓取

  • 来源:网络
  • 更新日期:2021-01-18

摘要:没有抓取那就谈不上页面的收录,如何获得或提升搜索引擎的抓取呢?

没有抓取那就谈不上页面的收录,如何获得或提升搜索引擎的抓取呢?
在页面创建完成后,接下来面向搜索引擎的就是提交sitemap文件,通过文件的提交来促使蜘蛛抓取。然后通过网站的访问日志可以观察自己页面有哪些搜索引擎来抓取过。每天的抓取频次分别的状态码情况。

针对百度蜘蛛,在百度站长工具中的异常抓取以及抓取频次中都能看到,建议每一天务必看一下。像抓取频次的升降虽并不能直接影响你的流量变化,但间接的还是有关联的。抓取的越多,越有利于收录的数量提升。当然,这里也有一个前提:页面数量要尽可能的多,毕竟抓取1000次,想收录5000的页面是不可能的。

在提升抓取上,针对页面的访问速度以及合理的站内链接交叉推荐,让更新的、更相关或者更具实效性的文章在自身站内更多频次的出现对提升抓取以及收录是有很大帮助的。

蜘蛛抓取页面的流程:一般蜘蛛抓取网页分为两种路径,即主动抓取和站外引导。这里特别提示一下百度还有自动推送和主动推送功能,用来提交自己页面的url地址给百度。

无论是哪种推送方式,目的都是希望蜘蛛能够过来主动抓取我们的站点页面。下面就来说说主动抓取和站外引导的抓取流程:

蜘蛛主动抓取页面时,首先会进入网站,这个时候它需要先判断是否有robots文件,robots文件是根据国际互联网界通行的道德规范,蜘蛛必须遵守robots的原则。这个文件的作用是用来告诉蜘蛛能不能抓取网站,能抓取网站的哪些页面等信息。当robots放行后,蜘蛛就会首先找到网站的sitemap文件,现成的sitemap文件可以有效提高蜘蛛的抓取效率,降低抓取成本。如果没有sitemap,蜘蛛就会在你的网站目录中开始寻找文件(一般都是依照robots指定的规则),找到某个文件后,蜘蛛会通过页面内部的链接关系一条条往下爬行。

站外引荐区别与主动抓取的就是,蜘蛛是在第三方网站上爬取到了你网站的链接,然后进入你的网站进行爬取,第一步还是寻找robots文件,后面的流程基本一致。