SEO知识:SEO日志文件分析

谙年博客
1003
文章
71
评论
2020年1月20日 评论 104

什么是日志文件?

日志文件包含了服务器上所有发生行为的记录,对于SEO来说,其中最有用的是搜索引擎爬虫和用户的访问行为,日志源文件看起来是下面这样的:

SEO知识:SEO日志文件分析

乍看是不是觉得一团乱麻,别慌,我们会仔细分解里面的每一项参数。

举例说明

50.56.92.47 – – [01/March/2018:12:21:17 +0100] “GET” – “/wp-content/themes/esp/help.php” – “404” “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” – www.example.com –

SEO知识:SEO日志文件分析

每条日志包含了:IP,访问日期,获取方法,返回码,User-Agent,,URL,主机这些参数

日志的重要性

因为日志是唯一可以获取搜索引擎是如何访问和抓取网站的渠道。虽然搜索引擎站长后台,第三方爬虫,搜索指令能给你一些参考,但只有日志文件才能给到最全面和最详尽的信息。

如何分析日志为SEO服务呢?

分析日志文件对SEO的帮助如下:

1.确定哪些页面能被爬虫抓取,哪些页面不能

2.查看搜索引擎访问页面的返回码,尤其是分析返回302和404的页面

3.找出抓取问题,以及背后的原因(网站导航,内链结构)

4.定位搜索引擎抓取频繁的页面以及原因

5.分析爬虫抓取资源是否存在浪费

怎样获取日志文件?

可以直接从服务器上下载下来,根据你的需求 选择对应的时间段,有些网站一周的日志文件就足够分析,有些网站需要一个月甚至更多的原始数据。在下载前最好能和运维人员聊聊,日志是否包含了多域名的数据和http协议。

用什么工具来分析日志文件?

Excel就可以用来分析,下次我们会专门写一篇相关文章。目前国外分析日志的工具有Screaming Frog和Log File Analyser,Splunk,GamutLogViewer,国内的光年分析工具也还不错

分析日志的具体步骤

A. 找到爬虫资源都耗费在哪里了?

首先,什么叫做爬虫资源,Google曾经给出过定义:“Googlebot能够抓取(抓取率)和愿意抓取(抓取需求)的URL数量

也就是说,爬虫资源是搜索引擎每次抓取的网站页面数量,抓取的量和网站权重和内部链接的权重都有关系。

另外需要指出的是,爬虫资源有时会被浪费在无关重要的页面上,这时如果你输出了新的内容,但是爬虫资源已经被耗尽了,也无法被搜索引擎所收录。这也是监控爬虫日志的重要作用,找出资源浪费在哪了。

优化爬虫资源的配置能让搜索引擎更好的抓取网站核心页面。

影响爬虫资源的因素

低质页面太多会影响爬虫资源的分配,低质页面包括但不限于:

1.多重筛选和带有过多参数的页面

2.重复的内容页面

3.被劫持的页面

4.低质和Spam的内容页面

让爬虫抓取这些页面其实没啥意义,反而挤占了真正高价值页面的抓取资源,造成优质内容无法被搜索引擎及时收录并给予排名。

B. 解决SEO技术问题

通过分析日志文件,可以更好地定位并解决一下问题:

特定的目录被抓取的频率是怎样的,例如:产品页,列表页,文章页等等

所有目标搜索引擎的爬虫都来访问过网站吗?

哪些页面发生了抓取问题,去检查返回码 3xx, 4xx & 5xx的这些页面

日志分析实战案例

这是最近用screamfrog给一个客户做的日志分析

SEO知识:SEO日志文件分析

从日志中发现,Google会经常抓取一些奇怪的页面,Top15抓取量的页面里面大多数都是302跳转的页面,或者是404无法打开的页面,同时Google还花了大量时间访问带有参数的页面

因此我建议客户,去对这些跳转和参数页面做处理,通过Robots禁止爬虫抓取,更新跳转状态,解决软404问题(页面打开是404页面,但是http返回码是200),做完这些动作后,Google对这个网站的抓取效率的确大大提高,对收录和排名也有着积极的影响。

2016SEO知识:关于外链,依旧有效 SEO知识

2016SEO知识:关于外链,依旧有效

以前看到卢松松签名上面写了这么一句话,你所关注的人,决定了你看到的世界。在SEO这个行当也亦是如此。尽管对于现在的我来说,SEO接触的相对来说少了点,但是一直做在各种SEO的点与面之间的研究,当然很多...
SEO知识:网站SEO优化的9大蜘蛛陷阱 SEO知识

SEO知识:网站SEO优化的9大蜘蛛陷阱

我们从事网站优化的过程中,尤其是现在收入对于网站而言是非常重要的网站,只有有了比较不错的收录之后,才有可能会取得不错的排名,因此在网站设计的时候,我们就要尽可能的让蜘蛛能够获取到网站的全部内容信息,如...
SEO知识:快速无脑的原创文章方法 SEO知识

SEO知识:快速无脑的原创文章方法

我说一下原理吧 首先结合58同城,词库网,百度指数,找到一个小细分行业,然后找到对应的关键司 接着去微信指数里找搜索高的关键词和微信搜一搜下拉词 因为微信指数和下拉词都有的话,意味着大家对这个的需求不...
SEO知识:16条错误的SEO认知 SEO知识

SEO知识:16条错误的SEO认知

为了获得排名,在seo中有不少众所周知的SEO神话,但往往会阻止提高搜索量和网站排名,事不宜迟,这里是您应该忽略的17个SEO神话: 1.关键字设置已变得无关紧要 搜索引擎算法促使内容制作者采用一种新...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: