搜索引擎的工作原理是什么?

作者:赣州SEO

搜索引擎的工作原理是什么?搜索引擎的工作原理就是先抓取网页信息、再过滤抓取到的网页上的信息、再将一些质量好的面面收录进索引库中、搜索引擎将按照它的排名算法对进入索引库中的面面进行排序。下面小编来一一分析一下搜索引擎的工作原理的步骤:

    一、抓取网站页面信息

搜索引擎在抓取网站信息的时候,是通过什么程序进行抓取的呢?而这些程序中的搜索引擎又有多少种呢?这种程序又是怎么抓取网站信息的?又是什么因素在影响着它的抓取呢?下面小编一一道来:

    1、蜘蛛的种类

网站信息被搜索引擎抓取了, 那么是什么程序抓取了网站的页面信息呢?抓取网站页面信息的程序是蜘蛛。这种蜘蛛是一款负责抓取网站页面信息的程序。每天二十四小时不停的抓取。蜘蛛的种类分为百度蜘蛛baiduspider、谷歌机器人、360spider是当下最知名的搜索引擎蜘蛛品牌。

    2、蜘蛛抓取网站页面什么内容?

蜘蛛抓取网站页面的什么内容呢?要知道网站上的内容丰富多彩。有文字、有视频、有音频及有图片、有链接、有JS、有ifram等内容。在这些内容中蜘蛛最喜欢的抓取的内容是哪些呢?当然蜘蛛最喜欢的内容就是文字了,其次是图片、链接。蜘蛛不喜欢也不能识别的内容就是视频及JS、ifram框架了。因为视频即没有文字解释也没有内容说明,而JS及ifram呢则更是不能识别了。对于文字来说它是蜘蛛的识别度是最高的,其次是链接。蜘蛛对于图片的识别度不是很高,蜘蛛是通过图片的属性代码alt来识别图片的内容。而对于视频、JS、ifram框架来说就根本识别不了了。因为视频也仅仅是一串代码,而且在这串代码里面也没有能标注视频信息的文字信息,能引导蜘蛛来识别视频内容。同理JS特效代码与ifram框架也是不能被百度蜘蛛识别的代码了。

     4、影响蜘蛛抓取网站页面的因素

我们知道了蜘蛛是抓取网站页面内容的一种程序,也知道了蜘蛛喜欢抓取的网站的页面内容有哪些?那么什么因素影响着蜘蛛对于网站内容的抓取呢?影响蜘蛛抓取网站内容的因素有下面几点:

    a、网站的权限

当网站需要登录获得权限后才能访问时就人为的影响了蜘蛛对于网站内容的抓取了。比如有些网站就是需要注册后登录了才能访问。

   b、网站的死链接

网站的死链接也是影响搜索引擎抓取的另一个重要因素之一。当搜索引擎访问到一个链接是不能访问的死链接时就会放弃这个链接了。死链接就是打不开的链接或者是这条链接是空的没有内容。这时呈现在搜索引擎眼里的链接页面就是空白页面了。

当网站出现死链接的时候一定要及时处理,不然的话就等着被搜索引擎发现后会抛弃这条链接。于是就增加了网站孤跳失率,这样就等于是给网站托后腿了。

   c、网站的路径超过155个字符

网站的路径不要超过155个字符就不会受到搜索引擎的抛弃。因为太长的路径对于搜索引擎来说是一个迷魂阵,一眼望不到头的链接就会直接放弃。从而影响到了一些路径长的链接的抓取。由此就会影响网站的收录、索引及排名了。这样的路径是不受搜索引擎青睐的路径。我们在优化网站的时候,就是考虑到这一点。将长路径优化成为搜索引擎可以识别的短路径容易被搜索引擎识别及收录。

而伪静态则是能解决这个问题的最好的办法了。一般是织梦的程序及WP程序需要做伪静态处理。

    d、网站的层次不能太深

我们在优化网站的前面就要考虑到层次的问题。不能让网站的层次太深了,这样的话就会导致搜索引擎抓取不到而放弃。虽然可以用百度地图来弥补可是能事先能优化好的事情就不用再依赖百度地图。将层次一步到位的优化到位后就能够避免人为的影响搜索引擎抓取深层次链接的难度了。

建议网站的层次控制在三层就差不多了。对于一般的企业网站来说三层是最合适的层次。

 e、网站的内容相似度

网站的内容相似度不能太高,如果相似度太高的话就会直接不抓取了。

  f、 网站的空白页面

从以上六点我们可以知道影响搜索引擎抓取网站链接的因素有死链接、链接的路径不能太长、链接的层次不能太深、网站的访问权限四个方面是直接影响搜索引擎的抓取。这就告诉无们在优化网站的时候要放开网站的访问权限,要对路径进行优化,尽量做伪静态让搜索引擎能够识别并抓取,让网站的路径不要太长了,这一点可以在织梦程度及WP程序的后台 进行调转。其次是要注意网站的相似度及网站的内容要丰富度优化到位。不然也是会影响到搜索引擎对于网站的抓取。

d、JS、FLAS、IFRAME、嵌套TABLE页面及需要输入信息后才能登录的页面

5、搜索引擎抓取网站的种类

搜索引擎抓取网站的时候也会有分工。它的分工是二种, 一种是深度优先;另一种是宽度优先。深度优先指的是对于一些大型的结构较深的网站会采取深度优化的方式来进行抓取。深度优先的意思就是说搜索引擎会先沿着网站的链接一直顺势爬行下去,只到将最后一条链接抓取完为止才回过身来抓取另一个层次的链接。宽度优化指的是搜索引擎在抓取网站页面时会判断网站的层次有多深,如果是浅层次的网站的话就会采取宽度优化的抓取办法对网站的页面进行抓取。这时的搜索引擎就会沿着网站的横向的链接进行全方位的爬行抓取了。

6、临时数据库

搜索引擎在抓取网站页面链接的时候会对链接做一个初步判断与筛选,判断出这条链接是否能够识别、判断 这条链接是否是死链接、判断 出这条链接的深度是否深到不能抓取的程度、判断这条链接的页面的内容是否重复度很高、判断 这条要抓取的链接的是否是一个空白页面、判断链接的字符是否够长到不能识别,等这些能影响搜索引擎抓取的链接都筛选掉后,将剩下的搜索引擎认为好的页面再放入临时数据库中进行深入的归类、排序。也就是说最终是将网站页面的整篇文章的关键词进行分词处理。下面分别来讲一下如何对网页进行分词处理:

A、去除网页中的代码

我们将网页中的代码全部去除掉剩下纯文字内容进行下一步的分词处理。

B、去掉的、地及得虚词

将网站页面标题中及内容中的一些虚词去掉。将关键词拆分为最小的单位。将拆分后的网站页面内容中的关键词进行归类统计数据了。比如说这篇文章:只截取二段文章内容进行演示

网站死链接检测工具有哪些?

网站死链接检测工具有哪些?作为站长都会遇到过网站有死链接的情况。每次遇上这样的死链接后要如何处理呢?死链接对于网站来说有哪些危害呢?下面江西赣州SEO小编来为大家聊一下什么是网站的死链接?网站的死链接有几种?及网站死链接的检测及它有哪些检测工具?检测出来的死链接要如何处理?这些问题都将一一做一个分析。

    一、什么是网站的死链接?

网站的死链接通俗一点来说就是该条链接点击后没有内容了或者是内容被删除了。这种死链接分为三种,一种是站内死链接,也就是说网站内部的面面链接是死链接。第二种是站外死链接。也就是我们在别的网站上发布的关于本站的链接是死链接。第三种死链接是别的网站的链接在本网站上发布的链接是死链接。

分词处理后的情况:

网站 死  链接  检测  工具  哪些

网站  死  链接  检测  工具   哪些   作为  站长    遇到   网站  死 链接  情况  每次  遇上  这样  死  链接   如何  处理  死  链接    网站   哪些  危害   下面  江西  赣州  SEO  小编   大家  聊   什么      网站  死  链接  网站  死 链接  有  几种   及网站   死  链接   检测   哪些  检测  工具   检测  出来   死  链接  如何 处理    这些   问题   都将   一一    分析

    什么   网站  死  链接

网站   死  链接  通俗    该条  链接  点击   没有  内容  了  或者   内容   删除    这种   死  链接  分为  三种   一种   站内  死  链接  网站  内部  页面  链接  死   链接  第二    死  链接  我们   网站   发布   关于   本站   链接   死  链接   死  链接   网站  链接   网站   发布   链接  死   链接

然后再对重复出现的分词词根进行统计数字,并将他们出现的位置进行标注。比如说有的是在标题中出现的,要注明是title,比如说有的词根是出现在h1标签中的要标明 h1,有的是出现在alt中的词根要标明alt。

其结果如下:

title;网站(12) 死(16)  链接 (21) 检测 (4) 工具 (2) 哪些(3)

atl:  网站(4)死链接(2)

h1:网站(1)链接(1)

strong:网站死链接(2)

再将这些词进行最后的归类:

网站(16) 死(18)  链接 (26) 检测 (4) 工具 (2) 哪些(3)

这些词根的重复数据统计好后,就要将这些进行排序。排序的规则是重复数据的最大值到最小值来排列。对于这些词根搜索引擎会给予重点的照顾。权重也比较高,能参与排名。那么上面这此词根的排序就是:

  链接 (26)

 死(18)

网站(16)

检测 (4)

 哪些(3)

工具 (2) 

再加上整个网站页面的权重就是最后的整个网站页面的能参与排名的关键词词根的权重了。而网站页面的权重是与它的转载量有关、与它的点击量有关、现它的用户停留时间有关、与它的外链有关,这些综合数据就是网站页面的权重。这些权重又仅能平均的分配到整个标题中的每一个关键词词根中去。

而这些词根又根据所处的位置不同,它所能分配到的权重也不相同。比如说词根在title上的词根的权重假如是10,h1上的词根的权重是6,alt词根上的权重是4,那么他们综合的权重值才是能参与排名的数值。

六、网站页面关键词的展现

当用户搜索关键词时,搜索引擎会按照被搜索词的数据进行搜索排序展现在搜索用户的面前。

所以说搜索引擎的工作原因是抓取网站链接、去除一些垃圾页面、死链接页面、路径太长而无法识别的链接、层次太深的链接、并且放入临时数据库进行索引、归类排序处理。

我们通过了解到搜索引擎的工作原理后,就可以知道如何来优化网站中的关键词。我们要看网站的收录是多少?索引量是多少?通过这些数值可以判断出网站的优化情况。如果是收录量低的话就要注意去优化网站的内容,看是否写有关键词,看内容是否丰富,看内容是否是伪原创及看内容是否是复制粘贴的。网站的页面进入了索引 库中后就是进入了排名的阶段了。

《《《《599人还读了下面的文章

                             * 赣州市关键词SEO优化之一                         变态的伤害:母亲、丈夫、同事“一个都没少”

                             * SEO如何优化之三                         SEO如何优化之五             

                           * SEO如何优化之一                         SEO如何优化之六

本站文章由SEO技术博客撰稿人原创,作者:萧红SEO创作,如若转载请注明原文及出处:https://www.ainiseo.com/jichu/11465.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2017年3月3日 下午7:26
下一篇 2017年3月9日 下午6:08

相关文章推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我

由于平时工作忙:流量合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:wuyouseo@gmail.com 合作微信:wuyoublog

工作时间:周一至周六,9:30-22:30,节假日休息

个人微信
个人微信
分享本页
返回顶部