济宁网站优化搜索引擎工作原理

2018-09-26 16:59:00
鑫成
原创
506
摘要:网站优化,搜索引擎工作原理,搜索引擎工作流程,蜘蛛抓取规则,深度优先,其基本方法是按照深度由低到高的顺序一次访问下一级网页连接直到不能再深入为止。爬虫再完成一个爬行分支后,返回到一个链接节点进行搜索其它链接。当所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大的浪费。

网站优化搜索引擎工作原理:

1.     搜索引擎工作流程

                                             

2.     蜘蛛抓取

A.     什么是蜘蛛,蜘蛛是抓取网站内容的程序,蜘蛛看的是代码,不能看需要会员的用户,相当于网站的一个普通用户,通过连接进行抓取。

B.     常见的蜘蛛有百度蜘蛛:baiduspider 谷歌机器人:googlebot   360 蜘蛛:360spider 等等。

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/


User-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: *
Disallow: /


3.    蜘蛛抓取规则

A.         深度优先,其基本方法是按照深度由低到高的顺序一次访问下一级网页连接直到不能再深入为止。爬虫再完成一个爬行分支后,返回到一个链接节点进行搜索其它链接。当所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大的浪费。

B.         宽度优先,此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需要较长时间才能爬行到目录层次较深的页面。

C.        

4.    蜘蛛抓取内容

A.    链接 抓取方式

B.    文字 识别度高

C.    图片 识别度不高要做alt 标签进行描述。

D.    视频                   不抓取不识别

E.     JS                       不抓取 不识别

F.     IFRAME 框架 百度地图 尽量不要用,为了用户体验度高可用用   不抓取不识别

百度地图要用的话可用增加些文字介绍。

5.    影响蜘蛛抓取的因素

A.         需要权限

B.         路径过长或是层次过深:一般抓取路径字符255 字节,层次不要超过5 层,蜘蛛一口气爬5 楼也会肾虚的。

C.         Robots 文件屏蔽

D.         网站打不开:空间不稳定,404 死链,网站被黑。

6.    判断蜘蛛来到网站和识别

A.    判断蜘蛛来到网站:服务器日志查看,通过站长平台查看

B.    识别蜘蛛的真实性


网络运营
联系我们
联系人: 鑫成
电话: 17005373339
传真: 18369759197
Email: 3330887188@qq.com
QQ: 1606053339
微信: 17005373339
地址: 济宁市任城区建设北路济阳大道6号