| 新品上市 | 其它信息 | 烟台印刷、烟台包装、烟台手提袋、烟台纸袋、烟台不干胶 烟台不干胶印刷、特种不干胶、烟台彩印、烟台印刷厂、烟台印刷公司、烟台彩印厂、烟台彩印公司、烟台包装公司、烟台礼盒、烟台包装盒、烟台草莓盒、樱桃盒、烟台樱桃盒、干果礼盒、蛋糕盒、鞋盒、烤鸭箱、鸡蛋箱、海参盒、烟台海参盒、海产品箱、海产品盒、茶叶盒、蔬菜盒、服装盒、内衣盒、衬衣盒、礼品盒、丝巾礼盒、家纺包装盒、手提袋、纸袋、牛皮纸袋、白牛皮纸袋、纸制购物袋、酒盒、标签印刷、药盒、烟台办公用品印刷、葡萄酒盒、馒头箱、烟台彩箱、化妆品盒、烟台月饼盒、烟台月饼包装盒、瓦楞包装、瓦楞箱、瓦楞盒、玩具盒、玩具包装、电子产品包装、线路板盒 |
搜索引擎
首页 产品展示 公司相关 印刷常识 网络知识 行业信息 联系我们 中文   ENGLISH   
网络知识
网络知识
了解网络蜘蛛,做好企业优化
发布者:tianhong     发布时间:2010-04-03

网络蜘蛛即Web Spider,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候,网络蜘蛛一般有两种策略:深度优先和广度优先。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。 

网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

以前还有疑问,为什么很多网站都需要密码访问,经过上面的介绍现在明白了,蜘蛛也需要密码,只是那个密码被悄悄地通知蜘蛛了。还有为什么在换链接的时候,很多人都只换首页链接。内页链接有时候不是不可以,或许搜索引擎蜘蛛对他的权重不太认可,在内页上抓取的深度或者广度不够,有时候不被认为是有效链接。

上一页:什么叫长尾关键词?有什么用
下一页:"友情链接"的常识


业务范围:烟台手提袋印刷、烟台包装、烟台印刷、烟台产品包装、烟台包装印刷、烟台不干胶印刷、特种不干胶印刷、烟台酒标印刷、葡萄酒标印刷、包装盒 樱桃盒 葡萄酒盒 酒礼品箱 礼盒 海参盒 礼品袋 葡萄酒袋 印刷网 山东印刷 商业印刷 出口印刷 出口包装 酒箱 酒盒 山东包装 印刷设备 干果礼盒 包装印刷 烟台樱桃箱 干果箱 蛋糕盒 烟台樱桃盒 烟台草莓盒 烟台印刷公司 烟台印刷厂 烟台礼盒 烟台礼盒 烟台礼品盒 烟台礼品包装 烟台印刷网 烟台包装网







烟台市天虹彩印有限公司


[] 山东省烟台市芝罘区 三水大厦6号楼5-7室 邮政编码 264000

联系电话 [+] 0535-6672951 6672921 业务传真 [+] 0535-6672921

E_Mail thcy100@163.com

本站域名 www.tianhongcn.com


powered by SMERPS.Inc 鲁ICP备09004093号