关注微信有礼 专业seo建站+快速优化排名

您当前的位置:> 主页 > 网站优化 >

温州建网站,几种百度支持的返回码

2019-01-14 22:34

简单介绍几种百度支持的返回码。
 
①最常见的404代表”NOT FOUND”,认为网页已经失效,通常将在库中删际,同时短期内如果spider再次发现这条URL,也不会抓取。
 
②503代表”Service Unavailale”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条URL直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条URL仍会被认为是失效链接,从库中删除。
 
③403代表”Forbidden”,认为网页目前禁止访问。如果是新URI,spider暂时不抓取,短期内同样会反复访问儿次;如果是已收录URL.不会直接删除,短期内同样反复访问儿次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条URL也会被认为是失效链接,从库中删除。
 
④301代表”orene”,认为网页重定向至新URL。当遇到站点迁称、城名更换、站点改版的情况时,推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
 
(3)多种URL重定向的识别
 
互联网中的一部分网页因为各种各样的原因存在URL重定向状态,为了对这部分资源正常抓取,要求spider对URL重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canoniceal标签,在效果上也可以认为是一种间接的重定向。
 
(4)抓取优先级调配
 
由于互联网资源规模巨大以及变化迅速,对于搜索引擎来说,全部抓取到并合理地更新,保持一致性几乎是不可能的事情,因此要求抓取系统设计一-套合理的抓取优先级调配策略,主要包括深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等。每个策略各有优劣,在实际情况中往往是多种策略结合使用,以达到最优的抓取效果。
 
(5)重复URL的过滤
 
spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取,再进行抓取网页的行为,并放在已抓取网址集合中。判断是否已经抓取其中涉及最核心的是快速查找并对比,同时涉及URL归-化识别。例如,个URL中包含大量无效参数,而实际是同一个页面,这将视为同一个URL来对待。
 
(6)暗网数据的获取
 
互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等问题,也会造成搜索引擎无法抓取。目前,对于暗网数据的获取,主要思路仍然是通过开放平台采用数据提交的方式来解决,如“百度站长平台”“百度开放平台”等。
 
(7)抓取反作弊
 
spider在抓取过程中往往会遇到所谓抓取黑洞,或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计“套完善的抓取反作弊系统。例如,分析URL特征、分析页面大小及内容、分析站点规模对应抓取规模等。