癑ֺ抓取p|案例分析

www.w333.com该网站的快照收录一直存在问题,收录面持箋减少Q而且q会(x)出现一些泛解析域名存在Q目前泛解析快照已经删除Q经q和客户沟通,该网站曾l被使用q泛解析Q那么现在不使用泛解析了(jin)Q怎么q会(x)出现泛解析的快照呢?
 
׃癑ֺ收录的快照存在回现象,往往造成快照回的原因是该网站触动了(jin)癑ֺ某些机制Q?STRONG>癑ֺ搜烦(ch)引擎最忌谁?0条规?/FONT>
1?/STRONG>|站I间不稳定、网站经常无法访问、网站运行很慢的Q搜索引擎不愿意x和抓取快照,因ؓ(f)?x)导致快照更C?qing)时Q一定要保证|站能正常打开、空间稳定是优化的基Q?BR>2?/STRONG>|站被百度收录后更改|站标题、网站描q、网站关键字D实际面的TDK和百度收录页面的TDK标签不一_(d)从而生快照异常的站!关键词排?9%的会(x)消失、快照回、收录减、快照评U降低等现象
3?/STRONG>关键词堆砌的|站Q搜索引擎对其不友好Q标题、描q、关键词一定要围绕|站主题和网站内容友好的表述Q生堆砌关键词的网站不被百度喜Ƣ!
4?/STRONG>优化的关键词必须要和|站主题内容相符Q如果不W合相关性即便优化上M?x)很快掉下来Q?BR>5?/STRONG>切忌不要多个域名绑定到同一个网站,不要多个URL重复指向同一个内定wQ更不要克隆|站使用收录q的内容Q克隆是最忌讳的。百度容易判断这U行Zؓ(f)作弊行ؓ(f)Q?BR>6?/STRONG>切记不可和其它刷量Y件一起用,Ҏ(gu)出问题(量软g本n使用的是虚拟IP或代理IP{,q真实IPQ?BR>7?/STRONG>切记不要购买外链、购买友链,目前癑ֺ已经推出相应的算法,可判断是否购买的外链和友链,一旦认定后|站万劫不复;
8?/STRONG>原创内容、高质量外链、高质量友链交换是关键词排名出现的前提。所以不要内定w集、大量copy内容、还有所谓的伪原创Y件生成的内容Q内容一定要具备l构清晰、可L强Q?BR>9?/STRONG>泛域名站或IP+端口的泛站群|站不被癑ֺ喜欢Q?013q?月之前,泛站在癑ֺ排名里效果非常好Q是因ؓ(f)癑ֺ有一个排名漏z,如今癑ֺ已经修补?jin)漏z,大家不要再做泛站优化了(jin)Q百度搜索结果霸屏时代已l终l了(jin)Q?BR>10?/STRONG>q反国家政策、欺诈、钓鱼等|站不被癑ֺ喜欢。目前百度已成立癑ֺ联盟Q针对违反国家政{、赌博、枪支弹药、淫U色情、钓鱼网站进行大力度屏蔽和调_(d)那么学习(fn)SEO最重要的是Q科学的操作Ҏ(gu)Q以搜烦(ch)引擎和用户体验ؓ(f)基础Q遵从自然操作,不要ƺ骗搜烦(ch)引擎和来访用P只要大家坚持不懈3月内可以成Z个真正的seoER?jin)。后l我们会(x)l合实际操作?a class="channel_keylink" >案例分析q行技巧层面的提升Q希望大家用实践ȝ理解SEO的真谛,云营销Q让营销更精准有?..

 癑ֺ针对w333.com抓取频率在下降,是什么原因导致的抓取频率持箋下降呢?
癑ֺ收录抓取 

其实原因很简单,因ؓ(f)癑ֺ抓取该网站时持箋获取p|Q频J抓取失败导致百度蜘蛛逐渐抓取的频率降低Q如果该问题不解冻I?x)?jing)响该|站的评U?BR> 

Z(jin)能能d解决收录和更C正常问题Q我们对该域名DNSq行?jin)检查与修改Q首先查看域名状态:(x)

域名解析

首先发主域名www使用?jin)cnameq行的解析,5298.xxaacc.com 我们W一步想到的是将cname解析换成A记录解析Qؓ(f)什么这操作呢?首先Ҏ(gu)癑ֺ官方解析Q网站抓取失败有可能是服务器环境配置止?jin)百度抓?也有可能cname做了(jin)相应讄Qؓ(f)?jin)减服务器压力Q由于我们无法更Ҏ(gu)务器环境Q我们有限更改ؓ(f)A记录Q然后进行观察和分析。修改后的A记录?BR>修改A记录 

修改后我们再对网站进行了(jin)一些对应调_(d)让后我们待百度抓取时观察一下抓取日志分?BR>
我们从排名数量及(qing)变化也能看到Q网站的排名逐渐下降
|站排名 

癑ֺ排名 

我们l网站做一个sitemap.xml地图提交到百度站长工Pq行手动更新
提交sitemap 
我们看一下百度抓取的错误提示Q如下图
癑ֺ抓取错误

我们再检查一下该|站的IP
|站IP诊断 

l过Ҏ(gu)发现癑ֺ抓取到的IP地址和网站实际的IP的不W,我们直接在抓取诊?错误说明?提交l百?/STRONG>

l过以上改进Q目前百度抓取已l恢复正常,后箋p看百度快照更新的状况?/STRONG>
癑ֺ快照抓取分析 

以下是百度官方给出的抓取p|的原因:(x)

?B>url规范?BR>癑ֺ支持抓取的url长度不超q?024Q如果?zhn)的链接长度过长,请在保证正常讉K的情况下Q适当_Q保证链接能被百度正常抓取和收录?BR>
?B>重定向错?/B>?BR>重定向是指百度spider讉K链接时发生了(jin)跌{Q如果蟩转后的链接超长或者连l蟩转的ơ数过5ơ,׃(x)发生重定向错误而导致抓取失败?BR>
?B>服务器连接错?/B>?BR>q种情况是指Q由于服务器响应q慢或?zhn)的网站屏蔽?jin)癑ֺspiderQ而导致百度无法访问?zhn)的网站。从而会(x)D癑ֺ无法正常收录或者更新?zhn)|站的内宏V?zhn)可能看到以下具体错误Q连接超时、连接失败、连接被拒、无响应、响应遭到截断、连接重|、标头遭到截断、超时?BR>
*如何处理服务器连接错误?
减少动态网请求的q多|页加蝲。如果网站ؓ(f)多个|址提供相同内容Q则?x)被视?f)动态提供内容(例如Qwww.example.com/shoes.php?color=red&size=7与www.example.com/shoes.php?size=7&color=red提供的内容相同)(j)。动态网늚响应旉可能?x)很长,q会(x)因此D时问题。或者,服务器可能会(x)q回蝲状态,要求癑ֺspider放慢抓取该网站的速度。一般来_(d)(zhn)尽量用简短的参数q}慎用?BR>
保(zhn)网站的托管服务器没有停止运行、超载或配置不当。如果连接问题、超旉题或响应问题仍然存在Q请与?zhn)的网站托服务提供商联系Qƈ考虑增强(zhn)的|站处理量的能力?BR>
(g)查网站是否不心(j)屏蔽?jin)百度spider的IP。?zhn)可能会(x)由于系l问题而阻止了(jin)癑ֺ讉KQ例如DNS配置问题、配|不当的防火墙或DoS防护pȝ、内容管理系l配|问题。防御系l是保证托管服务正常q行的关键因素之一Qƈ且这些系l通常?x)配|ؓ(f)自动L量的服务器h。由于百度spider发出的请求通常要比普通用户多Q因此可能会(x)触发q些防MpȝQ导致它们阻止百度spider讉Kq抓取?zhn)的网站。要解决此类问题Q?zhn)需要确定网站基架构中的哪个部分在阻止百度spiderQ然后取消该L。如果?zhn)没有控制防火墙的权限Q就需要与(zhn)的托管服务提供商联p解x问题?BR>癑ֺ快照优化 
?B>robots禁问题?BR>在抓取诊断工具中如果q回的抓取失败结论是robots禁Q请认(zhn)是否对该网址讄?jin)robotsQ阻止百度spider抓取|站的某些内容,如果(zhn)未使用robots文g屏蔽癑ֺQ请点击旁边的报错链接,癑ֺ?x)立x新?zhn)站点的robots信息Q如果是(zhn)的误操作导致了(jin)禁Q请?qing)时修改robots文gQ避免造成(zhn)的|站在百度收录量和流量的下降?BR>
?B>DNS问题?BR>DNS错误是指׃服务器停止运行或DNS到?zhn)|域的\由存在问题,D癑ֺspider无法与DNS服务器通信?BR>
*如何处理DNS错误Q?/B>
保癑ֺ能够抓取(zhn)的|站。对重要|页Q例如?zhn)的首?j)采用抓取诊断工具Q如果它能顺利返回?zhn)的首内容,那么?zhn)就可以认ؓ(f)癑ֺ能够正常讉K(zhn)的|站?BR>
对于持箋的或反复出现的DNS错误Q请与?zhn)的DNS提供商联pR通常情况下,(zhn)的DNS提供商即为网站托服务提供商?BR>
配置(zhn)的服务器,使其能够?04?00{HTTP错误代码对不存在的主机名作出响应?BR>
?B>404错误
?BR>一般情况下Q当癑ֺspider讉KC存在的网(因ؓ(f)(zhn)删除或重命名了(jin)|页且没有将旧网址重定向到新网,或者链接中存在拼写错误Q时Q就?x)出现“未扑ֈ”状态错误(通常?04 HTTP状态代码)(j)?BR>
?B>讉K遭拒l?/B>?BR>一般情况下Q百度会(x)通过跟踪|页间的链接来查扑ֆ宏V百度spider必须能够讉K某个|页才能抓取该网c(din)如果?zhn)意外地看C(jin)“访问遭拒”错误,可能是由于以下几U原因导致的Q?BR>Q?Q百度spider无法讉K(zhn)网站上的网址Q因为?zhn)|站上的所有或部分内容要求用户d后才能查看?BR>Q?Q?zhn)的服务器要求用户使用代理q行w䆾验证Q或者?zhn)的托服务提供商L癑ֺspider讉K(zhn)的|站?BR>
?B>参数错误?BR>׃h的语法格式有误,不符合服务器对请求的某些限制Q或者请求本w存在一定的错误Q服务器无法理解此请求,D抓取p|?BR>
?B>socketd错误?BR>当百度spider讉K服务器,q行tcp通信的时候,socketd发生异常Q导致数据不能正常返回。请(g)查服务器q接状况和防火墙讄是否W合预期?BR>
?B>dhttp头或者页面内Ҏ(gu)p|?BR>(zhn)的服务器收C(jin)我们的完整请求,但是q回信息时不完整Qhttp头或者响应正文发生了(jin)截断Q导致网内容不能正常读取?/P>