| |
为什么有道不抓取我的网站
|
| |
|
|
|
| |
有道是采用“顺藤摸瓜”的方法抓取网站的。您的站点必须被其它网站所指向才会被有道抓取到,也就是说在外部网页上有一个或多个链接指向您这里。您还可以主动向有道提交您的站点。 为什么有道没有抓取我的网站里的每一个网页? 虽然我们不断的增加索引量,但是有道不能保证抓取每个站点的所有内容。通常,如果贵站提供的信息越有价值,内容质量越高,网页模式越规范,您的网页被收录的比率就越高。 为什么我的“秘密”链接会被有道抓到? 有道没有试图攻击您的站点,“秘密”链接被抓取的原因在于它一定曾经出现在某个网页中,有道只是提取了这些链接。不公开某个链接并不是保存秘密的安全做法,建议您采取一些加密或者认证的措施。 如何让有道不抓取某网页上的所有链接? 您可以在该网页的meta头加入这样的信息: <META NAME="YodaoBot" CONTENT="nofollow"> 那么该网页的所有链接就不会被有道跟进,但网页本身有可能被索引。 如何让有道不抓取某网页上的某个链接? 您可以对某个链接加上rel="nofollow"属性,例如: <a href="http://www.somehost.com/" rel="nofollow">不跟进的链接</a> 该链接就不会被有道跟进,但该网页的其他链接都会被跟进。 为什么有道多次抓取同一个网页? 有道并不知道您的某个网页是否更新,它每隔一段时间就会重新抓取一次该网页。在重新抓取时,有道都会带上一个"IF-MODIFIED-SINCE"的HTTP头信息,以通知您的服务器返回更新的网页。如您的服务器能正确处理这样的头信息就可以节约一定带宽。一般情况下,有道不会在8个小时内两次抓取同一个网页,但也会有例外。 我的站点被抓得太频繁了! 很抱歉,请把您的站点以及被抓取过频繁的URL发邮件到yodaobot@corp.yodao.com告诉我们,并附上您的日志文件,我们将尽快找到并解决问题。关于您网站的任何信息都不会被泄漏给第三方。 我不希望有道抓取我的站点,该怎么办? 有道遵循Robots这一用于禁止爬虫抓取部分网站内容的互联网标准协议。我们推荐您使用标准的robots.txt文件。有道在抓取站点时会首先读取robots.txt文件,然后根据robots.txt文件的要求进行抓取和索引。关于robots.txt文件的更多信息,请看帮助中心里"关于robots.txt"这一节内容。如果您的robots.txt文件符合标准,有道在抓取和索引时仍存在问题,请致信:yodaobot@corp.yodao.com ,我们的工程师将会尽快解决。 我的站点多久会在有道中被更新一次? 有道不能保证会在固定和有规律的时间段抓取您的站点。一般情况下,我们会依据您站点的更新速度来相应地予以更新。 为什么搜索结果里面没有我的站点? 有道尽量为用户提供最全面的搜索结果,但我们不能保证您的页面被抓取过就一定会被用户搜索到。高质量的内容和丰富有效的信息仍然是网站受关注的主要因素,我们建议您不断提升贵网站的内容质量,让更多的用户关注和喜欢您的网站,被搜索和访问的次数自然会多起来。 robots.txt有什么用? 如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向我们汇报爬虫信息。 怎么使用robots.txt? 建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如,您的网站地址是www.abc.com,我们会首先抓取http://www.abc.com/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。
|
| |
【责任编辑:dadaqiang】 |
| |
上一篇文章: 研究竞争对手的SEO方法和SEO策略
下一篇文章: 没有了 |
| |
|
| |
|
| |
|
|
|
|
|
|
|