今天,我们学习网站的目录层次的设置,搜索引擎抓取的过程,我们一般都说成是蜘蛛的爬行,蜘蛛在爬行的过程中,有的地方比较容易走动,而有的地方蜘蛛爬行就比较困难,出现无法识别的情况,这样蜘蛛就不会把这部分内容拿回自己的巢中,就是收录。相应的就出现了针对网站目录层次结构的研究,那么什么样的目录层次结构才是适合蜘蛛爬行并抓取的呢?今天,我们就来学习一下。
关于网站的目录层次的说法,到底多少层是合适的,没有一个确切的定义,一般来说,三层的目录就是可以的,我们看,http://www.0411juanmen.com/zhuanye/196.html 这个目录层次,是三层的目录,是适合蜘蛛抓取的结构形式,那么,很多人好说一个问题,我直接就放在网站的根目录下面,不可以吗?答案是可以的,我们看,http://www.xxxxx.com/ddd.html 这样的目录层次,其实是更适合蜘蛛抓取的,但是,这样就出现了一个新的问题,这个目录虽然蜘蛛是很容易识别的,但是作为我们用户来说,却不知道自己身在何处,我们第一个三层的目录层次,用户通过zhuanye这个文件夹,可以看出,他们所在的位置,是在专业知识这个文件夹下面,经过多年的研究发现,很多用户有一个习惯,就是直接删除末尾的html路径,去访问上级目录。就如这样http://www.0411juanmen.com/zhuanye/ 想了解更多的专业知识,我们这样的说,大家应该明白了吧?就是,这种三层的目录层次是一个最适合的结构层次,既让搜索引擎更容易识别并抓取,对用户来说,体验更好,这样的路径把相关的内容放置在一起,极大的满足了用户的需求。 说到目录层次结构,就出现了另外一个问题,就是静态路径和动态路径的问题,我们在后面会有文章讲述这个问题的,这里只简单的从蜘蛛爬行方面进行说明一下,我们看这样一个路径 http://www.xxxxx.com/portal.php?mod=list&catid=6 这个路径是dz程序自动生成的路径,是一个动态的路径,这种路径层次,蜘蛛是无法抓取到的,百度自然不会收录你,而这里就涉及到伪静态问题,如何更好地让蜘蛛来抓取,以后会做讲述。 配图只是为了美观,跟内容无关。 |