1,网站在一个论坛留下外链,如果百度蜘蛛通过这个外链访问到我的网站,
我的网站有谷歌统计的话,那么谷歌统计的蜘蛛来路是www.baidu.com,还是这个外链所在论坛的来路?
2,如果百度蜘蛛通过论坛的外链,然后访问到我的网站,那么,百度蜘蛛名称,baiduspider是否发生改变?
3,如果有访客通过这个外链访问到我的网站,那么,应该怎么区分蜘蛛和访客呢?根据蜘蛛名称,还是ua呢?
4,一个页面有两个url,一个是伪静态的url,另一个是那种带有多个?的动态url,
是不是两个url,蜘蛛都会抓取到?
5,这两个url,只想让蜘蛛抓取一个,怎么办最有效,能不能在vps上设置?因为我觉得服务器设置应该比robots.txt之类的文本文档更有效,毕竟有的蜘蛛不遵循robots规则,不知道这样说,对不对?
6,我知道蜘蛛在抓取网页的时候,会模拟很多浏览器,这个很多浏览器是什么意思呢,比如谷歌蜘蛛抓取,难道会模拟qq浏览器?或者,谷歌蜘蛛模拟的浏览器主要是ie和chrome?
7,另外,蜘蛛不仅会模拟浏览器,也会模拟来路,我网站日志谷歌来路都是google.com/googlebot之类,那这里模拟来路,是什么意思呢?难道会模拟facebook,twitter之类来路?他是不是也是主要模拟谷歌搜索来路?
8,如果一个url,有两个页面,页面a,和页面b,如何让蜘蛛只能抓取页面a的内容?我看网上有判定跳转之类,就是针对蜘蛛,跳转到a页面之类的设置。
但是,我觉得这个判定跳转有个前提,就是得判定真正的蜘蛛, 正如6,7所说,蜘蛛会模拟各种浏览器和来路,那怎么判定真正的蜘蛛呢?根据名称,来路,ua?
9,如果动态url:
www.abc.com/index.php代表页面1
www.abc.com/index.php?id=15代表页面2
如果对页面2的 ?id=15 进行加密,变成了
www.abc.com/index.php(加密参数)
那么,
蜘蛛如果过来抓取 www.abc.com/index.php(加密参数)这个url,
最后显示的是页面2<说明蜘蛛可以解析加密>,还是显示页面1<说明蜘蛛不能解析加密,所以,虽然抓取 www.abc.com/index.php(加密参数)这个url,但实际显示的却是页面1的内容 >?
————
10,在vps用lamp搭建了一个网站,www.abc.com ,现在想禁止蜘蛛抓取收录www.abc.com,以及www.abc.com的包括的所有文件,应该怎么设置?除了robots.txt之外,能不能在lamp上怎么设置?
常州SEO解答:
第一个:论坛 原因:谷歌统计和蜘蛛没有直接关系,想看蜘蛛建议看日志
第二个:不会 原因:建议了解一下蜘蛛的概念,这个不好解释
第三个:访客是访客,不是蜘蛛,看第二条,还是建议先了解百度蜘蛛这个概念,有访客会带来ip、PV等,但不是蜘蛛,反正不是一个概念
第四个:2个都会抓到,原因:静态会抓取索引收录,动态的也会抓取,很可能2个都是收录,甚至2个都有排名出现(概率不高,毕竟一样的)
第五个:方法是不要在网站任何地方出现动态链接,且设置Robots 原因:robots设置并不一定有用,我以前有回复过一个类似问题,你可以找下,不仅仅是搜索引擎不遵守robots,你任何地方出现链接也可能导致抓取到
第六个:应该可以模拟,但是不会去模拟 原因:对于搜索引擎来说有什么意义吗?
第七个:应该是一些软件或工具来模拟百度蜘蛛等来源,不是蜘蛛模拟谁
第八个:可以做301跳转、b页面完全不在网站链接中显示、这个页面直接在头部加禁止索引的代码 noindex
第九个:看你具体怎么写的了,一般加密的解析不了,如果是第一种,直接显示和抓取到的都是第一种链接
第十个:只有robots.txt设置,其他的都不行,参考对象“淘宝”,而且就算是robots设置了,你也要在站内每个页面进行设置,且在百度站长工具设置禁止外链,写法 User-Agent: * Disallow:*
上面写了一堆,实际上主要还是和蜘蛛以及爬行、抓取、索引、收录有关,建议这方面的资料多看下。
另外建议加下微信,比较喜欢和这方面有思考的人多交流,共同进步。
1.论坛。
2.不会。
。
4和5一类问题.平台提交改版规则,然后301过去。Robots屏蔽“?”类的动态地址,服务器上的能不动尽量不动。并且静态比动态更易抓取。
6.不知道。
7.模拟你的外链来源,跟蜘蛛池一个原理引导蜘蛛爬取。
8.跟3一样的。
9.显示页面1,但不能说明蜘蛛不能解析加密。
10.相应平台上直接闭站。
个人意见,仅供参考。
1.首先百度蜘蛛过来的,关google什么事;
2.通过日志你是可以区分那个连接是百度的;
3.偶会抓到但是对网站不好,用Robots屏蔽掉带?的链接,已经被抓去到了,就没辙了,最好的方法就是屏蔽掉鞥百度慢慢删除动态的链接。或者通过重写或者程序设置,将静态链接用canonical标签写入动态网页中。
4.我觉得蜘蛛模拟浏览器这点不用理会
5.应该不会吧,也许是我才疏学浅,蜘蛛完全没有必要去模拟什么呀。
1、应该是所在论坛;
2、不会发生改变;
3、根据ip来区分;
4、都会抓取;
5、为什么不301?感觉Robots屏蔽就可以了
6、模拟的应该是浏览器内核吧
8、还是根据ip吧
10、lamp上也可以设置,但没robots.txt简单易操作
自我感觉,不知对错。。。
第四个 解答 都会抓取。优先抓取静态 第三个 查询访问ip
这么多问题,我觉得你还是找夫唯老师帮你解答吧,有些问题问的太专业,专业的已经超出了SEO的范围,个人感觉
好复杂呀,估计没有人会回答
不会