微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

如何在不删除页面的情况下处理网站上的重复内容

本文作者:Don jiang

具体做法很简单,按这几步操作:

  1. 加canonical标签:在重复页中加
    <link rel="canonical" href="主页面URL">
  2. 设置301重定向:将相似或旧URL跳转到主页面(服务器或.htaccess配置)
  3. 参数页限制收录:在重复参数页加
    <meta name="robots" content="noindex,follow">
  4. 统一内链:所有内部链接只指向主URL

这样一般可减少30%-50%重复收录。

设置 Canonical 标签(首选方案)

如何设置

把代码放进网页开头那块叫 <head> 的区域是最基本的操作。记得一定要紧挨着 <title> 往下放,保持在前15行代码以内。抓取工具下载网页前 20KB 数据时一眼就能看见。要是放进 <body> 主体内容区,抓取工具看都不看随手扔掉,服务器每天白白浪费几百次访问额度。

网店网址后面总跟着一大串字母数字,那是用来记账追踪的。服务器每生成一个这样的长网址,就要多花 150 毫秒去反应。后台技术人员写这行规范代码时,千万要把问号后面的尾巴全砍掉,只留前面干干净净的纯净版网址填进 href 框里。

处理网址容易碰到的追踪尾巴有这几种:

  • sessionid=12345(记录访客浏览)
  • utm_source=google(标记广告来源)
  • sort=price_asc(按价格从低到高排)
  • category=shoes(挑选细分鞋类)
  • page=2(翻到第二页)

遇到占空间 2MB 大小的产品说明书 PDF 文件,没法像普通网页那样塞入前端代码。PDF 文件被收录后会跟网页版介绍抢排名位置。你得去动一动 Nginx 或 Apache 服务器的底层配置,给这种非网页格式的文件发个特殊的通行证。

办事方法是去改服务器里的 .htaccess 根文件,加上一段带有 Link: <https://site.com/product-page>; rel="canonical" 的指令。服务器在刚开始吐出 PDF 文件的 50 毫秒内,就把这段暗号发给搜索引擎。拿到带有 HTTP 状态码 200 的完整暗号,权重就能安安稳稳转移过去。

自己辛辛苦苦写的博客发到 Medium 或者外面那些大论坛上,原来自己网站的搜索流量会被吸走一大半。跨域名的规范标签能搞定两个完全不同网址之间的交接。在那些外部论坛的发布后台,填上你原文带有 https 的完整绝对网址,老家网站轻轻松松收回近 90% 的初始权重。

像 Shopify 这种建站系统,底层的 /collections/all 目录经常冒出几千上万个重复商品页。前端得去改 theme.liquid 主题文件,找第 25 行到 40 行那一块。加上一段带 {{ canonical_url }} 的渲染代码,系统 0.2 秒就能把全站上万个重复页的归属写清楚。

各大主流内容管理系统填网址框的位置:

  • Yoast SEO 插件:写文章拉到底部找“高级”菜单。
  • Rank Math 工具:右侧边栏齿轮图标点“高级选项卡”。
  • Magento 2 系统:顺着 Store 点 Configuration 找 Catalog。
  • Wix 建站器:独立页面设置底部“高级标记”区。

代码弄完上网后的 48 小时内,去登录 Google Search Console 官方工具平台。把网址打进上面搜索框敲回车,在“网页索引编制”这块报表里盯着“Google 选择的规范网址”这行字。仔细对一对系统抓到的网址跟你手敲的网址是不是 100% 字母匹配

网站地图 sitemap.xml 文件里交的网址表,跟你要设的主网址得一模一样,错一毫秒都不行。要是地图给抓取工具发了带长尾巴的网址,网页里又指着没尾巴的,抓取工具每天要在打架的指令上绕几千次圈子。写个清洗脚本把地图里不相干的网址踢出去,能给整个网站省下 30% 的日常抓取预算。

新页面发出来拿 Chrome 浏览器自己检查一遍的动作:

  • 敲下键盘 F12 键叫出前端面板。
  • 鼠标点 Elements 元素审查选项。
  • 按下 Ctrl+F 搜 rel="canonical"
  • 睁大眼睛看 href 框里 https:// 丢没丢。
  • 翻遍网页源码保证这行代码只出现一次。

遇到那种长文章被切成好几页的,以前的人喜欢把第二页到第十页全指回第一页。现在抓取工具换规矩了。/blog/page/2 这种第二页的网址必须老老实实指向自己,填写 href="https://site.com/blog/page/2"。全推给第一页,后面第二页开始的 20 篇文章会被当作不存在。

还在用 m.site.com 这种老古董手机版域名的网站,电脑版和手机版网页里面得互相留对方的门牌号。手机版的代码要精准指向电脑版的网址。电脑版那边加一条标明屏幕宽度的 max-width: 640px 辅助标签,帮抓取工具在 0.1 秒内把两边内容对上号。

做了好几个国家语言的大型网站,挂了 hreflang 语言标记时,设置规范代码要一万个小心。法文版 fr/ 网址绝对不能跨界指给英文版 en/ 网址。各回各家各找各妈,系统对大型网站查这种匹配的一致性失败率高达 45%,稍微乱指一下整个多语言索引库就全废了。

三条专业底线

把网址塞进带有不收录标记的网页里,新手极其容易踩中雷区。抓取程序刚接到 A 网页下达的读取指令,跑到 B 网页一看代码里赫然写着禁止收录。两套互相打架的指令会让服务器在 0.5 秒内陷入无限死循环。A 和 B 两个页面辛苦攒了三年的全部历史权重瞬间清零。

网站改版换网址时随手填个旧链接,极容易走进 301 永久重定向的死胡同。抓取工具顺着地址找过去,发现得再连续跳转三次才能看到完整的文字。连环跳跃一旦超过 5 个网络节点,机器程序会强行掐断当前的抓取任务。网站每天白白流失近 600 个极其宝贵的抓取配额。

敲网址时开头少打一个字母 s 引发的流量灾难极其惨痛。把装了 SSL 安全证书的网页,硬生生指派给没有加密防护的裸奔老旧页面。谷歌的安全审查算法一旦扫到协议降级动作,会在 24 小时内没收该网址的安全展示徽章。网页原有的搜索展现量瞬间掉落 60% 以上。

写网址时手一抖,极容易弄出一堆麻烦的无效指令:

  • 网址末尾漏掉斜杠,系统当成两个完全不同的地址。
  • 大小写字母混着用,Store 遇到 store 触发路径识别报错。
  • 测试专用的假域名原封不动搬进正式版源码里。
  • 填入带有两点的相对路径,触发绝对路径识别崩溃。

网站后台不小心开了两个不同的 SEO 优化插件,网页头部源码里必定冒出两行打架的规范代码。抓取机器读取前 15KB 的 HTML 文件遇到两个发号施令的主网址。算法机器的做法是当场销毁这两行代码。系统底层成千上万个相似页面又开始互相抢夺排名资源。

调整分类列表页的底层代码,常常把第二页往后的几十页内容全部指给第一页。抓取机器顺着第一页的指令往后找,后方 49 页的代码居然全在往回指。藏在第二页之后的 1000 多篇陈年老文章彻底失去被放进搜索索引库的门票。

含有问号和动态会话 ID 的网址绝对不能写进属性框内。访客每点一次屏幕,后台数据库就随机生成一串新数字。短短一天内系统能硬造出 3 万个毫无用处的虚假独立网址。把夹带乱码参数的网址设为主页面,服务器的内存负载会在一周内狂飙 300%。

检查网站代码健康状况,老手都会照着一套标准动作筛查:

  • 开 Screaming Frog 软件跑全站 5 万个网页的深度扫描。
  • 剔除表格里状态码不是 200 OK 的报错行列。
  • 导出缺少规范标签的 Excel 错误警告清单。
  • 去控制台排查索引覆盖率板块的红线报错。

做跨国生意的多语言网站,语种标记要跟规范代码严丝合缝绑在一起。日文版目录的代码绝对不能跨洋过海分配给英文版页面。算法花 0.3 秒比对两个页面的语种字符差异就能发现对不上号。花几十万做的多语言网站架构面临 80% 的降权惩罚。

下架缺货的商品旧页面全盘指给网站首页极其危险。站长想着保住旧页面攒了 10 年的外部链接,抓取工具一比对首页满屏的促销海报,发现跟原来卖鞋的网页内容毫无瓜葛。算法会给强行凑对的违规做法贴上软 404 标签。过了 15 天把违规网页统统扔出收录库。

还在用电脑端和手机端分开独立网址的老式建站法,容易把两边的箭头弄反。手机端网址没指给电脑主站,电脑端漏掉屏幕尺寸识别代码。弄错双向匹配箭头,用手机上网的人有 70% 的超高概率点进排版严重错乱的宽屏电脑网页。

拿鼠标右键点开浏览器查看网页源码界面,按键盘 Ctrl+F 输入规范代码查验具体数量。屏幕右上角数字显示 1/1 才算安全过关。数字一旦显示 1/3 甚至更多,赶紧去后台关掉多余的冲突插件。这个笨办法在日常排查时往往最管用。

文章被大型内容农场用采集器批量抓取,原作者站内的规范代码能当防盗锁。盗版采集器连带 HTML 源码一并抓走,那行写着绝对网址的代码也会在盗版网站上线。搜索引擎在 2 小时内比对两边的归属权声明,将 95% 的搜索流量精准还给原创首发网址。

放代码的位置和格式有着铁一样的硬性规定,容不得半点马虎:

  • 代码必须放在 HTML 文档最顶端的 head 区域内。
  • 绝对不能把这行标记塞进网页正文的 body 文本区块。
  • 填写的网址得是解码后的纯净中文字符。
  • PDF 文件要去服务器根目录里写死头部响应。

内容差异化重写

拆分搜索意图

网站里放着两篇讲同一样东西的文章,访客点开看了几秒就关掉,页面跳出率经常卡在85%下不来。给其中一篇文章换个写法,专门写给赶时间上班的人看。把开头500字的说明全换成图文,告诉他们早上怎么用3分钟拿到一杯热拿铁。

懂行的人搜同一台机器,想看的是水泵压力到底稳不稳。把第二篇文章改成测试报告,加上15 Bar泵压测试的截图。贴一张92摄氏度恒温控制的曲线图表在页面正中间。附上用58毫米冲煮头做出来的12段实拍录像,两篇文章看着完全变了样。

普通人看懂的内容不能带有太多的生僻词,要调整文章的阅读难度指数。把复杂的机器术语全部删掉,短句子的比例要占到全文的75%以上。

  • 水箱装满1.5升能冲5杯
  • 蒸汽管带45度倾斜角
  • 塑料外壳能耐120度高温
  • 盒子里装了24页说明书

内行人看文章的时间长,网页里的字数就算写到2500字,依然能看得津津有味。多加上几组硬件参数对比,每人平均留在网页上的时间能稳在4分30秒。

  • 温控系统有正负1度微调
  • 两个锅炉总共1500瓦
  • 黄铜管件估计能用10年
  • 压力表指针慢了300毫秒

把两篇改好的文章提交给搜索引擎,访客搜出来的标题会自动分开。搜“新手咖啡机”,出来的是带200美元价格标签的图文。搜“单头机评测”,出来的是带有测试表格的数码长文。两周后,原本互相抢夺的每天150个点击量有了各自的归属。

写机器评测要去电商网站上翻看买家的真实评价。找出亚马逊上打4星以下的120条历史留言,算算底部水盘漏水的次数有多少。把测出机器运行噪音高达65分贝的短片塞进网页第三段。有了能听能看的真实画面,愿意往下滑动鼠标看第二屏的人多了一大半。

把7天的无理由退换货说明加粗,放在红色的购物车按钮下方。买东西的人下单前一定会去盯售后期的长短。填上这段承诺的文字,网页的停留时间悄悄延长了大约40秒。

  • 实验室给出的安全编号
  • 承诺三年内返修率低于3%
  • 48小时内客服必定回信

网页的副标题里带上具体的金额数字。标明“预算低于500美元”,把乱点进来的闲散访客全挡在门外。带着买东西心思的人点进来,平均每人会接着看网站里的2.5个页面。没人进来看一眼就关网页,往日相似度太高的惩罚随风飘散。

把干巴巴的商品介绍扩写成带图的购物指南,插进10个解答疑问的文本框。每天进来看文章的200个人里头,有15个人会点开框框细看。文章里的字数和干货比例要刚刚好,把写散文的废话全删光。放上5张带卷尺的实拍图,标出28厘米宽的机身能不能塞进厨房。

网页里加几个能用鼠标点开的折叠面板,里面装上长长的出厂报告。只有真想钻研的人,才会去点开那份占了2兆空间的PDF文件。在后台代码里换掉原先的H1标签,把两篇文章用超链接连起来。看完新手图文的人点个链接,顺理成章地去了新品展示区。

转换视角

I will try hard to think about your question: Let me think about it carefully.

一张长120厘米、宽60厘米的电动升降桌,能写出两篇完全不同的人话。第一篇文章换上自由职业者的口气,一口一个“我”来拉家常。聊聊每天窝在电脑前连敲8小时键盘,第五节腰椎酸痛得跑去看骨科的受罪经历。

把承重数字变成屋里头的生活画面。桌面上摆着两台27寸显示器、一只5磅重的大胖猫,外加一杯400毫升的热美式。按下桌角那个塑料按钮,电机顶着厚木板往上爬。玻璃杯里的咖啡液面晃动幅度连2毫米都不到。

整篇文章的说话口吻得像在路边摊喝着啤酒闲聊。多用点“咱”、“哎”、“你看”开头的短句子。写自己笨手笨脚地花了45分钟拧完底部的16颗长螺丝,累得一屁股坐在木地板上大喘气的狼狈模样。

顺便提一嘴晚上11点家里人都睡熟了的场景。按下降高度按钮,拿分贝仪贴近桌腿测出来的电机声音只有45分贝,跟夏天那台旧电风扇开了一档的动静差不多。这声音吵不醒隔壁卧室里刚满3个月的小婴儿。

调转笔头写第二篇文章,文章里的主语全换成“公司采购小哥”。说话语气得像拿着计算器精打细算的仓库管理员。在图纸上画好一间150平米的开放式办公室,算清楚一次性塞进20张桌子后留出的80厘米过道距离。

前一篇文章里的肥猫和咖啡杯全部拿掉,换成几张厚厚的安全检验单纸张。着重写那块桌板通过了BIFMA甲醛释放检测。在关紧门窗的20平米无窗小房间里闷了整整7天,仪器测出空气里的异味指数牢牢停在0.03毫克。

看桌子的人家里自己用公司批量买
压东西测试俩27寸屏加杂物共35磅扛住150磅工业大沙袋
电机能用多久一天升降4回,预估用3年连升降10000次摸着不烫手
坏了怎么修找客服讨一个备用电源插头签合同包换整套双电机件

买桌子的老板不关心你拧螺丝有多累,他们两眼盯着安装师傅的干活速度。写上买够10张桌子,厂家立刻派3个穿工装的师傅上门。手里拿着3把大马力电动螺丝刀,只花2个小时就把一地散乱的钢管全拼好通电试机。

给公司采购看的内容得多放点发票的规矩。加上一次性买满5000美元就能打85折的阶梯报价单截图。写清楚发票抬头开具的15个字数限制,附上走对公银行账户打款要等3到5个工作日的财务审核时间。

给家里人看的文章,句子都写得很短:

  • 昨天后背疼得我没法弯腰
  • 按钮按下去手感有点脆生生的
  • 桌上滴了外卖红油拿张纸随便一擦就掉

给采购员看的文章,里头全是硬邦邦的词汇:

  • 批量下单附带12页的环保审查单据
  • 钢架外表喷了一层2毫米防锈漆
  • 带着五年的企业级上门维修保修卡

自己家用的文章里,把桌板的颜色喊作“樱桃原木风”,说是配家里米白色的亚麻窗帘特别搭。到了公司看的文字里,那颜色得改名叫“防刮擦贴面”。写明拿金属钥匙在木板上用力划出15厘米长的白印子,拿湿抹布一抹干干净净。

记住常用高度的按键也得换个讲法。个人版里写着,长按数字“1”键3秒钟,桌子就停在适合1米75身高的102厘米高度。按下“2”键往下降到75厘米,刚好配那把花200块钱淘来的二手黑皮转椅。

给公司采购看的内容,这按键功能变成了“多人轮换办公适用”。写写公司里上早班身高1米6的女孩和晚班1米85的男程序员。两人轮流坐同一张桌子,交接班时花8秒钟按一个按键,马上切换到各自舒服的视线高度。

个人网页放的照片,是一盏暖黄色小台灯照在木纹上的特写。旁边随意摆着一本翻开到第30页的旧小说。公司采购网页的配图,是白炽灯底下整齐排成两列的20张空桌子。地上理着干干净净的塑料走线槽,外头看不见半根多余的黑电线。

补充独家价值

别人网站上放着三百多篇连标点符号都一样的参数文章。我自己掏899块钱买回同款咖啡机,拿起螺丝刀就把底壳拆了。凑近那块只有两根手指头宽的加热主板,按下微距镜头快门连拍了20多张图。挑出一张最清晰的放大原图贴在文章最开头。

平时大家在网上光看厂家修过图的漂亮相片,很少见带泥水的实物。我拍了一张沾满褐色咖啡粉渣的冲煮头照片放上去。照片右下角印着当天下午3点的拍摄时间水印。访客点进网页看了一眼,摸着鼠标滚轮的手指就停住了。

去楼下街角找那个开了5年咖啡店的老板闲聊。掏出录音笔,录下他嘴里念叨机器连续出杯本领的3分钟语音。回家听着录音敲键盘,把出水温度往下掉的速度写进带边框的文字堆里。

  • 连做第6杯水温掉到85度
  • 奶泡管用久塞住三分之一小孔
  • 原装粉碗塞不进18克深烘豆
  • 顶上那块热杯盘最多放俩杯子

店老板原汁原味的大白话掺进文章里,查重软件根本扫不出重复的段落。机器放在吧台上用了三个月,塑料外壳接缝处全卡着黑泥。拿废旧牙刷沾点水,对着边角缝隙来回搓洗整整12分钟,满手干活的泥水细节全敲进网页里。

买个能称到0.1克的厨房小电子秤摆在旁边。连续30天,每天早上称好消耗掉的咖啡豆重量记在纸上。把记下来的30个数字填进电脑表格,拉出一条带着上下起伏折线的走势图,稳稳当当插在网页正中间位置。

文章中段补上原厂橡胶密封圈断裂的具体日子。第一个圈用到第105天,边缘裂开一条细口子。出门去街边五金店花2块钱掏了个一样尺寸的硅胶圈换上。省下大几十块钱的动手经历写了150多个字。

水箱盖子总往下掉,买家经常在评论区里发牢骚。找一块长宽都是3厘米的方形小磁铁,滴上胶水按在盖子背面。拿手机咔嚓咔嚓拍下改造盖子的4张步骤图,按顺序排在文字底下。

大清早机器开机预热,拿手机凑近外壳录了一段短片。全篇不配背景音乐,留着水泵抽水时发出的嗡嗡响声。短片时长不多不少卡在45秒,传进网页的视频播放器里让大家点着看。

  • 开机热机器花掉42秒钟
  • 按下开关等6秒流出液体
  • 烧热蒸汽管得多等15秒
  • 废渣水盘装满刚好300毫升

买东西的人想听听机器放厨房里动静有多大。一天下来,后台数据记着视频进度条被来回拉动了200多次。文章里再塞进一张用分贝仪凑近测出来的72分贝噪音数字截图。

顺便算一笔买完机器后得一直掏钱的零件消耗账。一年到头得换4次软水滤芯,原厂水滤一个标价80块。一年光买滤水零件就得花去320块钱,算清楚的几笔账占了网页里100多个字。

买一把199元的手压咖啡壶搁在旁边做对照组。拆开同一袋埃塞俄比亚咖啡豆,两边各称出15克粉。手压壶出液得让人使出大概15公斤的力气,压完一杯满头大汗花了2分钟,两边测出来的数字并排写着。

机器压出来的咖啡液面上飘着厚度大概4毫米的油脂层。手动壶压出来的油脂薄薄一层只有1毫米,放了不到两分钟全散开了。拿把卷尺量好两处的毫米数,拍张能看清刻度的对比图传进网页。

花9块9网购一把便宜的塑料清洁硬毛刷,再配上50块钱一小罐的清洗粉。几件零碎东西的购物单截图打上厚厚的马赛克,放在网页快到底部的地方。看文章的人盯着一长串花销数字,心里开始盘算口袋里的零花钱。

找出一份平时没人去整理的维修网点表格。打遍全国排名前十城市的售后热线,问出来的10个街道门牌号全记在文章末尾。旁边配上每家店早上9点开门、下午6点拉下卷帘门的营业时间段。

手把手教人怎么抠掉冲煮头上的那层顽固老咖啡渍。煤气灶上烧一壶100度的滚水,拆下来的金属过滤网扔在水盆里泡足20分钟。写出拿牙签一点点挑出网眼里5粒黑色硬渣的动作,满屏幕都是烟火气。

  • 滚水泡20分钟软化老油垢
  • 拿硬毛刷正反面来回刷30下
  • 放窗台通风处晾干要4个小时

使用 Noindex 标签

最适合使用的情况

一家卖 500 件短袖的网店,侧边栏配有颜色和大小选项。访客随意点选组合,后台就会生成 250,000 个带筛选参数的网址。搜索机器人的每日配额只有 100,000 次,全被一模一样的商品列表耗光了。给超过 3 个选项叠加的网页加上免收录代码是常规做法。

原始商品网页保留了唯一的查阅资格。技术团队的周报显示,无用网页报错率掉到了 5% 以下的安全线。程序员在名为 test 的二级域名下测试 4 种新版网页布局。忘记加一段指令,两周内 4,500 个带乱码的半成品网页跑到了公共搜索区。

测试阶段的网站头部必须强制写入不收录指令。用服务器端的文件写死这项规则,提供 100% 的拦截保障。用 WordPress 搭的网站总会自动生成按日期、按作者归类的目录页。一篇 800 字的日记,被原封不动地复制到了 5 个不同的网址下。

在后台装个小插件,把没有独立文章的归档目录全部设为不收录。主分类目录保住了索引资格,搜索流量下跌的风险降了 30%。

2022 年双十一的促销单页上全是早就失效的 50 元优惠券。单页的点击率不到 0.01%,留在主站里拖低了整体的 15 分质量评级。给过期活动页贴上不收录标签是一笔划算的买卖。老客户翻找历史书签依然能看到过去的促销细则,搜索程序 72 小时内就会把它从库里删掉。

访客在站内搜索框里输入一串字符,系统就会拼凑出一个动态结果页。机器爬虫顺着搜索框乱爬,一夜之间造出 15,000 个排版错乱的无用网页。在搜索模板文件的最上面加一行免抓取声明就行。要清理那 12,000 个已经被错误收录的搜索网址,得去后台提交为期 6 个月的屏蔽申请。

看看不同类型网页的具体处理办法:

网页内容特征网址里带有的特殊字符处理办法预估清理时间
填密码的登录表单页含有 login网页头部加代码48 到 72 小时
测试用的备用网页含有 variant服务器下达指令7 到 14 天
员工内部通讯录页含有 staff插件后台设全局3 到 5 天
电子书文件下载包是 pdf 后缀配置文件拦规则超过 15 天

几十页的 PDF 或者 Word 格式白皮书下载链接,没法往里写常规的网页标签。去服务器的配置文件里,给 3 种特定后缀文件加上响应头指令完成屏蔽。

一个新开的论坛有 10 万个注册用户,大部分人注册完就没发过言。80,000 个只有名字、没有帖子的空白个人主页,把网站的信任分拉得很低。设定一条规则,发帖数不到 5 篇的用户资料页自动打上免收录标记。一个中型论坛用了这招,后台记录的有效收录率从 22% 涨到了 68%。

有些网页的内容重复度高得离谱:

  • 5000 字的隐私政策条款被 20 个附属网站照搬过去
  • 靠点击拿 5% 佣金的导购站建了一大堆用来跳转的假网页
  • 给手机端看的简易版页面去掉了 90% 的页面装饰代码

主站保留那 1 份隐私政策的收录权,剩下 19 个分站的条款页全加上免抓取指令。跳转代码加上免收录标签,断了爬虫对中间页的 2 次探测。一行标签声明就把简易版页面移出了常规网页池。

跨国公司的各地分站经常提供差不多的多语言版本。给加拿大英语区做的目录,跟美国主站的文字重合度高达 95%。往加拿大分站的 300 个次要服务页面里加上免收录标记。搜索引擎会优先把美国主站的高权重页面,派发到 15 个地区的搜索结果里去。

金融机构发了 120 份季度财报,每份都配有一个去掉了广告的打印版本。2,500 个打印版页面去掉了顶部的导航栏和 4 个底部的声明区块。给全站的打印版网址批量加免收录指令是个基本操作。财务报表主页面的内容不受影响,内部日志记录的冗余请求占比下降了 18%。

招聘网站里的过期岗位页面越积越多,总数达到了 500,000 个。那些已经招满人的职位详情页,每天还要白白承受 30 万次的无效抓取请求。对关闭满 45 天的职位页面进行代码级屏蔽。蜘蛛程序把计算资源分给新发的高时效岗位,新职位被收录的时间缩短了 14 小时。

一家售卖 200 款手机壳的独立小站,给每个手机壳配了 6 种颜色的展示图。系统给每种颜色生成了单独的 1,200 个商品页,文字描述却一字不差。把红色主推款留作主网页,剩下 5 种颜色的页面全部写入免抓取代码。店主查看了 30 天的报表,发现这 200 款手机壳的搜索展现量增加了 45%。

本地新闻网每天转载 50 篇外部文章,带有很长的追踪来源代码。文章每天生成 150 个带有 UTM 参数的冗余链接,堆积在服务器里。在带参数的网址模板里写好免收录规则。150 个冗余链接不会再进到搜索库里抢占名额,干干净净的 50 篇原稿获得了更高的展现机会。

如何添加

打开网页文件,在第 3 行到第 5 行之间敲几行字。用记事本打开 .html 后缀的文件,找到 <head> 标签所在的位置。把 <meta name="robots" content="noindex, follow"> 复制粘贴进去,传到服务器上就算改完了。

这个带着 43 个英文字母的短句能把搜索引擎拦在门外。代码里留着 follow 属性,机器爬虫就会顺着网页上的 20 个带下划线的链接去看别的文章。单日抓取额度只有 100,000 次,加上这段代码能保住整站的抓取通道不断。

不会敲代码的人靠建站后台的插件干活。给网站装一个下载量超过 500 万次的 Yoast SEO 插件,打开写文章的后台编辑页面。往下拉找到带齿轮图标的高级设置区块,把允许收录的下拉菜单从“是”改成“否”。

整个过程动鼠标点 3 下就结束了,插件会在后台自动把代码塞进网页的头部。用浏览器查看 50 个刚改完设置的网页源代码,那行 43 个字母的代码老老实实呆在第 8 行的位置上。

碰上体积有 5MB 大的 PDF 电子书或者 10MB 的 PPT 文件,刚才的网页代码就没用了。非网页格式的文件里没有 <head> 区域让人填指令。去修改服务器层面的 HTTP 响应头配置文件能解决这个麻烦。

运行在 Apache 服务器上的网站,要去根目录找一个叫 .htaccess 的文件。往里面加上 3 行拦截规则,专门针对后缀是 .pdf.doc.ppt 的 3 种文件发放 X-Robots-Tag 标签。

机器爬虫每次来读那 2,500 份白皮书文件,服务器会抢先扔出一个带 noindex 指令的报文。文件本身照样返回 200 的正常状态码给普通访客下载,爬虫收到了报文就会乖乖退出去。

看看 4 种常见建站平台具体在哪动手脚:

网站是用什么做的去哪里找修改入口要加几行代码预计多久起效
纯 HTML 静态站index.html 头部1 行24 – 48 小时
WordPress 系统插件高级设置面板0 行(自动加)12 – 24 小时
Shopify 卖货站theme.liquid 模板3 到 5 行判断句48 小时内
Nginx 服务器nginx.conf 配置文件2 行 Header 指令马上起效

Shopify 平台的店长要处理 15,000 个带搜索参数的乱码网址,得去修改商城主体的模板文件。在后台代码区找到 theme.liquid 文件,鼠标滚轮滑到第 12 行。敲进一段含有 if template contains 'search' 的 5 行判断代码。

这段代码是个自动开关,有访客在站内搜东西时才会跑出免抓取指令。原有的商品展示页和 50 篇官方博客还是照常被搜索引擎收录。店长月底翻看日志,乱码网址的报错条数掉到了个位数。

干完活要去检查刚才加的 1,000 个标签有没有真正起效。登录 Google Search Console 后台,在左边的菜单栏点开“页面”状态报告。找一张带有一条红色虚线的图表,名字叫“因 noindex 标记而被排除”。

图表上的数字曲线会跟着你加标签的网页数量稳步往上爬。挑 5 个刚才改过的网址,填进屏幕最顶端的网址检查框里。检测工具跑了 15 秒钟,甩出一份写满 8 项参数的体检报告。

报告的第 4 行写着“检测到 noindex”,干的活就算落到实处了。去 robots.txt 文件里,把那行带有 Disallow 字母的 18 个字符统统删掉。爬虫走在没路障的通道上,才能看清你刚加的新标签。

遇上含有 500 个子页面的大型分类列表,处理起来要多写几行判断:

  • 给第 2 页到第 500 页的翻页代码头部全加上免收录标记
  • 去翻页模板里写一段包含 15 个字符的正则匹配公式
  • 把第 1 页的网址单独摘出来,保证它不被前两条规则误伤

内部链接重定向

应用场景

网购平台上架一件纯棉短袖。系统根据S、M、L三个尺码加8种颜色,自动变出24个带长串字母的商品网址。

搜索引擎派出机器人把这24个网址全逛了一遍,抓取回来的网页文字内容相似度高达98%。

机器人把75%的体力耗费在这些一模一样的短袖页面上,拖慢了网站每天800件新款服装的收录进度。

在后台写一条指令,把那24个复杂网址统统引向一个干干净净的主网址 /tshirt 。外面网站点进来的访客,全被带到了这唯一的主通道里。

去年冬天卖断货的羽绒服网页经常被老顾客点开。那件2023款的外套网页,每天依然从浏览器收藏夹里收到150次点击。

屏幕上弹出“商品已下架”几个字,惹得85%的访客在3秒钟内关掉浏览器标签页。

给旧款衣服的网址加上301状态码,强行把人送到该服装品牌2024年的最新冬季外套列表网页。

访客的视线被满屏幕的在售新衣服吸引,网页跳出率硬生生砍掉40%。旧网址以前攒下的访问记录全盘落到新列表页头上,推着新页面在搜索结果里往上爬了3个名次。

网站改版换个域名调一下后台系统,以前的网址链接就会大面积失效。老系统习惯用类似 /article.php?id=567 带问号加数字的网址格式。

新系统全面改用带有英文单词的静态网址,成千上万个旧链接面临被批量丢弃的风险。

搜索引擎的数据库内存有5万多条旧网址的记录,每天照样往服务器发送近8000次“找不到网页”的404报错。

程序员写一段代码提取旧网址里的数字ID,挨个对应到新的静态网址上。服务器在一周时间里处理20万次跳转请求,把网站攒了四年的外部链接名气稳稳当当地搬进了新家。

写文章的网站日子久了,经常会积攒下一堆内容差不多的旧文章。数据库里躺着五篇关于“手机电池怎么保养”的旧文,每篇每天只有200到500人看。

这五篇文章在搜索结果页面里互相抢位置,没有任何一篇文章挤进搜索结果第一页的前五名。

管理员把这五篇老文章的文字凑在一起,重新编辑成一篇3000字的全面电池保养手册。

服务器端给五篇旧文章的网址分别设了路标,把人流全往新手册的网页上赶。新网页上线第二天,合并后的历史流量把单页日均访问人数推到1500次以上。

Ahrefs后台的数据图表显示,旧文章带着的120个高质量外部网站链接,顺着路标把搜索引擎机器人全请到了新网页上。

给网站加一把安全锁,通信端口必须来一次大换血。老旧HTTP协议下的80端口网络访问请求,统统得搬到加密的HTTPS协议443端口去。

不带安全锁的旧网页一旦被点开,Chrome浏览器会毫不留情地弹出100%全屏红色的“不安全”警告。

在服务器根目录下的 .htaccess 配置文件里敲三行代码,逼着所有的访问流量走HTTPS加密通道。

搜索引擎花了两天时间把带有安全锁的新网址替换进排行榜,网页收录量连一丁点都没掉。每天将近3万次点击旧网址的请求,全在50毫秒内被塞进安全连接通道。

以前用手机看网页,网址前面总带个单独的英文字母m(像是 m.domain.com/page1 )。现在的网页代码变聪明了,电脑端加手机端共用一套网址就能自动排版。

要是把带m的手机专用域名停掉,别人存在手机浏览器里的旧书签全成了死链接。

设定一条覆盖整个域名的拦截规则,把带m的手机端网络请求全部抓走,精准丢进主站的对应页面里。

每天5000名点开旧版安卓手机书签的访客,连网页闪烁都没察觉到就被送进新版页面。全站手机端设备带来的自然搜索流量在两周内平稳过渡,没挨搜索引擎的降级板子。

做多国语言的网站,稍微调一下语言文件夹的名字会让跨国访客迷路。原本的 /en-us/about 网页地址,被改成了更短的 /en/about 格式。

如何安全地实施

网站搬家或者合并网页,动作稍大点容易弄坏底层代码。服务器根目录的 .htaccess 文件是个纯文本,用普通的记事本打开,里面挤满各式各样的英文字符与标点符号。

里面敲错一个空格,或者漏掉一个斜杠,整个网站500多个网页会瞬间全部罢工。屏幕上只剩下白花花的 “500 Internal Server Error” 报错,访客连一张图片都刷不出来。

不懂敲代码的站长拿现成的工具更稳妥。WordPress后台的插件市场内,有一款叫Redirection的工具带着超过200万次的真实下载安装量。

设置面板内,左边方框贴上带有 .html 后缀的旧网址,右边方框贴上新网址,点击保存按钮,后台程序自动写好底层的跳转指令。

动手设置前,核对一遍手头的网址簿清单:

  • 旧网址带不带 www 前缀
  • 结尾有没有斜杠 / 符号
  • 网址里的大写字母全换成小写
  • 旧网页的图片附件地址有没有转移
  • 带问号的参数尾巴是否清理干净

网页之间的跳转动作像是一场接力跑。把网页A指给网页B,过一阵子往网页B内加了一条新指令,让它指给网页C。

搜索引擎派来的机器爬虫顺着链接跑,连续跳了4次之后,它的 耐心参数自动清零。爬虫当场放弃读取网页C的内容,带着空空如也的缓存文件回到机房。

拉一张包含800个网址的Excel表格清单,写一个VLOOKUP函数查表。把跳来跳去的中间网址B全抓出来删掉。

把网页A的终点目标强行改为网页C。Screaming Frog抓取工具扫完一万个网址只需不到5分钟,软件界面报表里红色高亮标出的行数,全都是跳转次数超过3次的冗长链条。

乱指路会让搜索引擎的审核机制翻脸。把一篇写“2021年老款手机壳”的2000字旧文章,硬生生指到一个卖“纯皮沙发”的商品网页上。

Googlebot在0.2秒内扫描对比两个网页的文字语义。发现两边文案根本挨不上边,后台转手把代码打上 “Soft 404” 的标签。

旧文章之前攒下的30几个其他网站给的友情链接积分,没法带到沙发网页上。

老老实实找一个卖“2024年新款手机壳”的同类网页做对接。两边文本语义重合度超过60%,之前的积分能以近乎90%的比例安全过户。

敲完代码,拿手边的工具跑几趟真实测试:

  • 拔掉网线用手机5G网络点一遍旧网址
  • 清空Chrome电脑浏览器的全部缓存记录重测
  • 在Google Search Console控制台手动提交旧网址检验
  • 用httpstatus.io批量查测20个网址的真实状态码
  • 连续观察一星期的流量报表起伏折线

老旧网站习惯在HTML头部代码内塞一段 <meta http-equiv="refresh" content="5;url=...">。访客盯着屏幕倒数5秒钟,页面才慢吞吞地刷新换皮。

倒数计时的做法拖慢了至少3000毫秒的页面首字节加载速度,早就被各大主流浏览器扔进不推荐使用的冷宫。一次性搬迁成千上万个商品页,写正则表达式通配符省时省力。在Nginx环境内敲一行 rewrite ^/shoes/(.*)$ /new-shoes/$1 permanent;

指令敲错一个括号位置,原本要去看鞋子的每天800个访客会被随机分配到网站首页。后台的购物车结算笔数会在24小时内大幅跌掉70%。

服务器每天自动生成的原始日志文件是个好东西。里面一行一行记录着上百万条人类访客和机器人的访问轨迹。用文本编辑器打开体积超过50兆的 .log 文件,筛选出状态码写着404的那些行,把无人认领的残缺网址全挑出来。每周花两小时给废弃网址上户口,全部分配好301数字归宿。

滚动至顶部