可从三个指标判断:第一,看站点内容质量,若大量页面字数低于500字、重复率超30%、更新无规律,基本可判定为低质站;第二,看外链分布,正常外链应分散在不同域名与IP,若超过70%集中在同一C段或明显站群,则风险极高;第三,看站点真实价值,通过工具查看是否有稳定关键词排名(如TOP100关键词≥50个)及持续收录增长。满足“内容薄弱+站群集中+无排名”的,基本可认定为垃圾农场,应避免合作。

Table of Contens
Toggle为何高 DA/DR 不等于高质量
DA/DR不是 Google 的标准
2006年西雅图的一家小公司Moz造出了一个叫DA的分数。那时候大家还在看网页上绿色的PageRank进度条,满分只有10分。这家小公司的程序员自己写了抓取代码,顺着网线把网上的链接扒拉回来,给每个网站标上0到100的数字。
后来Ahrefs这家公司也弄了一个叫DR的打分牌子。他们租了上千台电脑主机,每天跑到网上大概抓取300亿个网页。这套软件单纯数一个网站收到了多少根外链,硬生生拼凑出一个具体数值。卖外链的人拿着80分的DR截图,到处找不懂行的新手收钱。
谷歌官方的排名代码里,从来没有写过哪怕一行第三方工具的分数代码。
去翻翻谷歌员工John Mueller在Twitter上的聊天记录。2019年12月有人跑去问他DA对网页位置有多大用,他回话很干脆:谷歌压根不认得DA是个什么东西。到了2020年,他又在Reddit论坛连发三条帖子,澄清谷歌内部根本没设“域名权威度”这种打分项。
这些外部小软件的数据库规模连谷歌的百分之一都够不上。Ahrefs对外宣传自己存了3万亿条活跃链接数据,听起来挺唬人。谷歌早在2013年公开的网页抓取数量就已经超过了30万亿次。
- 维基百科某个偏僻科普页面的第三方打分只有12
- 一个刚上线半年的博彩中转站DA居然高达76
- 某三线城市干了十年的牙科诊所网站DR常年停留在5
- 每天靠机器发50篇抄袭文章的农场博客DR冲到了65
那个DR只有5的牙科诊所主页,稳稳排在当地“拔牙齿”搜索词的第一名。诊所门牌号在谷歌地图上挂着300多条五星真人评价。高分外链农场发的那篇带有牙科链接的注水文章,连搜索结果的前200名都挤不进去。
不少新手每天死死盯着Moz工具里的数字涨跌。花了200美元买了两条DA50的新闻网站链接,等到下个月软件更新时分数涨了3点。打开网站真实的后台统计面板,从谷歌搜索点进来的访客数量依然是一个刺眼的零蛋。
拆开Ahrefs算分数的数学公式看一看。软件只认有多少个不一样的老域名指向了你。有人花50块钱去淘宝买个群发小插件,往几万个没人管的废旧论坛灌水发网址。小插件跑一个晚上,Ahrefs抓到了2000个新网址,下周DR分数立马翻倍。
所谓的高分,不过是商业软件为了推销包月付费套餐搞出来的数字包装。
谷歌工程师Gary Illyes在2023年的Pubcon大会上又提了一嘴这事。算法只看单个网页的质量,哪怕它长在一个昨天刚注册的低分新域名上。正经的搜索引擎大厂,绝对不可能把饭碗交到几个卖SEO包月查询服务的外部小软件手里。
外链贩子发来的报价单永远按分数分三六九等。DA30到40的收费30美元,DA70以上的标价500美元。仔细瞅瞅那个卖500美元的网站,服务器藏在美国达拉斯的一个廉价机房,里面塞了上万篇机器翻译的假新闻,每天真正的活人读者连十个都没有。
看看那些被谷歌狠狠惩罚过的作弊站点历史快照:
- 真实月流量从5万瞬间掉到30的某站长博客
- 它的Ahrefs DR分数依然坚挺在72的高位
- Moz的爬虫照样给它打出68的亮眼高分
- Majestic算出来的信任等级甚至还在往上爬
谷歌出手惩罚一个作弊网站,让它的页面在搜索结果页彻底消失。外面的Moz和Ahrefs没权限去偷看谷歌内部的黑名单数据库。这两家公司的电脑只能看到网线上还有一堆链接连着废站,傻乎乎地继续给它发高分。
在长达十年的网站运营观察里,碰过太多高分毫无用处的案例。一个卖手工猫薄荷的独立小站,全网只有15个真实的宠物买家在个人日记里提到了网址。第三方软件测出来的DA分数只有可怜的8分。
它每个月能从谷歌搜索里稳定接住4000个来买东西的真实访客。4000个访客带来了每个月将近两万美元的真实销售流水。隔壁同行花了3000美元买高分外链、把DR强行刷到60,一年到头连几百块钱的服务器租金都没赚回来。
Ahrefs的收费套餐每个月最低要收99美元。销售跑业务需要一个容易懂的单一数字,说服掏钱的客户觉得这套软件有用。弄出一个百分制的分数,买软件的人一看70分大于30分,立刻觉得自己看懂了互联网的底牌。
谷歌机房分配算力完全走的是另一条路。系统里有成千上万个微调信号去判断网页到底有没有人看。Chrome浏览器占了全球65%以上的桌面电脑份额,安卓手机每天往服务器发送数以亿计的真实用户点击和网页停留行为记录。
外面的查询工具拿不到哪怕一条真实的访客鼠标滑动轨迹。Moz只能靠几台租来的云端主机,顺着网页里的HTML标签代码到处乱爬。机器认不出写着“最好用婴儿推车”的文章,到底是一个当妈的人一个字一个字敲的,还是机器花三秒钟凑出来的。
信息断层的现象在非英语的小语种市场特别夸张:
- 一个纯正的波兰语本地论坛DR查出来是0
- 波兰当地有3万个年轻妈妈每天在里面发帖讨论
- 谷歌把它稳稳排在了波兰语母婴搜索词的第一名
- 某机构花钱堆出来的DA60波兰语马甲站全掉到了十页开外
懂行的人查网站从来不看大大的分数面板。老手会点开Referring Domains的明细列表一行行看。一个号称DR60的网站,前100个来源全是连名字都没听过、不用花钱续费的免费子域名,骗局马上就露馅了。
“刷”出来的高分
每天Namecheap平台掉落十万个没人要的过期老网址。域名贩子花15美元捡漏一个2012年注册的非营利公益组织旧域名。Ahrefs软件数据库一直保留着公益域名过去十年积攒的大学.edu后缀推荐记录。
新买家拿到控制权,全盘清空原本的公益宣传网页代码。懂点技术的人在服务器放一条301永久跳转代码,把十年的积累全部送到一个才上线三天的博彩网页。Moz软件在72小时内更新月度数据,新网址的DA分数硬生生从0飙升到了45。
地下私人博客群组全靠流水线干活。操盘手去东欧和东南亚租500个廉价机房的独立IP地址,给每台电脑装上免费的基础版WordPress建站程序。Fiverr外包网站上有很多标价5美元的廉价写手,专门给群组凑字数写带免费图库照片的粗糙英文短文。
仔细看同一个卖家手里的上百个高分站点,能挑出非常多一模一样的建站痕迹:
- 全部使用Cloudflare免费版SSL安全证书
- 首页永远挂着5篇用机器翻译出来的生硬短文
- 网页最下面找不到2023版权年份声明和隐私条款
- 点开网页的等待时间常常超过3000毫秒
靠软件群发留言来拉高DR分数是一门极度便宜的生意。俄罗斯黑客搞出的GSA Search Engine Ranker自动程序全天24小时不休息。程序到处在网上找没防备的论坛留言板,一天硬塞进去5万条带一堆英文字母的广告回帖。
有人去搞大新闻网站的子目录权限来卖钱。黑客钻进一家防御极度薄弱的美国地方电视台网络服务器,在后台悄悄装个没备案的WordPress独立系统。倒卖外链的人到处发广告,花80美元就能在带有电视台高分背书的频道发一条软文。
大型科技公司的跳转漏洞也有人去钻。有人拿Google Maps自带的跳转功能做文章,把一长串乱七八糟的网址包在谷歌长链接里面。第三方检测工具看到网址前面带着google.com字母,程序全被骗过,判定目标网址背景极为深厚。
全靠堆积垃圾链接撑起来的门面,拆开看各项指标会发现数据错乱得离谱:
- Majestic工具算出的TF分数仅有2,CF分数偏偏冲到60
- Semrush记录的历史流量曲线永远是一条贴在底部的平直线
- 外链来源国家90%高度集中在印度、俄罗斯或者巴西
- 带有商业广告词的锚文本占了整站总比例的70%以上
打着客座博客名号的垃圾农场明码标价30到150美元。站长每天雷打不动发50篇毫无关联的商业赞助推销文章。原本专注小猫小狗护理的个人博客,三个月时间被塞满了电子烟、成人用品和在线卖药的杂乱广告帖子。
一个网页能分出去的权重好比一杯固定容量的水。单页向外导出的链接数量凑满3000个,买家花大价钱买的一条网址,能分到的水滴只剩可怜的0.03%。谷歌蜘蛛程序爬行时看到网页上密密麻麻全是向外的出口,判定网站为没人审核的低质目录集。
去查网站域名注册商的公开信息,一眼能看到网站交费记录。正经做生意的企业网站Whois注册期限都会一次性交齐5到10年的钱。垃圾农场的做局人为了省钱,99%以上的域名仅仅缴纳1年的基础费用,算准了被降权随时丢掉旧网址换新马甲。
卖家为了让卖出去的外链活得久一点,搭了好几层乱七八糟的链接架子。懂行的人写一段Python脚本代码,一口气注册1万个Tumblr免费博客账号。机器随便生成一堆看不懂的乱码文字,全指向第一层的高DR主站,人为把主站的数据灌水弄大。
翻开农场文章仔细瞧一瞧,粗制滥造的痕迹随处可见:
- 每篇文章正文字数死死卡在标准的300或500字边缘
- 作者栏挂着从免费素材库偷来的白领免抠假头像
- 随便点一下文章里的文字链接,冒出大量404找不到网页报错
- 社交媒体平台分享数据全部是极其刺眼的零蛋
流量与排名验证
“断崖式”的流量趋势图
打开Ahrefs软件,输入卖家给的域名,点开Organic search自然搜索看图表。别管顶部标着的DR 75高分,手动把时间范围拉长到两年以上。2023年9月谷歌更新了一次算法,大批网站的访问人数在那个月全变了。
老老实实做内容的数码博客,每个月进站的人数会在22,000到25,000之间小幅变动。遇到黑五打折季,数字会上涨到30,000出头。卖家手里的农场站走势图画风截然不同,三个月内能从500个访客狂飙到80,000个。
高光时刻维持不到两周,代表流量的蓝色折线就像被人拦腰砍断,直直地掉向零刻度。上个月明明有83,400人访问,下个月中旬去查只剩下112人。图表上多出一条红线,谷歌刚刚清理了一批违规作弊的网站。
机器拼凑的低质量文章被搜索引擎从库里删除了。原来排在搜索结果首页前三名的网页,掉到了第50页开外。不管卖家嘴上怎么打包票,Ahrefs上显示仅值1.5美元的流量估价早就露底了。
实操查验盯防高频暴雷时间节点、数据特征:
- 2024年3月大范围算法调整期
- 单周流量跌幅超过 85%
- 收录页面数量短时间内骤降
- 自然流量维持在 50 以下超过半年
卖家为了掩盖图表难看,常会耍些小聪明。发来的报价单截图,专门挑选流量最高峰那三个月的数据。拿Semrush的Authority Score权威评分截图糊弄人,对自然流量暴跌的事只字不提。买链接前一定要自己动手查历史记录。
很多农场站喜欢玩老域名抢注的花样。2018年某大学社团官网废弃不更了,卖家花60美元重新买下来。图表前半段的数据平得像一条直线,偶尔才来几十个人。2023年4月每天往里头塞上百篇采集来的文章。
靠虚假繁荣把访客数推高到了15,000个。算法很快查出新发的内容跟原来的教育背景毫无关系。随之而来的断崖下跌把单日访客数打回原形,连10个人都没有。花150美元买的链接,就挂在一个被拉黑的废站上。
访客数暴跌往往伴随着搜索排名词库的大洗牌。原本有4,500个搜索词能排在谷歌前十名。图表掉下悬崖那一天,有排名的词缩水到只剩30个。活下来的几个英文字母,全是没人搜的生僻乱码。
谷歌蜘蛛爬取你的链接时,顺带着打上了负面标签。链接挂在一个访客从60,000跌光到0的网站上,传过来的全是惩罚记录。防作弊系统Penguin企鹅算法会顺着超链接,一路追查到源头。
查阅工具面板具体板块规避废弃站点:
- 查阅 Ahrefs 概览页一年、全部视图
- 对比今年同月、去年同月流量差值
- 检查 Semrush 趋势图红三角标记
- 核对近期大规模删除外链历史记录
打开Wayback Machine网页时光机,输入流量坠崖的具体日期。上个月的页面还在卖园艺剪刀,是个正经的电商博客。暴跌后的下个月快照里,整个网页全变成了拉斯维加斯赌场的广告和闪烁动图。
核实流量来源
打开Ahrefs软件的主界面,视线跳过最上面的流量总数折线图,把鼠标往下滑动两下。屏幕左下方会跳出一个饼状图,旁边写着 Traffic by country 按国家划分流量面板。卖链接的人刚在微信里吹牛,说手里有个深耕波士顿房产的本地网,发一篇文章收150美元。
满屏英文的网页上挂着马萨诸塞州的公寓出租广告,工具显示上个月有22,000个访客点进去看。目光挪到按国家排名的饼状图上,排在第一的流量来源地是孟加拉国,占比高达45%。印度紧随其后占了32%,巴基斯坦贡献了15%的访问量。
口口声声服务美国波士顿本地买房人的网站,真正的美国本地访客仅有区区3%。远在南亚达卡的网吧刷量工人,每天拿着0.001美元的底薪疯狂刷新英文网页。卖家去Fiverr接包平台上花20美元,轻轻松松买来10,000个伪造的点击记录。
弄来撑门面的数字在懂行的人眼里浑身是破绽。装在谷歌浏览器里的分析插件能记录访客的停留时间,绝大多数IP地址在网页上只待了不到4秒钟。鼠标没向下滑动1毫米,页面被强行关闭了。买单前得核对网站语言、业务辐射区和实际的访客归属国。
| 网站语言和业务定位 | 正常的头部流量来源地 | 农场站的异常数据表现 | 刷量机器成本预估 |
|---|---|---|---|
| 德文 (.de) 汽车修理博客 | 德国 (占比70%以上) | 越南访客占据 68% | 15美元/万次点击 |
| 英文 纽约本地餐馆点评 | 美国纽约州IP地址 | 俄罗斯访客占据 55% | 12美元/万次点击 |
| 日文 东京旅游攻略站 | 日本 (占比80%以上) | 印度访客占据 72% | 8美元/万次点击 |
给电脑装上Similarweb的免费浏览器插件,打开卖家发来的网址。拿鼠标点一下插件图标里标着 Geography 地理分布的面板。一家标榜卖加拿大温哥华除雪机配件的网店,居然有18,000个点击全来自尼日利亚的廉价机房IP。
机房IP地址全部分布在价格低廉的云服务器数据中心,跟普通家庭安装的宽带网络完全两码事。谷歌的安全防线早把标着数据中心号段的IP塞进了作弊名单。花250美元在这家店里买了一个外链,白白挂在全是机器代码访问的网页上。
偶尔能碰上几个舍得下本钱的卖家,专门买下美国本土的高级代理IP来刷访问量。Ahrefs上的国家分布图确实被刷出了90%的美国访客占比。把目光往右边挪一挪,看看流量构成比例的数据面板。
老实巴交写资讯的博客,有60%到80%的访客在谷歌搜索框里敲下问题找过来。靠高级代理IP刷出来的美国农场站,自然搜索比例只有可怜的2%。剩下98%的数据全被归类到Direct无来源访问栏目里。
没人会每天把一个不知名的垃圾博客网址,一字不差背下来敲进浏览器地址栏。几万个无来源访问全靠作弊者用Python脚本写的自动执行程序。一段代码每天定时向服务器发送握手请求,伪造出虚假繁荣的假象。
查验国别和访问渠道的具体数据指标:
- 盯着Ahrefs概览页排名前三的访客所在国
- 核对网站声明的办公地址和实际IP来源
- 检查自然搜索和无来源访问的百分比配比
卖家会在聊天框发来一张Google Analytics的后台截图。图片上印着过去三十天有50,000个活跃用户。把图片放大,截图的右下角有一行极不起眼的小字,标着Avg. Session Duration平均会话时长。
那串数字明明白白写着00:00:02。五万个带有美国IP的用户,点进一篇长达三千字的房产投资分析长文。每个人只看了两秒钟集体点了右上角的叉号退出。几万个毫无真实阅读行为的访问记录,没法给挂在文章里的超链接传递任何权重分数。
遇到本地化属性极强的域名,得去查查带有地域名称的长尾词排名。打开Semrush输入域名,把搜索地区切换到“US-Boston”。号称波士顿第一房产资讯的网站,在本地查不到1个排在前50名的关键词。
扒开“排名关键词”
打开Ahrefs软件左侧的菜单栏,用鼠标点进“Organic keywords”自然搜索词报告。屏幕上跳出一个号称做北美家居园艺的独立网站。卖链接的人开价发一篇文章收80美元。眼睛先盯着能带来最多访客的前10个英文词组。
老老实实教人种花的博客,排在前面的词组应该是“how to prune tomato plants”(修剪番茄,每个月4,500人搜)这类词。或者是“best soil for indoor ferns”(室内蕨类用土,每个月1,200人搜)。满屏都该是泥土和植物的名字。
眼前这份卖80美元的数据报表长得完全不一样。排在第2名的搜索词是“buy cheap tramadol online”(网购廉价曲马多)。第5名写着“crypto casino no KYC”(免实名加密币赌场)。第8名是“write my nursing essay”(代写护理学论文)。
卖家多半会找借口说站内开了一个综合生活方式的分类。一个月有15,000个访客的生活资讯站,不可能有8,200个点击量全都是靠成人娱乐和处方药黑话带来的。
眼睛往右边挪一格去查CPC(单次点击花销)那一列。正经的除草机、修枝剪词汇,打广告的人出价都在0.50到1.20美元左右。占着网站前十名的医药类黑词,单次点击的价格高达15.00到45.00美元。
一眼识破站内藏污纳垢的高频词汇特征:
- 线上发牌、体育外围打水词组
- 没处方单就能网购的管控类药物
- 洗白资金来源的加密币黑平台
- 保证及格的留学生代考业务
- 带着地名的午夜陪聊服务
顺着网页往下滚动鼠标,一直拉到第11名到50名的位置。挨个去查KD(词组竞争难度)的分数。Ahrefs给每一组词语都打了一个分数,最高满分是100分。
报表里凭空多出了3,400个KD评分为0分的奇怪字母组合。“jhsfdg review 2024”这样一串乱码加上一个年份,工具查出来的真实月搜索量(SV)是个大鸭蛋。
作弊软件每天自动生产几万个全是废话的假网页。机器把一堆乱七八糟的字母硬生生塞进“评测”或者“价钱”的句子里。世界上根本没活人在谷歌搜索框里敲下那串字母。
卖家发来一张Semrush的控制台截图,上面印着粗体的“Total Keywords: 24,500”。对方在Skype聊天框里发完图片,把数字背后的真实英文单词捂得严严实实。
亲自把完整的CSV表格文件下载到自己的电脑桌面。用Excel表格打开它,给“URL”或者“Keyword”这一列套上筛选的小漏斗。在搜索框里敲下“CBD”或者“Casino”几个英文字母。
在24,500个上榜的词语里面,有18,300个词完整包含了刚才敲打的字母。剩下的6,000个词组是用俄文和泰文拼凑的,那家网站的首页明明全篇用的英文,简介里写着公司开在俄亥俄州。
表格查验环节需留意的数据特征:
- 小语种词汇占满整个表格30%以上行数
- 超过一半的词条单月搜索量(SV)不足10次
- 竞争难度得分(KD)长年停留在0或1
- 超过90%的流量全靠单独一个黑产页面撑着
偶尔能在里头翻出一篇标题叫“2023年大学生高性价比笔记本”的网页。长相跟正规的数码评测文章一模一样。鼠标滚轮往下拉,停在文章的第三个自然段。
句子里冷不丁冒出一段话:“复习功课太累不如玩一把真金老虎机放松身心。”那几个加粗的黑体字底下埋着一根超链接,鼠标点进去页面跳转到了塞浦路斯的一家博彩网。
谷歌的抓取小蜘蛛会逐字通读整段文字。NLP系统提取了前后的语境,给这个宣称卖笔记本的域名贴上了一张红黄牌警告。
你的SaaS软件公司在这个受过警告的域名上买了一个发文位置。财务掏出120美元付了账单。带着超链接的文章在周二早上9点准时发了出来。
等到周五登录谷歌站长平台(GSC),自家官网的展现次数从每天1,500次掉到了可怜的400次。带惩罚性质的标签顺着那根花了120美元买来的线条爬进了自家网站。
验证数据要去查带来访客最多的具体网页。Ahrefs里管它叫“Top Pages”最高流量页报告。网址后缀带着/health/benefits-of-water/的养生文章每个月带进来的访客数是个零蛋。
换到另一个/sponsored/bet365-login-link/的网页,单页一个月就拉来了9,800个人。整个网站的架子全是空的,全靠里面三四个利润极高的违规页面撑着门面。
最高流量页报告需核对的几项指标:
- 查看排在前5名的网址后缀长相
- 留意链接里有没有“guest-post”赞助字眼
- 比对高流量网页和网站本身的主题定位
- 挨个点开排在第一第二的网页看真实内容
真正做内容的站长靠几百篇围绕一个主题的文章攒信任度。写意大利面菜谱的网页来80个人,教煎牛排的网页来150个人,各个页面的访客数分布得很平均。
内容质量与相关性审查
质量审查
把网址扔进查重网站测一下。满屏幕飘红警告,说明文章基本是抄来的。去年底搜索引擎清理了450万个劣质网页。这些被砍掉的页面,文字重复比例全超过了85%。一些自动换词软件一分钟就能硬改掉300个近义词,读起来特别别扭。
拿两段话放到阅读难度测试器里打个分。如果连美国小学6年级的及格线都达不到,文章绝对有问题。一个长达80个字的句子里连一个逗号都找不到,全是一口气读完的废话。特定行业名词出现的次数被硬生生拔高到了5.2%,正常人写文章极少会超过2%。
肉眼看看网页长什么样也能发现猫腻:
- 每段字数像尺子量过,死死卡在490到510字
- 粗体大标题里生硬地塞满了很长的搜索词
- 侧边栏挂着6个以上完全不搭界的分类目录
- 拉到最底下,版权年份还停留在2018年以前
文字注水往往连带着胡乱配图。鼠标右键保存网页上的图片,看看文件属性里的拍摄信息。这种批量做出来的网站,90%以上的图片被抹除了相机型号和拍摄时间。偶尔漏掉的几张图,日期大多停留在2014年以前的免费无版权图库里。
图片大小被服务器统一粗暴地压缩成600×400像素。按F12打开浏览器的代码面板,懂行的人写文章会用专门的引用格式。劣质网页底层的代码标签数量膨胀到2000个以上。文字排版全靠敲几百个无意义的换行符号强行撑开空白。
机器拼凑的内容在词语搭配上漏洞百出:
- 相关的近义词或者延伸词汇缺失率高达70%
- 整篇文章从头到尾找不到哪怕一个具体的年份数据
- 文章里的资料出处点过去全是失效的404错误网页
- 说话口吻在“我”和“他”之间来回跳跃,像精神分裂
网址复制到机器写作检测器里扫一扫。图表上代表“常用预测词”的绿色色块占了80%以上,这绝对是流水线跑出来的文章。这些软件写东西时有个改不掉的毛病,特别喜欢在每段开头用上一长串副词组合。
数一数一篇文章里到底塞了多少个外部链接。短短500字的篇幅里,密密麻麻塞进8个带下划线的点击文字。这8个链接还分别跳到毫无关系的四个海外服务器IP上。第三方工具给这种网页的信任度打分连10分都不到。
翻开网站的地图文件,看看日期标记。一个平时半个月都不见更新的小博客,某天凌晨两点到三点的一小时内,像疯了一样吐出150个新页面。人类敲击键盘的打字极限大约也就是每分钟80个单词。
后台的自动程序按下了批量发送键。打开网页时光机查查历史长什么样。一个网址在2021年之前还在卖日式拉面,2022年初全盘清空,摇身一变成了发炒币新闻的网站。假面具一下就被拆穿了。
假网页的另一面是根本没有活人来看:
- 网页里完全找不到统计流量的跟踪代码
- 访客停留时间连11秒都不到就关了
- 旁边的分享按钮点击量常年是个大鸭蛋
- 服务器后台显示没开最基本的网页压缩功能
盯着页面最上面的广告位多看两眼。挂着小广告的方块里,展示的都是点一次只给0.02美元的廉价网赚链接。用工具算一下它整个网站的流量价值,一个月加起来连5美金都赚不到。
找两篇同一个作者名字的文章比对一下。上一篇文章还在用50岁老木匠的口吻教人怎么雕刻红木家具。下一篇立刻换了个人设,变成了在金融街干了8年的投资分析师,身份撕裂感极强。
查查这些网站背后的服务器地址。花钱买来的10个链接分散在10个名字不同的网站上,一测发现IP地址前面几段全是192.168.1.x。在同一个网络通道下面,居然挂着超过300个长得一模一样的网站。
点开网站的“关于我们”页面看看。里面的介绍文字跟全世界5000个小网站用的是同一套模板,仅仅是把公司名字那几个字替换了一下。留的客服邮箱是完全不需要实名认证的免费信箱,打过去留的电话,永远提示是空号。
整体相关性
点开网站最上面的导航栏,扫一眼菜单里挂着什么字。一个起名叫“极客数码”的网页,下拉列表里紧挨着塞满了“医疗美容”、“体育打赌”和“除甲醛公司”。真实的科技媒体顶多把分类延伸到手机壳或者智能家居,一台服务器绝对没法在一周内吐出跨越8个遥远行业的资讯。
往下滚鼠标,查数首页展示的最新20篇文章。上一条帖子还在教你挑选索尼微单的镜头,下一行紧贴着的标题写着“2023年迪拜房产投资签证办理指南”。两篇文章发布的时间间隔被精确卡在2小时15分钟,分秒不差,自动化发帖软件正在往数据库里疯狂灌水。
把网址扔进域名查询网站里翻一翻老底。花50美金买来的二手域名,2019年到2021年明明是个地方小镇的牙医诊所官网。到了2022年4月份页面全换了,突然变成天天发“如何辨别高仿名牌包”的时尚博客。
查查整个网站往外指的链接都去了哪里。正常的母婴论坛,跳出去的网址90%都在聊纸尿裤评测或者儿科医院。把花钱买来的网址放到分析工具里跑一份出站链接报告,导出成Excel表格后,你会看到极度离谱的行业分布数据:
| 链接跳出的行业分类 | 占全站外链的比例 | 危险程度估算 |
|---|---|---|
| 线上打牌与博彩游戏 | 35.5% | 触发全站拉黑处理 |
| 减肥药与成人用品 | 28.2% | 高度危险红线区 |
| 机械设备与搬家保洁 | 22.0% | 严重偏离原始主题 |
| 本站原有科技分类 | 14.3% | 真实内容被完全挤压 |
表格里的数字揭开了网站的底牌。一个套着互联网资讯外壳的域名下,藏着高达85.7%的杂乱行业跳转链接。搜索爬虫每月按时来抓取,满屏幕全和科技毫无关联,机器会把该域名塞进垃圾站的黑名单库里。
找找网页右侧或者底部那一堆密密麻麻的文字标签墙。活人站长专门把文章归类到具体的细分抽屉里,点开“路由器”标签底下乖乖躺着40多篇硬件评测。发帖站点的标签墙上挂着300多个孤零零的搜索词,点进“洛杉矶月子中心”一看,里头只剩一篇连配图都没有的凑数短文。
盯紧每篇文章开头那个写着作者名字的小字。名叫“科技小达人”的账号,上午发了一篇“Python爬虫代码怎么写”,下午用同一个马甲发了“宠物狗绝育后如何护理”。一个人脑子里装不下12个专业的冷门知识库,连常识性的医疗名词都拼错成了一堆乱码。
大杂烩网站的身份设定到处漏风:
- 美妆博主的头像用着张50岁修车大爷的网图
- 昨天自称在纽约投行上班,今天变成了种树果农
- 个人简介里,硬生生塞进去了三个卖鞋的微信号
拿流量结构图跑出网站的真实访客去向。专心做垂直内容的博客,搜索进来的用户大多停留在最热门的几篇主打文章上。伪装好的农场站号称每月有5万访客,拉开明细单子一查,98%的访问量全挤在几篇教人“免押金租车”的偏门帖子里,首页三个月没进过5个人。
在网址后面敲上/sitemap.xml敲回车。一个专注做美妆评测的站点,本该只有区区几百个口红和眼影的页面网址。呈现在眼前的纯文本框里,生生塞进去了45000条链接,按照字母A到Z排满了各地律师事务所和下水道疏通的服务页面。
随便抓取网站上的1万个汉字进行词汇浓度测试。做宠物医疗的博客,高频词前十名绕不开“疫苗”、“绝育”和“狗粮”。眼前的页面跑出来的数据显示,排在最前面的高频词全是“厂家直销”、“包邮”、“微信同号”的销售话术,找不到半个行业专属名词。
瞅瞅网页两边的背景底色和图标设计风格。明明是个主打生活品味的室内设计网站,右边栏赫然挂着6个红黄相间、不停闪烁的“挖掘机配件批发”的动图广告。相差十万八千里的视觉元素挤在一个屏幕里,网站主人根本不管页面排版,只要给钱就把代码往上挂。
地域信息上的造假痕迹极其显眼:
- 底部联系地址在深圳,文章全在分享冰岛极光拍摄
- 当地的天气预报小插件,加载出来的全是纽约时间
- 留下的客服座机号是北京的,手机号归属地在海南
往下翻到文章最底下那片用来留言的方块区域。一篇分析今年新能源汽车电池续航的文字下面,如果真有人看,讨论区大概率在聊充电桩够不够用。那几条仅有的留言里,全用英文写着“极好的文章”,后面生硬地附带了一个卖高仿手表的点击链接。
把网址前缀那个www换成字母bbs测一测。主域名看起来是个干干净净的旅游日记博客,进入无人管理的论坛版块,里面密密麻麻全是兜售假学历和代考四六级的发帖机记录。主站装得像个正规媒体,旁边的子频道早就变成了一个什么都能发的垃圾堆。
局部相关性
盯着带下划线的那几个字,往左往右各读30个字。一个活人写文章提到北京搬家公司,周围聊天绝对离不开纸箱打包、货车限行或者退租房押金。前两句明明在讲三月份去武大看樱花,后半段硬生生拐弯扯上找搬家师傅,大脑瞬间会觉得极其别扭。
数一数变了颜色的超链接到底包含了多少个汉字。真实网页里点过去的文字经常是一句说了一半的大白话,大概包含4到7个汉字。花钱发出去的链接经常是干巴巴的两个字“女装”,或者干脆是一串长达15个字的淘宝商品搜索标题。
瞧瞧那个格格不入的词组被塞在了网页的哪个旮旯里。发帖机器为了省事,超九成的几率会把要加的网址扔进文章最末尾那一段。整篇文章洋洋洒洒敲了1500字,前1400字全在教你怎么炖红烧肉,末尾50个字话锋一转卖起了二手汽车配件。
鼠标放上去那一瞬间的状态,藏着几处极其微小的猫腻:
- 链接周边50个词里面,找不到任何同类属性的名词
- 带链接的那一段文字颜色,比正常正文浅了两个色号
- 鼠标停留在上面,左下角显示出一长串毫无意义的字母追踪代码
- 整句话读起来带着一股强迫你赶紧去点击的命令语气
把包含网址的那一整句单拎出来,复制扔进电脑自带的记事本里念一遍。机器批量塞代码有个通病,不管上下文语境死活强行往里插。一句写着“我们提供优质服务”的句子被从中间一刀劈开,硬塞进一个加粗的牙齿美白价格,主谓宾碎了一地。
翻翻同一篇文章里其他能点击跳转的位置。一篇1200字的文章里如果出现了4个外部跳转,正常比例往往有3个指向维基百科或者政府公开数据用来背书,留1个给商业卖货网站。造假农场会把这4个跳转全部分配给毫不相干的四家海外小网店。
机器算法词典里时刻计算着词和词之间的数字距离。“咖啡”和“星巴克”的距离可能是0.2,“咖啡”和“挖掘机”的距离能拉远到9.8。一段讲怎么冲泡手冲咖啡的文字里,冷不丁冒出一个距离超过8.0的陌生词汇,秒触发人工审查的红灯。
按键盘打开网页背后的源代码,查查隐藏的防追踪标记。真实的个人站长给别人推荐网址,碰到拿不准的网站会顺手加上rel=”nofollow”属性,全站比例维持在20%上下浮动。花钱买来的版面上,几百个外链全部光着身子不带任何防护标签。
文章配图跟跳转链接能不能对得上,暴露出幕后操盘手有多敷衍:
- 聊进口狗粮的文字旁边,配了一张修车厂满地废轮胎的照片
- 图片的替代文字里塞满了跟段落毫不搭界的骨科医疗词汇
- 链接刚好紧贴在一张尺寸被强行拉伸到800像素宽的模糊截图下方
- 图文距离被强行拉开,超过了电脑屏幕高度的三分之二
数一数整个网站跳出去的链接集中度,对一对句式模板的重合度。随机抽查网站过去3个月内发过的200篇文章。带链接的段落无一例外全是一模一样的句式结构,满屏全是“欲知详情请点击此处”。活人敲键盘绝对写不出几百次连标点符号都一样的废话。
拿流量预估工具跑一下那个页面的真实访客数量。一整个月跑下来,单个网页的活人访客连3个人都不到。躲在没人看的文章犄角旮旯里、跟上下文完全接不上的突兀链接,算出来的实际点击概率连万分之零点五都达不到。
带链接的那段话复制到翻译软件里,中英文来回倒腾两次。真正的中文母语写作自带说话的换气节奏。硬凑出来的50个字翻译回中文后竟然丝滑通顺,原本老外的死板语法结构和流水线机器翻译的味道,一对比就彻底暴露了。
局部排版上的细微破绽,扎眼到让人没法装作看不见:
- 唯独带链接的那行文字,行距从1.5倍突变缩小成了1.2倍
- 段首的两个字符缩进突然消失,死死贴着网页左边的白框
- 链接文字前面和后面各多出了一个极其奇怪的半角空格
- 整个段落没有任何标点符号,全靠敲键盘的空格键来断句
抓取网页生成当天的服务器访问记录。真正勾起读者阅读兴趣的跳转链接,周围的文字带有非常明显的情绪色彩,可能夹杂着50%的惊讶或者30%的质疑语气。塞满商业网址的文字干瘪得像旧电器的说明书,情绪打分工具跑出来的结果永远是死水一般的0分。
仔细瞧瞧链接前后的标点符号长什么样。原本非常顺畅的中文句子里,突然夹杂了一个英文输入法打出来的逗号半角符号,句号全角半角混在一起的情况非常严重。发帖机器人在切割替换那30个字的文本小块时,根本没有能力去统一整个1500字网页的标点字符集。






