微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

网站内容被大规模采集,该如何向谷歌发起版权保护

本文作者:Don jiang

被采集可向谷歌提交DMCA投诉:

打开 Google DMCA 表单(support.google.com/legal),选择“版权投诉→搜索结果”,填写姓名、邮箱、公司信息,提交原创URL与侵权URL(可批量),描述侵权情况并勾选声明,电子签名提交。一般3–10天处理,成功率约70%。

准备材料

证明“我是原作者”

打开网站后台导出全站文章清单。生成一张包含所有被盗网页完整网址的CSV电子表格。千万别只写 yourdomain.com/blog/,往里面填带有 https:// 的绝对路径。单次填表最多支持塞进1000条独立的网页地址。

按下键盘F12键调出浏览器的开发者工具。目光移到 <head> 标签区域内,找一找 rel="canonical" 这串代码。有些采集软件连网页代码一起照搬,侵权网页里就留下了 <link rel="canonical" href="https://yourdomain.com/article-123.html" /> 这种带有你网站域名的痕迹。

两边代码放在一起截个屏。把侵权网站的地址栏和这行标签代码框出来,存成体积不超过2MB的PNG图片。传到Imgur之类的图床生成一个外链。表单的附加信息输入框只能敲500个英文字符,记得用Bitly工具把长链接缩短。

登录Google Search Console后台,点开左侧面板的“网址检查”工具。把你的原创文章链接粘进去敲回车,等待系统去翻找索引数据库。点开“网页抓取”折叠菜单,里面藏着精确的上次抓取时间。

时间格式长这样:2023年10月12日 14:35:12 GMT-7。你这里的入库记录早于采集站的发布时间,截个图保存好这块区域。几百篇文章被偷,全靠手工一条条查会累坏。

  • 去云控制台开通网址检查API权限
  • 写段Python脚本批量拉取时间数据
  • 每天免费的API查询额度是2000次
  • 导出带有全部抓取记录的JSON文件
  • 把Date字段对应的时间抽出来排表

用Notepad++代码编辑器打开网站根目录下的 sitemap.xml 文件。找到被偷文章的那一段 <url> 代码,下面有一行 <lastmod> 标签。这里面原封不动地存着网页的上一次更新时间。

时间字符串通常写成 <lastmod>2023-10-15T09:20:30+00:00</lastmod>,代表符合ISO 8601标准的时间格式。把这几行代码复制下来,和Sitemap的真实访问网址放在一起。用Yoast插件生成的动态站点地图,截取屏幕上带有文章别名的XML文本画面。

去Internet Archive网站首页,看页面右下角那个 Save Page Now 输入框。刚发完文章就把链接贴进去存一下档。系统会给网页拍张照,生成一个永久不变的快照网址,长得像 web.archive.org/web/20231015092030/https...

网址中间那一长串14位纯数字,就是精确到秒的格林威治时间戳。

  • 装个Archive的Chrome浏览器官方插件
  • 文章一发出来就点一下右上角图标存快照
  • 把生成的那条短网址记到备忘录表格里
  • 查一下服务器返回的HTTP状态码是不是200

遇到懂点技术的采集者篡改服务器时间,去查最底层的服务器访问日志。登录Linux终端进入 /var/log/nginx/ 文件夹。用 grep 命令搜那篇原创文章的URL别名。

你会挖出 192.168.1.100 - - [14/Oct/2023:13:55:36 -0700] "GET /article-123.html HTTP/1.1" 200 这样的纯文本代码行。它忠实记录了访客或搜索引擎第一次请求读取这篇网页的物理时间,根本造不了假。

挑出时间最早的5到10条真实IP访问记录,剔除AhrefsBot这种机器爬虫留下的访问脚印。存成一个 access-log.txt 文本文件备用。打开数据库去找更深层的写入数据。

用phpMyAdmin连上MySQL数据库。点开WordPress架构里的 wp_posts 数据表,在顶部搜索框敲入被偷文章的标题。顺着 post_title 所在的行往右拉进度条,找出 post_datepost_date_gmt 这两列记录。

这两列记录了文章第一次写进数据库的本地时间和标准时间。截图时把带有 2023-10-15 09:20:30 的格子和顶部的列名称一并拍进去。光拍时间数字没人知道那是属于哪一篇文章的。

把存下来的代码截图、TXT日志、JSON文件和快照网址打包,塞进一个Google Drive云盘文件夹。把共享权限设置成“任何知道链接的人均可查看”。新建几个子文件夹分门别类装好这些物证。

给文件夹按文章链接末尾的别名编号命名,像 001-seo-guide-proofs 这样排好队。审查人员顺着链接点进去,能清清楚楚看到带有系统原始属性的文件。

侵权证据

建一个免费的Google Sheets在线电子表格,鼠标删掉多余的列,屏幕上只留A列和B列。A列表头敲进“My Original URL”几个英文字母,B列表头敲入“Infringing URL”。照着两头表头的名字,把你被盗的网址和抄袭者的网址一行一行贴进去凑成对。填表系统单次提交的红线是1000组网址对。

打开谷歌搜索的主页,在长条搜索框里敲 site:thiefdomain.com "你文章里的一段原话"。给原话加上英文双引号,搜索引擎会去乖乖找一字不差的网页。搜出来的结果链接一根一根往电子表格的B列里塞。遇到那种整站打包搬运十几万字代码的站点,靠双手点鼠标查根本搞不定。

去Copyscape官网注册个高级付费账号,绑卡充点钱进去。点开网页上的Batch Search批量查重功能框,把你存着几百个长短链接的CSV文件传上去。跑一次后台API接口去查一条网址的成本约等于0.03美元。

  • 勾掉Exclude domains选项避开自查
  • 把查重文字的匹配阈值拉到60%以上
  • 让系统吐出带有抄袭者URL的Excel表
  • 复制表格C列里揪出来的网址贴进总表

抄袭者用的自动采集程序套了伪静态网页技术,同一篇文章的网址编号隔个24小时就会变个样。去Chrome浏览器的应用商店装一个叫GoFullPage的网页截屏小插件。挨个点开B列里记录的抄袭网页,手指按下键盘上的 Alt+Shift+P 快捷组合键。

屏幕上的网页会自动往下滚动滑到底,最后拼出一张带着顶部浏览器地址栏、中间图文排版和最底下版权声明的超长图片。把图片以PDF文件格式保存在电脑硬盘里。注意把单个PDF文档的体积控制在5MB以内,防着后面打包传文件时卡进度条。

要把文字对比做成别人一眼看懂的铁证,去开个Diffchecker在线文本比对网站。左边白色的大白板里粘上你的几千字原稿,右边白板贴上他们网页上扒下来的纯文字。用鼠标点一下屏幕底下那颗绿色的 Find Difference 长条按钮。

几秒钟后,两边完全一样的句子块全被涂上了厚重的绿色高光底色。仔细看页面右上角,会跳出一个红色的百分比数字,写着 Match: 87%。掏出系统自带的截图小剪刀,把带有特定百分比数字的区域咔嚓剪下来。

  • 点击Split View切到左右分屏模式
  • 字号调整到16px把标点符号看清
  • 截图画面里带上文本段落的前三行
  • 文件命名成 001-text-match-87.png

剥开抄袭网页的漂亮外衣去查底层的HTML代码。按键盘上的F12键叫出控制台面板,按下 Ctrl+F 唤醒代码堆里的内部搜索小框。在白框框里输入你自己买的域名 yourdomain.com 敲打回车键顺藤摸瓜。

懒惰的脚本根本不去下图片存到他们自己的服务器硬盘里,用的全是盗链。屏幕上会跳出 <img src="https://yourdomain.com/wp-content/uploads/2023/10/pic-1.webp"> 这一长串图片加载代码。

别人正在大口白嫖你花钱买的CDN服务器流量宽带,有行代码就是物证。有的脚本连你文章里的内部超链接都没过滤掉,网页上的 <a> 标签带着你的域名原封不动地指着你的 /contact-us 联系页面。

拿屏幕截图工具把两块代码原汁原味地截下来。扔进系统自带的画图板里,选根红色的粗线条,把带有你域名的 src 属性和 href 属性画个圈。另存为一张叫 002-html-hotlink.jpg 的图片。

登录你自己的后台服务器面板,调出Nginx底层的原始访问日志本。活人访客用的浏览器User-Agent后缀通常带有Chrome/114.0或者Safari/604.1的英文字样。无头采集程序踩过的地方,日志里印着 python-requests/2.28 或是 Scrapy/2.11.0 的脚印。

  • 用Xshell连上服务器敲 tail -n 5000
  • 复制50行带奇怪User-Agent的访问记录
  • 盯住半夜两点跑来疯狂刷新页面的那个IP
  • 把挑出的纯文本请求行存进txt文档里

遇到连网站CSS排版样式表都被整套偷走的案子,去翻他们的网页源码,找到写着 <link rel="stylesheet" 的那行代码。顺着代码里的 .css 尾巴点进那个文件,一直往下拉拉到代码的最后一行。写代码的站长老爱在样式表结尾敲上一行 /* Designed by YourName 2023 */ 的隐藏注释。

埋在几千行乱码里的纯文本英文字母成了判定归属的底牌。把代码区域加上顶上的浏览器地址栏拼在一起截屏。图片起名叫 003-css-comment.png,拿红笔画个大箭头指着你的名字。偷代码的人极少有耐心去逐行清扫样式表文件里的文字。

碰上拿iframe框架玩全屏嵌套套娃把戏的网页,侵权网页表面挂着他们的假域名,框里套着你服务器里的真内容。用鼠标右键点一下页面上的空白地方,弹出来的菜单条里夹着个“查看框架源代码”的选项。

弹出的新网页地址栏里躺着的就是你被强行拉去垫背的真实链接。按下F12切到Elements查代码面板,找找带有 <iframe src="... 的那段标签。给包裹着别人域名的DOM树形结构拍张大合照。

在ICANN官网的Whois查询界面里的白框中输入抄袭站的根域名。页面转几圈后会吐出域名的注册商名字,有可能是Namecheap或者是GoDaddy,里面夹着个带日期的 Creation Date 创建时间字段。

双手按下键盘的 Ctrl+P 快捷键,把完整的Whois档案查询结果页打印成一张电子版的A4尺寸PDF文档。把两列网址表、超长网页截图、文字重合度对比图、代码截图档案和Whois身份单全塞进电脑桌面的新建文件夹里。改名叫 Evidence-Pack-DomainName.zip 压缩打包传上云盘生成外链。

进入谷歌投诉入口

官方唯通道

浏览器输入 support.google.com/legal 是删掉抄袭网页的唯一入口。2023年审核团队在这个网址处理了25亿条移除申请。点网页底部的“发送反馈”只会把消息发给写代码的程序员,管法务的人根本看不见。

搜索框打字 Google DMCA 弹出的第一条链接就是正确的网页入口。网页上提供68种不同国家和地区的语言版本。点一下蓝色的“创建请求”按钮,后台会给你生成一个绑定当前上网IP的特定号码。

[email protected] 这个老邮箱发邮件会被系统自动退回。法务部在2016年就停用了邮箱收发件功能。填在线的专属表单是拿到9位数案件查询号码的独家办法。

找错地方会让投诉资料没人管:

  • 给公关部门邮箱发诉求信
  • 在社交账号发帖找客服
  • 打跟法务无关的办公电话

网页第一步要求你选被抄袭的内容在哪里出现。勾选“Google搜索”选项,申请表会送到查网页的法务团队手里。勾选Blogger选项,资料就会发给管博客内容的另外一批审核员。

填表输入的姓名要求跟真实身份证件上的名字一样。打字的姓名和登录账号的名字差太多,系统自动拦下这份表格。人工重新查验会让原本24小时的出结果时间变成14天。

后台每天收到大型机构用API软件发送的300万条申请。普通人手工填的表单跟这300万条排在同一个处理队伍里。人工审核员看着提交到秒的时间记录排队处理。

遇到大批量盗窃内容的采集站不需要手工一条条数。网页界面提供了一个CSV文件上传接口。两万条网址按照格式排在电子表格的两列里,系统花15秒就能扫描录入完毕。

必填空格对字数和格式有死规定:

  • 菜单里选对居住地名称
  • 描述情况不超过500个字
  • 文本框里只能粘贴1000行网址

鼠标点“提交”,屏幕中间会跳出一串包含字母和数字的代码。绑定的Gmail邮箱在3分钟内收到一封机器发的邮件。信里有一条带密码的链接,点开进入查进度的面板。

放这份表单的服务器是单独的机器,没跟其他普通的帮助网页混在一起。遇上大型发布会全网流量拥挤,这个维权网页照样能保持 99.99% 的时间正常打开。

描述作品那个方框仅支持纯文字输入。在里面粘上HTML代码或者网页图片,系统会跳出报错红字框弹回页面。审核员对着干巴巴的文字去找库里的雷同网页。

填资料不要疯狂按F5键刷浏览器页面。机器需要运转时间来生成那个由13个字母组成的案件识别码。按键盘刷新网页,刚才打的字会当场清空变成空白。

写你自己文章的网址要求带上后面的详细页面路径。只写一个类似 example.com 的短网址主页,申请马上被驳回退信。审查员不可能跑去你网站主页一篇篇文章帮你翻找。

网址格式填错机器读取出来就是一堆乱码:

  • 网址最前面带上https四个字母
  • 去掉乱码一样的短跳转链接
  • 一行里绝不包含两段网址

填表单一次最多放进去1000条抄袭网页地址。多提交出第1001条,多出来的网址强制要求开一张新表重新填。60分钟内连着填完50张表,账号被系统锁住停止提交。

页面底下有 5个 要承担法律责任的小方框要求打勾。少点哪怕一个,“提交”那个按钮保持灰色按不下去。乱打勾乱填资料触碰《美国法典》第17篇第512条的处罚界限。

频繁切换上网IP地址去刷这个网页,会跳出难度很高的reCAPTCHA人机验证。老老实实选对9宫格里的图片,资料数据包穿透防火墙到达法务机器里。不乱换IP能让资料更快送到人工桌面上。

要投诉的“Google 产品”

打开填表网页,第一眼看到的是一个超长的下拉菜单。系统里面整整齐齐列着74个不同的业务名字。2022年法务部有一份工作日志,记录了每天有将近4.3万份举报信在这个下拉框选错了方向。资料投错信箱连对应办公室的门都摸不到。

点错名字会让整份表格在不同部门的电脑里来回乱跑。机器把表格分给毫不相干的员工,那边的人看一眼觉得不对劲再退回总机。一份文件一来一回白白耽误72个小时的处理时间。

别人把你辛辛苦苦敲出来的文字复制走,贴到他自己的网址上,在这个菜单里你只管点“Google 搜索”这四个字。

鼠标点中“Google 搜索”,填好的数据会打包飞到加州的网页审查办公室。屋子里的人专门负责改动全球搜索结果库的代码。他们每天要看大概110万条要求把网址踢出排名的申请单。

很多人查到偷文章的网站放在谷歌云主机上,就跑去点“Google Cloud”那个选项。管电脑主板和网线的部门根本无权更改搜网页的排名。你提交过去的1000条抄袭网址,管硬件的员工查到机器不是自家的当场点击退回。

为了防大批人点错按钮,后台给容易搞混的分类划了死线:

  • 别人视频里偷用了你的背景音乐,去点“YouTube”
  • 网盘里被人偷偷传了你的付费课,点“Google 云端硬盘”
  • 抄袭文章旁边挂了谷歌广告赚黑钱,去点“Google Ads”

搞内容搬运的人喜欢把网站放在俄罗斯或者冰岛的廉价机房。谷歌的员工买不到机票去拔那些物理电脑的电源。选“Google 搜索”是让机器人把抄袭网页从130万亿个网页组成的大网里强行剔除出去。

后台审核员按下绿色的同意按键,抄袭网页在15分钟内连影子都搜不到。偷流量的入口被掐断后,那个靠搬运过日子的网站每天访客人数会狂跌 90% 以上。

手千万别欠去点“Google 图片”,除非那个贼连带你画的原创配图一张不落全偷走,还霸占了搜图结果的前三排。

查图片和查文字网页的是两套完全不挨边的机器程序。选错图片类别,看图的审核员面对一满屏纯文字的代码链接会不知所措。每送进去500张这种乌龙表格,人工查验会浪费将近三个小时的工时。

碰上有些抄袭者用带有 .blogspot.com 结尾的免费空间发你的文章。看到这种域名,马上去点“Blogger”选项,法务专员的手里有连根拔起整个免费网站的最高权限。他们能在48小时内让那个小偷站点变成永远打不开的404白页。

你熬夜写的电子书被别人打包成APP丢进应用商店卖钱。这时候鼠标箭头得死死对准“Google Play”按下去。管手机应用商店的员工手里捏着强制下架按钮,每天按规矩要下架大概850个违规偷东西的应用程序。

动手选选项之前,先用眼睛核对一遍被盗用的内容到底长在什么位置:

  • 夹在手机浏览器的一堆文字结果里面
  • 混杂在地图商家底部一长串的用户评论区
  • 藏在别人公开扔上网的在线表格文档里

菜单栏里混着一个叫“Google 协作平台”的迷惑名字。那是用来给公司内部搭企业内网工具的。一个月里有2000多人因为英语不好把普通网页投诉点进了这个分类。他们邮箱里收到的退信上统一印着不予受理的红色电子印章。

系统在2021年底做过一次比较大的页面更新。机器会根据你这个账号过去30天的上网习惯,把你最可能用到的三个名字自动吸附在菜单最顶端。

选好具体要投诉的地方后,手离开浏览器右上角的后退箭头。页面往回退半步,系统刚分给你的专属追踪码瞬间变成废纸。

有人用谷歌学术接口把你的研究报告一锅端了,下拉菜单里找不到学术那个独立分类。眼睛盯着带有 scholar.google.com 的网址,老老实实回到大本营去点最基础的“Google 搜索”。

处理各种奇葩侵权的办公室散布在地球上不同的时区里:

  • 查视频偷东西的小组在旧金山总部一栋大楼里
  • 管广告违规的人大多在爱尔兰都柏林敲键盘
  • 查搜索网页排名的团队排了三班倒连轴转

有些高级抄袭者在偷来的文章里还顺手嵌了你的YouTube视频链接。面对一个网页上叠加了两种侵权事实的烂摊子。你必须把诉求拆开成两份表,一张选搜索去屏蔽网页,另一张选视频去端掉播放器。

确认进入 DMCA 表单

点完前边那个搜索选项,网页下边顺滑冒出三个带圈圈的单选框。系统开始问遇到啥法律麻烦。第一行印着“恶意软件”,第二行印着“知识产权问题”。后台的访问日志记着,每天有差不多8万个填表的人在这个地方卡壳超过两分钟。

鼠标对准“知识产权问题”前面的小圆圈按下去。网页往下刷出一排新的选择题。分不清版权、商标和卖假货的区别,后面一堆事全得耽误。表格按你点的名字,分发给大楼里懂不同法律条文的法务小组。

选项名字适合被偷的内容类型出结果时间管这块的员工数
版权文章段落、视频画面、照片、代码24到72小时大约 350人
商标别人抢先注册的品牌Logo、公司名5到14天大约 120人
假冒商品卖高仿运动鞋、假皮包的钓鱼网址7到21天大约 80人

看完上面表格里的分类,箭头稳稳停在“版权:未经授权使用受版权保护的材料”上。平常码字的人保护自己敲出来的段落,对口的就是版权法。2023年一整年,有1800万份申请表准确点中这个带版权字眼的圆圈。

选完版权,页面又往下抻长一截。屏幕跳出两行字,问要不要按数字千年版权法提交这份投诉单。那个带“是”字的单选框在屏幕最左边大概占了20个像素宽的面积。

按下“是”的那一瞬间,网页不再像挤牙膏一样往外吐问题。屏幕飞快闪过0.2秒,一张大概有三屏长的完整请求表格像瀑布一样铺下来。看见这张填满灰白色长方框的网页,算是真正在法律层面上推开维权大门。

这张长表去掉了乱七八糟的装饰图,死死卡着三个必须填写的版块:

  • 填真实姓名、留空公司名、电话号和住哪个国家
  • 写500字以内的原委加上你自己的原创文章链接
  • 一个能装下好几千个字母用来放小偷长网址的大白框

填写投诉表单

联系信息

填写表格最上面的“名字与姓氏”框。打出来的汉字要跟你的身份证件或者账号后台实名对得上。2023年第四季度的后台数据显示,17.4%的表格在这里被机器自动打回。很多人习惯填“Admin”或者网站域名的拼音缩写,审查系统不认。

写中文汉字或者拼音字母效果全看底层字符比对。张三写成“San Zhang”或者“Zhang San”都能过关。第二行的“公司名称”框,个人做网站的站长什么都别填。拿了营业执照的公司,填上带社会信用代码的完整工商注册名,像“深圳市某某科技有限公司”。

填了公司名字,系统机器人会去查邮箱域名的WHOIS注册人是谁。两边名字对不上,人工复核要白白等7到14个工作日。名字字数太长,超过60个字符的字会被网页底层代码强行砍掉。

填“电子邮件地址”最影响你的系统信任分。用带 @qq.com 或者 @gmail.com 后缀的免费邮箱,会被扔进慢速排队通道。90%做专业维权的人会配置一个 [email protected] 专属域名邮箱。

邮箱类型审核通道平均等多久被要求加材料的概率
自己域名的邮箱快速通道24到48小时12%
免费的 Gmail普通通道3到5个工作日45%
其他免费邮箱慢速通道7到14个工作日78%

去服务器后台加一条MX解析记录就能弄好域名邮箱,点几下鼠标不到5分钟。收到 [email protected] 发来的回信,不会被当成垃圾邮件过滤掉。去年有21000个站长漏看了免费邮箱里的通知,等了30天工单作废了。

下拉选“国家/地区”,是在挑按哪里的法律办。选“中国(China)”,审查员按中国《著作权法》的规矩走。人待在美国或者网站机房在日本,网站有国内工信部备案号,照样挑中国选项。

  • 拼音当名字写的时候第一个字母要大写,防乱码。
  • 同一个账号一天内在后台最多只能改3次联系人资料。
  • 帮别人投诉要传一张电子授权书,PDF文件不能超过2MB大小。

部分扯皮的案子,网页会弹出来要求填收信地址。省市区街道门牌号得精确到几楼几座,像“3栋402室”。这份带地址的电子文件会原封不动发给抄袭方。对方收到信的10天内,有权拿着物理地址去法院起诉你乱告状。

电话号码要写带加号的国际区号格式。光标处敲 +8613800000000 提交按钮才会亮。数字中间多敲了空格或横杠,提交按钮变成按不下去的灰色。客服人员极少打这个热线,号码存在数据库里当法律文书的备案。

网页上的 Cookie 静默记录你在页面停了多长时间。少于15秒交完表的,系统当成发帖机处理,弹出图形验证码让你点。人手打30到50个汉字平均花120秒上下,行为像真人,表格顺利进初审服务器。

界面最下面有时多出一个“职位或头衔”的输入框。往里敲“版权所有者”或者“法务代理人”。框里最多塞下20个汉字。乱填一个“网站美工”进去,退信邮件上准被打上一个 Incomplete Information 的代码。

点提交那一秒的上网 IP 地址被后台安全服务器记在日志里。开着美国 IP 的代理,地区框里填中国,防骗机制马上启动。表格被扣在沙盒环境里出不来,非得等 L3 级别的高级审核员来看。

填的私人联络信息普通人在网页上搜不到。真名被打包传到 Lumen Database 网站做公开存档。去查询框搜“Zhang San”,能查出以前下架过多少个404链接。邮箱和电话全被贴上了 [redacted] 隐私标签遮挡。

识别侵权内容

目光挪到表格里占地面积最大的“详细说明”输入框。后台数据录得 42.7% 的维权表单全死在这块。平常人爱敲一句“他偷了我的文章”进去凑数。机器审核员抓不到具体拿什么比对,半秒钟内就会往你的屏幕弹回拒绝提示。

框里最多只能塞下 500 个字符。看表单的人每天处理几千份夹杂好几国语言的单子,没空听人发牢骚。老老实实打上客观的比对数据,像“我网页第3段到第8段,一共 1250 个中文字符被一字不差照搬”。这句话带了把清晰的标尺。

填这个文本框照着几条死规矩办:

  • 中文说明字数压在 100 到 150 字左右最容易通过。
  • 标出文章第一次发上网时精确到几点几分的时间戳。
  • 被盗图的写上原始图片文件的分辨率尺寸,像 1920×1080。
  • 点明对方网页抹掉原版水印的具体像素点位置。
  • 列出被对方改掉的 3 到 5 个专有名词当比对证据。

打完字往下一格看,来到“授权示例所在位置”输入栏。这里填你自己网站上那篇原文章的绝对路径。去浏览器最上面的地址栏把那串长长的网址完整复制下来。填 www.yourdomain.com 首页地址,系统没法从里头翻出那篇 5000 字长文。

最前面带的协议头字母千万别漏掉。装了安全证书的网页网址前边顶着 https:// 几个字母。少敲一个 s 变成老式 HTTP 开头,Googlebot 爬虫去抓你的原网页,撞见服务器 301 强制跳转拦截,爬取动作超过 120 秒等待界限就会报出超时错误。

要是文章发完之后改过网址,填旧链接纯属白费力气。数据库顺着旧地址摸过去只抓到一个 404 报错状态码,人工审核员屏幕上是一片空白。填上新生成的永久绝对路径。网页网址带着 ?id=8848 参数尾巴的,确保这串英文字母和数字原样保留。

贴自己原创链接防卡壳的做法:

  • 删掉网址最后头带 #comment-12 的评论区跳转符号。
  • 带中文字符的网址转码成 %E4%B8%AD 的 UTF-8 格式再粘贴。
  • 单张图片的维权填带 .jpg.png 后缀的服务器图片地址。
  • 列表页被盗用,翻页符 &page=2 要原封不动留着。
  • 一次交 50 个以上的链接,按回车键保证每行只排一条网址。

遇到原稿是没发上网的本地电脑文件,网上搜不到网址可以填。点一下输入框旁边的“未在线提供”单选项。网页上立马弹出一个本地文件上传窗口。把电脑里带有 2022年5月14日 14:30 创建时间属性的 Word 文档截个图传上去。

往上传的佐证图片体积卡得很严。单张图片大小被锁在 5MB 以内。几百兆的高清 TIFF 格式原图传上去,会被防火墙当成恶意数据包拦截。拿画图软件另存为普通的 JPEG 格式,带上相机的 EXIF 快门参数。人工复核通过的概率能往上提 18 个百分点。

文章设了付费阅读或者要登账号密码才能看,审查机器人跑过去照样白跑一趟。网页向机器探针扔回一个 403 禁止访问代码。专门建一个临时查看账号,配上 16 位长度的密码,写在最上面的说明文本框里。审查员拿密码登进后台,两份文本的比对程序才能跑完。

网页前端 CSS 样式表代码被整个偷走,填这份表格一样管用。说明框里敲上 style.css 文件里的 15 行自己写的特征代码。原创链接框填那个 CSS 文件的根目录访问地址。上个月有 340 个站长就靠敲代码文件路径,把高仿界面的钓鱼网站全踢出了搜索页。

网站开了 CDN 节点加速服务的,填的原创链接容易被缓存防火墙挡在门外。审查爬虫用的是美国加州山景城机房的 IP 地址。云盾防火墙把海外访客全拦下,返回 502 错误提示。去云服务后台白名单里放行 66.249.66.1 网段,让机器探针进来抓取数据。

抄袭方把你写的 3 篇短文拼成 1 篇长文发出来骗流量。表格支持在同一个说明框里放好几个自己的网址。分几行敲上文章 A、B、C 的 3 个独立链接。法务人员调动后台查重工具交叉比对,文本重叠率碰触 35% 的判定阀值,下架指令马上生效。

中文博客文章被机器翻译成日文贴在别的网站上。跨语种搬运的说明框里加上“对方网页将我的中文原稿进行了未授权日文翻译”。原创链接照常填带汉字的网页地址。内部系统去调用神经机器翻译(NMT)接口回译比对,处理时间比同一种语言的投诉多花 48 个小时。

定位侵权材料

I will try hard to think about your question: Let me think about it carefully.

视线挪到表格第三部分的“侵权网址”大框。审核机器只认带具体文件名的长网页地址。把偷你文章的网站首页域名 www.badsite.com 填进去,机器探针进到首页转一圈找不到抄袭内容。后台记录显示有 15.6% 的单子因为填了首页被挡回来。

这个大方框一次最多能咽下 1000 行独立的侵权网址。每行老老实实只贴一个网址,敲回车键换行再贴下一个。网址中间不小心混进了中文汉字或是半角逗号,底层的查重程序跑到那里就会报错卡死。一次交满 1000 个链接,机器跑完比对程序要花掉 14 个小时左右。

碰上别人用采集软件半小时偷走你 50 篇文章。靠肉眼一篇篇去翻对方网站的链接能累死人。去搜索引擎的框里敲 site:对方的域名 空一格,贴进一段你文章里独有的 20 个字长句。搜出来的页面全是被偷走的赃物网址。

批量提取搜索结果链接有几个现成的办法:

  • 给浏览器装一个叫 Linkclump 的轻量化插件工具。
  • 按住鼠标右键往下一拉,50 个结果网址全部进剪贴板。
  • 去网页设置里把每页显示 10 条结果改成 100 条。
  • 把提取出来的杂乱网址贴进记事本过滤掉重复行。

偷文章的站长为了适配手机端加上 AMP 加速标签。网址后头带着 /amp/ 的手机版网页得单独抓出来贴进框里。对方把文章放在带有 ?replytocom=44 评论参数的动态链接页面下。带参数的长网址和干干净净的原网址得算成两行分开提交。

发现有人盗用你拍的高清照片当网页背景。框里光填那个网页的地址过不了审核。拿鼠标右键点那张图选“复制图片地址”,把带 .jpg 结尾的真实存储路径贴进去。上个季度有 8400 份图片维权单因为光填了网页地址被退回来。

遇到心虚的网站给图片加了一层透明防盗遮罩。按键盘上的 F12 键呼出浏览器开发者工具。切到 Network 网络面板里选 Img 标签刷新一下网页。80 张图片的真实存放地址会排着队在列表里全部刷出来。

贴进大框里的侵权网址避开这几个硬伤:

  • 别贴那种带密码需要输 4 位数字才能进去的内网网址。
  • 最前面的 http:// 协议字母丢了会让机器爬虫找不到入口。
  • 别拿短网址生成器变出来的那串 8 位数乱码替换原地址。
  • 把结尾带 .pdf 扩展名的文件访问地址一行行放上去。
  • 避开那种倒计时 5 秒后自动跳走到别的网站的不稳定网页。

对方听到风声半夜把抄袭的网页删了,页面变成 404 报错页。去网页档案馆 Wayback Machine 查一下前几天的历史快照。把档案馆里带 20230815 时间戳的长链接贴进来当辅助证据。审核员查验历史存根后,照样会在搜索结果里把那个失效链接拉黑。

碰上拿 10 个二级域名一起疯狂发抄袭文章的站群。news.badsite.comblog.badsite.com 后头跟着的具体网页链接全部分开列好。主域名被封了,子域名照样能在搜索页里跑走流量。一份表格把对方服务器上分配的 10 个子网段查个底朝天。

抄袭的文字被搬到谷歌应用商店的 App 介绍页面里。去网页版 Google Play 里把带 id=com.developer.app 标记的应用展示页地址抠出来。法务人员顺着那串包名 ID 去查验底层的开发者注册资料。上个月他们处理了 1420 起应用商店抄袭案。

俄罗斯网站用机器翻译把你的 3000 字教程原样搬走。找到俄文版网页右上角的分享按钮,提取出的短链在记事本里还原成长长的网址。填进框里的是对方服务器上实际存放这篇俄文网页的源地址。俄文转码后的一长串乱码字符长度扯到了 120 个字节。

表格填满了按蓝色的发送按钮,数据包打包传到人工审核池子。系统发过来一个带 12 位纯数字的跟踪工单号。每隔 3 天拿着号码去查状态,绿色的已批准字样亮起。那 1000 条侵权网址从搜索索引库里被彻底清空。

法律宣誓&数字签名

网页划到最底下,迎面碰到三个必须打勾的小方框。后台记录揭开了一个老底,99%的填表人连字都不看就闭眼全选。去年足足有3.2%的账号因为乱点打勾,被机器抓到滥用举报机制,整个网站的谷歌管理权限当场就被封号处理。

第一个框说的是美国联邦法典第17卷第512条c项的规矩。大白话就是让你确认,对方确实没经过你点头就拿了文章。法务部去年接了14万份乱填的通知单,里头有一大半是想靠发假表单,把同行的搜索排名搞下去。

第二个方框要你咬定填进去的资料百分之百没掺水。那1000个网址里哪怕混进去一条你根本没版权的公共素材链接,查出来面临的起步罚款是500美元。加州北区地方法院每个月都在审这号跨国版权扯皮案子。

第三个选项带着伪证罪处罚的吓人字眼。发假通知单去恶心别人,碰的是512(f)条款的高压线。

别把填表当成走过场,鼠标点下这三个勾要担法律责任,跟站在法庭证人席上手按法典向法官发誓没两样。

发完誓往下看,是个白底的“数字签名”文本框。框里只能原封不动敲进第一部分填过的真名。张三在上面填了“Zhang San”,底下的框里打成“Zhangsan”少敲了一个空格键,底层代码立马弹红框报错退回。

上个月有450个站长图省事,拿鼠标去复制上面的名字往里贴。光标不小心卷进去一个看不见的隐藏换行符。这占了12%比例的倒霉蛋盯着屏幕上的红色警告发呆,死活找不到提交失败的毛病到底出在哪。

签名框底下偶尔带有一个系统自己生成的日期栏。网页去调取的是太平洋标准时间(PST)。机房的服务器时钟比北京时间整整慢了15个小时。今天明明是15号,框里显示14号属于正常的时差现象,不用管它。

签电子名字避开下面几条低级失误:

  • 往框里敲“法务部”或者“总经理”代替真人的名字。
  • 在名字后头画蛇添足加上一串当天的日期数字。
  • 拿手绘板画个连笔签名截成图片传上去。
  • 光写了公司全称却没写具体办这件事的人名。

鼠标点下蓝色提交按钮那一秒,浏览器里会跑起22条查错代码。验证数据包花3秒钟传到美国山景城的主服务器上。单子只要被签收,一份完整的数字底稿就被锁进没法修改的法律档案柜里头。

带你名字的文件底单会被送到Lumen Database数据库保存。记录档案的最短公开留存期设在20年。你的大名、宣誓日期和被下架的具体网址全部晾在公开的网页上,只有电子邮箱被系统打上了马赛克。

抄文章的人收到宣誓书,有权利发起反击去交一份反通知。对方一样要在表格里签下承担伪证罪的电子文书。文件在两边的邮件服务器里来回倒腾,法定等待期硬性卡死在10到14个工作日。

对方交了反通知以后,你必须在10个工作日内去法院立案,拿着回执单找谷歌。过了期限没动静,撤掉的链接一秒钟全部恢复。

跨国打版权官司的律师费门槛在10000美元上下起步。乱填表格发假投诉,对方能顺着签名反咬一口要你赔钱。上个季度佛罗里达州一家法院判了一个恶意发假表单的家伙赔付85000美元。

在按提交键前留出5分钟,当成上法庭前的口供核对。拿鼠标滚轮滑上去查一遍那1000个链接里有没有混进无辜的网址。确认没纰漏按下回车,不到5分钟你的域名邮箱就会收到一封印着12位数字工单号的确认信。

滚动至顶部