SEO、采集和人肉SPAM
前两天遇上了一个抄袭者,不是人肉,是机器采集,被采集的文章去掉了所有外链同时不包含评论。我发现此类抄袭文章短时间内在 Google 的排名比原文要高,并且页面直接上到 PR 0 而不是一般情况下的 PR N/A。
这个事情证明了我以往的观点:外链多的页面权重低于外链少的页面,没有外链的页面几乎就是最利于 SEO 的页面。Google 的确不会跟进 Nofollow 链接,但其依旧会计算内外链数量。Wordpress 如果没有进行过 SEO 处理,单篇文章的权重自然低过存档页面(单篇文章评论部分有很多外链)。
我曾经写的"防止 SPAM 的另类方法",现在看来需要改进了。
首先是 PHP 代码改进,即模板的 comments.php 中评论人的代码:
<a href="http://ishawn.net/out/<?php echo(str_replace(array('http://','https://'), '', $comment->comment_author_url)); ?>" rel="external nofollow"><?php comment_author() ?></a>
也就是说,将 Wordpress 默认输出的 "http://ishawn.net" 变为 "ishawn.net"。整体链接变为 "http://ishawn.net/out/ishawn.net"。对于搜索引擎来说,这种链接显然是一个内链。
其次,利用 js(依赖 jQuery 框架),还原访客链接的形式:
$(".commentlist li cite a").attr("href",function(){return this.href.replace("ishawn.net/out/","")});$(".commentlist li cite a[href='http://']").each(function(){$(this).replaceWith("<span"+$(this).text()+"</span>")})
当 JS 载入完毕,"http://ishawn.net/out/ishawn.net" 又恢复为 "http://ishawn.net"。如果评论者没有留下链接,他名字前后的 <a> 将被替换为 span 标签(不可点击)。
最后,修改 robots.txt 文件,加一条:
Disallow: /out
改进到此结束,正常的访客基本察觉不到异样,所以不会影响他们浏览和跳出。这么做还有很多优点:1. SEO 效果提升;2. 防止人肉 SPAM(至少浪费人肉SPAM的时间,因为搜索引擎看到的是一个内链);3. 无需跳转页面,不会被别有用心的人利用。需要使用的朋友记得替换代码内的红色字段。
相关阅读:

可能沙发。SEO,也是一件需要时间的技术。
@sofish: 我以一种非常委婉的手法把沙发留给你了。。。。确实需要时间,每次改进都要等好久才看到结果。。。
不想麻烦,一点点来吧,目前我主要做到文章内尽量少放外部链接...
回复评论也做了一点特效? 看着挺帅的...

@iColor: 不是改进文章的内部链接的,文章内部链接该外链就要外链。再 SEO 也不能丢掉 blog 的本质精神,这是我最近的体会。
另,这个主要是处理评论的外部链接。
@iColor: 昨天看了 jinwen 的文章,得到了一些启发,所以自己弄了一下。
@iColor: 大量没有外链的文章也是不正常的,自然点吧。
额!!考虑的真周到啊!!有时间了去试了,不过这样在jquery还没有加载完的时候会有点诡异的说!!
@xiaorsz: 呵呵,看来你比我考虑的更周到嘛。可以跳出 ready,这样会好些。不过一般人也不是很着急地一载入页面就跑去点别人的链接吧。。。
@骷髅小鬼: 大量没有外链的页面也正常,门户就是这么做的,还是看内容而定吧,内容有需要肯定是要提供链接的。
有意思,话说你这儿滚动条也滚动了很一会儿才消失,可能我网速问题。
不知jquery处理那部分意义何在,仅仅是为了访问者看到状态栏上的url么?
@cosbeta: 一个是状态栏上的 URL,另一个是正常点击。 如果不处理,对方的页面就打不开,整个的目的是让访客察觉不到异常,只影响搜索引擎的收录。
@Jor: 偶尔会这样,网速不好的时候。。。
为啥不 http://xxx/redirect/ 在redirect中 header:location?
不过有jquery也还不错!
反正对浏览器速度影响也不大
@cosbeta: 因为我本来就要用 jQuery,所以刚好一并处理了。我不太想要那个跳转,比较麻烦,而且还容易被人利用。另一个考虑是。。。SEO,链接里有问号的话,对 SEO 有影响。
我觉得你这个最新的方法多多少少需要实验一下。不过,我还是很满意,每次来你这里都有收获啊。
完全的状况外。
顺便问一句你这里的PNG透明是怎么处理的??
@火星人: 其实,我已经实验了半个月了。。。效果不错,而且还打击了人肉 SPAMMER 的积极性。
@BoBoSkY: 什么安全的状况外?
@BoBoSkY: 我没有处理透明 PNG,如果你看到在 IE6 正常显示的疑似透明 PNG,那我告诉你,它们都不透明。。。
@Shawn: 恩,确实是让人兴奋的消息,偶也尽快跟进。
@Shawn: 完全≠安全。shawn眼神不行啊。O(∩_∩)O哈哈~ 恩,我看到你这里头像的边框用了PNG以为你会对他的背景透明做了处理了呢。在IE下看,貌似还是有很浅的灰色背景。我那天找了一些方法使PNG的背景透明,但是本机测试成功了,上传到服务器就是不行。最后是在没办法只能用了折中的方法,透明的GIF,可惜带有稍微的锯齿。
@BoBoSkY: 囧,我怎么连字都没看对。。。不一定要完全,只要这句话载入完成就可以了。其他的无所谓。
如果你只是想处理头像的边框的透明,GIF 足矣,否则就是浪费,那个东西一般是用来处理大块透明状况的。
@Shawn: 看到我上面的那个RSS图标了吗?就是那个玩意。有点稍微的锯齿。
进来膜拜达人的
其实你新加的回复特效有点突兀,你不觉得?
@leehow: 谁让你用 IE 的,你用 Chrome 看看。
@Geedr.com: 我是你同乡,不是达人。
哦,以后文中外链要少用了~
@Shawn: 囧。另外顺便说下你的回复邮件通知送到我BB里都会出错,内容空白,Gmail倒OK,当然应该不是你的问题
@Geedr.com: 我应该是你比较鄙视的类型,我用 WM+中国移动Pushmail
@Shawn: 好凶,还是差不多啊,可能我不习惯,大众习惯就好。
@leehow: 有个滑动的过渡,这样就不会太突兀了。。。你的意思是你是小众。。。
@Shawn: 怎么会,139pushmail从原理上来讲还算是真正的pushmail,我的BB还用的POP3
@Geedr.com: 嗯,我就是看上他的正牌 pushmail 形式了。
@Shawn: 貌似是客户端的?BB发邮件最方便的就是和发短信没什么区别
顺便报告一下java错误代码,看能不能参考,顺便我也问问Berrymail的开发者,反馈一下:java.lang.StringIndexOutOfBoundsException:Index -2 >=0
@Shawn: 判断一下来路,来自本站则正常跳转,其他则跳至首页。
.htaccess :
RewriteEngine On
RewriteCond %{HTTP_REFERER} !ishawn.net [NC]
RewriteRule /out/(.*) http://1 [L]
不知道语法对不。普通用户没必要伪造 referer 来访问这个链接,这样就不怕被利用了吧。
@Geedr.com: 是客户端的,但是也和发短信没什么两样,因为和系统结合的非常紧密,启动和关闭都很迅速,界面也与 WM 的短信界面差不多。
这个错误应该是内存溢出,要考虑的话方面很多,比如编码、邮件长度、甚至格式异常都有可能。所以你还是得联系作者。
@Lu Da: 字符被过滤了。。。
.htaccess :
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_REFERER} !ishawn.net [NC]
RewriteRule /out/(.*) http://1 [L]
</IfModule>
@Shawn: 为什么fox和用Chrome,ie 看的效果差很多啊...
RewriteRule /out/(.*) ……$1 [L]
来点中文,Please!囧——这样对老外不太友好哈
@Lu Da: 理论上是可行的,不过你没写对,过滤的内容我在邮件中能看到,至少要判断四种情况
RewriteCond %{HTTP_REFERER} !^http://ishawn.net/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://ishawn.net$ [NC]
RewriteCond %{HTTP_REFERER} !^http://www.ishawn.net/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://www.ishawn.net$ [NC]
而且还不能保证和已有的重写规则冲突。
而最让人崩溃的问题,是有人会问,为什么我的链接变成了这样?
@leehow: 因为,我特意忽略了 IE,不过既然你这么说我还是开开吧。。。
如果是真正的访客的留言就不能够提供权重了。。
突然发现贵站还对Gravatar头像缓存。。用哪个插件?缓存时间是多少,怎么我的头像还没更新..
@neekey: 真正的访客留言也不需要权重。首先链接是 external nofollow,除了百度,其它的搜索引擎都不计算。况且。。。访客留下评论我相信也不是为了权重,如果是,那还是别留言了吧。所以这也是减少无意义或者有目性评论的方法。。。
@neekey: 具体可以参考 这里 ,我用 Cron Job 一个礼拜删除一次缓存,你的头像不是超人吗?
发现一个小问题鼠标放在@XXX上之后浮动层有时候会显示在浏览器窗口当前屏的外面,就看不到了
最好是自动识别和浏览器窗口的边缘距离,必要的时候在鼠标上边显示。
可能说不清楚,上图:
还有,上边截图实在opera里,在chrome里浮动层距离鼠标很远
————————华丽分割————————
怎么看起来像故意找茬,嘿嘿
@Shawn: 无相神功版矢量超人
我想说的是,上边我的截图被屏蔽了。你这句“支持常用 HTML 代码调用”说得不够确切。哈哈
@dimlau: 没看见图?是不是 opera 里面有时候会突然从鼠标正下方冒出来?我确实是写的自动识别,但是有时候浏览器不能正确处理,我估计是 js 性能还跟不上。但是 chrome 离的很远我还真没发现,看来我得换个分辨率试试。。。
我确实没开贴图。。。。有图片地址吗?
@Shawn: fox和Chrome都不一样。
@dimlau: 这里有四张图,分别是四个浏览器,分辨率为 1280*1024
Chrome: http://pic.yupoo.com/shawnster/893086ad8fba/g9xddleh.jpg
Opera: http://pic.yupoo.com/shawnster/863276ad8fb9/9ltb7g9q.jpg
IE: http://pic.yupoo.com/shawnster/817066ad8fb9/qsbe6z3a.jpg
FX: http://pic.yupoo.com/shawnster/591896ad8fb9/40bd0ahb.jpg
倒是发现 IE 稍稍有区别。。。所以我糊涂了。。。
@Shawn: 你说的那个问题我已经解决了,仍然没有办法解决 垂直居中 搜到的方法好像都是放在table里面的。。
太华丽了~~~
@老所: 那你有没有发现什么问题呢。。。
采集一般都会去掉外链的。
现在采集blog的也多起来了?貌似以前都是采集新闻或者数据类的站点啊...
SEO,我宁可选XO!
呃~~这样子感觉比较奇怪,虽然说SEO比较好
哈哈
问题解决 菜鸟前来道谢^^
@孙波: 因为相对而言 Google 还是比较看重 Blog,给 Blog 内容的权重较大,如果一个采集站也是以 Blog 的形式呈现,它自然有利可图。
@aunsen: 你哪里用 SEO 啊,一说北风,大家都知道。。。
@Elton Disney: 其实也不奇怪啊,很少会被发现的。
@Zoll: 解决了就好
@Shawn: 我的意思是你看,这图里这种情况你就半张脸了
http://i3.6.cn/cvbnm/a1/72/b4/5814e952a596e5c506043958f7385ddb.jpg
感觉有点绝...SOE的境界很高.
@dimlau: 懂了。。。这得判断多种情况,看来哪天我得重写一遍,用 fixed 代替 absolute。谢谢
@dimlau: 呵呵 我上照片了~^^
@Shawn: 说到显示的问题.由于我的网速不是很好,被迫使用opera,有时候发现鼠标悬浮显示有点位置不对.不知道是怎么回事.js还没有加载完?我反复试试又好好的了.
@yinheli: opera 的 js 性能不太好,偶尔会算不过来,这个只能靠它自己了,jQuery 的代码效率其实已经比较好了。不过也不排除没有加载完的情况,因为是计算整体页面的高度得出的。
href="#comment-5237">@Shawn: 唉...以我的网速我不敢多多的尝试.因为我访问你的页面的时候就需要多刷新一两次.要不然经常出现没有加载完,就停了.要么没有加载完css要么没有加载完js.真是郁闷~~ 我们这铁通是收了钱没有服务.!垃圾....对了.我还有个建议,上一次也是因为网速的缘故,我写了好多字,结果提交的时候失败了.敲的字却全部不见了.给了我我个提示.....害我重敲! 不过像我这种网速的人应该比较少了吧...
我也养成了好习惯,提交之前Ctrl+A和Ctrl+C保险一下.
@Shawn: 你那个回复评论的图标,我还以为是用在链接前的一个特效呢,好像要提醒别人去点链接,我觉得要改下,呵呵
换表情了!
话说我站在68楼有点摇摇欲坠的感觉。。。 
@yinheli: 这是我的疏忽,多谢提醒,我修改一下 Ajax 评论的代码。
@LOKE: 哈哈,我这楼是正序的,不会垮。
测试@yinheli: 已经好了,不会白写了。。。
@yinheli: 你这建议可能造福不了你自己,我好想见到有用js地方法在提交数据前吧输入框内容复制到剪切板的,但是你浏览时js都加在不劝对你应该不起作用吧。呵呵,可怜的人啊。
PS.Shawn这里几乎是我访问的所有blog里页面打开速度最快的一个。哪里主机?
恩。。。我白字太多,“好像”输入成了“好想”;“加载不全”输入成了“加在不劝”
@dimlau: Yinheli 建议之后我改了,如果提交失败 textarea 不被清空。其实我觉得这里速度还可以吧,挺快的了。是 HostGator 的主机,倒不是多好,主要是机房在 The Planet,速度有保障。
我晕~来晚了~~这些细节太复杂了.
@fqch: 其实不是很复杂,只要遇上或想到的时候做一下就好了。
@thw: 怎么被拦截了,最诡异的是,我没有开 Akismet!?那个图标会吸引人的注意,这就够了,鼠标移动上去会有提示。
评论又多了个小箭头,你这每次都能给人惊喜啊~
你提到的事,我也遇过,有时觉得很可笑,不过现在都不管这些了~
@JoBru: 以前就有,不过那个不太明显,这次是动态化了一下。
呵,其实我之前觉得那文是有技术含量,但没实质大的作用。现在有所了很大的改观,皆因这段话“
这个事情证明了我以往的观点:外链多的页面权重低于外链少的页面,没有外链的页面几乎就是最利于 SEO 的页面。Google 的确不会跟进 Nofollow 链接,但其依旧会计算内外链数量。Wordpress 如果没有进行过 SEO 处理,单篇文章的权重自然低过存档页面(单篇文章评论部分有很多外链)。”
完善了你之前的文章了。 之前是we can...而现在是though....we can....
从group过来,话说你的评论太赞了。
说真的,上次那篇文章我没仔细看..
这次都明鸟..太狡诈了..
大师,太强悍了
再次报告你的第二个代码在 chrome 中撑破页面了。。。
哦,表情用错了,我本来想用的是 翘拇指的 表情唉。。。
@任平生: 哈哈,没事。不过我总算看到 chrome 是怎么撑破的了,之前一直没看到,谢谢!
现在没办法应对采集,不过你网站被采会给你很多权重的。这是件好事
@seo: 这是以前的说法了,事实上前段时间被采集我的很多页面都遭到降权, google 最近十分诡异。
我想说 ..
那个回复箭头看着有点别扭 ..
WP的防spam做的很好了
搞seo得坚持不懈, 不容易阿.
超牛的技术文章 让我的头 感觉到了痛 哈哈
博主的JQuery技术实在强悍~
有些span都是加了关键字的,如果这样伪内链,会不会被当成堆砌无用关键而收到影响!
厉害,过会儿回来详细学习
那应该是他本身的权重就不错的结果吧?
@g.zhen.ning: 其实以前就有考虑过 SEO,但是没想的更远。现在想到了:)
@popdo: 替换为 span 都是 js 行为,实际源代码是 a 标签,同时评论的"内链"也是 external nofollow,再加上 robots 的 disallow,实际上不会有任何影响。
@花果山寨: 搞采集的是个新站,每日更新大量文章,其实都是黑帽,不可能有什么权重的。
你介绍的东西都有点意思,呵呵,有用~
采集,很严重的问题哦
嗯,不错的办法,看来有空得跟进一下试试
机器采集,好象以前曾经从月光那里听说过!
评论数量开始强大的发毛了...
@Yacca: 晕。。。你不说我都没注意到。
站在104楼,风光无限好啊!!哈哈!!
对了,本来想用一下,但想一下我用了ajax翻页,这样一来,一翻页那链接不都是原始链接了?不知道有没有什么好的解决方法???!
@xiaorsz: 貌似你这个翻页问题不小,很多东西都用不成。
@xiaorsz: 你可以绑定一个事件,当翻页完成后在后台重新载入一次 JS。
反反复复反反复复反反复复的看了一次,然后莫名其妙的明白了~以上病句,请改错~来自小学病句大全~
@整野: 我看了好几遍你的话,没看懂。。。
那就别想了,还看了好多遍啊,我这分明是恶搞嘛~
@整野: 其实我就看了一遍,不过为了照顾版面,所以随口一说。。。
人肉SPAM是什么意思,替换链接后可以防止垃圾评论?我正受到洪水般的垃圾评论攻击~
@整野: 人肉 SPAM 是以做流量为目的的真人跑去你的 Blog 留言,留下一个推广产品的链接。如果是洪水般的垃圾评论,最好启用 Akismet。
除了启用 Akismet还有没有其他代替办法?我貌似不知如何获得那个该死而天杀的API key,还貌似经常听到被错杀的良民申诉~
@整野: API key 要去 wordpress.com 注册获得,可能访问时需要使用代理。其它的防垃圾评论的相关插件也比较多,但是都不太好。唯一推荐 some chinese please,因为机器人发送垃圾评论的多为国外站点,这个插件能直接挡掉留言中没有中文的评论。
还是看不懂你写的.对PHP程序来说我是个白吃......不过觉的看你做的很不错.
我恨死这种人了,不过更恨的还是人肉的
逼地我把copyright改成了“折叠侠 ZDXia.cn遵循署名-非商业性使用-禁止演绎 2.5 中国大陆协议,您不得修改、转换或者以本站作品为基础进行创作。”
改完之后想想自己真蠢,人肉们会看这个么?
@disinfeqt: CC 协议是给君子看的,剩下的都是小人,只有从技术上拒绝。。。
@ptubuntu: 谢谢
请教一下.非商业性使用 这个是用那个插件的呢.我都没有找到.好久都想用了.现在都是自己在一个主面上直接填写一个代码上去的.觉的不是很好.
@ptubuntu: 这个东西应该是直接贴代码,我还没有看过有相应的插件。何况其作用本身不大,在中国并不能保证作者的权益。所以贴代码吧,如果自己心理舒服点。
这个页面有中国大陆的所有 CC 协议,你可以选择适合自己站点的一款,在模板上做同样的声明,并链接至相应的地址。
远观欣赏,收藏备用
@Shawn: 学习到的东西好多。。。
好文,收藏至20ju.com
<span"+$(this).text()+"</span> 是否应该是 <span>"+$(this).text()+"</span> ...
分析的有道理,也很有用
你这博客真乱……
非常不错的文章
你好 我想请问下 这个网站的那种鼠标悬浮在链接上,然后背景色从上到下出现 这种特效是如何实现的 有点唐突 谢谢答复!