核桃的QQ群中,大家交流了一下做采集站SEO的要点,现总结一下相关问题及讨论结果:

  1. 采集的内容是否会收录?
    如果是采集内容的站,就会有不收录的可能
  2. 哪种情况会导致站点不被收录?
    太多相同内容;
    一采就是成千上万条内容
  3. 采集的一些要点?
    一次采集不要太多,分批分段进行;
    不要全部采集一个站的内容:目的就是不要有太多相同的东西,最好每个栏目采不同的站。
  4. 如何选择采集源?
    用80%的时间去找采集源,而用20%的时间做采集;
    比如你要采一个栏目,肯定你会看好几个站,那么你要确定这几个站里面哪一个质量更好。或者都不太好,就找一篇文章,在文章中拷贝一句话,在百度或者谷歌进行搜索。只要是有这篇文章的网站,被收录页面的,都会被列出来。这时候肯定有一大堆标题相同的页面,还有一部分是编辑手工调整过标题的,选择后者做采集源。如果你采集那些标题相同最少的站,可以确定跟你相同的肯定就少了,就两三条信息,这是很正常的,搜索引擎目前不会太在意。
  5. 怎么处理采集回来的内容?
    如果你有时间,适当颠倒文章段落、适当删减某些无关紧要或罗嗦内容、适当增加一些没有涉及到的相关内容,都是有利的。或者至少把总量10%的内容标题进行修改。如果没有时间来组织这些标题,可以直接选一句文章里的内容来用。而description描述可以自己来写,或者也取内容的一段话进来顶替(不要超过155个字符)
    然后,就是要在页面里加一些干扰因素,比如在模板里可以写上一些版权声明(自己组织语言),2-30个字就行了,这个位置的版权声明可以出现一些你想推的关键词,比如出现首页的关键词,你就给它链接到首页去。这也是一种内部链接优化。
  6. 内部链接出现的次数如何把握?
    采集的内容本身权重就不会太高,当然是放得越少越好
    一篇文章建议放5个以内的站内链接,外部链接不要超过三个,否则权重基本没什么了

  7. 采集与原创的比例控制在多少?
    适当编写一些原创内容还是很有必要的。有说法是,采集与原创内容比例最好控制在20:1以下。
    比例越大对网站权重积累越不利。

  8. 题外话:我的网站被采集了怎么办?
    只要掌握足够的证据,就可以提交到搜索引擎进行人工审核。7天左右,对方站点就会根据采集的量受到不同程度的处罚。

最后谈一下数据采集的弊端:
搜索引擎总是希望为用户提供更多,质量更好的内容。简单说,这家伙就是喜新厌旧。如果某个网站被搜索引擎视为没有原创内容的网站,那这个网站基本上就等于判刑了。进沙盒容易,再想出来很难。