如果你關注過早期百度熊掌號,你會發現它要求每個內容頁面必須包含:rel=”canonical”這個標簽,目的就是為了避免原創文章,產生過多的重復頁面,導致搜索引擎收錄多個URL,影響搜索排名。
那么,重復內容會導致搜索引擎懲罰嗎?
當你在對比網站索引量與收錄量的時候,經常會發現,搜索結果中的收錄量往往高于索引量,很多SEO初學者并不清楚這是為什么,它很有可能的原因就是搜索引擎抓取了大量重復內容。
當你利用site:網址,查詢頁面的時候,經常會遇到百度提示:為了提供最相關的結果,我們省略了一些內容相似的條目。
簡單理解:百度為你過濾了一些重復頁面,如果你的站點內容頁面并沒有采用rel=”canonical”這個標簽,搜索引擎很難判斷,哪個頁面是標準化的頁面,往往造成誤傷,刪除相關內容頁面的索引,如果大量產生這樣的頁面,就很容易導致站點被降權。
那么,我們如何避免站內產生這些重復頁面?
1、nofollow打印機頁面版本
當你的文章發布成功后,你經常會在內容頁面右上角發現一個打印機小圖標,你點擊它會快速創建打印內容,這本來是一個人性化的設置,但稍微不注意,就會容易產生重復的URL。
因此,你需要在CMS模板中,nofollow掉著個小圖表,禁止蜘蛛爬行與抓取。
2、網站改版,需要 301 重定向舊鏈接
一個網站在不定期的時候,會根據自己的用戶規模,調整網站模板,甚至系統內部插件,它往往很容易造成URL地址的變更,當你遇到這樣的情況時,你需要盡可能的 301 重定向每個舊網址到新網址。
3、轉發內容,標注版權
基于對網站的需要,你可能要適當的轉載網絡上大量的內容,用一個不恰當的詞來解釋,它可以用“采集”這個詞,我們知道百度的颶風算法,嚴厲打擊采集內容,如果你并不是一個高權重的站點,那么你可能需要注意一些小細節:除了在內容頁面,標注原文鏈接地址外,盡量利用rel=”canonical”這個標簽指定內容的原始來源。
4、注意域名與HTTPS的配置
域名的樣式與HTTPS的配置,有一個類似的地方,比如:一個站點可以通過www訪問,也可以通過無www的主域訪問,同樣當你配置HTTPS的時候,你的HTTP鏈接,有的時候也是
可以訪問的,為此,你需要:
①選擇唯一域名,將另外一種形式 301 重定向。
②將HTTP, 301 重定向到HTTPS。
5、避免標題統一不變
在以前這是一個老生常談的問題,隨著SEO技術不斷被廣大站長認知,雖然同質化標題在很大程度上,有了改變,但目前仍然有大量網站,仍然是網頁標題,都是同一標題,而在內容頁面中的H1,采用不同的標題。
這雖然并不算是嚴格意義上的內容重復,但它同樣嚴重制約網站關鍵詞排名。
6、URL標準化
所謂的URL標準化,這基本上算是一個常識了,每個SEO人員都應注意的問題,這里蝙蝠俠IT還是要舊事重提,我們需要確保在靜態、偽靜態、動態頁面中,只選擇一種鏈接樣式,特別是當你的站點內容是偽靜態的時候,一定要在robots.txt中,屏蔽動態URL相關參數。