搜尋引擎編索引的極限:你的文章應該有多長?
阿恆
網站的開發人員,特別是商業網站,對於如何針對搜尋引擎進行優化,使自己的網頁能夠在搜尋的結果中排得較為前列的位置,都進行過不少研究,也有無數針對「搜尋引擎優化(Search Engine Optimization, SEO)」的文章發表過,指導大家如何令搜尋引擎重視自己的網頁。
不過一直以來似乎還沒有人研究過搜尋引擎是否保證把頁面上所有文字編列索引?曾經有人懷疑,搜尋引擎視太短的頁面為沒有實質內容而予以忽略,但是太長的頁面則只會截取一部份編列索引,其餘的部分會是為內容重複和關鍵字重疊而予以忽略。即是說頁面太短固然不行,根本進入不了搜尋器的數據庫,太長則屬浪費,若果你有一些很精闢的關鍵字在頁面的後半部才出現,即使有用戶用這個關鍵字進行搜索也不會找到你的頁面。
Serge Bondar 針對這個問題進行了一個實驗,目的就是要解答:
各大搜尋引擎讀入多長的頁面來編列索引?
實驗設定
Bondar 預備了 25 個檔案,容量從 45KB 到 4151KB,在這些檔案中每隔 10KB 的距離插入一個全宇宙獨一無二的關鍵字,這些獨一無二的關鍵字用程序生成,Bondar 稱之為_索引深度標籤_,完成後他便把這 25 個檔案放上網頁,隔了一段時間後使用三大引擎:Yahoo!、Google、MSN 搜索這些_索引深度標籤_。
實驗結果
Yahoo! 編列索引的深度:
Google 編列索引的深度:
MSN 編列索引的深度:
分析
三大搜尋引擎果然對頁面的長度設有上限,超越上限的部分任何文字都不會被編索引,這個上限大概是:
搜尋引擎 | 頁面的長度上限 |
---|---|
Yahoo! | 210KB |
520KB | |
MSN | 1020KB |
對於長度比這些上限短的頁面,當然可以讓它們快樂地活下去,但是過長的頁面是否需要截短呢?Bondar 相信多出來的部分不會拖低整個頁面的評價(Page Ranking),若果有編排和表達方式上的需要,這些頁面亦無需蓄意修改。