防止濫發電郵或文章的線上工具 reCAPTCHA

阿恆

September 14, 2007

曾經管理網站，特別是論壇、網誌之類容許訪客寫文章的網站，一定見識過濫發文章／濫發電郵的威力，所以很多網站管理員都會安裝／啟動一個稱為 Captcha 的驗證系統，當訪客貼文章的時候，要從一個圖像中辨認出其中的文字然後連同文章一拼呈交，這些圖像都是隨機產生、充滿訊燥、字體故意被扭曲的圖像，只有人類才有能力正確辨識，這樣便可以杜絕網絡上的壞蛋使用機器人大量貼出文章。

Captcha 是一個很成功的技術，很多內容管理系統都內建了 Captcha，或者透過安裝附加模塊來實現 Captcha，根據統計，互聯網上每天有六千萬個 Captcha 被解答，每一個花大約十秒鐘，十秒鐘對一個人來說不算得甚麼，但六千萬個十秒鐘加起來便很可觀了，我們可以善加利用這龐大的腦力資源嗎？

reCaptcha 正好解答這個問題，它除了有助杜絕濫發文章，也藉著人類「閱讀」圖像的能力把掃描的文字數碼化。

現時網上有很多很具野心的項目，試圖把傳統的、絕版的舊書掃描後用 OCR 技術轉換成文字，任何人都可以在網上搜尋和閱讀這些書籍。問題是 OCR 的準確性有限，特別是對於舊式的印刷字體，加上發黃和因為年月久遠而引致字體不清，使 OCR 經常出錯，reCaptcha 就是把這些無法辨識的文字交給人類來辨認，所有無法辨認或 OCR 系統認為信心不足的字，都被分割成獨立的圖像，reCaptcha 就是從 Internet Archive 項目中把這類圖像抽出來作為 Captcha 驗證真人的工具。

有人會問若果 Captcha 不知道圖像中的文字應該是甚麼，它怎麼知道人類輸入的文字是否正確從而達到驗證的目的？reCaptcha 的解決方法是每次要訪客辨認兩個字，第一個是 OCR 無法辨認的字，第二個是已知答案的字，只要訪客正確輸入第二個字便當他是真正的人類，他輸入的第一個字則會由 reCaptcha 儲存起來，當很多人都提供相同的答案，reCaptcha 便認為這是正確的答案並把它送交 Internet Archive。

reCaptcha 提供兩項免費服務，第一就是提供 Captcha 圖像和驗證，使你的網站免受濫發文章之苦，現時很多應用系統都有支援 reCaptcha 的模塊，例如 WordPress、Drupal 和 MediaWiki，reCaptcha 也提供簡單易用的 PHP 程式片斷讓你直接崁入原碼中。

第二項服務就是隱藏電郵地址功能，它可以把 [email protected] 寫成 [email protected]，其中 … 連結到完整的電郵地址，當然訪客在觀看前必須正確解答 Captcha 問題。