防止濫發電郵或文章的線上工具 reCAPTCHA
阿恆
曾經管理網站,特別是論壇、網誌之類容許訪客寫文章的網站,一定見識過濫發文章/濫發電郵的威力,所以很多網站管理員都會安裝/啟動一個稱為 Captcha 的驗證系統,當訪客貼文章的時候,要從一個圖像中辨認出其中的文字然後連同文章一拼呈交,這些圖像都是隨機產生、充滿訊燥、字體故意被扭曲的圖像,只有人類才有能力正確辨識,這樣便可以杜絕網絡上的壞蛋使用機器人大量貼出文章。
Captcha 是一個很成功的技術,很多內容管理系統都內建了 Captcha,或者透過安裝附加模塊來實現 Captcha,根據統計,互聯網上每天有六千萬個 Captcha 被解答,每一個花大約十秒鐘,十秒鐘對一個人來說不算得甚麼,但六千萬個十秒鐘加起來便很可觀了,我們可以善加利用這龐大的腦力資源嗎?
reCaptcha 正好解答這個問題,它除了有助杜絕濫發文章,也藉著人類「閱讀」圖像的能力把掃描的文字數碼化。
現時網上有很多很具野心的項目,試圖把傳統的、絕版的舊書掃描後用 OCR 技術轉換成文字,任何人都可以在網上搜尋和閱讀這些書籍。問題是 OCR 的準確性有限,特別是對於舊式的印刷字體,加上發黃和因為年月久遠而引致字體不清,使 OCR 經常出錯,reCaptcha 就是把這些無法辨識的文字交給人類來辨認,所有無法辨認或 OCR 系統認為信心不足的字,都被分割成獨立的圖像,reCaptcha 就是從 Internet Archive 項目中把這類圖像抽出來作為 Captcha 驗證真人的工具。
有人會問若果 Captcha 不知道圖像中的文字應該是甚麼,它怎麼知道人類輸入的文字是否正確從而達到驗證的目的?reCaptcha 的解決方法是每次要訪客辨認兩個字,第一個是 OCR 無法辨認的字,第二個是已知答案的字,只要訪客正確輸入第二個字便當他是真正的人類,他輸入的第一個字則會由 reCaptcha 儲存起來,當很多人都提供相同的答案,reCaptcha 便認為這是正確的答案並把它送交 Internet Archive。
reCaptcha 提供兩項免費服務,第一就是提供 Captcha 圖像和驗證,使你的網站免受濫發文章之苦,現時很多應用系統都有支援 reCaptcha 的模塊,例如 WordPress、Drupal 和 MediaWiki,reCaptcha 也提供簡單易用的 PHP 程式片斷讓你直接崁入原碼中。
第二項服務就是隱藏電郵地址功能,它可以把 [email protected] 寫成 [email protected],其中 … 連結到完整的電郵地址,當然訪客在觀看前必須正確解答 Captcha 問題。