Google 開放光學字符辨識系統 Tesseract 的原始碼

阿恆

September 13, 2006

Google 數月前靜靚地開放了光學字符識別系統（optical character recognition, OCR）Tesseract 的原始碼，放在 SourceForge.Net 公開下載。

Tesseract 本身不是 Google 的產品，它是在 1985 至 1995 年間在 HP 實驗室開發出來，並且在內華達州立大學拉斯維加斯分校 1995 年的光學字符辨識比賽中，奪得準確率的首三名的其中一件作品，但是沒多久 HP 決定退出光學字符辨識市場，這個系統便被塵封在 HP 的貨倉中，直到一、兩年前數名 HP 的員工覺淂與其讓這麼優秀的系統默默無聞，倒不如把它的原始碼公開，給全世界帶來更大的益處，內華達州立大學拉斯維加斯分校也樂意玉成其事，他們找上 Google 協助除去幾個 1995 年後引入的臭蟲，經過一番努力 Google 終於使這個系統重新運作，並且具備了一定的穩定性，數月前便把它的原始碼公開。

Tesseract 系統現時只支援英語，而且它並不能分析頁面的排版，所以對於例如多行排列的文章表現未如理想，對於灰階或者彩色的圖像也表現差勁，與一些商業性的光學字符辨識系統比較，Tesseract 也較為遜色，但是在開放原始碼的系統中，Tesseract 的準確率卻是其他系統望塵莫及。

Google 之所以對光學字符辨識系統有興趣，原因是 Google 的經營理念是向用戶提供資訊，把印刷品上的資料轉化成文本資料，正是光學字符辨識系統的工作，跟著便可以把文本資料編列索引。