Google 開放光學字符辨識系統 Tesseract 的原始碼

Google 數月前靜靚地開放了光學字符識別系統(optical character recognition, OCR)Tesseract 的原始碼,放在 SourceForge.Net 公開下載。

Tesseract 本身不是 Google 的產品,它是在 1985 至 1995 年間在 HP 實驗室開發出來,並且在內華達州立大學拉斯維加斯分校 1995 年的光學字符辨識比賽中,奪得準確率的首三名的其中一件作品,但是沒多久 HP 決定退出光學字符辨識市場,這個系統便被塵封在 HP 的貨倉中,直到一、兩年前數名 HP 的員工覺淂與其讓這麼優秀的系統默默無聞,倒不如把它的原始碼公開,給全世界帶來更大的益處,內華達州立大學拉斯維加斯分校也樂意玉成其事,他們找上 Google 協助除去幾個 1995 年後引入的臭蟲,經過一番努力 Google 終於使這個系統重新運作,並且具備了一定的穩定性,數月前便把它的原始碼公開。

Tesseract 系統現時只支援英語,而且它並不能分析頁面的排版,所以對於例如多行排列的文章表現未如理想,對於灰階或者彩色的圖像也表現差勁,與一些商業性的光學字符辨識系統比較,Tesseract 也較為遜色,但是在開放原始碼的系統中,Tesseract 的準確率卻是其他系統望塵莫及。

Google 之所以對光學字符辨識系統有興趣,原因是 Google 的經營理念是向用戶提供資訊,把印刷品上的資料轉化成文本資料,正是光學字符辨識系統的工作,跟著便可以把文本資料編列索引。