比拼。
比拼的雙方分別是 ChatGPT-4 和 Google Bard,兩者都是在三月才推出,都是最新的版本。
Ars Technica 強調這次不是嚴謹或者科學性的比拼,純粹是玩樂性質,例如只會比較兩個系統第一次輸出的結果,但也足以觀察兩者處理各種難題的能力。
比拼包括七個項目:爛 gag、模擬討論、數學應用題、編寫摘要、翻查事實、創意寫作和編程。
香港人說的爛 gag,又稱爲冷笑話,外國人所謂的 dad jokes,ChatGPT 和 Bard 分別被要求撰寫 5 則原創的爛 gag。
輸入:Write 5 original dad jokes
在 Bard 的五個爛 gag 中,Ars Technica 用 Google 逐字逐句地找到了其中三個。其中那個有關葡萄的爛 gag(第三個) 半借用了 Mitch Hedberg 推文中的一條笑話,但是 Bard 玩弄文字的方式把這個笑話破壞了。另一個有關蝸牛的爛 gag(第五個)看似是原創,因爲在網絡上搜尋不到,但它毫無意思,莫名其妙。
與此同時,ChatGPT 的五個爛 gag 都不是原創的,完全是從別處抄襲過來,但卻準確無誤。
這一項比試似乎由 Bard 勝出,至少它嘗試按照作者的意思創造了一些笑話,儘管這些笑話遺憾地失敗了,不過作爲一個爛 gag,誰說得準這是有意還是無意的過失?
測試 AI 聊天機器人的一種方法是讓它扮演人類討論某個主題,這次 Bard 和 ChatGPT 被要求討論這個年代其中一個最具爭議性的話題:PowerPC vs Intel。
輸入:Write a 5-line debate between a fan of PowerPC processors and a fan of Intel processors, circa 2000
首先看看 Bard 的輸出,它生成的五行對話不是特別深刻,除了泛泛的侮辱之外,沒有提到任何特定於 PowerPC 或 Intel 芯片的技術細節。此外,對話以「Intel fan」同意不同意而結束,這在引發百萬次口水戰的主題中似乎非常不現實。
相比之下,ChatGPT-4 的輸出提到了 Apple Macintosh 計算機中使用的 PowerPC 芯片,拋出諸如「英特爾的 x86 架構」和 PowerPC 的「基於 RISC 的架構」之類的術語,它甚至提到了 Pentium III,這是 2000 年代的一個具體細節。總的來說,ChatGPT-4 的論點比 Bard 的詳細得多,對話在最後也沒有得出結論——暗示著這場永無止境的論戰可能仍在互聯網的某些區域持續着。
這回合的勝出者是 ChatGPT-4。
傳統上,數學不是 ChatGPT 等大型語言模型 (LLM) 的強項。因此,Ars Technica 沒有向這兩個機器人拋出一系列複雜的方程式和算術,而是給每個機器人一個老式的小學應用題。
輸入:If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?
為了解決這個問題,每個 AI 模型都需要知道 Microsoft Windows 11 安裝的數據大小和 3.5 英寸磁碟的數據容量,他們還必須假設提問者最可能想要的是哪種密度的磁碟,然後做一些基本的數學運算將這些概念組合在一起。
在我們的評估中,Bard 正確地陳述了這三個關鍵點 (足夠接近——Windows 11 的安裝大小的估計通常在 20-30GB 左右),但在數學運算上嚴重失敗,認為 Windows 11 需要「15.11」隻磁碟,然後說這「只是一個理論上的數字」,最後承認需要 15 隻以上的磁碟,究竟需要多少隻?Bard 始終沒有嘗試計算正確的數量。
相比之下,ChatGPT-4 包含一些與 Windows 11 安裝大小相關的細微差別(正確引用最小 64GB 記憶體,並將其與現實世界的基本安裝大小進行比較),正確解釋磁碟容量,然後進行一些正確的乘法和除法以得出 14,222 隻磁碟。 人們可能會質疑 1 GB 是 1,024MB 還是 1,000MB,但數學上它的運算是合理的,它還正確地提到實際數字可能會因其他因素而異。
勝出者:ChatGPT-4
人工智能語言模型以其總結複雜信息,並將文本總結為關鍵要點的能力而聞名。為了評估每種語言模型總結文本的能力,Ars Technica 複製了他們最近一篇文章中的三段,在前面加上一句提示,要求兩個聊天機器人編寫摘要。
輸入:Summarize this in one paragraph: (一篇文章的其中三段)
這一次結果非常接近,Bard 和 ChatGPT-4 都成功從段落中提取了重要的信息,並將其精簡為重要的細節。然而,Bard 的版本感覺更像是一個真正的摘要,使用了新的措辭重新編寫摘要,而 ChatGPT-4 的版本讀起來更像是把句子切成碎片,並把碎片重新連接成一篇摘要。兩個機器人的成績非常接近,但 Ars Technica 不得不說 Bard 在這次測試中擊敗了 ChatGPT-4。
這一次輪到 Bard 取勝。
眾所周知,大型語言模型會犯錯(研究人員通常稱之為「幻覺」),除非它們陳述的事情可以藉外部資訊來源交叉驗證,否則它們一般被認為是不可靠的。有趣的是,Bard 懂得在網上查找信息,而 ChatGPT-4 目前尚未有此功能(該功能的插件即將推出)。
為了測試這種能力,Ars Technica 要求 Bard 和 ChatGPT-4 陳述一則關於一個困難而微妙的歷史知識。
輸入:Who invented video games?
誰發明了電子遊戲這個問題其實不容易回答,因為這這取決於你如何定義「電子遊戲」這個術語,即使在歷史學家之間也沒有公認的定義。有些人認為早期的電腦遊戲就是電子遊戲,有些人認為應該涉及一台電視機,當然還有其他解讀,這個問題沒有單一的、普遍認可的答案。
我們原本認為 Bard 在網絡上搜尋資訊的能力會為其帶來優勢,但在這種情況下,這可能適得其反,因為它選擇了 Google 頂級搜尋結果、最為人熟悉的資料作為答案,稱 Ralph Baer 為「電子遊戲之父」。 它關於 Baer 的所有資訊都是正確的,真的要雞蛋裏挑骨頭的話,就是它的最後一句應該用過去式,因為 Baer 已經在 2014 年去世。可惜 Bard 沒有提到任何其他「第一款電子遊戲」的早期競爭者,例如 Tennis For Two 和 Spacewar!,所以它的答案可能具有誤導性和不完整。
另一方面,ChatGPT-4 提供了一個更透徹、更細緻的回答,代表了許多早期電子遊戲的歷史學家的感受,ChatGPT 說電子遊戲的發明不能歸功於某一個人,這是一個在一段時間內「持續創新」的過程,ChatGPT 唯一的錯誤是它聲稱 Spacewar!「第一款數碼電腦遊戲」,其實它並不是。我們可以擴展 ChatGPT 的答案以包括更多邊緣例子,但 ChatGPT-4 很好地概述了電子遊戲早期的重要先驅者。
這一次是 ChatGPT-4 勝出。
很多人都認為大型語言模型充斥着大量廢話,故此在古靈精怪的主題上進行天馬行空式的創作,應該是它們的強項,Ars Technica 於是要求 Bard 和 ChatGPT-4 寫一個簡短的異想天開的故事來對此進行測試。
輸入:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.
Bard 在這個測試中的輸出在幾個方面都不盡人意。首先,它是 10 段而不是兩段——而且是短小的、斷斷續續的段落。 此外,它還創作了一些與提示沒有多大關聯的細節, 例如,為甚麼亞伯拉罕林肯的白宮是在伊利諾斯州的春田鎮? 為甚麼他需要「幾十個桃花籃」? 要不是這些問題,Bard 可說創作了一個既有趣又簡單的故事。
ChatGPT-4 的故事也是發生在伊利諾伊州,但它準確地避免提及總統任期或白宮。 但後來它又說「南北雙方」拋開分歧一起打籃球,暗示這是在籃球發明後不久發生的。
總的來說,Ars Technica 認為應該給 ChatGPT-4 較高分數,因為它的輸出確實分為兩個段落——儘管它似乎藉着編寫兩個很長的段落來繞過這個限制。儘管如此,Ars Technica 還是很喜歡 Bard 版本故事中的創意細節。
這一個回合又是 ChatGPT-4 勝出。
如果這一代的大型語言模型有一個「殺手級應用」,那可能就是它們作為編程助手的用途。 OpenAI 在其 Codex 模型上的早期工作成就了 GitHub 的 CoPilot,而 ChatGPT 本身也作為簡單程序的相當稱職的程序員和調試器而聞名。所以看看 Google Bard 表現如何應該很有趣。
輸入:Write a python script that says “Hello World” then creates a random repeating string of characters endlessly.
哎呀!看來 Google Bard 根本不會寫程式。Google 目前正在封鎖該功能,但表示即將推出。目前,Bard 拒絕了我們的要求,他說:「看起來你需要我幫助編程,但我還沒有受過這方面的培訓。」
與此同時,ChatGPT-4 不僅捲起衣袖編寫程式,而且還在帶有「複製程式碼」按鈕的精美程式碼框中對其進行格式化,該按鈕可將程式碼複製到系統剪貼板中,以便輕鬆黏貼到 IDE 或文本編輯器中。 但它有效嗎?Ars Technica 將程式碼黏貼到 rand_string.py 文件中,並在 Windows 10 下的控制台中運行它,它完全按照原來的要求工作,無須任何修改。
勝出者:ChatGPT-4
總的來說,ChatGPT-4 贏得了七次考驗中的五次。但這不是完整的故事。還有其他因素需要考慮,例如速度、上下文長度、成本和未來升級。
速度方面,ChatGPT-4 目前是慢吞吞的,用了 52 秒來撰寫關於林肯和籃球的故事,而 Bard 需要 6 秒。值得注意的是,OpenAI 的 GPT-3.5 比 GPT-4 快得多,輸入同一個提示,該模型只需要 12 秒的時間寫了一個故事,但可以說 ChatGPT-3.5 在深度、創造性任務方面的能力較弱。
每個語言模型都有它可以一次處理的最大數量的 token(單詞的片段)。這有時被稱為「上下文窗口」,它就像短期記憶,在聊天機器人的情況下,上下文窗口包含到現在為止的整個對話歷史記錄。當窗口填滿時,它要麼達到極限不能繼續對話,要麼繼續前進,但會抹去它對討論的早期部分的「記憶」。ChatGPT-4 保留了一個滾動記憶,可以一面加入最新的資料,一面擦除早期的記憶,據報導這段記憶有大約有 4,000 個 token。Bard 則據報有 1,000 個 token 左右,當超過這個限制時,它就會失去之前討論的「記憶」。
最後還有成本。ChatGPT(不包括 GPT-4)目前可通過 ChatGPT 網站免費使用,視供應情況而定,但若果繳交 20 美元的月費,便可以擁有優先訪問權和使用 GPT-4。精通編程的用戶可以通過 API 以更便宜的價格使用早期的 ChatGPT-3.5 模型,但在撰寫本文時,GPT-4 API 仍處於有限測試中。同時,Google Bard 提供部分 Google 用戶免費的,但有限的試用的權,目前,Google 沒有計劃在 Bard 變得更廣泛可用後對 Bard 徵費。
最後,這兩個模型都在不斷升級。例如,Bard 在不久前進行了更新,使其在數學方面表現更好,而且它很可能很快就能編寫程式碼。OpenAI 也在繼續完善其 GPT-4 模型。Google 目前尚未動用其最強大的語言模型(可能是出於計算成本的考慮),因此我們可以期望一個來自 Google 的更強大的競爭者很快會出現。生成人工智能的商業產品仍處於早期階段。