ChatGPT 與 Bard 的對決

阿恆

April 19, 2023

在現今自然語言生成的 AI 領域，OpenAI 的 ChatGPT 無疑獨佔鰲頭，令人驚豔，各大 IT 界的巨頭紛紛仿效，意圖打造一個相似、甚至超越 ChatGPT 的「聊天機器人」，例如百度在今年二月發表了《文心一言》、Google 在今年三月發表了 Bard 等等。Google 在 AI 領域曾一度領先世界，當年 AlphaGo 先後擊敗李世乭和柯潔，轟動一時。究竟她現在打造的 Bard 能否與 ChatGPT 匹敵？Ars Technica 進行了一場簡單但有意思的比拼。

GhatGPT vs Bard

圖片來源：Ars Technica

比拼的雙方分別是 ChatGPT-4 和 Google Bard，兩者都是在三月才推出，都是最新的版本。

Ars Technica 強調這次不是嚴謹或者科學性的比拼，純粹是玩樂性質，例如只會比較兩個系統第一次輸出的結果，但也足以觀察兩者處理各種難題的能力。

比拼包括七個項目：爛 gag、模擬討論、數學應用題、編寫摘要、翻查事實、創意寫作和編程。

爛 Gag

香港人說的爛 gag，又稱爲冷笑話，外國人所謂的 dad jokes，ChatGPT 和 Bard 分別被要求撰寫 5 則原創的爛 gag。

輸入：Write 5 original dad jokes

Bard 的輸出：

Bard 的爛 gag

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的爛 gag

圖片來源：Ars Technica

Ars Technica 評論

在 Bard 的五個爛 gag 中，Ars Technica 用 Google 逐字逐句地找到了其中三個。其中那個有關葡萄的爛 gag（第三個）半借用了 Mitch Hedberg 推文中的一條笑話，但是 Bard 玩弄文字的方式把這個笑話破壞了。另一個有關蝸牛的爛 gag（第五個）看似是原創，因爲在網絡上搜尋不到，但它毫無意思，莫名其妙。

與此同時，ChatGPT 的五個爛 gag 都不是原創的，完全是從別處抄襲過來，但卻準確無誤。

這一項比試似乎由 Bard 勝出，至少它嘗試按照作者的意思創造了一些笑話，儘管這些笑話遺憾地失敗了，不過作爲一個爛 gag，誰說得準這是有意還是無意的過失？

模擬討論

測試 AI 聊天機器人的一種方法是讓它扮演人類討論某個主題，這次 Bard 和 ChatGPT 被要求討論這個年代其中一個最具爭議性的話題：PowerPC vs Intel。

輸入：Write a 5-line debate between a fan of PowerPC processors and a fan of Intel processors, circa 2000

Bard 的輸出：

Bard 的評論

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的評論

圖片來源：Ars Technica

Ars Technica 評論

首先看看 Bard 的輸出，它生成的五行對話不是特別深刻，除了泛泛的侮辱之外，沒有提到任何特定於 PowerPC 或 Intel 芯片的技術細節。此外，對話以「Intel fan」同意不同意而結束，這在引發百萬次口水戰的主題中似乎非常不現實。

相比之下，ChatGPT-4 的輸出提到了 Apple Macintosh 計算機中使用的 PowerPC 芯片，拋出諸如「英特爾的 x86 架構」和 PowerPC 的「基於 RISC 的架構」之類的術語，它甚至提到了 Pentium III，這是 2000 年代的一個具體細節。總的來說，ChatGPT-4 的論點比 Bard 的詳細得多，對話在最後也沒有得出結論——暗示著這場永無止境的論戰可能仍在互聯網的某些區域持續着。

這回合的勝出者是 ChatGPT-4。

數學應用題

傳統上，數學不是 ChatGPT 等大型語言模型 (LLM) 的強項。因此，Ars Technica 沒有向這兩個機器人拋出一系列複雜的方程式和算術，而是給每個機器人一個老式的小學應用題。

輸入：If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?

Bard 的輸出：

Bard 的數學應用

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的數學應用題

圖片來源：Ars Technica

Ars Technica 評論

為了解決這個問題，每個 AI 模型都需要知道 Microsoft Windows 11 安裝的數據大小和 3.5 英寸磁碟的數據容量，他們還必須假設提問者最可能想要的是哪種密度的磁碟，然後做一些基本的數學運算將這些概念組合在一起。

在我們的評估中，Bard 正確地陳述了這三個關鍵點 (足夠接近——Windows 11 的安裝大小的估計通常在 20-30GB 左右)，但在數學運算上嚴重失敗，認為 Windows 11 需要「15.11」隻磁碟，然後說這「只是一個理論上的數字」，最後承認需要 15 隻以上的磁碟，究竟需要多少隻？Bard 始終沒有嘗試計算正確的數量。

相比之下，ChatGPT-4 包含一些與 Windows 11 安裝大小相關的細微差別（正確引用最小 64GB 記憶體，並將其與現實世界的基本安裝大小進行比較），正確解釋磁碟容量，然後進行一些正確的乘法和除法以得出 14,222 隻磁碟。人們可能會質疑 1 GB 是 1,024MB 還是 1,000MB，但數學上它的運算是合理的，它還正確地提到實際數字可能會因其他因素而異。

勝出者：ChatGPT-4

編寫摘要

人工智能語言模型以其總結複雜信息，並將文本總結為關鍵要點的能力而聞名。為了評估每種語言模型總結文本的能力，Ars Technica 複製了他們最近一篇文章中的三段，在前面加上一句提示，要求兩個聊天機器人編寫摘要。

輸入：Summarize this in one paragraph: (一篇文章的其中三段）

Bard 的輸出：

Bard 的摘要

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的摘要

圖片來源：Ars Technica

Ars Technica 評論

這一次結果非常接近，Bard 和 ChatGPT-4 都成功從段落中提取了重要的信息，並將其精簡為重要的細節。然而，Bard 的版本感覺更像是一個真正的摘要，使用了新的措辭重新編寫摘要，而 ChatGPT-4 的版本讀起來更像是把句子切成碎片，並把碎片重新連接成一篇摘要。兩個機器人的成績非常接近，但 Ars Technica 不得不說 Bard 在這次測試中擊敗了 ChatGPT-4。

這一次輪到 Bard 取勝。

翻查事實

眾所周知，大型語言模型會犯錯（研究人員通常稱之為「幻覺」），除非它們陳述的事情可以藉外部資訊來源交叉驗證，否則它們一般被認為是不可靠的。有趣的是，Bard 懂得在網上查找信息，而 ChatGPT-4 目前尚未有此功能（該功能的插件即將推出）。

為了測試這種能力，Ars Technica 要求 Bard 和 ChatGPT-4 陳述一則關於一個困難而微妙的歷史知識。

輸入：Who invented video games?

Bard 的輸出：

Bard 的陳述

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的陳述

圖片來源：Ars Technica

Ars Technica 評論

誰發明了電子遊戲這個問題其實不容易回答，因為這這取決於你如何定義「電子遊戲」這個術語，即使在歷史學家之間也沒有公認的定義。有些人認為早期的電腦遊戲就是電子遊戲，有些人認為應該涉及一台電視機，當然還有其他解讀，這個問題沒有單一的、普遍認可的答案。

我們原本認為 Bard 在網絡上搜尋資訊的能力會為其帶來優勢，但在這種情況下，這可能適得其反，因為它選擇了 Google 頂級搜尋結果、最為人熟悉的資料作為答案，稱 Ralph Baer 為「電子遊戲之父」。它關於 Baer 的所有資訊都是正確的，真的要雞蛋裏挑骨頭的話，就是它的最後一句應該用過去式，因為 Baer 已經在 2014 年去世。可惜 Bard 沒有提到任何其他「第一款電子遊戲」的早期競爭者，例如 Tennis For Two 和 Spacewar!，所以它的答案可能具有誤導性和不完整。

另一方面，ChatGPT-4 提供了一個更透徹、更細緻的回答，代表了許多早期電子遊戲的歷史學家的感受，ChatGPT 說電子遊戲的發明不能歸功於某一個人，這是一個在一段時間內「持續創新」的過程，ChatGPT 唯一的錯誤是它聲稱 Spacewar!「第一款數碼電腦遊戲」，其實它並不是。我們可以擴展 ChatGPT 的答案以包括更多邊緣例子，但 ChatGPT-4 很好地概述了電子遊戲早期的重要先驅者。

這一次是 ChatGPT-4 勝出。

創意寫作

很多人都認為大型語言模型充斥着大量廢話，故此在古靈精怪的主題上進行天馬行空式的創作，應該是它們的強項，Ars Technica 於是要求 Bard 和 ChatGPT-4 寫一個簡短的異想天開的故事來對此進行測試。

輸入：Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

Bard 的輸出：

Bard 的創意寫作

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的創意寫作

圖片來源：Ars Technica

Ars Technica 評論

Bard 在這個測試中的輸出在幾個方面都不盡人意。首先，它是 10 段而不是兩段——而且是短小的、斷斷續續的段落。此外，它還創作了一些與提示沒有多大關聯的細節，例如，為甚麼亞伯拉罕林肯的白宮是在伊利諾斯州的春田鎮？為甚麼他需要「幾十個桃花籃」？要不是這些問題，Bard 可說創作了一個既有趣又簡單的故事。

ChatGPT-4 的故事也是發生在伊利諾伊州，但它準確地避免提及總統任期或白宮。但後來它又說「南北雙方」拋開分歧一起打籃球，暗示這是在籃球發明後不久發生的。

總的來說，Ars Technica 認為應該給 ChatGPT-4 較高分數，因為它的輸出確實分為兩個段落——儘管它似乎藉着編寫兩個很長的段落來繞過這個限制。儘管如此，Ars Technica 還是很喜歡 Bard 版本故事中的創意細節。

這一個回合又是 ChatGPT-4 勝出。

編程

如果這一代的大型語言模型有一個「殺手級應用」，那可能就是它們作為編程助手的用途。 OpenAI 在其 Codex 模型上的早期工作成就了 GitHub 的 CoPilot，而 ChatGPT 本身也作為簡單程序的相當稱職的程序員和調試器而聞名。所以看看 Google Bard 表現如何應該很有趣。

輸入：Write a python script that says “Hello World” then creates a random repeating string of characters endlessly.

Bard 的輸出：

Bard 的編程

圖片來源：Ars Technica

ChatGPT 的輸出：

ChatGPT 的編程

圖片來源：Ars Technica

Ars Technica 評論

哎呀！看來 Google Bard 根本不會寫程式。Google 目前正在封鎖該功能，但表示即將推出。目前，Bard 拒絕了我們的要求，他說：「看起來你需要我幫助編程，但我還沒有受過這方面的培訓。」

與此同時，ChatGPT-4 不僅捲起衣袖編寫程式，而且還在帶有「複製程式碼」按鈕的精美程式碼框中對其進行格式化，該按鈕可將程式碼複製到系統剪貼板中，以便輕鬆黏貼到 IDE 或文本編輯器中。但它有效嗎？Ars Technica 將程式碼黏貼到 rand_string.py 文件中，並在 Windows 10 下的控制台中運行它，它完全按照原來的要求工作，無須任何修改。

勝出者：ChatGPT-4

Ars Technica 的總結

總的來說，ChatGPT-4 贏得了七次考驗中的五次。但這不是完整的故事。還有其他因素需要考慮，例如速度、上下文長度、成本和未來升級。

速度方面，ChatGPT-4 目前是慢吞吞的，用了 52 秒來撰寫關於林肯和籃球的故事，而 Bard 需要 6 秒。值得注意的是，OpenAI 的 GPT-3.5 比 GPT-4 快得多，輸入同一個提示，該模型只需要 12 秒的時間寫了一個故事，但可以說 ChatGPT-3.5 在深度、創造性任務方面的能力較弱。

每個語言模型都有它可以一次處理的最大數量的 token（單詞的片段）。這有時被稱為「上下文窗口」，它就像短期記憶，在聊天機器人的情況下，上下文窗口包含到現在為止的整個對話歷史記錄。當窗口填滿時，它要麼達到極限不能繼續對話，要麼繼續前進，但會抹去它對討論的早期部分的「記憶」。ChatGPT-4 保留了一個滾動記憶，可以一面加入最新的資料，一面擦除早期的記憶，據報導這段記憶有大約有 4,000 個 token。Bard 則據報有 1,000 個 token 左右，當超過這個限制時，它就會失去之前討論的「記憶」。

最後還有成本。ChatGPT（不包括 GPT-4）目前可通過 ChatGPT 網站免費使用，視供應情況而定，但若果繳交 20 美元的月費，便可以擁有優先訪問權和使用 GPT-4。精通編程的用戶可以通過 API 以更便宜的價格使用早期的 ChatGPT-3.5 模型，但在撰寫本文時，GPT-4 API 仍處於有限測試中。同時，Google Bard 提供部分 Google 用戶免費的，但有限的試用的權，目前，Google 沒有計劃在 Bard 變得更廣泛可用後對 Bard 徵費。

最後，這兩個模型都在不斷升級。例如，Bard 在不久前進行了更新，使其在數學方面表現更好，而且它很可能很快就能編寫程式碼。OpenAI 也在繼續完善其 GPT-4 模型。Google 目前尚未動用其最強大的語言模型（可能是出於計算成本的考慮），因此我們可以期望一個來自 Google 的更強大的競爭者很快會出現。生成人工智能的商業產品仍處於早期階段。