根據 LMSYS Chatbot Arena 最新評比,全球最強 AI 寶座近日再度換人坐,兩個月前才遭 AI 新創公司 Anthropic 旗下 Claude3 Opus 超越的 OpenAI ChatGPT,再次用實力重奪 AI 一哥地位,在最新的 AI 基準測試中,OpenAI 幾天前剛發布的 GPT-4-Turbo-2024-04-09 版本,大幅超越 Claude3 Opus。
值得一提的是,這個版本不是普通測試版本,而是作為正式版本 GPT-4-Turbo 發布,雖然 GPT-4-Turbo 發布已久,但一直以「預覽版」的方式提供,此次首度發布正式版,足以看出該版本的份量,有不少網友甚至直接將其改名為 GPT-4.5-Turbo 了。
根據 OpenAI 介紹,GPT-4-Turbo-2024-04-09 版本在寫作、數學、邏輯推理以及程式設計等多個領域均有顯著進步,使用新版 GPT4 寫作會發現它的反應速度提升,溝通更為流暢,表達方式更趨於口語化。新版的寫作風格更貼近人類的自然語言,多了些人情味,少了點 AI 機器味。
就在 OpenAI 發表更新版本後,中國玩家透過 AI 工具站 BotGo 進行了 GPT-4-Turbo 體驗並發佈測評指出,在程式碼能力測試上,相較於 Claude 3 Opus 完全沒找到 bug 在哪,GPT-4-Turbo-2024-04-09 版本已經能夠發現 Bug 的問題,並且提供了修復的程式碼,修改後的程式碼也更為優質,而且除了 Bug 之外還提出了索引處理和效率方面的問題及建議,整體表現確實比 Claude3 更為優秀 。
解析上傳圖片方面,最新版的 GPT-4 則好像還不能解析上傳的圖片,可能還在調測當中,並在圖片問答方面還是不如 Claude-3 Opus。
此外,在讓 GPT-4 講述 Sora 技術原理時,GPT-4 跟 Gemini 的表現都非常優秀,Claude-3 則有些部分出現錯誤,像是 Sora 是生成式的,不是檢索式的。Gemini 將 Sora 所採用的捲積網路技術類比於樂高的積木結構,確實更容易理解,GPT-4 則在專業上更勝一籌,也許是因為 GPT-4 知識庫已更新到今年 4 月,Sora 則是在 2 月剛發布。
行銷能力方面,結果發現更新版的 GPT-4 正式版還不能支援文件分析,跟官方公佈資訊一致,要進行文檔分析仍要有請最強大的 GPT4 全能版本。
最後,在寫作能力測試方面,由於每個人的看法都可能不一樣,測驗結果可能見仁見智,中國玩家給予的評論則是 Claude-3 寫的文章既較口語化且富有感染力,內容也有一定的深度,GPT-4 和 Gemini Pro 則差不多,GPT-4 比較專業,Gemini Pro 比較流暢,速度也快一些。
此前,LMSYS 平台曾專門做過測驗對比,GPT4 的英文寫作更強,而 Claude3 的中文寫作能力更勝一籌。LMSYS 是一個專門評測大型語言模型 (LLM) 性能的平台,透過各種客觀指標與人工評估,為業界提供最新、最全面的 LLM 排行榜。