向AI下戰帖！大學考試不夠難科學家廣邀全球出題獲採用可得最高5000美元

鉅亨網編譯許家華

(來源：Shutterstock)

Tag

一組科技專家周一 (16 日) 發出全球召集，尋求最具挑戰性的問題，以測試人工智慧 (AI) 系統，因為這些系統在處理流行基準測試時已顯得輕而易舉。

這個名為「人類的最後考試」的項目旨在確定專家級 AI 的到來。根據組織者的說法，這個項目希望在未來幾年內，隨著能力的提升，仍然保持其相關性。該項目由非營利組織人工智慧安全中心（CAIS）和初創公司 Scale AI 共同發起。

此前不久，聊天機器人 ChatGPT 製造商 OpenAI 甫推出強大的 AI 新模型 o1。CAIS 執行董事兼馬斯克 xAI 初創公司顧問 Dan Hendrycks 表示，該模型「摧毀了最受歡迎的推理基準」，例如，傳統的數學和邏輯推理測試，AI 系統在這些測試中通常能輕鬆獲得高分。

Hendrycks 在 2021 年與人合著了兩篇論文，提出了對目前廣泛使用的 AI 系統進行測試的方法，其中一篇測試了美國歷史等大學水準的知識，另一篇則探討了模型通過競賽級數學進行推理的能力。比如，AI 系統在美國歷史的問題上，能否正確回答「獨立宣言是什麼時候簽署的？」這類問題。根據在線 AI 平台 Hugging Face 的數據，這種大學式測試下載量超過了任何類似數據集。

在發表這些論文時，人工智慧幾乎對考試問題給出了隨機答案，但如今情況已大為改變，這些問題已不再困住 AI。例如，AI 實驗室 Anthropic 的 Claude 模型在 2023 年大學水準測試中的得分約為 77%，而一年後幾乎達到了 89%。這顯示出 AI 的進步速度之快。

然而，這些常見基準的意義減少了，因為 AI 的表現已經超過了這些測試的難度。根據斯坦福大學的 AI 指數報告，AI 在涉及計劃制定和視覺模式識別的較少使用測試中表現不佳。例如，OpenAI o1 在一個版本的模式識別 ARC-AGI 測試中得分約為 21%，這表明在這些更具挑戰性的任務中，AI 仍然面臨困難。

一些 AI 研究者認為，這些結果顯示計劃和抽象推理是更好的智力衡量標準。例如，能否從一組數據中推導出未來的趨勢，或是解決複雜的邏輯謎題，都是評估 AI 能力的關鍵。Hendrycks 指出，「人類的最後考試」將專注於這類抽象推理。

業內觀察人士指出，常見基準的答案可能已經出現在用於訓練 AI 系統的數據中。Hendrycks 表示，「人類的最後考試」中的某些問題將保持私密，以確保 AI 系統的回答不是來自記憶。

該考試將包括至少 1000 個來自群眾的問題，截止日期為 11 月 1 日，這些問題對於非專家來說相當困難。例如，可能會問「如何設計一個能有效解決氣候變化的政策？」這類問題將經過同行評審，獲勝的投稿將獲得共同作者資格和高達 5000 美元的獎金，該獎金由 Scale AI 贊助。

Scale 的首席執行官 Alexandr Wang 表示：「我們迫切需要更難的測試來衡量專家級模型的快速進展。」他強調，隨著 AI 技術的迅速發展，現有的測試已經無法充分評估其能力。

一項限制是：組織者希望不包括有關武器的問題，因為有人認為這對 AI 的研究來說過於危險。這項考試的設計意在推動 AI 的負責任發展，確保其在安全的範疇內進行挑戰。

向AI下戰帖！大學考試不夠難科學家廣邀全球出題獲採用可得最高5000美元

人氣排行

美財長：股市暴跌是科技七雄的問題非MAGA所致

不甩美股崩跌川普：企業不擔心關稅正在關注減稅協議

川普再度要求Fed快點降息無視關稅引發金融市場巨震

川普稱越南願協商盼「零關稅」 Nike、Lululemon反彈

從漁翁得利到首當其衝？越南恐成美對等關稅最大輸家

向AI下戰帖！大學考試不夠難 科學家廣邀全球出題 獲採用可得最高5000美元

人氣排行

美財長：股市暴跌是科技七雄的問題 非MAGA所致

不甩美股崩跌 川普：企業不擔心關稅 正在關注減稅協議

川普再度要求Fed快點降息 無視關稅引發金融市場巨震

川普稱越南願協商盼「零關稅」 Nike、Lululemon反彈

從漁翁得利到首當其衝？越南恐成美對等關稅最大輸家

向AI下戰帖！大學考試不夠難科學家廣邀全球出題獲採用可得最高5000美元

美財長：股市暴跌是科技七雄的問題非MAGA所致

不甩美股崩跌川普：企業不擔心關稅正在關注減稅協議

川普再度要求Fed快點降息無視關稅引發金融市場巨震