OpenAI升級ChatGPT 會說話且能識圖

鉅亨網編譯段智恆
OpenAI升級ChatGPT 會說話且能識圖(圖:REUTERS/TPG)
Tag

OpenAI 周一 (25 日) 在官網宣布,將在未來兩周內對 ChatGPT Plus 和企業用戶推出 ChatGPT 的語音和圖片功能,讓使用者能和 ChatGPT 進行語音對話或展示圖片做出相關回應。

語音功能方面,ChatGPT 可以用語音來回答問題和命令,與蘋果 (AAPL-US) 的 Siri 等個人助理相互較勁。據了解,ChatGPT 將會有 5 種不同的語音供用戶選擇,同時支援語音音訊生成文本、將播客 (Podcast) 語音翻譯成其他語言等功能。

例如,OpenAI 正在與 Spotify(SPOT-US) 合作,將播客翻譯成其他語言,同時保持播客的聲音。值得注意的是,合成語音有很多有趣的用途,OpenAI 可能會成為這一行業的重要組成部分。

OpenAI 於今年 5 月發布 ChatGPT 應用程式 (App),並已經提供了語音轉文本功能,而新增語音回覆功能可讓用戶感覺在進行更人性化的對話。該公司希望這項新功能能鼓勵用戶隨時隨地使用其行動 App,並與 Google(GOOGL-US) 的 Assistant、蘋果的 Siri 或 亞馬遜 (AMZN-US) 的 Alexa 等個人助理產品形成直接的競爭。

圖片功能方面,用戶能向 ChatGPT 傳送圖片並詢問相關問題,其可以根據圖片回答或給出建議。據悉,語音功能將在 iOS 和安卓 (Android) 平台推出,圖片功能則將登陸所有平台。

例如,用戶可以上傳一張粉色太陽鏡的圖片,並要求聊天機器人推薦與之搭配的服裝,或者提交一張數學問題的圖片,並請求説明解決。

該公司還表示,付費用戶和企業用戶將可使用圖片功能,圖片搜索有點像 Google 的 Lens,只需拍下感興趣的照片,ChatGPT 就會找出問題所在,並做出相應的回應。

分析指出,自從 2022 年初推出 ChatGPT 以來,OpenAI 一直在努力為其機器人增添更多功能和能力,同時避免造成新的問題出現。而透過這次升級,該公司試圖在這條界線上尋找平衡點,透過有意識的限制其新模型能做什麼來實現這一目標。

但是這種方法並非長久之計,隨著越來越多的人使用語音控制和圖片搜索,以及 ChatGPT 逐漸成為一個真正的多模態、實用的虛擬助手,要保持安全和合理的邊界會變得越來越困難。

另一方面,這次升級無疑讓 ChatGPT 距離「超級助理」更進了一步,同時與下游軟體的競爭也更加激烈。

分析指出,微軟和 OpenAI 均能向需要構建 AI 能力的企業客戶提供技術服務,兩者之間存在著直接的業務衝突。從長期來看,如果 OpenAI 加速布局面向個人及企業的軟體,ChatGPT 未來很有可能將重塑客戶端應用生態,或許兩者的「關係破裂」是早晚的事情。