一群匿名人士在一項集體訴訟中聲稱,ChatGPT 的開發商 OpenAI 公司為了訓練其大型語言模型,竊取了「大量個人數據」,來讓其聊天機器人能夠複製人類語言。
律師們在周三向美國加州北區地方法院提起的長達 157 頁的訴狀中寫道:「儘管制定購買和使用個人訊息的協議,但被告採取了不同的方法:竊盜。」
這些匿名人士指責 OpenAI 從互聯網上秘密抓取 3000 億字詞,竊聽了「書籍、文章、網站和貼文,包括未經同意獲得的個人訊息」,違反了隱私法。
克拉克森律師事務所 (Clarkson Law Firm) 在周三向舊金山聯邦法院提交的訴狀中表示,OpenAI 爬行網路以收集大量數據,其中包括從社群媒體網站獲取的大量數據。 訴訟稱,OpenAI 的專有人工智慧個人數據語料庫 WebText2,從 Reddit 貼文及其連接的網站中抓取了大量數據。
他們根據受傷害的個人類別估計有數百萬人,提出了 30 億美元的潛在損失。
原告指控,OpenAI 廣受歡迎的聊天機器人程序 ChatGPT 和其他産品,都是在未經原告許可的情況下,從包括兒童在內的數億互聯網用戶那裏獲取私人訊息。
訴訟尋求暫時凍結 OpenAI 產品的商業訪問和商業開發,直到該公司實施更多法規和保障措施,包括允許人們選擇退出數據收集,並防止其產品「超越人類智能並傷害他人」為止。
除了 OpenAI 之外,主要支持者微軟 (MSFT-US) 也被列為被告。
原告的身份僅藉由姓名首字母、職業和狀態來識別,他們的律師表示,這是為了「避免侵入性審查,以及任何潛在危險的強烈抵制」。
北京大成律師事務所高級合夥人鄧志松表示,ChatGPT 運行的原理藉由「閱讀」大量現有文本,並學習詞語在上下文中的出現方式,來預測可能出現在回應中的最可能的詞語。此前,OpenAI 方面聲稱不會「主動」收集個人資訊用於模型訓練,但各管道訓練資料可能「偶然」包含個人資訊。
鄧志松分析,未經用戶許可擅自抓取並利用其個人資訊,可能涉嫌違反所在司法轄區的個人資訊保護法律法規,並構成民事侵權。
不過,專家也指出,目前「竊取」暫時仍是原告方的一面之詞,還不能據此貿然將 OpenAI 所實施的個人資訊收集活動定性為違法行為。