Google(GOOGL-US) 宣布推出一款名為 VideoPoet 的新人工智慧工具,可根據文字輸入產生影片。 這一新工具可以創建各種類型的視頻,包括短片、音樂視頻,甚至講解視頻。
VideoPoet 是一個在海量文字和視訊資料集上訓練的大型語言模型 (LLM)。 模型能夠理解文字和影片之間的關係,並可以產生連貫且具有視覺吸引力的影片。
與目前主流的擴散模型不同,VideoPoet 將這些視訊生成功能整合在一個大型語言模型中,而不是依賴分別針對每個任務進行訓練的元件。
VideoPoet 最令人印象深刻的事情之一,是它產生長影片的能力。 模型可以透過將短片連結在一起來,創建長達幾分鐘的影片。這使得使用 VideoPoet 創建更複雜和細緻的視訊成為可能。
VideoPoet 也可用於編輯現有影片。例如,使用者可以使用該工具為靜態圖像新增動畫,或變更影片的風格。這使得 VideoPoet 成為一個強大的影片編輯工具,即使對於沒有太多經驗的人,也能便於使用。
據報導,這一模型透過多個分詞器 (MAGVIT V2 用於視訊和圖像,SoundStream 用於音訊) 進行訓練,以學習跨視訊、圖像、音訊和文字模態的知識。透過將模型生成的令牌轉換為可視化表示,VideoPoet 能夠輸出動畫、風格化視頻,甚至生成音頻。模型支援文字輸入,以指導文字到影片、圖像到影片等任務的生成。
以下是 VideoPoet 可用來執行的一些特定任務: