生成式 AI 新戰場轉向影片,Google 早前發表的模型 Veo 今月在 Google Cloud Vertex AI 平台上供私人預覽試用。有指 OpenAI 更強勁功能的影片生成模型 Sora 快將公開可用,令 Google 在今月給外界有限度測試。實際上,亞馬遜在上星期的 AWS re:Invent 大會發表 Nova 模型,包括生成影片的 Reel。
Google 在今年的 I/O 大會已展示過 Veo,由 DeepMind 研發,用文字或圖片生成短片。當時根據 Google 的公布,Veo 可以生成超過 1 分鐘的 1080p 影片,支援不同電影和視覺風格。
Andy Jassy 又預告,明年將推出語音到語音(speech-to-speech)模型,支援即時翻譯和非語言訊號(如語調和節奏),提供低時延和接近真人的對話模式,預計可改變對話式 AI 技術。另外,明年中推出任意到任意(any-to-any)模型,可以輸入文字、圖像、音樂或影片,輸出任何多媒體內容。
企業和開發人員經 Bedrock 存取 Nova 模型,用企業數據和 RAG 方法自訂調整。Andy Jassy 表示,亞馬遜再度推出基礎模型,連同 Claude、Stable Diffusion、Llama、Mistral AI 等模型,目的讓客戶有更多選擇,取用合適的模型完成任務,跟 EC2 提供自訂 Arm 處理器和訓練晶片,又有業界的處理器和 GPU 同出一徹。
低成本、低時延和高準確度
AWS 副總裁、機械學習及 AI 總經理 Vasi Philomin 補充,Nova 模型可視為下一代 Titan 模型,不過 Titan 模型實為文字嵌入式,配合 RAG 使用。除了自行研發,還在 Bedrock 上給客戶提供眾多模型,有更多選擇,而且不會有單一模型適用所有環境。
Vasi Philomin 又稱,開發 Nova 模型另一考慮是針對使用情況,企業需要低成本、低時延和高準確度,模型設不同版本為達到此彈性。Micro 可用於最常見的處理文字,低成本和快速回應,足以應付大部分用途。目前按 BedRock 上的用戶數據反映,大部分都選用起碼兩個模型。