標籤: Amazon Nova

Google Cloud 生成影片模型 Veo 在 Vertex AI 限量測試　搶飲 OpenAI Sora 頭啖湯

生成式 AI 新戰場轉向影片，Google 早前發表的模型 Veo 今月在 Google Cloud Vertex AI 平台上供私人預覽試用。有指 OpenAI 更強勁功能的影片生成模型 Sora 快將公開可用，令 Google 在今月給外界有限度測試。實際上，亞馬遜在上星期的 AWS re:Invent 大會發表 Nova 模型，包括生成影片的 Reel。

Google 在今年的 I/O 大會已展示過 Veo，由 DeepMind 研發，用文字或圖片生成短片。當時根據 Google 的公布，Veo 可以生成超過 1 分鐘的 1080p 影片，支援不同電影和視覺風格。

Google Cloud 在網誌示範 Veo 的能力：

Veo 可以使用圖片生成短片。

Veo 亦支援文字生成短片。

Google Cloud 稱，企業能透過 Vertex AI 上的 Veo 從文字或圖像提示生成影片，技術配合人類創意，讓創作者專注創作，AI 則協助處理影片製作中事務，行銷人員、銷售團隊或製作團隊都適用 Veo 簡化工作流程和改變視覺敘事。

Google Cloud 今星期亦開放圖片生成模型 Imagen 3 予 Vertex AI 所有用戶，不過要先加入申請名單等候開放。Imagen 3 提供編輯圖片功能，透過輸入文字可以作修改，如更新產品背景或提升圖像解像度。企業可以將個人品牌、風格、標誌等，融入生成的圖像，製作廣告及行銷素材。

雖然 Google Cloud 搶在 OpenAI Sora 公開試用前提供私人預覽，不過亞馬遜的 Nova Reel 已正式可用（General Available），透過 Amazon Bedrock 便可存取。亞馬遜行政總裁 Andy Jassy 親自重回 AWS re:Invent 主題演講發表模型，目前可生成 6 秒短片，稍後加長至 2 分鐘，支援運鏡控制，亦有負責任 AI、水印等安全功能。

Andy Jassy 上星期在 AWS re:Invent 發表 Nova Reel 模型生成短片。

Nova Reel 現在只可以生成 6 秒影片，稍後將加長至 2 分鐘。

最新影片

2024-12-09
AWS 發表基礎模型 Nova　表現超越 Gemini、Llama，成本慳 75%
AWS re:Invent 2024 繼續發布大量生成式 AI 產品，另一主要發布是基礎模型 Nova。Amazon Nova 模型設有 6 個版本：Micro、Lite、Pro、Premier、Canvas 和 Reels，強調評分表現高過 Google Cloud 的 Gemini 和 Meta 的 Llama，生成回應速度快，而且較其他大型語言模型節省最多 75% 成本。

Andy Jassy 為 AWS 站台發表 Amazon Nova 模型，強調給予用戶更多選擇。

已升任亞馬遜行政總裁的 Andy Jassy 回歸 re:Invent 舞台發表 Nova 模型。他表示，亞馬遜是 AWS 最大客戶，當初建立 AI 技術並非只為扮有型，而是要解決實際業務問題才決定開發更多基礎模型，將生成式 AI 融入各項業務，提升日常運作效率。

以客戶服務為例，加入對話機械人接待客戶。客戶最常查詢的是追蹤包裹，只要輸入「追蹤」，透過 LLM 能理解所指的包裹，尋找相關資訊回覆。又例如協助逾 50 萬賣家產生詳細的產品網頁，僅用幾句簡單文字和圖片便可生成內容豐客的產品資訊，吸引客戶購買。所建立的模型過去幾個月在內部使用已見成效，開放給 AWS 客戶使用可能同樣有業務價值。

Nova 處理文字強調低時延

Nova 模型有多個版本：
- Nova Micro 處理文字模型，賣點低時延和低成本。
- Nova Lite 低成本多種模態模型，可處理文字、影像和影片。
- Nova Pro 支援多種模態，同時有準確度、速度和成本優勢。
- Nova Premier 處理複雜推理任務，能夠指導精練自訂模型。
- Nova Canvas 生成圖像。
- Nova Reel 生成影像。
Nova 分 4 個版本專門處理文字，強調成本低、速度快。

Nova 支援超過 200 種語言，Micro 版本的上文下理範圍有 12.8 萬字詞元（Token），Lite 版本和 Pro 版本為 30 萬，能分析 30 分鐘影片內容。明年首推出的 Premier 版本支援超過 200 萬詞元。

雖然 Andy Jassy 未有公布各版本的參數，不過將處理文字的 Micro 版本與 Meta 的 LLaMa 3.1 8B 和 Google Gemini 1.5 Flash-8B 作比較，11 基準測試均表現更佳或平分秋色。Micro 版本支援每秒輸出 210 個詞元，速度較其他小型模型更快，適用於即時回應的環境。

Micro 版本在大部分測試都高分過其他小型語言模型。

Lite 版本與 OpenAI 的 GPT-4o mini 和 Anthropic 的 Claude 3.5 Haiku 比較，大部分基準測試均持平或更佳。理解圖片和影片、代理智能工作流程的基準測試獲認證。

Lite 版本支援理解圖像和影片，評分大部分項目都較對手高。

Pro 版本與 GPT-4o 及 Gemini 1.5 Pro 的比現亦大部分持平或更佳，僅落後於 Claude Sonnet 3.5v2 比較的基準測試。Pro 版本通過綜合 RAG 基準測試（Comprehensive RAG Benchmark）、Berkeley Function Calling Leaderboard 和 Mind2Web 的認證，可用於遵循指令和多模態智能工作流程。

Pro 逾半評分都不及 Claude Sonnet 。

Canvas 版本用文字提示產生圖像，甚至作修改。Reel 用文字或參考圖像生成影片，目前可生成 6 秒影片，支援平移、360 度旋轉和縮放等影片調整，稍後將加長至生成 2 分鐘影片。

Nova Canvas 專用於生成圖像。

Nova Reels 生成的示範影片。

明年推出 any-to-any 模型

Andy Jassy 又預告，明年將推出語音到語音（speech-to-speech）模型，支援即時翻譯和非語言訊號（如語調和節奏），提供低時延和接近真人的對話模式，預計可改變對話式 AI 技術。另外，明年中推出任意到任意（any-to-any）模型，可以輸入文字、圖像、音樂或影片，輸出任何多媒體內容。

明年加推兩個模型，又再次改變生成式 AI 用途。

企業和開發人員經 Bedrock 存取 Nova 模型，用企業數據和 RAG 方法自訂調整。Andy Jassy 表示，亞馬遜再度推出基礎模型，連同 Claude、Stable Diffusion、Llama、Mistral AI 等模型，目的讓客戶有更多選擇，取用合適的模型完成任務，跟 EC2 提供自訂 Arm 處理器和訓練晶片，又有業界的處理器和 GPU 同出一徹。

低成本、低時延和高準確度

AWS 副總裁、機械學習及 AI 總經理 Vasi Philomin 補充，Nova 模型可視為下一代 Titan 模型，不過 Titan 模型實為文字嵌入式，配合 RAG 使用。除了自行研發，還在 Bedrock 上給客戶提供眾多模型，有更多選擇，而且不會有單一模型適用所有環境。

Vasi Philomin 又稱，開發 Nova 模型另一考慮是針對使用情況，企業需要低成本、低時延和高準確度，模型設不同版本為達到此彈性。Micro 可用於最常見的處理文字，低成本和快速回應，足以應付大部分用途。目前按 BedRock 上的用戶數據反映，大部分都選用起碼兩個模型。

Vasi Philomin 表示，企業大多使用兩個模型以上，設多個模型給企業選擇至為重要。

然而，Nova 模型不公布各版本的參數資料，Vasi Philomin 認為，企業客戶按各版本的智能級別、上文下理範圍的詞元選擇模型已足夠，實際上模型的參數可能隨著新版本而增加，單憑參數難作準確比較。

Vasi Philomin 指出，明年推出的語音到語音模型和任意到任意模型將進一步擴展 AI 的用途，前者可做實時翻譯，打破現實環境的語言障礙；後者不限來源，在單一模型能夠執行多種任務。

AWS re:Invent 2024 相關報道
- AWS 全攻生成式 AI　超強 Trainium2 訓練晶片蘋果公司都用
- Amazon Q Developer 更新 Java 程式碼見效　加碼活化大型主機、.NET、VMware 程式
AWS re:Invent 2024 還有其他新發布，包括新一代基礎模型 Amazon Nova！未能親身前往美國的你，歡迎參加 12 月 19 日香港站 AWS re:invent recap，同樣有最焦點、最重要、最新鮮的內容在場分享，你可以用最短時間掌握最新的 AWS 技術，不要錯過！

登記網址：https://ow.ly/9QXk50Uo4fU

最新影片
2024-12-07