標籤: 生成式AI

一年煉成獨角獸的魚　Sakana AI 估值 2,200 億日圓成日本神話

憑著「小魚可以做大事」這個理念，多位擁有強大 AI 及投資背景的猛人聚在一起創辦日本 Sakana AI （日文意思：魚），公司成立一年已獲眾多投資者青睞，目前估值高達 2,200 億日圓（折約 14.79 億美元），成為日本最快達成獨角獸的公司。

Sakana AI 的投資者包括日本三菱 UFJ 金融集團、三井住友銀行、瑞穗金融集團、 NEC 、富士通、 NTT 、索尼集團，以及美國 Lux Capital 及 NVIDIA 等等。Sakana AI 瞬間得到投資者的追捧，除了創辦人背景夠猛之外，全因開發高效率和高性能的 AI 基礎模型，突破傳統 AI 模型運算需求。

該公司的創辦團隊主要來自 Google 的 AI 相關部門，包括在曾在 Google 日本及高盛任職的 David Ha 、於 Google Research 工作 12 年的 Llion Jones，以及曾任日本網購市集 Mercari 公司執行董事的伊藤鍊，還有多位 DeepMind 及 Stability AI 的 AI 專家。

Sakana AI 要以高效能 AI 模型解決傳統使用生成式 AI 需要龐大資源的問題，提出「集體智慧」概念，利用方法將多個小型 AI 組合起來製作成高性能 AI，打破「大就是好」的觀念，毋須再倚賴單一及巨大的系統。

簡單來說，Sakana AI 利用「進化模型合併」的開發方式，將幾個不同領域的 AI 模型建成「父模型」，然後透過這模型組合產生「子模型」，再從「子模型」中選擇優秀的模型再製作新組合。藉著不斷反覆篩選，以汰弱留強的自然方法選取最佳模型。在過程中，AI 會自己改良、嘗試新的學習方法，毋須人手介入也能持續提高性能。Sakana AI 表示，通過這模式所使用的資源和時間都比傳統的方式少。

該公司已在今年 3 月發布了三款生成式 AI 模型，包括大型語言模型、圖像轉文字模型和圖像生成模型。

最新影片

2024-10-07
生成式 AI 撼贏預測模型　獲近九成企業投資使用

自 2023 年初 ChatGPT 3 和首批生成式 AI 模型問世以來， AI 領域的發展速度驚人。生成式 AI 更在短短兩年內超越其他所有企業級 AI 應用，催生了一批新的 AI 領先企業。不過，數據質素卻成為其他 AI 應用發展的樽頸。

根據 AI 原生數據平台 WEKA 聯合 S&P Global Market Intelligence 發布的第二份年度全球 AI 趨勢報告顯示，受訪企業中，有高達 88% 正積極投資於生成式 AI，遠超越其他 AI 應用，如預測模型（61%）、分類（51%）、專業系統（39%）及機械人（30%）。

同時，生成式 AI 普及率呈爆炸式增長，有 24% 的受訪企業表示，生成式 AI 已成功整合至其企業營運中。另有 37% 表示已將生成式 AI 投入生產，但尚未全面推廣。只有 11% 完全未投資於生成式 AI。

生成式 AI 普及，也成為企業增強競爭優勢的必備工具。已在公司架構內全面採用生成式 AI 的企業甚至計畫繼續增加投資，並預計花在生成式 AI 的預算將在未來 12 個月內達到其 AI 總預算的 47%。這些企業大多認為，該技術在各目標效益上能產生重大而正面影響。相比其他仍在考慮或研究採用生成式 AI 的企業，將在創新、新產品開發新產品及上市時間等多方面都較具競爭力。

生成式 AI 快速進駐企業，也跟應用大多屬雲端服務有關，企業毋須先大筆投資基建。相反，採用其他 AI 應用需要基建設施配合。報告發現，受限傳統數據架構，許多 AI 項目無法擴展。根據平均數據，企業在試驗階段的 AI 項目有 10 個，而 16 個在有限度部署中，只有 6 個項目處於規模部署中。投入 AI 項目時，數據質素是最大的挑戰，特別是在 AI/ML 部署過程中，最主要的技術樽頸在於儲存及數據管理，佔比高達 35%，遠高於運算、安全及網絡等。這表明許多企業的 AI 項目因數據基礎薄弱而受阻。

另外，報告又指出，醫療保健業採用 AI 技術（18%）的比例較其他行業為高。政府及傳媒娛樂分別有 15%。

最新影片

2024-09-13
商湯全新大模型 Vimi　一張相片可生成一分鐘短片

商湯科技（ SenseTime ）在 2024 世界人工智能大會（ WAIC 2024 ）推出首個開放給大眾的可控人物視頻生成大模型 Vimi，只需一張照片就能生成和目標動作一致而長達一分鐘的人物類短片。

Vimi 基於商湯日日新大模型，跟現有的圖片表情控制類技術只能控制面部表情動作不同， Vimi 可以精準地控制人物表情，並控制照片中人物上半身的肢體動作，自動生成與人物相符的頭髮、服飾及背景；同時也能生成光影變化，讓人物動作和視覺效果更見自然。商湯科技強調， Vimi 穩定性強，可生成長達一分鐘的單鏡頭人物類短片，比現有的相片只能生成三至四秒短片大有進步，而且畫面效果不會隨著時間變化而降低質素或失真。

用戶只需上傳不同角度的高清人物照片，便可自動生成數碼分身和不同風格的短片，所生成的人物可搭配手勢、肢體動作、頭髮郁動等，形成更完整的人物動作。對於喜愛自拍的用戶， Vimi 亦支援聊天、唱歌、舞動等。

喜愛自拍的用戶利用 Vimi 可加入聊天、唱歌、舞動等互動場景，生成內容更豐富的短片。

商湯科技指出，目前行業中有 80% 短片都以人物為主要題材，加上短片、直播平台崛起，以人物為主體的短片需求大幅增長。然而，市面上缺少可控人物視頻生成的 AIGC 產品，導致內容創作者的效率有待提升。 Vimi 應運而生填補此需求，為廣大短片創作者提供簡單且易用的創作工具，可廣泛應用於人物類短片的創作。有興趣的用戶可到商湯科技官網申請試用。

最新影片

2024-07-04
為提早放工用生成式 AI　香港員工使用比率全球最高

香港工時過長世界聞名，過往亦曾被評為全球過勞情況第二嚴重的城市。香港員工的苦況人所共知，幸運生成式 AI 快速發展，有助減輕不少工作負擔。根據 UiPath 最新的調查發現，有六成香港員工已經在工作時使用生成式 AI，比率和新加坡一樣，為全球最高。

UiPath 與 ResearchScape 合作，通過網上問卷方式於 3 月至 4 月進行是次 2024 UiPath Global Knowledge Worker Survey 研究，共有 9,047 名來美國（佔過半數）、日本、德國、英國、法國、澳洲、新加坡及香港等地的受訪者參與調查，香港有 578 名全職員工參與。

調查同時發現，有超過三分之一（33%）的香港員工表示在工作上感到極度或非常倦怠，略高於全球平均水平（32%）。為了減少倦怠感並提高工作時的參與度，香港員工希望減少工作量（64%）、獲得人工智能工具和自動化方案的使用權（44%）、以及能展現創意的靈活性（44%）。

而生成式 AI 被認為能夠幫助員工節省工作時間，從而緩解倦怠感。近六成（59%）經已在工作中使用生成式 AI 的香港員工認為，生成式 AI 在翻譯、撰寫訊息、甚至是激發靈感上最能幫助節省時間。近一半（48%）員工甚至表示，在工作上應用生成式 AI 可以節省至少 10 小時，他們因而能夠花更多時間與家人在一起、提早下班，以及投入更多時間予需要創意的任務。

調查亦指出，企業正在幫助員工在工作時運用生成式 AI，只有三成七的香港員工表示他們的公司沒有提供任何關於如何使用生成式 AI 的培訓或指導，比率相對其他受訪市場為最低。而在工作中採用生成式 AI 工具的香港員工主要來自於資訊科技（84%）、管理層（81%）和人力資源（66%）。香港的千禧一代和 Z 世代員工普遍更多在工作中使用生成式 AI 工具，並在節省時間上獲得更多效益。另一方面，香港員工（63%）對生成式 AI 輸出結果的信任度較全球水平相比（48%）略高。

最新影片

2024-06-21
新加坡 Project Moonshot 生成式 AI 測試工具　用開源技術應付人工智能風險

各界提倡以負責任的方式使用人工智能，已大量用上 AI 技術的新加坡亦推廣可靠的 AI 。該國通訊及新聞部部長 Josephine Teo 早前在 ATxSummit 宣布推出一款強調易於使用的測試工具包 AI Verify-Project Moonshot ，以全球開源社區的力量來解決及使用大型語言模型（ LLM ）的相關安保與安全挑戰。

Project Moonshot 由 DataRobot 、 IBM、新加坡電信（ Singtel ）、淡馬錫（ Temasek ）等夥伴公司共同開發，以確保該工具有用並符合行業需求。目前，該工具為開放測試版，通過通俗易懂的方式提供有關模型或應用程式質素和安全性的結果。

另外，為讓 Project Moonshot 邁向全球測試標準，人工智能測試機構 AI Verify Foundation（ AIVF ）和 MLCommons 已簽署意向備忘錄（ MOI ），合作建立一個通用的安全基準套件。 AIVF 成立目的推動各界以負責任的方式使用人工智能，提供如用於生成式 AI 的人工智能治理框架模型、 AI Verify 與 ISO 42001 標准對接，以及集成 AI Verify 與 MAS 的 Veritas 工具包等。基金會成員已有 120 多間公司，包括 AWS 和 Dell 。

最新影片

2024-06-06
【Computex 2024】AI 助手問攻略　NVIDIA 新套件植入遊戲引擎

黃仁勳在 Computex 2024 前夕演講，宣佈會推出更多生成式 AI 運算配套給數據中心系統。另一方面，亦有更新開發工具給遊戲和軟件廠商，整合 AI 助手及生式成應用功能，並會更新 RTX 40 系列 SFF 設計，以及強化 Windows AI PC 的 Copilot 執行功能等。

以前打機搵攻略要上網、問朋友，日後有了 AI PC，可能要改寫，NVIDIA 基於 RTX AI Toolkit，發展出針對遊戲玩家的「G-Assist」，它利用生成式 AI，提供玩家有關該遊戲的知識或攻略。G-Assist 可接收玩家的語音或文字輸入內容，遊戲視窗的上下文資訊，並通過 AI 視覺模型處理資料。與遊戲知識資料庫相連的大型語言模型 (LLM) 的上下文感知和對特定遊戲及應用的理解，然後生成定制回覆，以文本或語音形式傳遞給使用者。並以開發中的《方舟：生存飛升》(ARK:Survival Ascended) 進行技術示範，其延伸應用甚至可以提供玩家優化遊戲幀速的效能建議。

配合本機 AI 算力提升，去年發表用於為數位人類（DIGITAL HUMANS）提供助力的 NVIDIA ACE 技術現在將通過 NVIDIA NIM 應用於 RTX AI PC 和工作站，NVIDIA NIM 推理微服務使開發者將部署時間從數周縮短到數分鐘。ACE NIMs 可在設備上本地運行高品質推理，用於自然語言理解、語音合成、面部動畫等。

針對 Windows PC 的 Copilot，微軟和 NVIDIA 合作幫助開發者將全新生成式 AI 功能應用到 Windows 原生和網路應用。為應用開發者提供便捷的 API 以取用 GPU 加速的小型語言模型 (SLM)，支援在設備上運行基於 Windows Copilot Runtime 的檢索增加生成 (RAG) 功能。實現內容摘要、內容生成和任務自動化等。RAG 功能使 AI 模型存取基礎模型中未能充分表示的特定領域資訊，來增強小型語言模型，運用特有的資料來源，根據應用需求調整小型語言模型的行為和功能。

AI PC 是今年重點，但 NVIDIA 當然強調有 RTX GPU 的 RTX AI PC 運算力更高

在 AI PC 尚不可能運行雲端級的 LLM 大型語言模型通用運算，因此加推 RTX AI Toolkit，一套用於在 RTX AI PC 上自訂、優化及部署模型的工具和 SDK。支援使用開源的 QLoRa 工具自訂預訓練模型，並使用 NVIDIA TensorRT Model Optimizer 量化模型，以減少記憶體消耗及提升執行效率。據了解 Adobe、Blackmagic Design 和 Topaz 等軟件亦會陸續加入 RTX AI Toolkit 提升 NVIDIA GPU 的執行表現。

在一般玩家尚有機會接觸的用途上，RTX Remix 就宣佈成為開源項目，可使用生成式 AI 重修遊戲貼圖材質、存取其他數位創作工具、Mod 製作工具等，而且提供 SDK 以整合到 DirectX 8 和 DirectX 9 經典版 API 以外的其他遊戲及應用。

NVIDIA RTX Video 的 AI 升頻功能已作為 SDK 對所有開發者開放，可在 Google Chrome、Microsoft Edge 和 Mozilla Firefox 瀏覽器中使用。而剪片軟件如 Blackmagic Design 的 DaVinci Resolve 和 Wondershare Filmora 等亦即將支援 RTX Video，能夠 4K 升頻、SDR 轉換為 HDR。免費媒體播放器 VLC media 即將在其升頻功能加入 RTX Video HDR。

最後，針對愈來愈多的 SFF 迷你機，NVIDIA 正式規定了其顯示卡的「SFF-Ready」標準，為 2.5 槽及 304mm 以內，使用 RTX 4070 或以上的 GPU。

NVIDIA 訂定的「SFF-Ready」標準為 2.5 槽及 304mm 以內，使用 RTX 4070 或以上的 GPU。

最新影片

2024-06-03
一張相就能生成談話影片　Google Research 發表 VLOGGER AI 生成系統

Google Research 日前發表一個名為 VLOGGER 的 AI 影片生成系統，只要提供一張相片，就能生成一段高質素那個人說話的影片，而且不單只有臉或嘴唇在動，甚至可以生成手勢和身體動作，相當像真，令人想到合成人類影片將會愈來愈難以分辨。

不同人種膚色、不同口音都可以合成出自然的影片。

研究人員在網站發表一系列不同合成人物對話影片，片中有不同種族膚色的人，拍攝角度和範圍都有不同，不一定是正面對著鏡頭，連口音和語言都不同，大部分看起來都栩栩如生，說話時能以改變姿勢和手勢來表達，除了部分嘴唇周圍長了濃密鬍子的人比較容易看出破綻之外，大部分人都很像真。如果在低頻寬下進行視像通訊，相信不少人也不會知道對手原來是合成出來的。

VLOGGER 的生成影片過程，只要提供聲音檔和一張照片。

VLOGGER 是文字及音頻驅動的人類說話影片生成方法，建基於生成擴散模型，使用的方法包括隨機人體到 3D 動作擴散模型，和基於創新的擴散架搆，透過時間和空間控制來增強文生圖模型。這方法可以生成長度可變的高質素影片，透過高度的人臉和身體表達，能輕易控制影片。而且不需要針對不同人物進行訓練，也不倚靠人臉檢測和裁切，可以生成完整的圖像而不單是臉部或嘴唇，並考慮到對正確合成出溝通對象人物至關重要的各種情況，例如可見到軀幹或不同主體身份。

整個人的姿勢和手勢都是合成出來的，而不單是生成臉部或嘴唇。

嘴唇和眼睛都可以控制

研究人員又開發了一套新的多樣化資料集 MENTOR 來訓練 VLOGGER 模型，當中包含 3D 姿勢和表情標註，與及動態手勢，規模比以前的數資料集大一個數量級，達 80 萬個特徵。

研究人員期望新的人物合成影片方法能產生全新的應用案例，例如加強網上通訊、教育或個人化虛擬助理，成為「具身體的聊天代理」。不過這也不禁令人擔心 Deepfake 詐騙更容易，因為只要一張相就可以生成影片。

影片翻譯是未來 VLOGGER 其中一個應用案例。

最新影片

2024-03-20
Apple 與 Google 密密斟　在 iPhone 嵌入 Gemini 人工智能

據彭博商業報道，Apple 正在與 Google 商討，在 iPhone 裡植入 Google 的生成式人工智能 Gemini 引擎，為未來 iPhone 多項人工智能功能提供動力。

自從去年生成式人工智能 ChatGPT 崛起，Microsoft 以投資方式獨佔 OpenAI 技術之後，Amazon、Google、Meta 都積極開發生成式人工智能，但另一科技巨頭 Apple 卻慢了半拍，令人擔心該公司的前景。傳聞 Apple 正準備在今年 WWDC 宣布一系列 iOS 18 的人工智能功能，Tim Cook 在業績發表會上表明會大幅投資在 AI 方面，最近又傳出他們秘密收購人工智能相關企業，以追回落後的局勢。

至於 Google，在 ChatGPT 之後一度呈現落後，直到 Gemini 模型推出並統一品牌才挽回多年來人工智能龍頭的名聲。Google 在去年的 Pixel 8 手機引入大量人工智能功能，Samsung 最新的 Galaxy S24 系列手機也有用到一部分，但在品牌眾多的 Android 手機中仍然只屬少數派。

如果 iPhone 真的嵌入 Gemini 模型，Apple 將可立即向用戶提供生成式人工智能功能，大大減少開發成本。而對 Google 來說將大幅擴闊 Gemini 的市場佔有率，可說是 Win-Win 方案。不過由於還有很多細節要商討，相信在 6 月 WWDC 期間作具體公布的可能性不大。

另一方面，Apple 也並非只看 Google 一家，報道就引述消息人士指 Apple 也有與 OpenAI 商討，考慮使用他們的模型，不過未知 OpenAI 的「背後靈」Microsoft 有否摻一腳。

最新影片

2024-03-18
Google 追加輕量級新模型 Gemma　加強負責任 AI 功能
企業採用生成式 AI 技術最關注的是安全和負責任問題。 Google 月初以 Gemini 作為 AI 產品的統稱，包括 Bard 也改名 Gemini 。事隔數日，該公司又新增開源輕量級模型 Gemma，強調採用 Gemini 模型相同的研究和技術，但加強了負責任 AI 功能。

Gemma 由 Google DeepMind 團隊開發，屬開放式輕量級人工智能模型，跟 Gemini 的大型、封閉式 AI 模型走相反方向。輕量級模式 Gemma 目前提供 20 億參數和 70 億參數兩款，故適合較小型的任務，只處理文字，如生成文字、總結長篇段落和問題，也可處理串流文字的低時延實時用途，同時可自訂模型作研究和開發工作的實驗。

Google 又向開發人員和研究員提供負責任的生成式 AI 工具，協助用 Gemma 建立安全的應用程式，惟目前只支援英文，功能包括：
- 設定安全政策、調整安全、安全分類器和模型評估的指南。
- 學習可解釋性工具（LIT），用於調查 Gemma 行為及解決潛在問題。
- 用最少範例建立安全分類器的方法。
開發人員和研究員可以用數據調整 Gemma 模型，支援多個 ML 函數庫，如 Keras 3.0、PyTorch、JAX 及 Hugging Face Transformers，也可在不同運算效能的裝置上運行，包括：智能電話、邊緣設備、手提電腦等。甚至與 NVIDIA 合作，讓 Gemma 可在旗下伺服器至 AI PC 的 RTX GPU 上運行。

在 Google Cloud 使用 Gemma 則可經 Vertex AI 的 MLOps 工具，以及 GKE（Google Kubernetes Engine）管理基建，在 NVIDIA 的 GPU 和 Google 的 TPU 上運行。
2024-02-22
有片都冇真相時代來臨 ?! OpenAI 發表文生影片 AI「Sora」

OpenAI 在當地時間 2 月 15 日發表文字生成影片的 AI 模型「Sora」，只要提供對場景的描述，就可以生成最長 1 分鐘 1080p 高畫質影片，質素和穩定性都相當高。不過 OpenAI 未有向一般使用者公開 Sora，而只向少數影像藝術家和製片人開放以收集意見作出改善，並將會加入 C2PA（內容出處與真實性聯盟）元數據以便人們辨識影片是由 AI 生成的。

OpenAI 發表文生影片 AI 模型 Sora，特點是片長較長、高解像度和能遵從用戶要求的高穩定性。

提示：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

OpenAI 表示他們正在訓練 AI 理解和模擬具動態的物理世界，目的是希望為人們解決需要與真實世界互動的問題。而 Sora 就是這研究的成果之一。它的物點是片長較長、高解像度和能遵從用戶要求的高穩定性。Sora 可以生成包含複雜角色的複雜場景，與及指定動作類型的影片。Sora 不單理解用戶在提示句中要求甚麼，還理解物件在現實世界中是如何存在的。Sora 並可以生成一條有不同鏡位的影片，而維持片中角色和風格穩定。

提示：A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

過往雖然 Meta、Google 和 Stability AI 都有發表過文生影片的模型，不過不是解像度低、片長短，就是影片穩定性欠佳，景物、主體和角色面容會不停改變。

OpenAI 在發表網頁貼出 40 多條解像度最高達 1080p 的影片和生成它的提示句，全部都是直接由 Sora 生成並且未經剪輯。可以見到影片相當細緻，人物角色容貌相當穩定不會改變，而且幾乎看不出是虛構。多條影片都有皮毛鬍子、雪地、城市實景等景物，均極少見到變形或突然出現變化的狀況。另外亦有多段 Sora 影片加入水或玻璃的反射效果，也做得相當出色。

提示：Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

提示：Reflections in the window of a train traveling through the Tokyo suburbs.

不過影片也不是完全完美，例如無法正確描繪出文字，有時也會出現無中生有的狀況。其他 AI 模型都會挑戰模擬人類舞蹈，但 OpenAI 就只有一段 Pixar 式 CG 角色跳舞影片。

提示：A cartoon kangaroo disco dances.

OpenAI 基於重要的安全理由，並未向一般公眾開放使用 Sora，只向少數影像藝術家、設計師和製片人提供收集意見，同時與研究虛假、惡意或歧視性內容的「Red Team（紅色小隊）」合作探討潛在的傷害和風險。OpenAI 正著手開發工具以幫助人們分辦影片是由 Sora 生成的，並計劃在影片中加入 C2PA 元數據。

最新影片

2024-02-16