在矽谷炙手可熱的 AI 創業浪潮中,一對重量級的華人科學家組合正悄然浮現,他們的目標不再是簡單地複製另一個 ChatGPT,而是直指通用人工智慧(AGI)的關鍵瓶頸:視覺推理(Visual Reasoning)。
這位由前 Google Gemini 資料聯合負責人 Andrew Dai,以及前蘋果首席研究科學家 Yinfei Yang 共同創辦的 AI 新秀,名為 Elorian,正在籌集高達 5000 萬美元的種子輪融資,其高昂的「入場費」再次證明了頂級人才在資本市場的稀缺價值。
14 年磨一劍 從 BERT 到 Gemini 的幕後英雄
Andrew Dai 在 AI 研究圈享有「長期主義者」的盛譽。他在 GoogleDeepMind 效力長達十四年,經歷了深度學習從邊緣走向核心的完整週期。其履歷中最亮眼的成就,莫過於擔任 Google 旗艦大模型 Gemini 預訓練資料工作的共同負責人。
在當前的大模型競賽中,資料品質與預訓練策略是決定模型智商上限的命脈,Andrew Dai 在這一核心環節的經驗,賦予了 Elorian 無與倫比的起跑優勢。
他曾與 Google 首席科學家 Jeff Dean 等傳奇人物合作,早在 2015 年發表的半監督序列學習論文,就被認為對 OpenAI 後來的 GPT 系列模型產生了深遠啟發。一位熟悉他的人士評論道:「他是語言模型的先驅之一,最擅長從海量、嘈雜的數據源中提煉出高質量的『知識』。」
如果說 Andrew Dai 帶來了 Google 在大規模訓練上的暴力美學,那麼共同創辦人 Yinfei Yang 則注入了蘋果系對多模態的精緻洞察。
Yinfei Yang 曾任蘋果機器學習團隊的首席研究科學家,主要負責蘋果自研 AI 模型的開發。在此之前,她也曾在 Google Research 專注於多模態表示學習,尤其在圖像 - 文字共嵌入領域的專長,恰好彌補了當前主流語言模型在感知能力上的短板。
視覺推理 通往 AGI 的必經之路
Elorian 的創立並非為了解決文本生成的問題,而是旨在建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。
目前市場上的 AI 模型大多是基於文本訓練,隨後再透過「補丁」的方式連結視覺能力。Elorian 的願景是打造一個天生的「通感者」,讓模型不再只是將圖像轉化為文字標籤,而是能夠像人類一樣,透過視覺直接感知並理解物理世界的深層邏輯。
這種被稱為「視覺推理」的能力,被普遍視為通往通用人工智慧(AGI)的必經之路。
Elorian 的潛在應用市場極為廣闊,不僅限於機器人領域,更瞄準了下一代 AI 智能體(Agent)的廣大市場。這些智能體將能夠像人類一樣「看」著電腦螢幕、理解圖形使用者介面(GUI)、處理複雜的退貨流程、審核法律文件,甚至操作其他軟體。
它將能直接「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策,完全模仿人類的操作行為,實現真正的全域數位協助。
資本為「稀缺基因」買單
Elorian 的高額種子輪融資目標,凸顯了資本市場對「GoogleDeepMind + 蘋果」這種稀缺基因組合的追捧。領投方極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。對投資人而言,他們賭上的不僅是技術路徑,更是這個團隊在大規模訓練和產品落地兩方面的複合經驗。
Elorian 的出現,代表著大模型戰爭正從第一階段的「文本生成」轉向第二階段的「多模態理解與物理世界互動」。在巨頭們瘋狂補課視覺能力的同時,Elorian 作為新創公司,正試圖以技術代差和高度聚焦的資源,在 AI 智能體這個新興戰場上實現彎道超車。
兩位頂級科學家離開了效力多年的科技巨頭,選擇了這條艱難而充滿野心的道路——試圖教導機器不僅是「看見」世界,還要「看懂」世界。正如電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」
在當前 AI 的洪流中,真正稀缺的,永遠是那些能夠透過數據迷霧,看清未來方向的「靈魂」和「大腦」。Elorian 的每一步,都將牽動著全球對 AGI 進程的關注。
新聞來源 (不包括新聞圖片): 鉅亨網