【FOCUS】Sora構建「心神自運」，谷歌臉書黃雀在後

「眼見為實」不再，未來世界也許只是人類用文本構建的「心神自運」。人工智能翹楚OpenAI於剛剛過去的周末發布新系統Sora，能根據文字提示，迅速生成荷里活大片即視感的高質影片。此一被稱為「量子級」的AI技術飛躍，一問世即驚艷，但「螳螂捕蟬，黃雀在後」，競爭對手Google、Meta同時發布最新大模型Gemini 1.5及V-JEPA。

人人都是黑澤明？

不久的將來，人人都是黑澤明或史提芬史匹堡？當OpenAI周六發布一段17秒短片，白雪皚皚的東京，熙熙攘攘的街道，櫻花伴雪飛舞……一鏡到底的動態逼真場景記錄，原來不是出自專業攝影師，而是AI這個「夢世界模擬器」。

Sora生成視頻中的鏡頭、光線、場景運用乃至人物表情，都已達至影視級。

如果說語言的誕生使人類得以馳騁想像，那麼「文本-視像」的突破，將令人類獲得真正超越現實的能力，眼見未必是真，花花世界背後全是文本代碼。OpenAI就指，Sora是能夠理解和模擬現實世界的模型的基礎，相信這項功能將成為實現AGI（通用人工智能）的重要里程碑。

相比原本宇宙老大Runway旗下的AI視頻生成工具Gen-2，效果仍停留於幻燈片動圖，Sora生成視頻中的鏡頭、光線、場景運用乃至人物表情、動物動態，都已達至影視級。加上語音AI研究公司ElevenLabs同樣通過將文字轉化成AI音效，為原本無聲的Sora視訊加添背景音效,難怪有電視大台揸fit人警告，要「高度重視，緊咬緊放，絕不能一夜之間完敗。」

Gemini 1.5功能勁

Sora打開新世界的大門，Google同時發布的大模型Gemini 1.5暫時鋒芒被掩，但卻可能是大語言模型（LLM）競爭新的分水嶺。去年12月初才後知後覺揭盅Gemini 1.0的谷歌，短短兩個多月就推出1.5版本，不單能夠運行高達100萬個Token（文本最小单位），遠超ChatGPT4.5 Turbo的12.8萬個，意味其可以一次性處理長達1小時的視訊、11小時的音訊、3萬行程式碼、逾70萬字的文章。

Gemini 1.5分析Sora生成影片指，貓的毛髮太過完美，因此可能並非真實影片。

例如，Gemini 1.5能快速分析「阿波羅 11號登月」任務的402頁記錄，並梳理其中的事件和細節；能理解兩部電影的劇本，比較劇情、角色差異；能分析NBA扣籃影片，最高得分扣籃的細節。Gemini 1.5亦能就Sora視訊是否是人工智能生成提出自己的見解，例如貓的毛髮太過完美，因此可能並非真實影片。

Meta主攻機器智慧

更具野心的還有Meta，其首席人工智能科學家Yann Lecun就指，根據文本提示而產生的影片，看起來真實，但並不表示系統理解物理世界；例如，一段蘋果落地的影片，並不意味發現萬有引力。他甚至指，Sora是非常棒的創造性的輔助工具，但卻不足以成為幫助人類採取行動的模型。

對Yann Lecun而言，重要的是構建「世界模型」，而非「像素」。為此，Meta最新發布非生成式大模型V-JEPA，旨在通過觀察影片，預測被隱藏或缺失部分，從而對世界有更深刻了解，最終打造出能夠像人類一樣學習的先進機器智慧（AMI）。

無論是Sora還是Gemini 1.5還是V-JEPA ，最大的震撼是，人工智能迭代演進速度之快超乎想像。上月底中央政治局會議提出「加快發展新質生產力」、「加強原創性、顛覆性科技創新」，挑戰與機會同在。

【你點睇】陳美寶、羅淑佩分別被任命為運物局及文體旅局局長，你是否認同新任命有助香港鞏固物流樞紐地位及促進旅遊經濟？► 立即投票