08/12/2023

Google最強AI模型來襲！Gemini搶攻企業、消費者、手機3大領域，建立完整AI生態圈碾壓ChatGPT！

#Smart Living #OpenAI #ChatGPT #生成式AI #AI #Google #大型語言模型 #Gemini #GPT-4 #企業應用 #消費者應用 #智能手機 #智慧生活

我要回應
加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　OpenAI憑藉ChatGPT躍居為生成式AI市場的領頭羊，AI界老大哥Google當然不甘於落後，本月初發表號稱最強的大型語言模型「Gemini」，不但在32項AI測試中有30項評分超越 GPT-4，還可以同時辨識與理解文字、聲音、圖片與影片。Google更一口氣推出3個不同版本模型，涵蓋企業應用、消費者應用、以及智能手機3大層面，似乎想一舉翻盤，奪回生成式AI的話語權。

Gemini多模態設計可理解手繪圖畫

　　2023年5月舉行的Google I/O開發者大會上，該公司發表了新一代大型語言模型「PaLM 2」，具備更強的邏輯推理、數學和編程能力，並支援逾100種語言，為Google聊天機械人Bard提供最強「大腦」，但仍不足以壓倒ChatGPT與其背後的GPT-4模型。

　　7個月後，Google在12月6日再發表另一組更強大的AI模型「Gemini」。它是原生設計成多模態（Multimodal）的模型，從一開始就接受不同模態資訊（包括文字、圖像、音訊）的數據訓練，故此能夠同時理解和操作文字、圖片、影片、程式碼等多元形式內容，並能夠正確解答有關數學和物理的複雜問題。

在Google提供的示範影片中，測試人員拿出一個鴨子玩偶，將之擠壓並發出響聲，然後詢問Gemini這個玩偶能否浮在水上。Gemini回應指，它能夠發出聲音，那麼它一定可以浮起來。由此看來，Gemini可藉由聲音和畫面判斷鴨子內藏空氣，並理解含有空氣的物體能夠浮在水上的原理。（圖片來源：翻攝Google官方影片）

測試人員拿著２張線條簡單的手繪汽車圖畫，詢問Gemini哪輛車會行駛得比較快，結果Gemini回答右方那輛會較快，因其外形較為符合空氣動力學設計。（圖片來源：翻攝Google官方影片）

測試人員以雙手動作模擬蝴蝶，Gemini能夠認出這是展翅中的蝴蝶，足證Gemini具有分辨人類手勢意思的能力。（圖片來源：翻攝Google官方影片）

Gemini分設3個版本針對不同場景

　　為求靈活部署在不同應用場景，Gemini設有大中小3個版本：規模最大、功能最強的為「Gemini Ultra」，可以部署到大型數據中心和企業應用方案中，執行高度複雜任務，將於2024年初開放給企業使用。Google宣稱，在32項學術基準測試中，Gemini Ultra有30項評分高過GPT-4；其中MMLU（Massive Multitask Language Understanding）測試更達到90%水平，成為首個得分超越人類專家的AI模型。

Gemini模型分為Ultra、Pro、Nano大中小三個版本，最小的Nano可以直接安裝手機上。（圖片來源：翻攝Google官方影片）

　　「Gemini Pro」屬中等規模的模型，為最靈活通用的版本，現已跟Bard整合，提供更高質的文案生成能力；自12月13日起，開發者可以透過Google Cloud Vertex AI或AI Studio上提供的Gemini API，把它導入到消費級應用軟件中。

Gemini採用Google自行研製的TPU晶片進行數據訓練，圖中為由Cloud TPU v5p所組成的超級電腦。（圖片來源：Google官方網誌）

Gemini Nano可塞入手機離線運作

　　「Gemini Nano」則為規模最小的模型，可以塞進Android流動裝置上，現已開放給開發者申請使用，創建各款生成式AI手機APP。Google Pixel 8 Pro手機已升級內建此模型，成為市場上第一款嵌入AI模型的智能手機。

　　在Gemini Nano支援下，Pixel 8 Pro可以一鍵完成會議或訪問錄音內容的摘要，即使在離線狀況下仍能使用；啟動Gboard智能回覆功能後，AI可以根據收到的Whatsapp短訊，給予回覆建議，為用戶節省打字時間。

Google欲以通路優勢壓倒OpenAI

　　綜觀以上布局，Google似乎不是要從技術層面壓倒OpenAI，而是要搶佔AI企業應用、AI消費者應用、以及AI手機應用3大市場板塊，意圖建立完整的Google AI生態圈，將ChatGPT排除在外。

　　Bard聊天機械人於2023年2月面世至今，始終未能動搖ChatGPT的龍頭地位，後者依然是全球用戶首選的AI工具，讓Google明白到繼續拿Bard跟ChatGPT單挑，勝算著實不高，於是今次改為推出3個全新AI模型進駐不同通路，希望以本身完整的通路優勢碾壓ChatGPT。

　　Google旗下企業和消費者雲端應用Google Workspace，提供Gmail、Google Calendar、Google Drive、Google Docs、Google Sheets、Google Slides等多種協作和文書處理工具，企業客戶高達800萬以上，全球用戶數更超過30億。至於採用《Android OS》的智能手機，全球也有15.7億部。

OpenAI推GPT Store自建生態圈

　　由此可見，Google手握極為廣闊的發行通路，只要把Gemini導入Google Workspace和Android手機，短時間內即可觸及數以億計的用戶；當龐大的用戶群建立起來後，開發者就會蜂擁而上，爭相利用Gemini創建各式各樣的AI應用；當AI工具選擇變得更多元化後，又會吸引更多用戶加入，令用戶群進一步壯大起來。如此一來，Gemini便有機會一舉超越ChatGPT，成為市場上最多人使用的AI模型。

　　當然，OpenAI亦深知自己欠缺通路優勢，所以在2023年11月發表「GPT Store」計劃，容許開發者利用GPT Builder創建針對特定用途的ChatGPT，然後放上GPT Store發售，藉此建立自家的AI生態圈。不過，原定11月底開張的GPT Store，因受到近期OpenAI的宮鬥風波影響，推出時程將延後至2024年初。

　　觀乎Google已有現成通路可供Gemini作廣泛滲透，OpenAI則要由零開始建立自家通路，開局上顯然是前者穩佔上風，但最終勝負還要看GPT Store開幕後的市場反應如何。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

etnet榮膺「第九屆傳媒轉型大獎」四大獎項► 查看詳情