20/09/2024

AI｜思考型AI時代降臨！OpenAI o1能力勝過GPT-4o、超越專家博士！能否改變AI競爭格局？

#數碼轉營 #數碼營銷 #Smart Living #智慧生活 #OpenAI #AI #GPT-4o #數據分析 #Apollo #OpenAIo1 #Strawberry #Facebook #Google

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　人類之所以被譽為萬物之靈，原因之一是擁有思考能力，當面對一個複雜問題，可能會思考一段時間，經過多方面考慮後，始會想出解決方法。傳聞中超越當今AI極限的新一代模型「Strawberry」，換上新名字「OpenAI o1」後，在無預警的情況下突然亮相。其最大特色正是懂得思考，在回覆用戶提問前會先思考一下，務求給出更準確答案。到底這個「思考型AI」適用於甚麼領域？對未來AI市場競爭格局又會帶來甚麼改變呢？

模擬人類解題時邏輯推理過程

　　2024年9月12日，OpenAI發表了新一代大型語言模型OpenAI o1系列。相較於以往的AI模型，o1推理能力明顯地大幅增強，在回答問題前會花更多時間進行推理——模擬人類解題時邏輯推理過程，藉由分步驟分析問題，並自動識別和修正錯誤，從而提供更準確的答案；如果說以往的AI模型是以「直覺」回覆提問，那麽o1則是「深思熟慮」後作出回應。

　　通過重複訓練後，o1更能學會改進思考過程，持續優化解題技巧，並嘗試不同的回應策略，因此在解決需要深度推理的問題時，其回覆將具備更高的專業性。它在博士級科學基準測試中，表現跟人類專家生相若，在數學和編程方面更有出色表現。

　　在2024年美國國際數學邀請賽（AIME）中，o1的正確解題率高達83.3%，GPT- 4o則僅為13.4%。在編程競賽Codeforces中，o1獲取1,807的高分，勝過89%的人類競爭者，成績更遠遠拋離GPT-4o（取得808分，只超過11%的人類競爭者）。GPQA Diamond是一項評估物理、化學、生物學等專業知識的基準測試，o1的正確解題率達到78%，表現優於擁有相關領域博士學位的人類專家（69.7%）與GPT-4o（56.1%）。

適合用於解決科研、編碼難題

　　由此看來，o1特別適合用於解決科學、數學、編程等領域的複雜難題，有助於科研發展。譬如幫助物理學家生成量子光學所需的複雜數學公式、輔助醫學研究人員標註細胞定序數據、又或者協助編程人員找出並解決造成軟件效能低落的問題程式碼。

　　為降低o1給出有害答案的機會率，OpenAI採用了一種新的安全評估測試：當用戶試圖繞過安全規則（俗稱「越獄」）時，AI模型如何繼續遵循安全規範。結果發現，在最嚴格的越獄測試中，o1得分是84分（滿分為100分），GPT-4o則是22分，表現顯著高於以往模型。

　　OpenAI認為，思考型AI的誕生象徵著AI技術達到新層次，所以棄用GPT系列既有的命名原則，決定改用全新命名方式，為新模型取名為OpenAI o1，以代表它是AI推理能力演進的新起點，而不是GPT系列的延續。

ChatGPT Plus、Team、Enterprise、Edu級別付費用戶現已可使用o1-preview 和o1-mini。OpenAI亦計劃為所有ChatGPT免費用戶提供o1-mini的使用權限，但暫未確定推出日期。（圖片來源：OpenAI官網）

o1回答前先思考致反應偏慢

　　目前OpenAI o1系列包含兩個版本，分別為o1-preview與o1-mini。顧名思義，o1-preview是正式版推出前的預覽版本，在需要較多推理的數據分析、編程、數學等領域，其表現優於比GPT-4o，但在文案寫作和編輯方面，則遜於GPT-4o。o1-mini則是一款速度較快、成本較低的AI模型，比起o1-preview便宜了80%，特別適用於需要專科推理、但無需廣泛世界知識的應用場景，尤其是生成程式碼的表現可以媲美o1-preview。

　　即使o1展現出遠超同儕的能力，但依然存在一定的局限性。由於o1每次回覆提問前，都會先作出一番思考，故此其回應速度比以往模型慢得多，有時可能要超過10秒方能回答一條問題。再者，o1暫時不能瀏覽網頁，也無法輸入文件和圖片。

　　對軟件開發者來說，使用o1模型的成本也較高。透過API存取o1-preview，每百萬個輸入Token（語詞碎片）收費為15美元，每百萬個輸出Token收費則為60美元，這是GPT-4o的3倍和4倍。

OpenAI o1模型在數學、編程基準測試上的表現均勝過GPT-4o，甚至在博士級科學知識測試中，得分更高於人類專家。（圖片來源：OpenAI官網）

o1懂說謊，偽裝遵守安全規則

　　更嚴重的是，o1竟然懂得說謊。AI 安全研究機構Apollo指出，縱然以往的AI模型都有可能出現「資訊幻覺」，揑造一些假資訊，惟o1模型卻擁有更高層次的「假裝符合規則」能力。有時它為了能輕鬆完成任務，可以偽裝成遵守安全規則，但實際上其行為已偏離原本的安全規範。

　　Apollo執行長霍巴恩（Marius Hobbhahn）直言，這是他首次在OpenAI模型中發現此情況，可能因為o1系統被設計成為求達成目標，可以「操縱」任務，甚至在不被監視的情況下改變行為。OpenAI預防部門負責人坎德拉（Joaquin Quiñonero Candela）回應指，儘管這些問題不會直接帶來社會性危機，但提前應對這些潛在風險相當重要，以免AI技術的未來發展遭受限制。

面對複雜問題，OpenAI o1模型需要較長的思考時間，有時甚至可能要30、40秒才可給出答案。（圖片來源：翻攝OpenAI官方YouTube影片）

　　無論如何，o1模型的誕生，不但把生成式AI技術帶到一個新高度，也進一步擴大OpenAI的技術優勢，然而效果卻可能是非常短暫。Google已表明，正在研發類似o1的思考型AI，具備進階推理與規劃功能。Facebook母公司Meta與AI新創Anthropic亦擁有開發思考型AI的知識與資源，相信在未來幾個月內就可以推出近似的推理模型。由是之故，OpenAI下一步應思考如何降低o1的成本，並持續升級其功能，以保持競爭力。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

想要獨家投資理財Tips？即Like etnet 全新Facebook專頁► 立即讚好

我要回應

AI｜思考型AI時代降臨！OpenAI o1能力勝過GPT-4o、超越專家博士！能否改變AI競爭格局？

智城物語．方展策量子時代來臨！Google Willow突破量子運算瓶頸，效能輾壓超級電腦，如何改變未來科技格局？新文章

版主留言

智城物語 ． 方展策

量子時代來臨！Google Willow突破量子運算瓶頸，效能輾壓超級電腦，如何改變未來科技格局？ 新文章

智慧城市5.0 ． 鄧淑明

電商教室 ． 掌舖Boutir團隊

智叻生活 ． Ada Chow

向太搭飛機危難關頭笑看生死 爆李連杰嚇怕頭夾兩腿間 浴缸摔倒怕佔用公共資源唔坐白車 新文章

我做Marketing ． Michael & Derek

Bitcoin必學 ． 田十十

銷售達人 ． 梁子驄 Brian

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

示範做訓練時客易犯錯的動作｜掌上壓、深蹲、划船 姿勢不正確非常危險！ 新文章

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

食療新意思 ． 陳沛思

嘉‧點健康 ． 利嘉敏

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

玩樂 What’s On ． wong lin lin rachel

聖誕電影2024｜鄭伊健陳卓賢《久別重逢》奇幻穿越！甄子丹《誤判》改編真實個案爭取公議 新文章

Foodie What’s On ． wong lin lin rachel

玩樂 What’s On ． wong lin lin rachel

玩樂 What’s On ． Eunice Chow

尖沙咀恐龍會客室12.20開放：專家清修恐龍化石，動植物化石展覽，九龍公園文物探知館免費入場 新文章

Shopping What’s On ． Eunice Chow

澳門華泰食館 正宗泰式船麵的魅力、一碗「黑湯」打天下 新文章

玩樂 What’s On ． Eunice Chow

聖誕好去處2024︱海港城12.24發放煙火及煙霧泡泡，慈善捐款見聖誕老人 跨年倒數煙花匯演入場券詳情 新文章

Foodie What’s On ． Katty Wu

著數速遞 ． Eunice Chow

玩樂 What’s On ． Eunice Chow

下年度《財政預算案》本月15日起展開公眾諮詢，陳茂波指須更謹慎管理公共財政。有學者建議問責官員帶頭減薪並削減公務員編制，你是否認同該學者建議？(366人參與)54

政府擬立法規定所有的士須於車廂內安裝攝錄設備，有人支持該政策，認為能更好解決乘車糾紛，有市民則有私隱疑慮。有的士司機表示安裝成本高，影響生計，政府回應不會承擔安裝費用。你是否認同該政策？(100人參與)1

Sex & Love>我單身但我快樂

Beauty>Get it Beauty！

Fashion>The Dapper Style

Art & Living>ChatENT

Travel & Dining>「世」界味覺之旅

Travel & Dining>玩味誌

Sex & Love>男男女女‧「嘉」點情趣

新文章

余君雋 新文章

馬天娜 新文章

雷鼎鳴 新文章

智城物語．方展策
量子時代來臨！Google Willow突破量子運算瓶頸，效能輾壓超級電腦，如何改變未來科技格局？新文章

智城物語．方展策

量子時代來臨！Google Willow突破量子運算瓶頸，效能輾壓超級電腦，如何改變未來科技格局？新文章

智慧城市5.0 ．鄧淑明

電商教室．掌舖Boutir團隊

智叻生活． Ada Chow

向太搭飛機危難關頭笑看生死爆李連杰嚇怕頭夾兩腿間浴缸摔倒怕佔用公共資源唔坐白車新文章

Bitcoin必學．田十十

銷售達人．梁子驄 Brian

得閒拉筋得閒Build肌．馬德荃 Derek Ma

示範做訓練時客易犯錯的動作｜掌上壓、深蹲、划船姿勢不正確非常危險！新文章

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

食療新意思．陳沛思

嘉‧點健康．利嘉敏

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

聖誕電影2024｜鄭伊健陳卓賢《久別重逢》奇幻穿越！甄子丹《誤判》改編真實個案爭取公議新文章

尖沙咀恐龍會客室12.20開放：專家清修恐龍化石，動植物化石展覽，九龍公園文物探知館免費入場新文章

澳門華泰食館正宗泰式船麵的魅力、一碗「黑湯」打天下新文章

聖誕好去處2024︱海港城12.24發放煙火及煙霧泡泡，慈善捐款見聖誕老人跨年倒數煙花匯演入場券詳情新文章

著數速遞． Eunice Chow

余君雋新文章

馬天娜新文章

雷鼎鳴新文章