• |
  • 極速報價
  • |
  • etnet專輯
    etnet專輯
  • 會員
  • 產品服務 / 串流版
  • 設定

17/05/2024

AI對話宛若真人!OpenAI新模型GPT-4o擁超強溝通能力,可替孩子補習、為視障者帶路!

  • 加入最愛專欄
  • 收藏文章
  • 方展策

    方展策

    少年時,曾研習 Geographic Information System,可惜學無所成,僥倖畢業。成年後,誤打誤撞進入傳媒圈子,先後在印刷、電子、網絡媒體打滾,略有小成。中年後,修畢資訊科技碩士,眼界漸擴,決意投身初創企業,窺探不同科技領域。近年,積極鑽研數據分析與數碼策略,又涉足 Location Intelligence 開發項目;有時還會抽空執教鞭,既可向他人分享所學,亦可鞭策自己保持終身學習。

    智城物語

  人類可否與電腦談心、甚至談戀愛呢?2013年上映的科幻電影《觸不到的她》(Her)正是講述男主角與AI語音助理的戀愛故事。隨著OpenAI最新AI模型「GPT-4o」的面世,上述電影情節或有機會在現實世界發生!此模型擁有強大的語音處理能力,可以用親切、富有感情的聲音交談,而且有著接近人類的對話回應時間,能夠提供更自然、更逼近真人的溝通體驗。AI技術發展至此,將對我們的世界帶來甚麼改變呢?

 

文字、聲音、視像全面推理能力

 

  2024年5月13日, OpenAI技術長米拉·穆拉蒂(Mira Murati)率領ChatGPT開發團隊在YouTube進行直播,發表最新AI模型GPT-4o;當中的「o」意指「omni」,含有「全方位、全能」的意思,代表著新模型擁有文字、聲音、以及視像推理的全面能力,不但可以接受文本、語音、圖像及其組合的提示輸入,還可以輸出同樣媒介形式的回應。

 

  儘管GPT-4已具備文字語音轉換、圖像辨識功能,惟這些功能卻要交由3個模型各自執行:第一個模型把語音轉錄成文字,跟著GPT-4針對文字提問生成文本回應,最後由第三個模型把文本轉換為聲音輸出。這樣不但令回應時間被拖長,平均需時約5.4秒,而且在轉換過程中會流失大量資訊,使GPT-4無法感測用戶聲調、背景聲音,更無法輸出笑聲或表達情感。

 

OpenAI技術長穆拉蒂表示,GPT-4o的速度比GPT-4 Turbo快上兩倍,但成本卻是後者的一半。(圖片來源:翻攝OpenAI官方YouTube影片)

 

GPT-4o對話反應時間接近人類

 

  GPT-4o把這些功能匯集在單一模型「omnimodel」裡,讓語音延遲大幅縮短,可以在最快232毫秒(0.232秒)、平均320毫秒(0.32秒)的時間內回應語音提問,接近人類對話的反應時間。

 

  再者,GPT-4o因只有單一模型,所有輸出、輸入均在同一神經網絡系統內完成處理,有效減少資訊流失,故此它能夠理解用戶的語氣,知道甚麼時候應做出甚麼回應,又可以在不同的語氣間快速切換,從一本正經的語調,變換為活潑佻皮的語氣。

 

  OpenAI釋出多段短片展示GPT-4o逼近真人的溝通能力:GPT-4o可跟OpenAI開發人員流暢對談,說話語氣抑揚頓挫,又會在適當時候發出笑聲,甚至懂得開玩笑;當人類插嘴打斷其說話時,它會自動停下來,傾聽人類說甚麼,然後根據新提問作出回應。

 

兩個AI模型互相對話、交流資訊

 

  更教人吃驚的是,兩個AI模型竟然可以互相對話和交流資訊。OpenAI開發人員在兩部手機開啟GPT-4o,要求啟動了鏡頭的AI,向沒有鏡頭的AI陳述所看到的事物,結果它清楚地說出眼前的開發人員身穿黑色皮褸和淺色上衣。後來,這兩個AI更互相聊起來,甚至一起唱歌。

 

  論及實際應用,GPT-4o懂得50種不同語言,能夠變身為即時翻譯員。在示範影片中,GPT-4o能夠在意大利文與英文、西班牙文與英文之間快速切換語言,讓不同國籍人士進行跨語言溝通變得易如反掌,日後出國旅行或公幹就不用再擔心語言不通。

 

  GPT-4o又可以化身為私人補習老師。在展示影片中,一名父親要求GPT-4o教導其兒子解答三角函數問題,但規定AI不可以先給答案,於是它藉由語音提示,一步步指導該名兒子自己算出答案,並稱讚他做得好,以示鼓勵。

 

GPT-4o透過iPad畫面與語音提示,教導孩子如何破解三角函數問題。(圖片來源:翻攝OpenAI官方YouTube影片)

 

GPT-4o可以充當視障人士眼睛

 

  對視障人士而言,GPT-4o更可以充當他們的眼睛,幫助他們探索現實環境。在示範片中,GPT-4o可以告訴站在倫敦街頭的視障人士哪裡是白金漢宮,可以走到哪裡可以乘搭的士,甚至應該在甚麼時候舉手叫車。

 

GPT-4o透過手機實現語音提示,告訴視障者可以在甚麼位置、甚麼時候舉手叫車。(圖片來源:翻攝OpenAI官方YouTube影片)

 

  直播結束後,OpenAI執行長山姆·奧特曼(Sam Altman)社交平台X上發布了一個英文單字:「Her」,既是向電影《觸不到的她》致敬,也暗示人類與AI談戀愛似乎不再是遙不可及之事。OpenAI現已開始把GPT-4o的文字與圖像輸入、以及文字輸出功能,逐步開放給所有ChatGPT服務,包括免費版本,惟付費版ChatGPT Plus的資訊輸入上限為免費版的5倍。

 

OpenAI現正逐步開放GPT-4o給ChatGPT用戶使用。如用戶進入ChatGPT後,看到「Introducing GPT-4o」信息,即代表獲授權使用新模型了。(圖片來源:翻攝OpenAI官網)

 

GPT-4o或會進駐於iPhone 16

 

  不少網友認為,GPT-4o的表現完全碾壓iPhone語音助理Siri,對蘋果(Apple)構成極大威脅。蘋果當然心知自家AI技術遠遠落後於OpenAI,既然無法戰勝,不如拉攏對方成為盟友。Wedbush分析師丹尼爾·艾夫斯(Daniel Ives)指出,Apple將於2024年6月舉行的WWDC開發者大會上宣布,與OpenAI達成合作協議,將在下一代iPhone整合ChatGPT技術,並推出基於蘋果AI模型的聊天機械人。

 

  事實上,OpenAI發表在電腦上運行的ChatGPT軟件,竟然是先推出MacOS版本,稍後才會有Windows版本登場,足證雙方現今關係非淺。因此,GPT-4o很有可能會現身於iPhone 16之上。艾夫斯認為,此舉將吸引AI開發者湧入Apple生態圈,為iPhone開闢新的增長途徑,甚至足以改寫AI市場的遊戲規則。人人手執iPhone跟AI談天說地的光景,可能不遠矣!

 

延伸閱讀:

一句話變60秒影片!OpenAI Sora生成電影級短片,將衝擊數碼娛樂產業,加劇深偽假片泛濫?

OpenAI自己造AI晶片!奧特曼擬集資7兆美元建數十座廠房!能撼動半導體產業版圖?

GPT Store複製App Store神話?OpenAI建構AI應用平台經濟,邁向AI霸權的關鍵一步!

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

【香港好去處】etnet全新頻道盛大推出!全港最齊盛事活動資訊盡在掌握!► 即睇

我要回應

你可能感興趣

版主留言

放大顯示
師傅靈靈法
最緊要健康
精選文章
  • 生活
  • DIVA
  • 健康好人生
專業版
HV2
精裝版
SV2
串流版
IQ 登入
強化版
TQ
強化版
MQ