數碼新秩序

智城物語
17/05/2024

AI對話宛若真人!OpenAI新模型GPT-4o擁超強溝通能力,可替孩子補習、為視障者帶路!

#Smart Living #OpenAI #溝通 #智慧生活 #人類 #AI技術 #AI #GPT-4o #人工智能 #創科

  人類可否與電腦談心、甚至談戀愛呢?2013年上映的科幻電影《觸不到的她》(Her)正是講述男主角與AI語音助理的戀愛故事。隨著OpenAI最新AI模型「GPT-4o」的面世,上述電影情節或有機會在現實世界發生!此模型擁有強大的語音處理能力,可以用親切、富有感情的聲音交談,而且有著接近人類的對話回應時間,能夠提供更自然、更逼近真人的溝通體驗。AI技術發展至此,將對我們的世界帶來甚麼改變呢?

 

文字、聲音、視像全面推理能力

 

  2024年5月13日, OpenAI技術長米拉·穆拉蒂(Mira Murati)率領ChatGPT開發團隊在YouTube進行直播,發表最新AI模型GPT-4o;當中的「o」意指「omni」,含有「全方位、全能」的意思,代表著新模型擁有文字、聲音、以及視像推理的全面能力,不但可以接受文本、語音、圖像及其組合的提示輸入,還可以輸出同樣媒介形式的回應。

 

  儘管GPT-4已具備文字語音轉換、圖像辨識功能,惟這些功能卻要交由3個模型各自執行:第一個模型把語音轉錄成文字,跟著GPT-4針對文字提問生成文本回應,最後由第三個模型把文本轉換為聲音輸出。這樣不但令回應時間被拖長,平均需時約5.4秒,而且在轉換過程中會流失大量資訊,使GPT-4無法感測用戶聲調、背景聲音,更無法輸出笑聲或表達情感。

 

OpenAI技術長穆拉蒂表示,GPT-4o的速度比GPT-4 Turbo快上兩倍,但成本卻是後者的一半。(圖片來源:翻攝OpenAI官方YouTube影片)

 

GPT-4o對話反應時間接近人類

 

  GPT-4o把這些功能匯集在單一模型「omnimodel」裡,讓語音延遲大幅縮短,可以在最快232毫秒(0.232秒)、平均320毫秒(0.32秒)的時間內回應語音提問,接近人類對話的反應時間。

 

  再者,GPT-4o因只有單一模型,所有輸出、輸入均在同一神經網絡系統內完成處理,有效減少資訊流失,故此它能夠理解用戶的語氣,知道甚麼時候應做出甚麼回應,又可以在不同的語氣間快速切換,從一本正經的語調,變換為活潑佻皮的語氣。

 

  OpenAI釋出多段短片展示GPT-4o逼近真人的溝通能力:GPT-4o可跟OpenAI開發人員流暢對談,說話語氣抑揚頓挫,又會在適當時候發出笑聲,甚至懂得開玩笑;當人類插嘴打斷其說話時,它會自動停下來,傾聽人類說甚麼,然後根據新提問作出回應。

 

兩個AI模型互相對話、交流資訊

 

  更教人吃驚的是,兩個AI模型竟然可以互相對話和交流資訊。OpenAI開發人員在兩部手機開啟GPT-4o,要求啟動了鏡頭的AI,向沒有鏡頭的AI陳述所看到的事物,結果它清楚地說出眼前的開發人員身穿黑色皮褸和淺色上衣。後來,這兩個AI更互相聊起來,甚至一起唱歌。

 

  論及實際應用,GPT-4o懂得50種不同語言,能夠變身為即時翻譯員。在示範影片中,GPT-4o能夠在意大利文與英文、西班牙文與英文之間快速切換語言,讓不同國籍人士進行跨語言溝通變得易如反掌,日後出國旅行或公幹就不用再擔心語言不通。

 

  GPT-4o又可以化身為私人補習老師。在展示影片中,一名父親要求GPT-4o教導其兒子解答三角函數問題,但規定AI不可以先給答案,於是它藉由語音提示,一步步指導該名兒子自己算出答案,並稱讚他做得好,以示鼓勵。

 

GPT-4o透過iPad畫面與語音提示,教導孩子如何破解三角函數問題。(圖片來源:翻攝OpenAI官方YouTube影片)

 

GPT-4o可以充當視障人士眼睛

 

  對視障人士而言,GPT-4o更可以充當他們的眼睛,幫助他們探索現實環境。在示範片中,GPT-4o可以告訴站在倫敦街頭的視障人士哪裡是白金漢宮,可以走到哪裡可以乘搭的士,甚至應該在甚麼時候舉手叫車。

 

GPT-4o透過手機實現語音提示,告訴視障者可以在甚麼位置、甚麼時候舉手叫車。(圖片來源:翻攝OpenAI官方YouTube影片)

 

  直播結束後,OpenAI執行長山姆·奧特曼(Sam Altman)社交平台X上發布了一個英文單字:「Her」,既是向電影《觸不到的她》致敬,也暗示人類與AI談戀愛似乎不再是遙不可及之事。OpenAI現已開始把GPT-4o的文字與圖像輸入、以及文字輸出功能,逐步開放給所有ChatGPT服務,包括免費版本,惟付費版ChatGPT Plus的資訊輸入上限為免費版的5倍。

 

OpenAI現正逐步開放GPT-4o給ChatGPT用戶使用。如用戶進入ChatGPT後,看到「Introducing GPT-4o」信息,即代表獲授權使用新模型了。(圖片來源:翻攝OpenAI官網)

 

GPT-4o或會進駐於iPhone 16

 

  不少網友認為,GPT-4o的表現完全碾壓iPhone語音助理Siri,對蘋果(Apple)構成極大威脅。蘋果當然心知自家AI技術遠遠落後於OpenAI,既然無法戰勝,不如拉攏對方成為盟友。Wedbush分析師丹尼爾·艾夫斯(Daniel Ives)指出,Apple將於2024年6月舉行的WWDC開發者大會上宣布,與OpenAI達成合作協議,將在下一代iPhone整合ChatGPT技術,並推出基於蘋果AI模型的聊天機械人。

 

  事實上,OpenAI發表在電腦上運行的ChatGPT軟件,竟然是先推出MacOS版本,稍後才會有Windows版本登場,足證雙方現今關係非淺。因此,GPT-4o很有可能會現身於iPhone 16之上。艾夫斯認為,此舉將吸引AI開發者湧入Apple生態圈,為iPhone開闢新的增長途徑,甚至足以改寫AI市場的遊戲規則。人人手執iPhone跟AI談天說地的光景,可能不遠矣!

 

延伸閱讀:

一句話變60秒影片!OpenAI Sora生成電影級短片,將衝擊數碼娛樂產業,加劇深偽假片泛濫?

OpenAI自己造AI晶片!奧特曼擬集資7兆美元建數十座廠房!能撼動半導體產業版圖?

GPT Store複製App Store神話?OpenAI建構AI應用平台經濟,邁向AI霸權的關鍵一步!

02/08/2024

從西雅圖到香港:亞馬遜與經濟通30年平行宇宙!如何重塑人們消費購物、獲取財經資訊模式?

#Smart Living #電子商務 #互聯網 #經濟通 #亞馬遜 #美國 #Amazon #etnet #etnet30週年特輯 #財經媒體 #etnet30週年 #財經資訊 #消費購物

  在互聯網商業發展史上,1994年可說是里程碑之年。就在這一年,一家名為「亞馬遜」(Amazon)的網上書店在美國西雅圖悄然創立,開啟了往後30年全球電子商務的黃金盛世;在地球的另一邊,一家名為「經濟通」(etnet)的財經資訊供應商也在香港正式成立,揭開了此後30年香港財經媒體的輝煌時代。這兩家在平行線上各自創新的公司,究竟如何改變用戶消費購物與獲取財經資訊的習慣呢?

 

1994:亞馬遜、經濟通同步誕生

 

  1994年,傑夫·貝佐斯(Jeff Bezos)看好當時尚未普及的互聯網科技,於是辭掉在對沖基金公司的高薪厚職,在西雅圖家中的車庫創業。同年7月,他成立了一家名為「Cadabra」的公司,籌備開設網上書店。後來他認為公司名稱不夠好聽,決意另覓新名字——他希望新名字以英文字母A開頭,這樣在按字母排序的商業目錄中就可以更快被人找到。

 

  多番查閱字典後,貝佐斯決定以「Amazon」作為公司的新名字,因為他覺得亞馬遜是一個「富有異國情調且與眾不同」的地方,而且按流域面積和水流量計算,亞馬遜河是全球最大的河流,正好符合貝佐斯希望公司成為世界之最的期盼。貝佐斯的公司於1994年11月正式易名為亞馬遜,翌年7月Amazon網站正式營運,起初只銷售圖書,隨著業務擴張,開始涉足音樂、影視、電子產品等領域,逐步發展成網上百貨公司,為消費者提供一站式的網購平台。

 

亞馬遜的販售商品涵蓋圖書、影音作品、電子消費品、電器、廚具、食品、玩具、母嬰用品、化妝品、運動用具、服裝鞋帽等。(圖片來源:翻攝Amazon官網)

圖中是貝佐斯位於西雅圖都會區貝爾維尤(Bellevue)的家,Amazon公司於1994年在那裏成立。(圖片來源:維基百科)

 

  在太平洋的另一邊,經濟通也在1994年成立,以專線系統提供實時財經資訊。當時,資訊的獲取主要依賴於傳統媒體,投資者通常透過報紙或電視來獲取市場動態,但資訊傳遞卻存有延滯,追不上瞬息萬變的金融市場。經濟通的專線系統能夠提供即時股票報價和財經新聞,正可以彌補此問題,讓財經資訊可以更快速地傳播。

 

除香港外,經濟通業務範圍已涵蓋內地、澳門、台灣及日本等地區,成為區內各大金融機構的主要財經資訊來源。(圖片來源:翻攝經濟通官網)

 

2000:亞馬遜、經濟通各自崛起

 

  Amazon在成立初期一直處於虧蝕狀況,從1994至1997年累計有900萬美元(約7,020萬港元)的赤字。1997年5月,亞馬遜在納斯達克IPO上市,在上市申請表中非常坦蕩地告訴投資者,虧損在上市後仍會持續擴大,因為公司不但把大量金錢投入到營銷活動、技術開發、基礎建設等層面,還會繼續補貼降低商品價格,以吸引更多消費者嘗試網購,並強調不急於在4至5年內實現盈利。

 

  如此「緩慢」的增長模式自然惹來一眾股東的抱怨,認為公司業績成長不夠快,難以令其投資獲得合理回報,甚至無法在競爭激烈的科網市場存活下去。不過,當科網泡沫於2000年爆破後,很多互聯網公司相繼倒下,反而亞馬遜可以生存下來。2001年第4季,Amazon首度實現盈利,季度收入超過10億美元(約78億港元),淨利約500萬美元(約3,900萬港元)。這些都證明了貝佐斯的「緩慢」增長策略獲得成功。

 

  當亞馬遜網購業務不斷成長,伺服器和資源管理就成為最大的發展瓶頸。為解決此問題,公司內部工程團隊開發了一個網上服務平台「Amazon Web Services」(AWS),用作管理分散式、虛擬化伺服器和各種網上資源。其後,Amazon發現其他互聯網公司也遇上類似問題,所以在2006年將AWS對外開放。結果,這項新服務受到很多中小企和初創公司歡迎,讓亞馬遜成功開拓雲端藍海市場,最終躍居為全球最大的雲端供應商。

 

  隨著互聯網的興起,經濟通於2000年推出其網站,透過互聯網提供實時報價和財經資訊。這個轉變不僅擴大了用戶群,還豐富了服務內容,除基本的市場數據外,也有專家評論、新聞搜尋、市場分析報告及圖表等深度內容。同時,一般投資者亦可以通過電腦瀏覽網站上的豐富財經資訊,讓獲取即時財經信息不再是專業投資機構的專利。

 

  經濟通在2007年正式進駐北京開設記者站,與香港新聞部相互連接,以取得第一手的中國經濟資訊;2008年,更推出面向國內投資者的財經資訊網站etnetchina.com.cn,提供中港兩地的專業財經新聞及評論。

 

2010以後:亞馬遜、經濟通多元化發展

 

  當電商和雲端業務站穩陣腳後,Amazon就積極展開業務多元化部署。2014年,亞馬遜斥資9.7億美元(約75.66億港元)收購網上直播平台Twitch.tv,跨入社交媒體領域;2017年,豪擲137億美元(1,069億港元)買下連鎖超市Whole Foods Market,從網上轉戰到實體零售業;2018年,動用10億美元(約78億港元)併購網上藥局PillPack,涉足藥物零售。

 

  2022年,Amazon以84.5億美元(約659.1億港元)吞併電影公司米高梅(MGM),藉此強化旗下影音串流平台Prime Video的內容豐富度,並提升自製內容的製作能力,務求跟Netflix、Disney+一較高下。

 

  另一邊廂,因應智能手機的普及,經濟通推出了多款手機APP,讓用戶可以在手機上收看股票即時報價、成交分析、互動圖表、即時新聞、以及專家分析。此外,APP內又提供各種理財工具,包括:個人化監察表、ETF及基金精選及回報排行、定存息率比較、匯率比較、銀行交易匯價等。

 

etnet旗下有多款手機APP,包括:《財經·生活 經濟通》、《經濟通 股票強化版TQ》、以及《經濟通 財曆》。(圖片來源:翻攝Google Play官網)

 

  近年,隨著用戶需求的變化,經濟通開始推行內容多元化策略。除傳統的財經新聞外,etnet平台還推出了不同類型的內容頻道,包括:講解職場管理技巧、智能科技發展、消閒飲食娛樂情報的「生活」頻道;論述歐日韓潮流前瞻、藝術文化、兩性關係的「DIVA Channel」;涵蓋靚湯食譜、養生食療、運動瘦身的「健康好人生」。為吸引更廣泛的受眾,etnet又推出自製影片頻道「etnet TV」,內容涉及財經評論、風水知識、烹飪教學、吃喝玩樂、時尚潮流等。

 

  回顧過去30年,亞馬遜與經濟通的發展歷程,不僅僅是一家公司的成功故事,更是一個行業技術變革和市場變遷的縮影。Amazon從網上書店到電商霸主,etnet從專線系統供應商到財經數碼媒體巨頭,均展示了技術創新和市場策略的重要性。未來,隨著科技進步和市場需求變化,電子商務和財經資訊行業必將迎來更多的挑戰;在這個過程中,企業需要像亞馬遜、經濟通般不斷創新,保持靈活,才能在激烈的市場競爭中立於不敗之地。

 

#食譜 #素食 #數碼營銷 #電影 #移民 #減肥 #創科 #Netflix #外賣 #辦公室貼士 #疫情 #在家運動 #WFH #抗疫不悶 #限聚令 #辦公室求生術
more on etnet.com.hk