//

2024年5月13日 星期一

OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容

 

OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容


先前預告後,OpenAI正式揭曉其全新GPT-4o人工智慧模型,並且推出桌機版App及新版操作介面,另外也讓使用者能透過「Hey,ChatGPT」進行語音、影像識別等互動。

OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容
OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容

OpenAI說明,GPT-4o中的「o」源自「Omnimodel」 (全能模型)的首個字母,意味將能對應各類應用互動,同時學習資料源自先前超過1億人透過ChatGPT學習、創作或協作互動經驗,一樣支援影像識別,甚至也能透過記憶方式學習使用者曾經提過事項,藉此用於未來互動,此外也加入聲音辨識,以及圖表內容分析、製作能力,目前總計對應50種語言,約可覆蓋多達97%的全球網路使用人口。

而GPT-4o將免費開放使用,並且可透過API資源存取,讓更多開發者能藉此人工智慧模型打造更多應用服務,在英語文字與程式編碼處理速度幾乎等同GPT-4 Turbo效能表現,同時在非英語文字上的執行效能表現會更高,藉此讓使用成本降低50%,並且支援文字、音訊、圖像等任意組合輸入,進而可對應文字、音訊、圖像等任意組合輸出,更可在最短232毫秒、平均320毫秒時間內針對音訊輸入內容做出回應,幾乎與一般人在自然對話中的回應時間相近。

在進一步解說中,OpenAI表示在GPT-4o推出前的語音對話模式平均延遲,在GPT-3.5約為2.8秒,在GPT-4則約為5.4秒,主要是透過三個獨立模型運作構成,其中包含將音訊轉為文字,由GPT-3.5或GPT-4分析文字、做出回應,再將回應文字轉為語音念出,而此次推出的GPT-4o則是透過單一模型即可完成音訊轉文字、文字分析與文字轉音訊三個流程,因此能以相比GPT-4 Turbo約2倍快速度完成運作。

OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容
OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容

由於花費更短時間完成過往需要三個模型才能完成的工作流程,因此代表GPT-4o將能進一步分析使用者所發出語調、表情,進而判斷背後所代表情感,例如判斷使用者當下情緒是否開心,或是悲傷難過等。

此次示範內容中,OpenAI表示GPT-4o可以直接讓雙方各以英語、義大利語進行對談溝通,或是協助使用者透過圖像識別方式解決數學算式問題,另外也能判斷使用者臉部表情對應情緒為何。

OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容
OpenAI揭曉全新GPT-4o人工智慧模型,更快理解圖文、語音內容

另外,OpenAI同樣強調GPT-4o的使用安全性,標榜建立全新安全系統確保互動使用過程不會出現問題,並且強調在訓練過程採用自動化及人為評估,更結合社會心理學、偏見與公平,以及錯誤訊息等領域專家進行合作測試,避免GPT-4o出現不可預期的風險問題。

OpenAI表示,此次公布的GPT-4o將在接下來幾個星期內、幾個月內陸續公布相關技術基礎建設、訓練後的可用性,以及其他模式運作所需安全性,其中包含透過GPT-4o輸出音訊內容僅能選擇預設聲音,避免有心人士以模仿他人聲音進行不法事宜。

目前GPT-4o的文字與圖像處理能力將從即日起用於ChatGPT服務,並且免費開放所有人使用,而ChatGPT Plus訂閱用戶則可使用超過5倍的訊息量,至於語音互動功能則會向ChatGPT Plus開放使用,但初期僅先以alpha版測試內容提供。

蘋果可能是合作夥伴?

在此之前,蘋果已經傳出與OpenAI攜手合作,預計讓iOS 18中的Siri數位助理服務有全新互動體驗,或許將進一步結合GPT-4o人工智慧模型,藉此創造全新互動體驗。不過,具體公布內容還是要以蘋果公布為準。

更多Mashdigi.com報導:

Google攜手HP,將未來視訊會議技術Project Starline帶到企業環境使用

Pixel 8a快速動手玩,在入門機種導入更多高階機種使用體驗

vivo揭曉定位更高階、可捕捉更清晰遠距影像的X100 Ultra



沒有留言:

張貼留言

熱門文章