GPT-4o空降,OpenAI又來“炸場”了

首頁 > 科技

GPT-4o空降,OpenAI又來“炸場”了

來源:每天一首音樂 釋出時間:2024-05-15 23:07

備受關注的搜尋產品“跳票”之後,OpenAI依然搞了個大的——推出GPT-4o,殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知,讓人們懷疑,科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨,OpenAI舉辦線上“春季更新”活動,釋出新旗艦生成式AI模型GPT-4o。據悉,GPT-4o的“o”代表“omni”,意為全能,是邁向更自然的人機互動的關鍵一步。

特別是在音訊處理領域,過往獨立模型之間的相互轉化帶來的延遲感,算得上是人工智慧助手變科幻為現實的最大障礙之一。為應對這一情況,GPT-4o跨文字、視覺和音訊端到端地訓練了一個新模型,所有輸入和輸出都由同一個神經網路處理,成為其突破深度學習界限的最新舉措,也完成了人工智慧對話的“絲滑”實現。

在表現上,GPT-4o可以接收文字、音訊和影象的任意組合作為輸入,並實時生成文字、音訊和影象的任意組合輸出。據悉,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

在反應速度上,GPT-4o可以在短短232毫秒內響應音訊輸入,平均響應時長也僅有320毫秒,與對話中的人類響應時間相似。相比起來,GPT-3.5語音對話的平均延遲為2.8秒、GPT-4為5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據使用者要求變換語調。在釋出會上,還有演示者將手機舉到自己面前正對著臉,要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後,ChatGPT對他說:“看起來你感覺非常快樂,喜笑顏開。”

更“炸裂”的是,所有使用者均可免費使用該模型,而付費使用者的容量限制是免費使用者的5倍。據悉,GPT-4o的文字和影象功能已經開始向付費的ChatGPT Plus和Team使用者推出,企業使用者也即將推出。免費使用者也將開始使用,但有使用限制。

在API使用方面,OpenAI首席技術官米拉·穆拉蒂表示,相比去年11月釋出的GPT-4-turbo,GPT-4o價格降低一半,速度提升兩倍。GPT-4o的語音和影片輸入功能將在未來幾周內推出。

此外,OpenAI還發布了桌面版的ChatGPT和新的使用者介面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道,“但我們希望使用者與人工智慧模型的互動體驗能夠更加自然、輕鬆,讓使用者可以將注意力完全集中在與模型的協作上,而無需在意介面本身。”

“語音對話的能力原本就有,但是這次可怕在於基本沒有延遲的響應,還有對複雜環境,包括情緒、語氣的識別”,阿里研究院執行院長袁媛對北京商報記者分析稱,低延遲來自於推理架構的整體最佳化,而複雜環境識別理解又是模型能力的提升,“所以最後的winner,仍是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜尋引擎,GPT-5的訊息也甚囂塵上。但當地時間5月10日,OpenAI表示,將於當地時間5月13日以直播的形式宣佈產品更新,不外屆時不會發布GPT-5,也不會發布搜尋引擎產品。

GPT-5和搜尋產品的缺席,也導致外界討論OpenAI是否“慢下來了”。對此,袁媛認為,技術能力並不是跟著數字線性增長的,GPT-4o雖然還“姓”4,但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力,例如低延遲推理能力,還可能支援更多的模型能力,比如動作控制和互動。此外,“omni”代表的多模態資訊輸入輸出,也有很大潛力。

受GPT-4o訊息影響,A股多模態AI概念高開,其中湯姆貓漲停。公開資訊顯示,湯姆貓5月12日釋出機構調研內容提到,公司正有序推進人工智慧垂直模型與算力基礎設施的建設。

國盛證券認為,GPT-4o是邁向更自然的人機互動的重大進步,新功能帶來了嶄新的多模態互動能力,透過新的端到端模型實現了體驗上的新突破,有望在各類終端實現使用者體驗的最大化,利好智慧終端Agent、機器人等方向。

北京商報記者 楊月涵

備受關注的搜尋產品“跳票”之後,OpenAI依然搞了個大的——推出GPT-4o,殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知,讓人們懷疑,科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨,OpenAI舉辦線上“春季更新”活動,釋出新旗艦生成式AI模型GPT-4o。據悉,GPT-4o的“o”代表“omni”,意為全能,是邁向更自然的人機互動的關鍵一步。

特別是在音訊處理領域,過往獨立模型之間的相互轉化帶來的延遲感,算得上是人工智慧助手變科幻為現實的最大障礙之一。為應對這一情況,GPT-4o跨文字、視覺和音訊端到端地訓練了一個新模型,所有輸入和輸出都由同一個神經網路處理,成為其突破深度學習界限的最新舉措,也完成了人工智慧對話的“絲滑”實現。

在表現上,GPT-4o可以接收文字、音訊和影象的任意組合作為輸入,並實時生成文字、音訊和影象的任意組合輸出。據悉,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

在反應速度上,GPT-4o可以在短短232毫秒內響應音訊輸入,平均響應時長也僅有320毫秒,與對話中的人類響應時間相似。相比起來,GPT-3.5語音對話的平均延遲為2.8秒、GPT-4為5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據使用者要求變換語調。在釋出會上,還有演示者將手機舉到自己面前正對著臉,要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後,ChatGPT對他說:“看起來你感覺非常快樂,喜笑顏開。”

更“炸裂”的是,所有使用者均可免費使用該模型,而付費使用者的容量限制是免費使用者的5倍。據悉,GPT-4o的文字和影象功能已經開始向付費的ChatGPT Plus和Team使用者推出,企業使用者也即將推出。免費使用者也將開始使用,但有使用限制。

在API使用方面,OpenAI首席技術官米拉·穆拉蒂表示,相比去年11月釋出的GPT-4-turbo,GPT-4o價格降低一半,速度提升兩倍。GPT-4o的語音和影片輸入功能將在未來幾周內推出。

此外,OpenAI還發布了桌面版的ChatGPT和新的使用者介面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道,“但我們希望使用者與人工智慧模型的互動體驗能夠更加自然、輕鬆,讓使用者可以將注意力完全集中在與模型的協作上,而無需在意介面本身。”

“語音對話的能力原本就有,但是這次可怕在於基本沒有延遲的響應,還有對複雜環境,包括情緒、語氣的識別”,阿里研究院執行院長袁媛對北京商報記者分析稱,低延遲來自於推理架構的整體最佳化,而複雜環境識別理解又是模型能力的提升,“所以最後的winner,仍是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜尋引擎,GPT-5的訊息也甚囂塵上。但當地時間5月10日,OpenAI表示,將於當地時間5月13日以直播的形式宣佈產品更新,不外屆時不會發布GPT-5,也不會發布搜尋引擎產品。

GPT-5和搜尋產品的缺席,也導致外界討論OpenAI是否“慢下來了”。對此,袁媛認為,技術能力並不是跟著數字線性增長的,GPT-4o雖然還“姓”4,但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力,例如低延遲推理能力,還可能支援更多的模型能力,比如動作控制和互動。此外,“omni”代表的多模態資訊輸入輸出,也有很大潛力。

受GPT-4o訊息影響,A股多模態AI概念高開,其中湯姆貓漲停。公開資訊顯示,湯姆貓5月12日釋出機構調研內容提到,公司正有序推進人工智慧垂直模型與算力基礎設施的建設。

國盛證券認為,GPT-4o是邁向更自然的人機互動的重大進步,新功能帶來了嶄新的多模態互動能力,透過新的端到端模型實現了體驗上的新突破,有望在各類終端實現使用者體驗的最大化,利好智慧終端Agent、機器人等方向。

北京商報記者 楊月涵

備受關注的搜尋產品“跳票”之後,OpenAI依然搞了個大的——推出GPT-4o,殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知,讓人們懷疑,科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨,OpenAI舉辦線上“春季更新”活動,釋出新旗艦生成式AI模型GPT-4o。據悉,GPT-4o的“o”代表“omni”,意為全能,是邁向更自然的人機互動的關鍵一步。

特別是在音訊處理領域,過往獨立模型之間的相互轉化帶來的延遲感,算得上是人工智慧助手變科幻為現實的最大障礙之一。為應對這一情況,GPT-4o跨文字、視覺和音訊端到端地訓練了一個新模型,所有輸入和輸出都由同一個神經網路處理,成為其突破深度學習界限的最新舉措,也完成了人工智慧對話的“絲滑”實現。

在表現上,GPT-4o可以接收文字、音訊和影象的任意組合作為輸入,並實時生成文字、音訊和影象的任意組合輸出。據悉,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

在反應速度上,GPT-4o可以在短短232毫秒內響應音訊輸入,平均響應時長也僅有320毫秒,與對話中的人類響應時間相似。相比起來,GPT-3.5語音對話的平均延遲為2.8秒、GPT-4為5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據使用者要求變換語調。在釋出會上,還有演示者將手機舉到自己面前正對著臉,要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後,ChatGPT對他說:“看起來你感覺非常快樂,喜笑顏開。”

更“炸裂”的是,所有使用者均可免費使用該模型,而付費使用者的容量限制是免費使用者的5倍。據悉,GPT-4o的文字和影象功能已經開始向付費的ChatGPT Plus和Team使用者推出,企業使用者也即將推出。免費使用者也將開始使用,但有使用限制。

在API使用方面,OpenAI首席技術官米拉·穆拉蒂表示,相比去年11月釋出的GPT-4-turbo,GPT-4o價格降低一半,速度提升兩倍。GPT-4o的語音和影片輸入功能將在未來幾周內推出。

此外,OpenAI還發布了桌面版的ChatGPT和新的使用者介面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道,“但我們希望使用者與人工智慧模型的互動體驗能夠更加自然、輕鬆,讓使用者可以將注意力完全集中在與模型的協作上,而無需在意介面本身。”

“語音對話的能力原本就有,但是這次可怕在於基本沒有延遲的響應,還有對複雜環境,包括情緒、語氣的識別”,阿里研究院執行院長袁媛對北京商報記者分析稱,低延遲來自於推理架構的整體最佳化,而複雜環境識別理解又是模型能力的提升,“所以最後的winner,仍是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜尋引擎,GPT-5的訊息也甚囂塵上。但當地時間5月10日,OpenAI表示,將於當地時間5月13日以直播的形式宣佈產品更新,不外屆時不會發布GPT-5,也不會發布搜尋引擎產品。

GPT-5和搜尋產品的缺席,也導致外界討論OpenAI是否“慢下來了”。對此,袁媛認為,技術能力並不是跟著數字線性增長的,GPT-4o雖然還“姓”4,但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力,例如低延遲推理能力,還可能支援更多的模型能力,比如動作控制和互動。此外,“omni”代表的多模態資訊輸入輸出,也有很大潛力。

受GPT-4o訊息影響,A股多模態AI概念高開,其中湯姆貓漲停。公開資訊顯示,湯姆貓5月12日釋出機構調研內容提到,公司正有序推進人工智慧垂直模型與算力基礎設施的建設。

國盛證券認為,GPT-4o是邁向更自然的人機互動的重大進步,新功能帶來了嶄新的多模態互動能力,透過新的端到端模型實現了體驗上的新突破,有望在各類終端實現使用者體驗的最大化,利好智慧終端Agent、機器人等方向。

北京商報記者 楊月涵

備受關注的搜尋產品“跳票”之後,OpenAI依然搞了個大的——推出GPT-4o,殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知,讓人們懷疑,科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨,OpenAI舉辦線上“春季更新”活動,釋出新旗艦生成式AI模型GPT-4o。據悉,GPT-4o的“o”代表“omni”,意為全能,是邁向更自然的人機互動的關鍵一步。

特別是在音訊處理領域,過往獨立模型之間的相互轉化帶來的延遲感,算得上是人工智慧助手變科幻為現實的最大障礙之一。為應對這一情況,GPT-4o跨文字、視覺和音訊端到端地訓練了一個新模型,所有輸入和輸出都由同一個神經網路處理,成為其突破深度學習界限的最新舉措,也完成了人工智慧對話的“絲滑”實現。

在表現上,GPT-4o可以接收文字、音訊和影象的任意組合作為輸入,並實時生成文字、音訊和影象的任意組合輸出。據悉,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

在反應速度上,GPT-4o可以在短短232毫秒內響應音訊輸入,平均響應時長也僅有320毫秒,與對話中的人類響應時間相似。相比起來,GPT-3.5語音對話的平均延遲為2.8秒、GPT-4為5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據使用者要求變換語調。在釋出會上,還有演示者將手機舉到自己面前正對著臉,要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後,ChatGPT對他說:“看起來你感覺非常快樂,喜笑顏開。”

更“炸裂”的是,所有使用者均可免費使用該模型,而付費使用者的容量限制是免費使用者的5倍。據悉,GPT-4o的文字和影象功能已經開始向付費的ChatGPT Plus和Team使用者推出,企業使用者也即將推出。免費使用者也將開始使用,但有使用限制。

在API使用方面,OpenAI首席技術官米拉·穆拉蒂表示,相比去年11月釋出的GPT-4-turbo,GPT-4o價格降低一半,速度提升兩倍。GPT-4o的語音和影片輸入功能將在未來幾周內推出。

此外,OpenAI還發布了桌面版的ChatGPT和新的使用者介面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道,“但我們希望使用者與人工智慧模型的互動體驗能夠更加自然、輕鬆,讓使用者可以將注意力完全集中在與模型的協作上,而無需在意介面本身。”

“語音對話的能力原本就有,但是這次可怕在於基本沒有延遲的響應,還有對複雜環境,包括情緒、語氣的識別”,阿里研究院執行院長袁媛對北京商報記者分析稱,低延遲來自於推理架構的整體最佳化,而複雜環境識別理解又是模型能力的提升,“所以最後的winner,仍是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜尋引擎,GPT-5的訊息也甚囂塵上。但當地時間5月10日,OpenAI表示,將於當地時間5月13日以直播的形式宣佈產品更新,不外屆時不會發布GPT-5,也不會發布搜尋引擎產品。

GPT-5和搜尋產品的缺席,也導致外界討論OpenAI是否“慢下來了”。對此,袁媛認為,技術能力並不是跟著數字線性增長的,GPT-4o雖然還“姓”4,但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力,例如低延遲推理能力,還可能支援更多的模型能力,比如動作控制和互動。此外,“omni”代表的多模態資訊輸入輸出,也有很大潛力。

受GPT-4o訊息影響,A股多模態AI概念高開,其中湯姆貓漲停。公開資訊顯示,湯姆貓5月12日釋出機構調研內容提到,公司正有序推進人工智慧垂直模型與算力基礎設施的建設。

國盛證券認為,GPT-4o是邁向更自然的人機互動的重大進步,新功能帶來了嶄新的多模態互動能力,透過新的端到端模型實現了體驗上的新突破,有望在各類終端實現使用者體驗的最大化,利好智慧終端Agent、機器人等方向。

北京商報記者 楊月涵

備受關注的搜尋產品“跳票”之後,OpenAI依然搞了個大的——推出GPT-4o,殺瘋科技圈。其強大的自然對話能力以及對人類情感的實時感知,讓人們懷疑,科幻電影《Her》裡的薩曼莎、《鋼鐵俠》裡的賈維斯是不是真的要來了。

北京時間5月14日凌晨,OpenAI舉辦線上“春季更新”活動,釋出新旗艦生成式AI模型GPT-4o。據悉,GPT-4o的“o”代表“omni”,意為全能,是邁向更自然的人機互動的關鍵一步。

特別是在音訊處理領域,過往獨立模型之間的相互轉化帶來的延遲感,算得上是人工智慧助手變科幻為現實的最大障礙之一。為應對這一情況,GPT-4o跨文字、視覺和音訊端到端地訓練了一個新模型,所有輸入和輸出都由同一個神經網路處理,成為其突破深度學習界限的最新舉措,也完成了人工智慧對話的“絲滑”實現。

在表現上,GPT-4o可以接收文字、音訊和影象的任意組合作為輸入,並實時生成文字、音訊和影象的任意組合輸出。據悉,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

在反應速度上,GPT-4o可以在短短232毫秒內響應音訊輸入,平均響應時長也僅有320毫秒,與對話中的人類響應時間相似。相比起來,GPT-3.5語音對話的平均延遲為2.8秒、GPT-4為5.4秒。

GPT-4o更大的驚喜則在於對“情緒價值”的提供。比如機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據使用者要求變換語調。在釋出會上,還有演示者將手機舉到自己面前正對著臉,要求ChatGPT告訴他自己長什麼樣子。第二次嘗試後,ChatGPT對他說:“看起來你感覺非常快樂,喜笑顏開。”

更“炸裂”的是,所有使用者均可免費使用該模型,而付費使用者的容量限制是免費使用者的5倍。據悉,GPT-4o的文字和影象功能已經開始向付費的ChatGPT Plus和Team使用者推出,企業使用者也即將推出。免費使用者也將開始使用,但有使用限制。

在API使用方面,OpenAI首席技術官米拉·穆拉蒂表示,相比去年11月釋出的GPT-4-turbo,GPT-4o價格降低一半,速度提升兩倍。GPT-4o的語音和影片輸入功能將在未來幾周內推出。

此外,OpenAI還發布了桌面版的ChatGPT和新的使用者介面。“我們認識到這些模型正變得越來越複雜。”穆拉蒂說道,“但我們希望使用者與人工智慧模型的互動體驗能夠更加自然、輕鬆,讓使用者可以將注意力完全集中在與模型的協作上,而無需在意介面本身。”

“語音對話的能力原本就有,但是這次可怕在於基本沒有延遲的響應,還有對複雜環境,包括情緒、語氣的識別”,阿里研究院執行院長袁媛對北京商報記者分析稱,低延遲來自於推理架構的整體最佳化,而複雜環境識別理解又是模型能力的提升,“所以最後的winner,仍是要贏在一個從頭到腳的技術體系”。

此前OpenAI頻傳將推出AI搜尋引擎,GPT-5的訊息也甚囂塵上。但當地時間5月10日,OpenAI表示,將於當地時間5月13日以直播的形式宣佈產品更新,不外屆時不會發布GPT-5,也不會發布搜尋引擎產品。

GPT-5和搜尋產品的缺席,也導致外界討論OpenAI是否“慢下來了”。對此,袁媛認為,技術能力並不是跟著數字線性增長的,GPT-4o雖然還“姓”4,但已經能看到清晰的技術特點和可能的商業模式以及後續發展潛力,例如低延遲推理能力,還可能支援更多的模型能力,比如動作控制和互動。此外,“omni”代表的多模態資訊輸入輸出,也有很大潛力。

受GPT-4o訊息影響,A股多模態AI概念高開,其中湯姆貓漲停。公開資訊顯示,湯姆貓5月12日釋出機構調研內容提到,公司正有序推進人工智慧垂直模型與算力基礎設施的建設。

國盛證券認為,GPT-4o是邁向更自然的人機互動的重大進步,新功能帶來了嶄新的多模態互動能力,透過新的端到端模型實現了體驗上的新突破,有望在各類終端實現使用者體驗的最大化,利好智慧終端Agent、機器人等方向。

北京商報記者 楊月涵

上一篇:今年天貓618... 下一篇:讓手機變好聽...
猜你喜歡
熱門閱讀
同類推薦