「商湯」大模型一體機可節約80%推理成本,完成雲端邊全棧佈局|最前線

首頁 > 科技

「商湯」大模型一體機可節約80%推理成本,完成雲端邊全棧佈局|最前線

來源:小飛人 釋出時間:2024-04-28 05:23

作者|黃楠

編輯|彭孝秋

昨日,商湯科技SenseTime在上海舉辦技術交流日活動。會上商湯釋出業內首個“雲、端、邊”全棧大模型產品矩陣,並推出全新升級的“日日新SenseNova 5.0”大模型體系。

影響至股價方面,商湯(00020.HK)本日開盤後大幅上漲。隨後商湯在港交所公告稱,商湯集團的B類股份自11時15分起暫停交易,暫停前漲幅達到31.15%。

日日新,出自《禮記·大學》中的“苟日新、日日新、又日新”。承載了人們對以大模型為代表的AI技術浪潮迭代,和走向AGI(通用人工智慧)的期待。

目前,商湯“日日新SenseNova”大模型體系已正式完成5個版本迭代,基於超過10TB tokens訓練、覆蓋大量合成數據,“日日新SenseNova 5.0”(以下簡稱:「日日新5.0」)採用混合專家架構,推理時上下文視窗可以有效到200K左右。

具體到更新能力上,此次主要集中增強了知識、數學、推理及程式碼能力,全面對標GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。

「日日新5.0」能力評測

以模型的文科能力為例,「日日新5.0」創意寫作能力、推理能力以及總結能力均大幅提升,相同的中文知識注入後,可以獲得更好的理解總結及問答,為教育、內容產業等垂直應用場景提供有力輔助。

多模態能力方面,具體到應用產品中,「日日新5.0」可支援高畫質長圖的解析和理解,以及文生圖互動式生成,也能實現複雜的跨文件知識抽取及總結問答展示,還具備豐富的多模態互動能力。

「日日新5.0」和GPT-4回答趣味推理問題:“媽媽給圓圓衝了一杯咖啡,圓圓喝了半杯後,將它加滿水,然後她又喝了半杯後,再加滿水,最後全部喝完。問圓圓喝的咖啡多,仍是水多?”,「日日新5.0」回答正確。

面對中心化算力需求向端側擴充套件的未來趨勢、和企業級在邊緣側的AI需求,商湯推出了“雲、端、邊”全棧大模型產品矩陣。其中包括應用於終端裝置的“商湯端側大模型”,及面向金融、程式碼、醫療、政務等多個領域的邊緣產品“商湯企業級大模型一體機”。

當前,金融、程式碼、醫療、政務等行業邊緣側AI應用需求呈爆發式增長,但在實際落地場景中,企業仍面臨算力使用門檻高、能耗高等難題。

關注到這一現象,商湯尋求最優資料配比並建立資料質量評價體系,推動自身大模型研發的同時,也為行業夥伴提供大模型訓練、微調、部署和各類生成式AI的能力及服務。

會上,商湯推出端雲協同解決方案,可以透過智慧化判斷協同發揮端雲各自優勢,需要聯網搜尋或處理複雜場景時分流至雲端處理,部分場景端側處理佔比超過80%,從而明顯降低推理成本。

比如近期火爆的小米汽車SU7,其智慧車艙中就應用了商湯的大模型技術。基於商湯端雲大模型解決方案,小米小愛同學可以為車主提供智慧化的互動體驗。

同時在硬體方面,商湯本次釋出的企業級大模型一體機,可支援企業級千億模型加速和知識檢索硬體加速,實現本地化部署,即買即用,降低企業應用大模型的門檻。相比行業同類產品,推理成本節約80%,檢索大大加速,CPU工作負載50%。

伴隨著尺度定律催生的模型效能大爆發,一方面,大模型發展已進入落地階段,如何與產業、應用場景結合是關鍵一環;另一方面,“ScalingLaw(尺度定律)”路徑逐漸清晰,“湧現”時刻不定出現,前瞻探索最提高前輩的大模型技術也是重中之重。

商湯科技董事長兼CEO徐立表示:“商湯在尺度定律的指導下,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。”

作者|黃楠

編輯|彭孝秋

昨日,商湯科技SenseTime在上海舉辦技術交流日活動。會上商湯釋出業內首個“雲、端、邊”全棧大模型產品矩陣,並推出全新升級的“日日新SenseNova 5.0”大模型體系。

影響至股價方面,商湯(00020.HK)本日開盤後大幅上漲。隨後商湯在港交所公告稱,商湯集團的B類股份自11時15分起暫停交易,暫停前漲幅達到31.15%。

日日新,出自《禮記·大學》中的“苟日新、日日新、又日新”。承載了人們對以大模型為代表的AI技術浪潮迭代,和走向AGI(通用人工智慧)的期待。

目前,商湯“日日新SenseNova”大模型體系已正式完成5個版本迭代,基於超過10TB tokens訓練、覆蓋大量合成數據,“日日新SenseNova 5.0”(以下簡稱:「日日新5.0」)採用混合專家架構,推理時上下文視窗可以有效到200K左右。

具體到更新能力上,此次主要集中增強了知識、數學、推理及程式碼能力,全面對標GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。

「日日新5.0」能力評測

以模型的文科能力為例,「日日新5.0」創意寫作能力、推理能力以及總結能力均大幅提升,相同的中文知識注入後,可以獲得更好的理解總結及問答,為教育、內容產業等垂直應用場景提供有力輔助。

多模態能力方面,具體到應用產品中,「日日新5.0」可支援高畫質長圖的解析和理解,以及文生圖互動式生成,也能實現複雜的跨文件知識抽取及總結問答展示,還具備豐富的多模態互動能力。

作者|黃楠

編輯|彭孝秋

昨日,商湯科技SenseTime在上海舉辦技術交流日活動。會上商湯釋出業內首個“雲、端、邊”全棧大模型產品矩陣,並推出全新升級的“日日新SenseNova 5.0”大模型體系。

影響至股價方面,商湯(00020.HK)本日開盤後大幅上漲。隨後商湯在港交所公告稱,商湯集團的B類股份自11時15分起暫停交易,暫停前漲幅達到31.15%。

日日新,出自《禮記·大學》中的“苟日新、日日新、又日新”。承載了人們對以大模型為代表的AI技術浪潮迭代,和走向AGI(通用人工智慧)的期待。

目前,商湯“日日新SenseNova”大模型體系已正式完成5個版本迭代,基於超過10TB tokens訓練、覆蓋大量合成數據,“日日新SenseNova 5.0”(以下簡稱:「日日新5.0」)採用混合專家架構,推理時上下文視窗可以有效到200K左右。

具體到更新能力上,此次主要集中增強了知識、數學、推理及程式碼能力,全面對標GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。

「日日新5.0」能力評測

以模型的文科能力為例,「日日新5.0」創意寫作能力、推理能力以及總結能力均大幅提升,相同的中文知識注入後,可以獲得更好的理解總結及問答,為教育、內容產業等垂直應用場景提供有力輔助。

多模態能力方面,具體到應用產品中,「日日新5.0」可支援高畫質長圖的解析和理解,以及文生圖互動式生成,也能實現複雜的跨文件知識抽取及總結問答展示,還具備豐富的多模態互動能力。

作者|黃楠

編輯|彭孝秋

昨日,商湯科技SenseTime在上海舉辦技術交流日活動。會上商湯釋出業內首個“雲、端、邊”全棧大模型產品矩陣,並推出全新升級的“日日新SenseNova 5.0”大模型體系。

影響至股價方面,商湯(00020.HK)本日開盤後大幅上漲。隨後商湯在港交所公告稱,商湯集團的B類股份自11時15分起暫停交易,暫停前漲幅達到31.15%。

日日新,出自《禮記·大學》中的“苟日新、日日新、又日新”。承載了人們對以大模型為代表的AI技術浪潮迭代,和走向AGI(通用人工智慧)的期待。

目前,商湯“日日新SenseNova”大模型體系已正式完成5個版本迭代,基於超過10TB tokens訓練、覆蓋大量合成數據,“日日新SenseNova 5.0”(以下簡稱:「日日新5.0」)採用混合專家架構,推理時上下文視窗可以有效到200K左右。

具體到更新能力上,此次主要集中增強了知識、數學、推理及程式碼能力,全面對標GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。

「日日新5.0」能力評測

以模型的文科能力為例,「日日新5.0」創意寫作能力、推理能力以及總結能力均大幅提升,相同的中文知識注入後,可以獲得更好的理解總結及問答,為教育、內容產業等垂直應用場景提供有力輔助。

多模態能力方面,具體到應用產品中,「日日新5.0」可支援高畫質長圖的解析和理解,以及文生圖互動式生成,也能實現複雜的跨文件知識抽取及總結問答展示,還具備豐富的多模態互動能力。

上一篇:引領基建產業... 下一篇:推出多元化消...
猜你喜歡
熱門閱讀
同類推薦