即時語音視頻互動領域商湯日日新位居國內榜首

即時語音視頻中文測評基準SuperCLUE-Live首測結果出爐，商湯日日新融合大模型交互版(SenseNova-5o，「日日新5o」)以總分68.59排名國內第一，在現時最熱門的即時語音視頻互動領域位居榜首。

AI的對話模式已經從簡單的文字形式進化到真人級別的即時語音視頻形式。

SuperCLUE-Live是中國首個音視頻評測基準，前瞻性面向新一代即時語音視頻交互產品的綜合能力。值得一提的是，綜合能力指語音+視頻的綜合能力，並非單獨針對語音／視頻的綜合能力。

「日日新5o」之所以斬獲第一、成為綜合性選手，源自於商湯科技採用原生融合的方式，深度融合了視頻、圖片、語音和文本等模態，並結合多模態交錯數據聯合訓練。因此，「日日新5o」可以實現對多模態信息的感知和理解及記憶。同時，通過結合即時的RTC網絡，可以提供即時的語音視頻互動體驗。

以大模型的強大性能為基礎，商湯「日日新5o」的全方位性能領先同儕：基礎認知能力超越ChatGPT位列第一，記憶能力、語音交互能力穩居國內第一。

基礎認知能力方面，「日日新5o」以77分超越ChatGPT的70.5分排名第一，SuperCLUE報告顯示，在實際測評中「日日新5o」識別物體準確性方面優於ChatGPT。

在商湯「日日新」融合大模型訓練過程中，由訓練採樣的數據範圍(domain)場景覆蓋極為豐富，具備足夠的多樣性(diversity)，通過結合視頻及圖片文本的交錯數據進行融合後訓練，確保了模型對於各類場景及物體，都具備強大的理解和識別能力。

在應用場景測試中，「日日新5o」表現出通過海量訓練積累的深厚知識儲備，這讓它脫穎而出，展現出強大的競爭優勢。例如，在SuperCLUE官方測評例證中，在醫療場景下「日日新5o」展現出卓越的理解與推理能力，精準把握場景中的關鍵信息。

在記憶能力方面，商湯「日日新5o」同樣大幅領先其他國內產品。在測試中，它能夠很好地記住用戶偏好和需求，以及場景信息。

通過採用先進的、不同模態信息的壓縮技術，大幅度提升了「日日新5o」的信息記憶效率，讓5o在相同的context windows下，展現出比其他模型更強的記憶力。

同時在訓練過程中，還精心構建了語音視頻交錯的多輪會話數據，進一步強化模型的記憶能力。最終，結合多模態對話系統中的session管理機制，「日日新5o」能夠在長時間、多模態語音視頻對話場景中，展現強大記憶能力，能準確回溯對話內容，為使用者提供連貫、高效的互動體驗。

在語音交互能力上，商湯在擬人對話場景展現了豐富的研發積累，構造了大量擬人化的對話數據及語音會話數據，使「日日新5o」在語音的對話回覆上更加自然。同時結合全雙工能力，在對話中也可即時打斷，使互動體驗更接近人與人之間的真實交流。

此外，在訓練過程中，商湯還融入了多語言能力，因此在SuperCLUE測試中能夠完美實現「信雅達」的英文翻譯。

在落地應用與維護層面，商湯「日日新5o」構建了一套完善的多模態互動系統。通過融入了商湯自研的高效推理框架lightllm，配合模型量化及推理Cache等綜合解決方案，確保高性能的同時，極大降低推理成本。

目前，商湯已就「日日新5o」與超過50家企業客戶展開商務溝通，將模型技術和場景深度結合，實現交互優化，不斷提升用戶體驗。

大灣區商業科技專刊