商湯多項技術ICCV 2023展現中國「創新力」

企業動向 焦點新聞

全球人工智能計算機視覺領域國際會議ICCV(International Conference on Computer Vision)於10月2日至6日在法國巴黎舉行。本屆ICCV投稿總數達8,068篇,其中2,160篇被接收,錄用率為26.8%,略高於上一屆ICCV 2021錄用率的25.9%。商湯科技及聯合實驗室共49篇論文入選,涵蓋文生圖、3D數碼人、自動駕駛、目標檢測、視頻分割等多個與大模型和生成式AI相關的熱門題目。

多項技術突破和範式創新 大模型和生成式AI成焦點

基於商湯AI大裝置SenseCore和「日日新SenseNova」大模型體系,商湯在生成式AI和視覺大模型等領域上,提出了多項極具價值的技術突破和研究範式創新。

商湯科技聯合創始人、首席科學家王曉剛表示:「持續深耕AI基礎設施建設、堅持做注重產業實踐的學術研究、深耕人才階梯式培養,是商湯多年來在全球學術舞台上不斷產出創新成果的基石。商湯將積極擁抱大模型帶來的全新研究範式,不斷提升研發體系,堅持將基礎研究與業務發展緊密融合,為行業貢獻更具價值的技術成果。」

大模型和生成式AI在全球備受矚目,也為學術研究提出了多個具有挑戰性的全新課題。

在生成式AI方面的文生圖領域,商湯研究團隊在《Human Preference Score: Better Aligning Text-to-Image Models with Human Preference》這篇論文中,提出將人類偏好引入Stable Diffusion的模型訓練中,證明人類偏好信息可以提升Stable Diffusion生成的圖像質量,尤其是在人體、四肢等容易出現誤差的情況下,展示了優異的效果。

將人類偏好引入Stable Diffusion的模型訓練過程

數碼人是生成式AI的重要領域,但其製作依然需要一定門檻。商湯研究團隊在《SHERF: Generalizable Human NeRF from a Single Image》這篇論文中,提出了一種基於單張圖片的可泛化及可驅動人體神經輻射場方法,僅需一張從任意角度拍攝的3D人體圖片,結合必要的參數,就能實現3D數碼人的重建和驅動,有望簡化3D數碼人的創作流程。

基於單張圖片的人體神經輻射場重建和驅動

高質量的3D人體數據集是研究眾多人體相關的感知模型、重建模型和生成式AI的基礎。商湯研究團隊在《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》此論文中,提出了一個合成數據集SynBody,其構建了穿著衣物的參數化人體模型,並生成了海量的人體虛擬數據,有助於3D人體感知和重建的模型訓練。此外,團隊公佈了開源代碼庫XRFeitoria,這是一個合成數據渲染工具箱,通過提供方便的Python API與CLI工具,極大簡化了製作虛擬數據集的流程。

SynBody是基於分層人體模型的大規模合成數據集,可用於人體感知與建模等任務。

在自動駕駛場景的3D目標檢測領域,商湯團隊還在《Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction》此論文中,提出了一種全新用於多視角3D檢測的時序增強訓練方式歷史幀物體預測(Historical Object Prediction, HoP),不僅在nuScenes測試集上使用ViT-L得到了68.5%NDS和62.4% mAP,超過了排行榜上所有3D物體檢測器,還可以「即插即用」,無縫集成到最先進的 BEV 檢測框架中,重塑了3D檢測時序利用的新範式。

HoP算法框架圖

此外,在本屆ICCV上,商湯科技還在目標檢測、視頻分割、3D感知與重建、半監督學習、NeRF等領域取得多項技術創新突破,中國原創技術持續引領人工智能行業。

開源開放 構建大模型時代產學研協同新生態

要將學術研究成果轉化為實際行業應用,離不開業界、學校及科研機構三方的合作。商湯科技在不斷鞏固技術研究的同時,也積極參與和舉辦各類學術交流和競賽活動,推動創新成果的轉化,探索大模型時代下產學研協作模式的構建。

與此同時,商湯長期致力於推動AI基礎設施和開源生態的建設,與開發者共創共建,共同推動AI社區的繁榮發展。商湯在2018年開源的計算機視覺框架OpenMMLab已在GitHub上收穫超過8.7萬個星標。時至今日,商湯的開源項目已拓展到決策智能、大語言模型、拓展現實、數據平台、高性能訓練和推理框架、AI智能體框架等領域,為學術界的科研突破和工業界的產業落地提供全方位的算法與平台支援。

其中,在大語言模型領域,商湯及聯合實驗室共同推出的書生·浦語大模型(InternLM)在開源社區和產業界產生廣泛影響。最新的InternLM-20B模型性能先進且應用便捷,以不足三分之一的參數量,達到當前被視為開源模型標準的Llama2-70B的能力水平。

秉承開源、開放的發展理念,商湯願與行業夥伴共同迎接大模型的新一輪科技革命,讓AI技術釋放更廣泛的產業價值。