商湯發佈多模態、多任務通用大模型「書生2.5」
商湯科技發佈多模態多任務通用大模型「書生(INTERN)2.5」,在多模態多任務處理能力方面實現多項全新突破,其卓越的圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持。
「書生2.5」準確度高規模大
「書生(INTERN)」最初版本由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學在2021年11月首次共同發佈,並持續聯合研發。
「書生2.5」多模態多任務通用模型的視覺核心,是由InternImage-G通用視覺大模型作技術支撐。「書生2.5」擁有30億參數,在視覺主流圖像分類數據集ImageNet上,僅基於公開數據便達到了90.1%的Top-1準確率,不僅是目前世上開源模型中準確度最高、規模最大的模型,也是物體檢測標桿數據集COCO中唯一超過65.0 mAP的模型。目前,「書生2.5」多模態通用大模型已在通用視覺開源平台OpenGVLab開源。
當前,人工智能技術的發展正面臨著大量跨模態任務的挑戰。此次全新發佈的「書生2.5」致力建構多模態多任務通用模型,可接收處理各種不同模態的輸入,並採用統一的模型架構和參數處理各種不同的任務,促進不同模態和任務之間在表示學習方面的協作,逐步實現通用人工智能領域的融會貫通。
邁向AGI通用AI 提升通用場景感知和理解力
「書生2.5」實現了通過文本來定義任務,從而可以靈活地定義不同場景的任務需求,並根據給定視覺圖像和任務的提示性語句,給出相應的指令或作答,進而具備通用場景下的高級感知和複雜問題處理能力,比如圖像描述、視覺問答、視覺推理和文字識別等。
例如在自動駕駛等通用場景下,「書生2.5」可輔助處理各種複雜任務,包括準確地輔助車輛判斷交通信號燈狀態、道路標誌牌等信息,為車輛的決策規劃提供有效信息輸入。
「書生2.5」同時具備人工智能生成內容(AIGC, AI-Generated Content)「以文生圖」的能力,可根據用戶提出的文本創作需求,利用擴散模型生成算法,生成高質量、自然的寫實圖像。例如在自動駕駛技術研發方面,「書生2.5」可以通過生成各類真實的道路交通場景,如繁忙的城市街道、雨天擁擠的車道、馬路上奔跑的狗等,進而訓練自動駕駛系統對Corner Case場景的感知能力上限。
「書生2.5」還可根據文本內容需求快速定位檢索出語義最相關的圖像。例如,可在相冊中找出文本所指定的相關圖像,或是在視頻中找出與文本描述最相關的片段,提高視頻中時間定位任務的效率。
此外,「書生2.5」支持引入物體檢測框,根據文本找出最相關的物體,實現開放世界視頻或圖像中物體檢測及視覺定位。
當前,「書生」還在持續學習、不斷進步。我們將繼續致力於推動多模態多任務通用模型技術的突破,驅動通用人工智能技術的創新應用生態,為推動人工智能學術、產業發展做出貢獻。