阿里雲AI繪畫創作大模型「通義萬相」 釋放創造及生產力
阿里雲於2023世界人工智能大會 (WAIC) 上發佈最新人工智能 (AI) 繪畫創作大模型「通義萬相」,現已面向中國內地企業客戶開啟定向邀測。阿里雲智能首席技術官周靖人表示:「『通義萬相』進一步令高質AI生成圖像於不同行業廣泛使用,協助電子商務、遊戲、設計和廣告等眾多領域的企業開展創新的AI藝術創作和創意表達。」
「通義萬相」具備強大圖像生成能力
生成式AI模型擅長處理多種任務,可依據中英文文字指令生成細節豐富、風格多樣的圖像,包括水彩畫、油畫、國畫、動畫、素描、扁平插畫和3D卡通。「通義萬相」可將圖片轉換成風格類似的新圖片,還可透過風格遷移將圖像風格化,即保留原始圖像的內容同時應用另一圖像的視覺風格,將任何圖像轉換為具有特定風格的新圖像。
該模型藉助阿里雲於知識重組、視覺AI和自然語言處理 (NLP) 方面的開創性技術,採用多語言資源以強化模型訓練。「通義萬相」擁有強大的語義理解能力,因此可生成更為精確及符合語境的圖像。
此外,透過優化基於訊噪比的高解析度擴散過程,該模型可於確保構圖準確度及細節清晰度之間取得平衡,同時其於乾净背景上生成高對比度及具視覺衝擊力圖像的能力亦可顯著提升。
阿里雲使用其自研大模型Composer開發「通義萬相」,可更好地控制最終輸出圖像,如空間佈局和調色板,同時確保圖像合成兼具品質和創意。
「通義萬相」文生圖示例
推出ModelScopeGPT處理複雜AI任務
阿里雲同時推出的ModelScopeGPT旨在透過一套技術框架充分發揮平台上語言大模型的能力。ModelScopeGPT將使用語言大模型作為控制器(controller),連接「魔搭」開源社區中大量特定領域的專業模型。ModelScopeGPT建於豐富的模型即服務生態系統之內,並依託阿里雲提供的多種強大AI能力。企業和開發者可免費使用ModelScopeGPT訪問和執行最貼合用戶需求的模型,以完成複雜度高的AI任務,例如開發多語言視頻。
阿里雲於今年4月發佈其語言大模型「通義千問」,並計劃在不久後將語言大模型陸續嵌入阿里巴巴的各項業務中以提升用戶體驗。阿里雲的客戶企業和開發者將透過大模型以更低成本建構專屬AI功能。自該模型推出以來,已收到來自金融科技、電子、運輸、時尚和乳製品等眾多行業企業的超過30萬個內測申請。
此前阿里雲智能助手「聽悟」亦接入「通義千問」,目前升級版的「通義聽悟」,可精準高效地理解和分析多媒體內容。自「通義聽悟」推出以來,已有超過36萬名用戶使用了這一AI助手。
AI黑客松大賽激發創新
ModelScope社區還主辦了其中國首屆AI黑客松,以促進AI模型的產業化應用。比賽還將予以參賽者包括現金和來自領軍風投企業的融資機會等獎勵。
目前超過300支參賽隊伍中已有56支進入決賽,並在兩大賽道上角逐獎項:一是透過語言大模型創新以解決生活中的現實問題;二是利用現有預訓練模型以完成指定任務,如文生圖,或構建由語言大模型驅動的自動助理,以使用正確的模型完成特定任務。
周靖人表示:「透過舉辦競賽和社區活動,我們希望能與更多開發者和創業者互動,鼓勵他們實現創意,釋放生產力,創造更多用途豐富的AI工具,從而塑造我們行業的未來發展。」