商湯推首個「可控人物」視頻大模型 可生成1分鐘短片

商湯(020)今日(4日)於2024世界人工智能大會(WAIC 2024),推出首個可控人物視頻生成大模型Vimi,並已在官網開放預約,以及會於明日(5日)披露更多有關細節。商湯表示,該模型只需一張任何風格的照片就能生成和目標動作一致的人物類短片,並支持多種驅動方式,通過已有人物影片、動畫、聲音、文字等多種元素進行驅動。

Vimi可穩定生成長達1分鐘的單鏡頭人物類短片
Vimi可穩定生成長達1分鐘的單鏡頭人物類短片

 

生成自然的光影
生成自然的光影

 

生成頭髮的飄動
生成頭髮的飄動

 

生成一致的運鏡
生成一致的運鏡

 

生成唱歌互動
生成唱歌互動

 

 生成舞蹈互動
生成舞蹈互動

 

Vimi提供唯美寫真風、奇幻風等多種生成風格
Vimi提供唯美寫真風、奇幻風等多種生成風格

 

可控制表情及上半身肢體動作

商湯指出,現時市面上相關技術仍存在挑戰,包括無法精準控制人物動作與表情動作、人物外貌與背景效果變幻莫測,以及時長有限等問題;Vimi則不但可實現精準的人物表情控制,還可控制照片中人物上半身的自然肢體動作,並自動生成與人物相符的頭髮、服飾及背景變化。

商湯又指,光影變化方面Vimi也能做到合理生成,讓人物動作和視覺效果流暢自然,更可穩定生成長達1分鐘的單鏡頭人物類短片,畫面效果不會隨時間變化而降低品質或失真。

創作者可自由剪輯及二次創作

現時Vimi將完全向廣大用戶開放使用,用戶只需上傳不同角度的高清人物照片,即可自動生成數字分身和不同風格的寫真短片;而生成的短片人物更能搭配手勢、肢體動作、頭髮等,形成更完整動作,讓創作者進行剪輯和二次創作。

此外,針對喜愛自拍及使用表情包的用戶,Vimi支援聊天、唱歌、舞動等多種娛樂互動場景,並可通過單張圖片驅動生成各種人物表情包。Vimi亦提供唯美寫真風、奇幻風等多種生成風格,讓用戶仿佛穿越不同次元,享受沉浸式視覺體驗。

即時財經