商湯推首個「可控人物」視頻大模型可生成1分鐘短片

2024-07-03 23:54:00

商湯（020）今日（4日）於2024世界人工智能大會（WAIC 2024），推出首個可控人物視頻生成大模型Vimi，並已在官網開放預約，以及會於明日（5日）披露更多有關細節。商湯表示，該模型只需一張任何風格的照片就能生成和目標動作一致的人物類短片，並支持多種驅動方式，通過已有人物影片、動畫、聲音、文字等多種元素進行驅動。

Vimi可穩定生成長達1分鐘的單鏡頭人物類短片

生成自然的光影

生成頭髮的飄動

生成一致的運鏡

生成唱歌互動

生成舞蹈互動

Vimi提供唯美寫真風、奇幻風等多種生成風格

可控制表情及上半身肢體動作

商湯指出，現時市面上相關技術仍存在挑戰，包括無法精準控制人物動作與表情動作、人物外貌與背景效果變幻莫測，以及時長有限等問題；Vimi則不但可實現精準的人物表情控制，還可控制照片中人物上半身的自然肢體動作，並自動生成與人物相符的頭髮、服飾及背景變化。

商湯又指，光影變化方面Vimi也能做到合理生成，讓人物動作和視覺效果流暢自然，更可穩定生成長達1分鐘的單鏡頭人物類短片，畫面效果不會隨時間變化而降低品質或失真。

創作者可自由剪輯及二次創作

現時Vimi將完全向廣大用戶開放使用，用戶只需上傳不同角度的高清人物照片，即可自動生成數字分身和不同風格的寫真短片；而生成的短片人物更能搭配手勢、肢體動作、頭髮等，形成更完整動作，讓創作者進行剪輯和二次創作。

此外，針對喜愛自拍及使用表情包的用戶，Vimi支援聊天、唱歌、舞動等多種娛樂互動場景，並可通過單張圖片驅動生成各種人物表情包。Vimi亦提供唯美寫真風、奇幻風等多種生成風格，讓用戶仿佛穿越不同次元，享受沉浸式視覺體驗。

商湯推首個「可控人物」視頻大模型可生成1分鐘短片

可控制表情及上半身肢體動作

創作者可自由剪輯及二次創作

最新⽂章

即時財經

「股王」Nvidia罕見遭削投資評級分析師指上漲空間耗盡股價一度挫2%

比亞迪傳投資78億元土耳其興建電動車廠

服務業前線鬧客頻生遇無理客易觸發情緒死穴專家教3招冷靜應對投訴

內地畢業生瀕遭聘請違約科技業成重災區僱主「優中選優」寧賠過千元違約金

倫交所發報告上半年亞太區IPO集資額141億美元按年大減近64% 見15年低

中證監嚴打上市公司財務造假擬修例提高罰則罰款上限增至千萬元

Tesla再入選内地官方採購目錄多家上海國企購Model Y

再出招救內房內地擬設300億基金助國企盤活土地物業

比特幣災再現昔日交易所龍頭賠償700億沽貨壓境專家反叫吼位買：長線大戶無減倉

國泰月底向政府贖回餘下97.5億元優先股政府纍計收息逾24億

商湯推首個「可控人物」視頻大模型 可生成1分鐘短片

可控制表情及上半身肢體動作

創作者可自由剪輯及二次創作

最新⽂章

即時財經

商湯推首個「可控人物」視頻大模型可生成1分鐘短片