證券時報e公司訊,據豆包大模型團隊消息,視頻生成實驗模型“VideoWorld”由豆包大模型團隊與北京交通大學、中國科學技術大學聯合提出。VideoWorld在業界首次實現無需依賴語言模型,即可認知世界。正如李飛飛教授9年前TED演講中提到“幼兒可以不依靠語言理解真實世界”,VideoWorld僅通過“視覺信息”,即瀏覽視頻數據,就能讓機器掌握推理、規劃和決策等復雜能力。團隊實驗發現,僅300M參數量下,VideoWorld已取得可觀的模型表現。作為一種通用視頻生成實驗模型,VideoWorld去掉語言模型,實現了統一執行理解和推理任務。同時,它基于一種潛在動態模型,可高效壓縮視頻幀間的變化信息,顯著提升知識學習效率和效果。
【免責聲明】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論