免費(fèi)谘(zī)詢熱線(xiàn)

13621929115
常見問題
您的位置: 主頁 > 新聞動態 > 常見問題

展品模型

發布日期:2023-04-04 21:57瀏覽次數:

不再需(xū)要任何 3D 或 4D 數據(jù),來自 Meta 的研究者首次提(tí)出了可以從(cóng)文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)僅輸入(rù)一行文本,就能生成 3D 動態場景(jǐng)?沒錯,已經(jīng)有研究者做到了。

    可以(yǐ)看出來,目前的生成效果還處於初級階(jiē)段,隻(zhī)能生成一些簡單的對象不過這種「一步(bù)展品模型到位」的方法仍然引起了大量研究者的關注:

    在(zài)最近的(de)一篇論文中,來自 Meta 的研究者首次提出(chū)了可以從文本描述中生成三維動態(tài)場景的(de)方法 MAV3D (Make-A-Video3D)。

    論文鏈接:https://arxiv.org/abs/2301.11280項目鏈(liàn)接:https://make-a-vid展品(pǐn)模(mó)型eo3d.github.io/具體而言(yán),該方法運用 4D 動態神經輻射場(NeRF),通過查(chá)詢(xún)基於文本到視(shì)頻(T2V)擴散(sàn)的模型,優化場景外觀(guān)、密度和運動的(de)一致性。

    任意機位或角度都可以觀看到提供的文本生成的動態視(shì)頻輸出,並可以合成到任何 3D 環境中MAV3D 不(bú)需要任何 3D 或(huò) 4D 數據,T2展品模型V 模型隻對文本圖像(xiàng)對和未標記的視頻進行訓練。

    讓www.17C.com看一下 MAV3D 從文本生成 4D 動態場景的效果:

    此外,它也能從圖像(xiàng)直接到 4D,效果如下:

    研究者通過全麵的定量(liàng)和定性(xìng)實驗證明了該方(fāng)法的有效性(xìng),先前建立的內部 baseline 也得到了改進據悉(xī),這是第一個根(gēn)據文本(běn)描述生成 3D 動態場景的方法(fǎ)展品(pǐn)模型方法(fǎ)該研(yán)究的目標在於開發一項能從自然語言描述中生(shēng)成動態 3D 場景表征的方法。

    這極具挑戰性,因為既沒有文本(běn)或 3D 對,也沒有用於訓練的(de)動(dòng)態 3D 場景數據(jù)因此(cǐ),研究者選擇依靠預訓練的文本到視頻(T2V)的擴散模型(xíng)作為(wéi)場景先驗,該模型已經學會了通過對大規模圖像、文本和視頻數據的訓練來建模場景的真實外展品(pǐn)模型觀和運(yùn)動。

    從更高層次來(lái)看(kàn),在給定一個文(wén)本 prompt p 的情況下,研究可以擬合一個 4D 表征

    的輸(shū)出;,它模擬了在時空任意點上與 prompt 匹配的場景外觀。沒有配對訓練數據,研究無法直(zhí)接監督然而,給定一係列的相機姿勢(shì)

    並將它們堆疊成一個視頻 V然後,將文本 prompt p 和視頻 V 傳遞給展品(pǐn)模型凍結和預訓練的 T2V 擴散(sàn)模型,由該模型對視頻的真實性和 prompt alignment 進行評分(fèn),並使(shǐ)用 SDS(得分蒸(zhēng)餾采(cǎi)樣)來計算場景參數 θ 的更新方向(xiàng)。

    渲染出圖像序(xù)列就可以從上麵的 pipeline 可以算作 DreamFusion 的擴展,為場景模型添(tiān)加了一個時間維度,並(bìng)使用 T2V展品模(mó)型 模型(xíng)而不是文本到圖像(xiàng)(T2I)模型進行監督然而,要想實現高質量的文本(běn)到 4D 的生成還需要更多的創新:。

    第(dì)一,需要使用新的、允許靈活場景運動建模的 4D 表(biǎo)征;第二(èr),需要使(shǐ)用多級靜態到動態優化方案來提(tí)高視頻質量(liàng)和提高模型收斂性,該方案利用幾(jǐ)個(gè) motion regularizer 來生(shēng)成真(zhēn)實的運動展品模型;第三,需要使用超分辨率微(wēi)調(SRFT)提高模型的分辨率(lǜ)。

    具(jù)體說明見下圖:

    實驗(yàn)在實驗中,研究者評估了 MAV3D 從文本描述(shù)生成動態場景的能力首先,研究(jiū)者評估(gū)了該方法在 Text-To-4D 任務上的有效性據悉,MAV3D 是首個該任務的解決(jué)方(fāng)案,因此研究開發了三(sān)種替代方法作為基線。

    其次,研究者評估展(zhǎn)品模型了 T2V 和(hé) Text-To-3D 子任務模型的簡化版本,並(bìng)將(jiāng)其與文獻中現有的基線進行比較第三,全麵的消融研究證(zhèng)明了(le)方(fāng)法設計(jì)的合理性第四,實(shí)驗描述了(le)將動態 NeRF 轉換為動態網格的過程,最終將模型擴展到 Image-to-4D 任務。

    指標研究使用 CLIP R-Precision 來評估生成的視展品模型頻,它可以測量文本和生成場景之(zhī)間的一致性報告的指標是從呈現的幀中檢索(suǒ)輸入 prompt 的準確(què)性研究者(zhě)使用(yòng) CLIP 的(de) ViT-B/32 變體,並(bìng)在不(bú)同的視圖和(hé)時間步長中提取幀,並且還通過詢問人工評分人員在兩個生成的(de)視頻中的偏好來使用(yòng)四個(gè)定性指標,分(fèn)別是:(i) 視(shì)頻質量;(ii) 忠實於文本 p展品模型rompt;(iii) 活動量;(四) 運動的現實性。

    研究者評(píng)估了在(zài)文(wén)本 prompt 分割中使用的(de)所(suǒ)有基線和消融圖 1 和圖 2 為示例。要想了解更詳細的可視化效(xiào)果(guǒ),請參見 make-a-video3d.github.io。

    結果表 1 顯示了與基線的比(bǐ)較(R - 精度和人類偏好)。人工測評(píng)以在(zài)特定展(zhǎn)品模型環境(jìng)下與該模型相比,讚成基線多數票的百分比(bǐ)形(xíng)式(shì)呈現。

    表 2 展示了(le)消融實(shí)驗的結(jié)果:

    實時渲染使用傳統圖形引(yǐn)擎的虛擬現實和遊戲等應用(yòng)程序需要標準的格式,如紋理網格HexPlane 模型可以輕易轉換(huàn)為如下的動(dòng)畫網格首先,使用(yòng) marching cube 算法從每個時刻 t 生成的不透明度場中提取一個簡單網展品模(mó)型格,然後進行網格抽取(為了(le)提高效率)並(bìng)且去除小噪聲連接組件。

    XATLAS 算法用於將網格頂點映射到(dào)紋理圖集,紋理(lǐ)初始化使用以每個頂點(diǎn)為中心的小球體中平均的 HexPlane 顏色(sè)最後,為了更好地匹配一些由 HexPlane 使用可(kě)微網格渲染的示例幀(zhēn),紋理會被(bèi)進一步優化。

    這將產生一個紋理網格集合,可以展品模型在任何現成的 3D 引擎中回放圖像到 4D圖 6 和圖 10 展示(shì)了該方法能夠從給定的(de)輸(shū)入圖(tú)像產生深度和運動,從而生成 4D 資產。

    更多研究(jiū)細節,可參考(kǎo)原論文。


標簽:

產品推薦

Copyright © 2002-2020 上海潤之(zhī)模型設計有限公司 版權所有(yǒu) 展示模(mó)型,展品模型,展廳模型,展(zhǎn)示道具,展廳展品,展品道具,模型定製,模型公司,上海模型公(gōng)司 備案號:滬ICP備20018260號

13621929115
网站地图 www.17C.com_17.C-起草网登录在线_17c.一起草 在线观看视频_17c.com免费观看入口