新聞動態

免費（fèi）谘（zī）詢熱線（xiàn）

13621929115

常見問題

展品模型

發布日期：2023-04-04 21:57瀏覽次數：

不再需（xū）要任何 3D 或 4D 數據（jù），來自 Meta 的研究者首次提（tí）出了可以從（cóng）文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)僅輸入（rù）一行文本，就能生成 3D 動態場景（jǐng）？沒錯，已經（jīng）有研究者做到了。

可以（yǐ）看出來，目前的生成效果還處於初級階（jiē）段，隻（zhī）能生成一些簡單的對象不過這種「一步（bù）展品模型到位」的方法仍然引起了大量研究者的關注：

在（zài）最近的（de）一篇論文中，來自 Meta 的研究者首次提出（chū）了可以從文本描述中生成三維動態（tài）場景的（de）方法 MAV3D (Make-A-Video3D)。

論文鏈接：https://arxiv.org/abs/2301.11280項目鏈（liàn）接：https://make-a-vid展品（pǐn）模（mó）型eo3d.github.io/具體而言（yán），該方法運用 4D 動態神經輻射場（NeRF），通過查（chá）詢（xún）基於文本到視（shì）頻（T2V）擴散（sàn）的模型，優化場景外觀（guān）、密度和運動的（de）一致性。

任意機位或角度都可以觀看到提供的文本生成的動態視（shì）頻輸出，並可以合成到任何 3D 環境中MAV3D 不（bú）需要任何 3D 或（huò） 4D 數據，T2展品模型V 模型隻對文本圖像（xiàng）對和未標記的視頻進行訓練。

讓www.17C.com看一下 MAV3D 從文本生成 4D 動態場景的效果：

此外，它也能從圖像（xiàng）直接到 4D，效果如下：

研究者通過全麵的定量（liàng）和定性（xìng）實驗證明了該方（fāng）法的有效性（xìng），先前建立的內部 baseline 也得到了改進據悉（xī），這是第一個根（gēn）據文本（běn）描述生成 3D 動態場景的方法（fǎ）展品（pǐn）模型方法（fǎ）該研（yán）究的目標在於開發一項能從自然語言描述中生（shēng）成動態 3D 場景表征的方法。

這極具挑戰性，因為既沒有文本（běn）或 3D 對，也沒有用於訓練的（de）動（dòng）態 3D 場景數據（jù）因此（cǐ），研究者選擇依靠預訓練的文本到視頻（T2V）的擴散模型（xíng）作為（wéi）場景先驗，該模型已經學會了通過對大規模圖像、文本和視頻數據的訓練來建模場景的真實外展品（pǐn）模型觀和運（yùn）動。

從更高層次來（lái）看（kàn），在給定一個文（wén）本 prompt p 的情況下，研究可以擬合一個 4D 表征

的輸（shū）出；，它模擬了在時空任意點上與 prompt 匹配的場景外觀。沒有配對訓練數據，研究無法直（zhí）接監督然而，給定一係列的相機姿勢（shì）

並將它們堆疊成一個視頻 V然後，將文本 prompt p 和視頻 V 傳遞給展品（pǐn）模型凍結和預訓練的 T2V 擴散（sàn）模型，由該模型對視頻的真實性和 prompt alignment 進行評分（fèn），並使（shǐ）用 SDS（得分蒸（zhēng）餾采（cǎi）樣）來計算場景參數 θ 的更新方向（xiàng）。

渲染出圖像序（xù）列就可以從上麵的 pipeline 可以算作 DreamFusion 的擴展，為場景模型添（tiān）加了一個時間維度，並（bìng）使用 T2V展品模（mó）型模型（xíng）而不是文本到圖像（xiàng）（T2I）模型進行監督然而，要想實現高質量的文本（běn）到 4D 的生成還需要更多的創新：。

第（dì）一，需要使用新的、允許靈活場景運動建模的 4D 表（biǎo）征；第二（èr），需要使（shǐ）用多級靜態到動態優化方案來提（tí）高視頻質量（liàng）和提高模型收斂性，該方案利用幾（jǐ）個（gè） motion regularizer 來生（shēng）成真（zhēn）實的運動展品模型；第三，需要使用超分辨率微（wēi）調（SRFT）提高模型的分辨率（lǜ）。

具（jù）體說明見下圖：

實驗（yàn）在實驗中，研究者評估了 MAV3D 從文本描述（shù）生成動態場景的能力首先，研究（jiū）者評估（gū）了該方法在 Text-To-4D 任務上的有效性據悉，MAV3D 是首個該任務的解決（jué）方（fāng）案，因此研究開發了三（sān）種替代方法作為基線。

其次，研究者評估展（zhǎn）品模型了 T2V 和（hé） Text-To-3D 子任務模型的簡化版本，並（bìng）將（jiāng）其與文獻中現有的基線進行比較第三，全麵的消融研究證（zhèng）明了（le）方（fāng）法設計（jì）的合理性第四，實（shí）驗描述了（le）將動態 NeRF 轉換為動態網格的過程，最終將模型擴展到 Image-to-4D 任務。

指標研究使用 CLIP R-Precision 來評估生成的視展品模型頻，它可以測量文本和生成場景之（zhī）間的一致性報告的指標是從呈現的幀中檢索（suǒ）輸入 prompt 的準確（què）性研究者（zhě）使用（yòng） CLIP 的（de） ViT-B/32 變體，並（bìng）在不（bú）同的視圖和（hé）時間步長中提取幀，並且還通過詢問人工評分人員在兩個生成的（de）視頻中的偏好來使用（yòng）四個（gè）定性指標，分（fèn）別是：(i) 視（shì）頻質量；(ii) 忠實於文本 p展品模型rompt；(iii) 活動量；(四) 運動的現實性。

研究者評（píng）估了在（zài）文（wén）本 prompt 分割中使用的（de）所（suǒ）有基線和消融圖 1 和圖 2 為示例。要想了解更詳細的可視化效（xiào）果（guǒ），請參見 make-a-video3d.github.io。

結果表 1 顯示了與基線的比（bǐ）較（R - 精度和人類偏好）。人工測評（píng）以在（zài）特定展（zhǎn）品模型環境（jìng）下與該模型相比，讚成基線多數票的百分比（bǐ）形（xíng）式（shì）呈現。

表 2 展示了（le）消融實（shí）驗的結（jié）果：

實時渲染使用傳統圖形引（yǐn）擎的虛擬現實和遊戲等應用（yòng）程序需要標準的格式，如紋理網格HexPlane 模型可以輕易轉換（huàn）為如下的動（dòng）畫網格首先，使用（yòng） marching cube 算法從每個時刻 t 生成的不透明度場中提取一個簡單網展品模（mó）型格，然後進行網格抽取（為了（le）提高效率）並（bìng）且去除小噪聲連接組件。

XATLAS 算法用於將網格頂點映射到（dào）紋理圖集，紋理（lǐ）初始化使用以每個頂點（diǎn）為中心的小球體中平均的 HexPlane 顏色（sè）最後，為了更好地匹配一些由 HexPlane 使用可（kě）微網格渲染的示例幀（zhēn），紋理會被（bèi）進一步優化。

這將產生一個紋理網格集合，可以展品模型在任何現成的 3D 引擎中回放圖像到 4D圖 6 和圖 10 展示（shì）了該方法能夠從給定的（de）輸（shū）入圖（tú）像產生深度和運動，從而生成 4D 資產。

更多研究（jiū）細節，可參考（kǎo）原論文。

標簽：

上一篇（piān）：動態模型

下一篇：工業模型

新聞動態

常見問題

展品模型

產品推薦

微信號：微信二維碼