演示模型的能力,以現(xiàn)實的方式將個人插入不同的場景。 挑戰(zhàn)包括在給定的場景背景下推斷一個合理的姿勢,重新設置人的姿勢,以及協(xié)調插入與光照和陰影的關系。
該模型能夠將人物真實地插入各種場景中。挑戰(zhàn)包括根據(jù)場景背景推斷合理的姿勢,重新擺放人物,并使插入的人物在光線和陰影方面和諧。
生成模型的近期出現(xiàn)為創(chuàng)意產(chǎn)業(yè)帶來了有趣的新可能性。例如,它們可以讓藝術家和數(shù)字內容創(chuàng)作者輕松地制作將不同圖像或視頻元素整合在一起的真實媒體內容。
受到這些最新進展的啟發(fā),斯坦福大學、加州大學伯克利分校和Adobe研究所的研究人員開發(fā)了一種新模型,可以將特定人物真實地插入不同場景,例如在健身房鍛煉、在海灘上觀看日落等。
展示模型在推理時的輔助任務,包括產(chǎn)生與場景兼容的人的幻覺,生成適合于給定人的場景,以及在虛擬試穿設置中交換衣服。
他們提出的基于擴散模型的架構,在arXiv服務器上的預發(fā)布論文中介紹,并將于今年6月在溫哥華舉行的計算機視覺和模式識別會議(CVPR)上展示。
該研究的主要目標是將生成模型應用于可供性感知任務,希望獲得更可靠、真實的結果。在他們的最新論文中,專注于將人物真實地插入給定場景的問題。
模型的輸入包括一個人物圖像和一個場景圖像,輸出是包含該人物的真實場景圖像。該生成模型通過自監(jiān)督訓練方法訓練,表現(xiàn)出了一系列有趣的輔助功能,如人物產(chǎn)生和虛擬試衣。
自我監(jiān)督訓練方案。 提取兩個隨機幀,第一幀中的人被屏蔽掉。 然后,第二幀中的人被用作調節(jié)元素以補繪圖像。
研究人員使用自監(jiān)督訓練方法訓練了一個擴散模型,這是一種可以將“噪聲”轉換成期望圖像的生成模型。擴散模型通過“破壞”訓練數(shù)據(jù)、向其添加“噪聲”,然后通過逆過程恢復部分原始數(shù)據(jù)來實現(xiàn)。
經(jīng)過一系列初步測試,研究人員發(fā)現(xiàn)模型表現(xiàn)出色,生成了相當真實的圖片。他們的模型預測的可供性比過去非生成模型產(chǎn)生的可供性更好,適用范圍更廣。
未來,這種模型可以應用于創(chuàng)意軟件工具和照片編輯智能手機應用,支持藝術家和媒體創(chuàng)作者的工作,讓用戶輕松、真實地將人物插入照片。
未來研究方向包括增加生成姿勢的可控性,擴展系統(tǒng)生成人物在場景中移動的真實視頻,研究模型效率,以及將本文方法應用于所有對象。
本文譯自 techxplore,由 bali 編輯發(fā)布。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )