精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<bdo id="okuys"><acronym id="okuys"></acronym></bdo>

<button id="okuys"></button>

<del id="okuys"></del>

<bdo id="okuys"><source id="okuys"></source></bdo><button id="okuys"></button>

<abbr id="okuys"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

智譜新清影：模型全面升級、4K、任意比例、自帶音效

人閱讀
2024-11-11 14:03:20
來源：搜狐
相關(guān)關(guān)鍵詞
- 智譜

11月8日，智譜推出新清影：10s時長、4k、60幀超高清畫質(zhì)、任意尺寸，自帶音效，以及更好人體動作和物理世界模擬。

3個月前，作為國內(nèi)首個面向公眾開放的視頻生成產(chǎn)品，清影上線清言App，只需一段指令或圖片，30秒就能生成AI視頻。為人類影視創(chuàng)作帶來了更多創(chuàng)新玩法，如廣告制作、短視頻、表情包梗圖等。

清影發(fā)布后不久，GLM技術(shù)團(tuán)隊(duì)先后開源了CogVideoX 2B和5B版本兩個模型，可在消費(fèi)級顯卡上流暢運(yùn)行，性能領(lǐng)先的CogVideoX-5B模型自開源以來受到廣泛的關(guān)注，并衍生出如CogVideoX-factory等大量的二次開發(fā)項(xiàng)目。

基于CogVideoX模型的最新技術(shù)進(jìn)展和智譜最新推出的音效模型CogSound，新清影在以下5個方面實(shí)現(xiàn)了提升。

· 模型能力全面提升：在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動合理性以及復(fù)雜提示詞語義理解方面能力明顯增強(qiáng)。

· 4K超高清分辨率：支持生成 10s、4K、60幀超高清視頻，視覺體驗(yàn)拉到極致，動態(tài)畫面更加流暢。

· 可變比例：支持任意比例的圖像生成視頻，超寬畫幅也能輕松Hold住，從而適應(yīng)不同的播放需求。

· 多通道生成能力：同一指令/圖片可以一次性生成4個視頻。

· 帶聲效的AI視頻：新清影可以生成與畫面匹配的音效了。音效功能將很快在本月上線公測。

即日起，新清影在智譜清言App上線，為了支持廣大開發(fā)者，智譜同時將CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V進(jìn)行了開源。

生成視頻將為影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能，在其生產(chǎn)流程中發(fā)揮重要作用。不到一年時間，生成視頻技術(shù)在視頻時長、生成速度、分辨率、一致性等方面已經(jīng)顯示出長足進(jìn)步。新清影往前又邁進(jìn)了一步，未來，智譜也將攜手視覺中國等合作伙伴，基于更豐富的視覺內(nèi)容，產(chǎn)出更好的AI生成視頻工具。

“默片 Sora”進(jìn)入“有聲電影時代”

智譜認(rèn)為真正的智能一定是多模態(tài)的，聽覺、視覺、觸覺等共同參與了人腦認(rèn)知能力的形成，因此，智譜希望包括文字、圖像、語音和視覺等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣，能夠進(jìn)一步提高大模型的應(yīng)用和工具能力。

因此，GLM模型家族逐步從文字拓展至圖片、視頻、聲音，以及音效。今天，GLM家族加入了新成員——音效模型CogSound和音樂模型CogMusic。即將上線與大家見面的音效模型CogSound能根據(jù)視頻自動生成音效、節(jié)奏等音樂元素，它是基于GLM-4V的視頻理解能力，能夠準(zhǔn)確識別并理解視頻背后的語義和情感，在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容，甚至生成復(fù)雜音效，如爆炸、水流、樂器、動物叫聲、交通工具聲等。

音效模型的出現(xiàn)能夠?qū)崿F(xiàn)視頻與聲音的同步創(chuàng)作。同時該模型在電影行業(yè)也具有廣泛的應(yīng)用前景，比如可以生成電影中的大規(guī)模戰(zhàn)斗場景和災(zāi)難場景的聲音，大大縮短了制作周期，降低了制作成本。

「CogVideoX + CogSound」由清影生成畫面，音效模型配音

兩周前，智譜剛剛發(fā)布最新的GLM-4-Voice情感語音模型。今天，隨著音效模型的加入，GLM大模型在聲音模態(tài)領(lǐng)域?qū)崿F(xiàn)了人聲、音效、音樂的多鏈路布局，基于圖像、視頻和聲音的多模態(tài)模型矩陣由此更加完整，意味著智譜在多模態(tài)和工具兩個維度上都朝著AGI的目標(biāo)邁出了一小步。

音效模型將于本月上線清言App，與新清影一起生成有聲AI影片。智譜的理想狀態(tài)是，只需一個好的創(chuàng)意，剩下的事AI都能輔助搞定，輕松將一個idea、一張圖，變成一段自帶bgm的影片。相信這個組合能給創(chuàng)作者和用戶帶來AI生視頻的全新體驗(yàn)。

當(dāng)前，AI生成視頻用于影視創(chuàng)作仍需要多種不同的創(chuàng)作工具串聯(lián)使用。但基于智譜多模態(tài)的最新成果，實(shí)現(xiàn)這種一站式AI原生多模態(tài)工作流，這樣的前景無疑是激動人心的。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡版
原版
投稿
回頂部

<input id="kowks"></input>