自從2018年谷歌發(fā)布BERT之后
到ChatGPT在火爆全球
大模型的超強(qiáng)能力以及背后的吸金屬性
吸引著無數(shù)廠商對其趨之若鶩
紛紛投入到煉大模型的熱潮中去
這大模型不僅是越來越大
模態(tài)還越“堆”越多
多模態(tài)大模型到底是個啥?
講到這里,我們先來說說
多模態(tài)大模型中的
這個“多模態(tài)”到底是個啥
多模態(tài)的概念源于德國生理學(xué)家
赫爾姆霍茨提出的“感覺道”
加被稱為“感覺通道”
主要探討了人類在感知和認(rèn)知過程中
多種感官的相互作用和協(xié)同工作
如視覺、聽覺、觸覺、味覺和嗅覺等
在人工智能領(lǐng)域
多模態(tài)意味著算法可以處理不止一個模態(tài)的數(shù)據(jù)
可以在文本、圖像、音頻等
多種類型的數(shù)據(jù)中理解、轉(zhuǎn)譯、生成
有效提高大模型處理多種信息的
準(zhǔn)確性和魯棒性
比如多模態(tài)大模型
理解文字和圖片兩種模態(tài)的數(shù)據(jù)
就能以文生圖,讓畫手直面職業(yè)危機(jī)
理解音頻、視頻、圖片多種形態(tài)的數(shù)據(jù)
在生成工業(yè)質(zhì)檢模型時
就能實(shí)現(xiàn)視頻分析、圖片分析
甚至音頻分析等多樣化的選擇
自從OpenAI發(fā)布多模態(tài)大模型GPT-4后
全球各大廠商便又開始朝著“好事多模”進(jìn)發(fā)
這模態(tài)越“堆”越多
前一段時間還出現(xiàn)了
六模態(tài)大模型和全模態(tài)大模型……
“堆模態(tài)”是喜還是憂?
看著大家爭相發(fā)布多模態(tài)大模型
突然就有一個問題:
大模型的模態(tài)越多就真的越好嗎?
答案卻是……不一定。
舉個例子,如果你要建造一棟房子
你會選擇使用多少種不同的材料呢?
顯然,選擇過多的材料會導(dǎo)致
建筑成本增加、建設(shè)時間、精力增加等問題
而多模態(tài)大模型的模態(tài)過多
也會導(dǎo)致一些問題的出現(xiàn),比如:
1.多模態(tài)不等于湊模態(tài)
如今廠商們都在爭先恐后的發(fā)布
自家的多模態(tài)大模型
其中當(dāng)然有許多精品
但也不乏粗制濫造的水貨
比如在自然語言處理中
增加一個文字轉(zhuǎn)換語音的功能
就生成自己家練出了多模態(tài)
2.多模態(tài)=高成本
算力資源是各大公司進(jìn)入煉大模型的入場券
數(shù)據(jù)更熟訓(xùn)練大模型的關(guān)鍵
模態(tài)越多大模型
訓(xùn)練所需要的算力就越多
數(shù)據(jù)量也就越豐富
如果公司一味要求模態(tài)的豐富
最終很可能導(dǎo)致大模型模態(tài)多而不精
反而得不償失
3.多模態(tài)不等于好落地
上文也提到了
多模態(tài)大模型在處理復(fù)雜的應(yīng)用場景時
可能更加有效
然而不同的應(yīng)用場景對模態(tài)的需求是不同的
例如,在自然語言處理領(lǐng)域
對于一些特定任務(wù)
如情感分析或文本分類
使用單一的文本模態(tài)可能已經(jīng)足夠
而不需要額外的圖像或音頻模態(tài)
“貪多嚼不爛”這句俗語
如今也可以用在煉大模型上
廠家們在決定“堆模態(tài)”前
不妨先考慮一下
落地場景、數(shù)據(jù)質(zhì)量、算力資源等綜合因素
適當(dāng)選擇模型結(jié)構(gòu)
切記模型雖好,但不能貪多哦!
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 2024年劇集氪金力大盤點(diǎn)
- “共創(chuàng)”、“造?!背身斄鳎瑐鹘y(tǒng)品牌緣何要花式出圈?
- 人形機(jī)器人瘋狂進(jìn)廠打工!銀河通用、智元、樂聚機(jī)器人怕是都瘋了
- 因?yàn)樗投Y電商!2025微信、抖音、淘寶又撕破了臉
- 中國手機(jī)市場成績單:華為增長最快,蘋果跌幅最大
- 原以為微軟、亞馬遜、阿里云云計算大局已定!沒想到有這四大變數(shù)
- 崖州灣之旅:看見海與智能,聯(lián)想到了未來
- 榮耀換帥,一艘AI巨輪的舵手更替會帶來什么?
- 泳池機(jī)器人Aiper,從價值鏈高處“游”進(jìn)全球庭院
- 榮耀換帥,加速迎接科技變革下的新全球化挑戰(zhàn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。