精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    Kimi首發(fā)“上下文緩存”技術(shù),助推長(zhǎng)文本大模型降本90%

    近日,月之暗面宣布 Kimi 開放平臺(tái)正式公測(cè)新技術(shù)——上下文緩存(Context Caching),該技術(shù)在 API 價(jià)格不變的前提下,可為開發(fā)者降低最高 90% 的長(zhǎng)文本大模型使用成本,并且顯著提升模型的響應(yīng)速度。

    據(jù)了解,月之暗面是國(guó)內(nèi)首家面向開發(fā)者推出上下文緩存(Context Caching)技術(shù)的大模型公司。

    上下文緩存(Context Caching)技術(shù)的基本原理是,系統(tǒng)預(yù)先存儲(chǔ)那些可能會(huì)被頻繁請(qǐng)求的大量數(shù)據(jù)或信息。這樣,當(dāng)用戶再次請(qǐng)求相同信息時(shí),系統(tǒng)可以直接從緩存中快速提供,而無(wú)需重新計(jì)算或從原始數(shù)據(jù)源中檢索,從而節(jié)省時(shí)間和資源。

    上下文緩存(Context Caching)技術(shù)可以帶來(lái)降本和提速兩大價(jià)值。首先,通過(guò)緩存重復(fù)性輸入的大量數(shù)據(jù),對(duì)于公共上下文僅收取一次費(fèi)用,上下文緩存(Context Caching)技術(shù)大大降低了開發(fā)者使用長(zhǎng)文本旗艦大模型的成本,最高可降本達(dá) 90%。其次,上下文緩存(Context Caching)技術(shù)還有助于提升大模型API的響應(yīng)速度,實(shí)測(cè)可將 128K 長(zhǎng)文本大模型的首 token 延遲降低 83% 左右,從平均 30 秒左右降低到平均 5 秒內(nèi)。

    在長(zhǎng)上下文和高負(fù)載的業(yè)務(wù)場(chǎng)景上,上下文緩存帶來(lái)的降本和提速效果尤為顯著。常見場(chǎng)景包括提供大量預(yù)設(shè)內(nèi)容的問(wèn)答機(jī)器人,例如 Kimi API 小助手;針對(duì)固定的文檔集合的頻繁查詢,例如上市公司信息披露問(wèn)答工具;對(duì)靜態(tài)代碼庫(kù)或知識(shí)庫(kù)的周期性分析,例如各類 Copilot Agent;瞬時(shí)流量巨大的爆款 AI 應(yīng)用,例如哄哄模擬器;交互規(guī)則復(fù)雜的 Agent 類應(yīng)用,例如什么值得買的 Kimi+ 等。

    以常見的固定文檔大量提問(wèn)場(chǎng)景為例。某硬件產(chǎn)品說(shuō)明書大概 9萬(wàn)字,換算 Tokens 長(zhǎng)度大概 64K,該產(chǎn)品售前支持人員需要在 10 分鐘內(nèi),密集對(duì)產(chǎn)品的功能/使用方式進(jìn)行 40 次問(wèn)答,每次的問(wèn)題大概 100 個(gè)字,要求模型的輸出需要基于產(chǎn)品說(shuō)明書來(lái)回答,回答問(wèn)題在 120 字以內(nèi)。

    按照大模型問(wèn)答的 Tokens 計(jì)算邏輯,售前支持人員需要每次向模型輸入的 Tokens =文檔 Tokens +問(wèn)題 Tokens,10 分鐘內(nèi) 40 次的問(wèn)答共計(jì)需要消耗 Tokens 2.56 M,128k 模型價(jià)格為 60元/M,預(yù)計(jì)原始花費(fèi)需要 153.84 元。若該場(chǎng)景接入上下文緩存(Context Caching)技術(shù):9萬(wàn)字的文檔只收取一次創(chuàng)建 Cache 和存儲(chǔ) 10 分鐘 Cache 的費(fèi)用,10分鐘內(nèi)的40次提問(wèn),將只收取問(wèn)題的 100 字+ 回答的 120 字的費(fèi)用,預(yù)計(jì)花費(fèi) 11.88 元。節(jié)省了 141.95 元,相當(dāng)于費(fèi)用降低 90% 左右。

    響應(yīng)速度方面,以128k模型的一次4萬(wàn)字(約30k tokens)的推理請(qǐng)求為例。通常向模型提問(wèn),平均要 30 秒返回首 Token。接入上下文緩存技術(shù)后,最快可 1 秒內(nèi)完成首 Token 返回。經(jīng)過(guò)大量測(cè)試,接入上下文緩存功能后,128k 模型的首 Token 延遲平均可降至 5 秒內(nèi),降低了 83%左右。

    需要注意的是,上述測(cè)試效果基于 1 token = 1~1.5個(gè)文字和字符,使用 128k 模型進(jìn)行測(cè)算。具體的效果根據(jù)業(yè)務(wù)情況/模型選擇不同,會(huì)有略微差別。

    上下文緩存(Context Caching)技術(shù)在公測(cè)期間將首先提供給 Kimi 開放平臺(tái)的 Tier5 等級(jí)開發(fā)者,后續(xù)陸續(xù)增大開發(fā)者公開測(cè)試范圍。

    Kimi 大模型目前已接入了釘釘、扣子等平臺(tái),用戶或開發(fā)者可以在這些平臺(tái)選用 Kimi 大模型,借助出色的長(zhǎng)文本和指令遵循能力搭建個(gè)性化的智能體應(yīng)用。Kimi 開放平臺(tái)的開發(fā)者注冊(cè)量自從今年 2 月份以來(lái)復(fù)合增長(zhǎng)率超過(guò) 175%,在投研服務(wù)、法律盡調(diào)、企業(yè)知識(shí)庫(kù)問(wèn)答、輔助軟件開發(fā)等場(chǎng)景獲得廣泛應(yīng)用。近期,Kimi 開放平臺(tái)陸續(xù)上線了工具調(diào)用(Tool Use)、Partial Mode、上下文緩存(Context Caching)等能力,持續(xù)幫助開發(fā)者高效打造更有想象力的AI 應(yīng)用。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )