Warning: mkdir(): No space left on device in /www/wwwroot/Z6.COM/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/hnlvshijie.com/cache/40/bdbd6/5352c.html): failed to open stream: No such file or directory in /www/wwwroot/Z6.COM/func.php on line 115
Kimi又开源了!KV缓存暴砍75%,解码速度飙6倍-时代速报资讯

时代速报资讯时代速报资讯

Kimi又开源了!KV缓存暴砍75%,解码速度飙6倍


智东西
作者 程茜
编辑 心缘

智东西10月31日消息,今天凌晨,存暴大模型独角兽月之暗面开源混合线性注意力架构Kimi Linear,砍解该架构首次在短上下文、码速长上下文、度飙强化学习扩展机制等各种场景中超越了Transformer架构的又开源全注意力机制(Full Attention)

Kimi Linear的存暴核心是线性注意力模块Kimi Delta Attention(KDA),通过更细粒度的砍解门控机制扩展了Gated DeltaNet,从而能够更有效地利用有限状态RNN内存。码速论文中指出,度飙Kimi Linear既可以满足Agent对效率和测试时扩展的又开源需求,同时也不会牺牲模型质量。存暴Kimi在社交平台X发布帖子称,砍解Kimi Linear随时可以作为全注意力的码速直接替代品。


研究人员基于KDA和多头潜在注意力(MLA)的逐层混合,预训练了具有30亿个激活参数和480亿个总参数的Kimi Linear模型。

其实验表明,在相同的训练方案下,Kimi Linear在所有评估任务中均显著优于全注意力机制,同时将KV缓存使用率降低75%,并在100万个Token的上下文中解码吞吐量提升6倍

论文提到,这些结果表明,Kimi Linear可以作为全注意力架构的直接替代方案,并具有更优异的性能和效率


Kimi开源了KDA内核和vLLM的实现,并发布了预训练和指令调优的模型检查点。


▲Kimi Linear的Hugging Face开源主页

GitHub:http://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda

Hugging Face:http://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

一、剑指标准注意力机制两大瓶颈,解码吞吐量最高提升6倍

随着Agent热潮涌起,尤其是在长时域和强化学习场景下的推理计算需求正成为核心瓶颈。这种向强化学习测试时扩展的转变,使得模型必须在推理时处理扩展轨迹、工具使用交互以及复杂的决策空间,从而暴露了标准注意力机制的根本性缺陷。

传统Transformer架构的softmax注意力机制,存在计算复杂度高、KV缓存占用大两大瓶颈。

在此基础上,Kimi提出了混合线性注意力架构Kimi Linear,可以满足Agent的效率需求和测试时间扩展性,同时又不牺牲模型质量。

其核心是Kimi Delta Attention(KDA),这是一个硬件高效的线性注意力模块,它在Gated DeltaNet的基础上扩展了一种更细粒度的门控机制。与GDN采用粗粒度的头部遗忘门控不同,KDA引入通道级对角门控,其中每个特征维度都保持着独立的遗忘率。

这种细粒度设计能够更精确地控制有限状态RNN的记忆,从而释放混合架构中RNN类模型的潜力。

至关重要的是,KDA使用Diagonal-Plus-LowRank(DPLR)矩阵的特殊变体对其转移动态进行参数化,从而实现定制的分块并行算法,该算法相对于一般的DPLR公式大幅减少了计算量,同时保持与经典delta规则的一致性。

Kimi Linear将KDA与周期性的全注意力层以3:1的均匀比例交错排列。这种混合结构在生成长序列时,通过全注意力层保持全局信息流,同时将内存和键值缓存的使用量降低高达75%

通过匹配规模的预训练和评估,Kimi Linear在短上下文、长上下文和强化学习风格的后训练任务中,始终能够达到或超越强大的全注意力基线模型的性能,同时在100万上下文长度下,解码吞吐量最高可提升到完整MLA的6倍

Kimi研究团队的主要贡献包括:

1、线性注意力机制KDA,改进了门控delta规则,提高了循环内存管理和硬件效率;

2、Kimi线性架构采用3:1 KDA与全局注意力比率的混合设计,在减少内存占用的同时超越了完全注意力质量;

3、大规模的公平经验验证:通过1.4T个token的训练运行,Kimi Linear在短、长上下文和RL风格的评估中优于完整的注意力机制和其他基线,并完全开源了内核、vLLM集成和检查点。

二、通过细粒度门控改进Delta规则,多个组件提升表达能力

论文中介绍了KDA的分块并行化,展示了如何在对角门控下保持稳定性的同时,将一系列秩为1的矩阵变换压缩成稠密表示,在输出阶段,研究人员采用块间递归和块内并行策略来最大化矩阵乘法吞吐量,从而充分利用张量核心的计算潜力。


▲输出阶段

在表达能力方面,KDA与广义DPLR公式一致,两者都表现出细粒度的衰减行为,然而这种细粒度的衰减会在除法运算期间引入数值精度问题。

通过将变量a和b都绑定到k,KDA有效地缓解了这一瓶颈,将二级分块矩阵计算的次数从四次减少到两次,并进一步消除了三次额外的矩阵乘法。因此,与DPLR公式相比,KDA的算子效率提高了约100%


▲KDA算子效率情况

此外,KDA模型架构主要基于Moonlight,除了细粒度的门控之外,研究人员还利用了多个组件来进一步提升Kimi Linear的表达能力

神经参数化:输出门采用类似于遗忘门的低秩参数化方法,以确保参数比较的公平性,同时保持与全秩门控相当的性能,并缓解注意力陷阱问题;


▲Kimi Linear模型架构示意图

混合模型架构:研究人员将KDA与少量全局注意力层混合。经验表明,3:1的统一比例,即3个KDA层对应1个全MLA层,能够提供最佳的质量-吞吐量平衡。

MLA层不采用位置编码(NoPE):研究人员对所有MLA层应用了NoPE。其发现与先前的研究结果一致,用专门的位置感知机制来补充全局NoPE注意力机制,可以获得具有竞争力的长上下文性能。


▲Kimi Linear合成任务的结果

三、性能评估整体优于MLA,通用知识、推理、中文任务得分第一

研究人员评估了Kimi Linear模型与全注意力MLA基线、混合门控DeltaNet(GDN-H)基线的性能,所有基线均采用相同的架构、参数数量和训练设置。

研究人员使用1.4T预训练语料库将Kimi Linear模型与两个基线模型(MLA和混合GDN-H)进行了比较,评估主要集中在三个方面:通用知识、推理(数学和编程)以及中文任务,Kimi Linear在几乎所有类别中都始终优于两个基线模型

在常识方面:Kimi Linear在BBH、MMLU和HellaSwag等所有关键基准测试中得分最高;推理能力方面:Kimi Linear在数学和大多数编程任务方面领先,与GDN-H相比,其在evalsPlus上的得分略低;中文任务上:Kimi Linear在Cevals和CMMLU上取得了最高分。


▲Kimi Linear与全注意力MLA基线、混合GDN基线的性能比较

研究人员称,Kimi Linear可以成为短上下文预训练中全注意力架构的有力替代方案

在经过相同的监督式微调流程后,研究人员测试发现,Kimi Linear在通用任务和数学与代码任务中均表现出色,始终优于MLA和GDN-H。

在通用任务中,Kimi Linear在各种MMLU基准测试、BBH和GPQA-Diamond上均取得了最高分。

在数学与编程任务中,它在AIME 2025、HMMT 2025、PolyMath-en和LiveCodeBench等高难度基准测试中超越了所有基线模型。


▲Kimi Linear与MLA、GDN-H在长上下文基准测试中的比较

总体结果总结:在预训练和SFT阶段,Kimi Linear优于GDN-H,GDN-H又优于MLA;在长上下文评估中,这一层级发生了变化,Kimi Linear保持领先地位,GDN-H的性能下降落后于MLA;在强化学习阶段,Kimi Linear性能优于MLA

效率方面,随着序列长度的增加,混合Kimi Linear模型在较短的序列长度(4k–16k)下,性能与MLA相当,从128k开始速度显著提升。对于512k个序列,Kimi Linear的性能是MLA的2.3倍;对于1M个序列,其性能是MLA的2.9倍。在100万个Token上下文长度的解码效率方面,Kimi Linear的速度是全注意力机制的6倍


▲Kimi Linear与MLA、GDN-H在效率方面的比较

结语:攻克全注意力机制瓶颈,Kimi Linear实现性能、效率双超越

Kimi Linear通过KDA的细粒度门控与高效分块算法、3:1混合注意力架构,首次实现性能超越全注意力以及效率大幅提升的突破,且在100万个token长上下文、强化学习等场景中表现突出,使得其可以兼顾效率和可扩展性,为下一代Agent发展、解码密集型大模型提供了高效解决方案。

同时,Kimi Linear可以作为全注意力架构的直接替代品,这意味着在实际应用中,开发者可以直接采用Kimi Linear架构来改进现有模型,而无需进行大规模的重新设计和训练,有效降低开发成本和计算资源成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/返回网易首页 下载网易新闻客户端 相关推荐 热点推荐
  • Kimi开源新线性注意力架构,首次超越全注意力模型,推理加速6倍

    量子位 2025-10-31 16:46:04

    0 跟贴0
  • 轻量高效,即插即用:Video-RAG为长视频理解带来新范式

    机器之心Pro 2025-10-20 18:23:17

    0 跟贴0
  • 扩散语言模型九倍推理加速!KV Cache并非自回归模型专属

    量子位 2025-05-27 17:02:02

    0 跟贴0
  • 业界首个高质量原生3D组件生成模型来了!来自腾讯混元团队

    量子位 2025-09-27 12:56:41

    0 跟贴0
  • 大模型公司不搞浏览器搞Agent,实测找到原因了

    量子位 2025-10-31 16:54:34

    0 跟贴0
  • 10% KV无损数学推理!开源方法解决推理大模型「记忆过载」难题

    量子位 2025-06-16 16:27:36

    0 跟贴0
  • 这个 pubmed 插件自带全文下载通道,校外可用

    生物学霸 2025-10-31 17:26:22

    0 跟贴0
  • 7小时"铁腚"大巴游老年团:不在家做饭 人出门像打鸡血

    上游新闻 2025-10-26 15:21:37

    8494 跟贴8494
  • 特斯拉车友会,一个指令控制所有车,这一幕细思极恐!

    企鹅爱聊生活 2025-10-29 10:39:33

    0 跟贴0
  • Adobe 的全家桶,现在塞满了 AI

    爱范儿 2025-10-31 14:49:29

    0 跟贴0
  • AI版盗梦空间?Claude竟能察觉到自己被注入概念了

    机器之心Pro 2025-10-30 19:54:35

    0 跟贴0
  • 90后数学家拿下超级大奖 北大演讲韦东奕首排听讲

    每日经济新闻 2025-10-30 19:37:06

    4974 跟贴4974
  • 你知道自己的标准体重吗?赶紧试试这个亚洲通用算法

    kitty健身酱 2025-10-27 16:11:22

    0 跟贴0
  • Adobe推自家最强图像生成模型!原生400万像素,还能集成第三方模型

    智东西 2025-10-30 11:55:37

    2 跟贴2
  • 美国AI公司们,开始青睐Made in China的大模型

    量子位 2025-10-29 17:24:49

    6 跟贴6
  • 「套壳」的最高境界:OpenAI揭秘Atlas浏览器架构OWL

    机器之心Pro 2025-10-31 11:49:51

    1 跟贴1
  • 雷军突然发文!5亿元!网友彻底沸了

    极目新闻 2025-10-31 11:51:39

    3074 跟贴3074
  • 解放军演练抢滩登陆机器狗打头阵,解放军无人机器作战模型很成熟

    伏问梅 2025-10-30 00:47:22

    4 跟贴4
  • 港科、牛津大学发布AlignGuard,文图生成模型规模化安全对齐框架

    机器之心Pro 2025-10-30 13:48:35

    0 跟贴0
  • 初中数学代数式求值题,如何配凑零零模型是解题关键

    三乐大掌柜 2025-10-28 10:59:22

    1 跟贴1
  • 唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

    机器之心Pro 2025-08-25 18:03:35

    0 跟贴0
  • 救命!小狗落水遇到几位热心大哥,全程 “服从指令” 太通人性了!

    河南都市频道 2025-10-30 10:46:11

    0 跟贴0
  • 董军与美国国防部长会谈

    央视新闻客户端 2025-10-31 14:06:22

    240 跟贴240
  • 拳皇97:雅典娜指令投接反向凤凰箭,再接大招

    析鱿君 2025-10-29 23:03:31

    22 跟贴22
  • 外媒:乌军总司令视察前线,否认红军城被俄军包围

    参考消息 2025-10-31 15:21:06

    564 跟贴564
  • 重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

    机器之心Pro 2025-10-31 15:25:11

    0 跟贴0
  • 棕熊的硬件是不是真如传言那么猛

    光辉动物暖 2025-10-28 10:40:48

    0 跟贴0
  • 初中数学:将军饮马模型求线段的最和的最小值问题1

    数学教研组长朱老师 2025-10-28 12:23:00

    0 跟贴0
  • 女子回门宴播放父母34年前结婚录像:现场8成宾客曾参加父母婚礼,都看到年轻的自己

    极目新闻 2025-10-30 20:06:37

    376 跟贴376
  • 半夜常有怪叫!杭州一废弃医院常有奇装异服的陌生人出现,附近居民发懵:真看不懂

    极目新闻 2025-10-31 10:18:05

    638 跟贴638
  • “安世大劫案”越闹越大,巴西找中方要说法,荷兰被“公开处刑”

    肖兹探秘说 2025-10-31 16:03:17

    0 跟贴0
  • 梦幻西游:25万取号联赛咒师,13+8硬件加身,各种阵容的香饽饽!

    浩仔说梦 2025-10-28 19:53:22

    1 跟贴1
  • 湖南:婚假延长至20天,产假延长至188天

    界面新闻 2025-10-31 10:24:01

    3840 跟贴3840
  • 算法比你懂我

    可馨 2025-10-27 16:11:02

    0 跟贴0
  • 瑞幸“去冰拿铁”仅半杯引争议!消费者要求加满被拒,客服回应

    星视频 2025-10-31 15:13:58

    64 跟贴64
  • 强势回应外媒,郑丽文:两岸所有矛盾都可通过和平方式化解

    海峡导报社 2025-10-31 12:15:03

    0 跟贴0
  • 无锡市纪委监委通报

    锡城头条 2025-10-31 17:20:41

    0 跟贴0
  • “末日鱼雷”目前“无法拦截”,“海燕”导弹飞行距离无限,俄一周内测试两种战略武器

    环球网资讯 2025-10-31 07:01:46

    2176 跟贴2176
  • 全球首发定制纯电 K-EV “RACOO”及众多车型矩阵亮相东京车展

    天天汽车 2025-10-30 09:38:18

    5 跟贴5
  • 港科提出新算法革新大模型推理范式:随机策略估值竟成「神操作」

    机器之心Pro 2025-10-31 15:40:39

    0 跟贴0
越来越多进口药退出国内市场,有些人却还在为此纷纷叫好!

越来越多进口药退出国内市场,有些人却还在为此纷纷叫好!

翻开历史和现实 2025-10-29 08:52:35 “对不起”!知名超市突发公告:辜负大家

“对不起”!知名超市突发公告:辜负大家

鲁中晨报 2025-10-31 16:43:13 家长在海底捞就餐区拿纸碗为孩童接尿,海底捞回应:涉事区域已专项消毒

家长在海底捞就餐区拿纸碗为孩童接尿,海底捞回应:涉事区域已专项消毒

正在新闻 2025-10-31 17:22:54 领先开启豪华燃油智能时代,一汽奥迪A5L领航版作为一汽-大众第3000万辆整车下线

领先开启豪华燃油智能时代,一汽奥迪A5L领航版作为一汽-大众第3000万辆整车下线

AutoBusiness 2025-10-31 14:28:56 刘强东见到了特朗普,他站起来迎接他,章泽天看到特朗普笑的很甜

刘强东见到了特朗普,他站起来迎接他,章泽天看到特朗普笑的很甜

小咪侃娱圈 2025-10-31 14:10:11 防城港交警:一小客车与重型半挂牵引车发生碰撞,致5死1伤

防城港交警:一小客车与重型半挂牵引车发生碰撞,致5死1伤

界面新闻 2025-10-31 12:12:22 柬埔寨电诈集团头目陈志1.5亿新元资产在新加坡遭冻结

柬埔寨电诈集团头目陈志1.5亿新元资产在新加坡遭冻结

红星新闻 2025-10-31 17:20:28 “小仙女”的脏水泼不动了!法学女教授要用诉状,给巨婴上一课

“小仙女”的脏水泼不动了!法学女教授要用诉状,给巨婴上一课

教育人看世界 2025-10-30 20:05:31 “最帅展昭”甄志强去世,终年58岁

“最帅展昭”甄志强去世,终年58岁

鲁中晨报 2025-10-31 15:23:12 白酒惨不忍睹!茅台增长乏力,五粮液业绩爆雷,洋哥直接亏损...

白酒惨不忍睹!茅台增长乏力,五粮液业绩爆雷,洋哥直接亏损...

金石随笔 2025-10-31 00:06:12 见完中方后,特朗普一分钟不多待,外媒:他在韩国吃不饱

见完中方后,特朗普一分钟不多待,外媒:他在韩国吃不饱

头条爆料007 2025-10-30 22:13:52 这次媒体曝光的“刑讯逼供”事件,让我想起了美国的弗洛伊德!

这次媒体曝光的“刑讯逼供”事件,让我想起了美国的弗洛伊德!

走读新生 2025-10-30 14:58:41 太突然!他在上海去世,终年59岁……曾被誉为“最帅展昭”,去世前一天还在发视频

太突然!他在上海去世,终年59岁……曾被誉为“最帅展昭”,去世前一天还在发视频

都市快报橙柿互动 2025-10-31 12:40:28 美国没收电诈集团150亿美元后,开始向全球受害者进行退款

美国没收电诈集团150亿美元后,开始向全球受害者进行退款

小萝卜丝 2025-10-30 20:07:28 200万吨大豆烂港!巴西赌中国离不开它,中国在48小时之内反杀!

200万吨大豆烂港!巴西赌中国离不开它,中国在48小时之内反杀!

未曾青梅 2025-10-26 23:56:58 【解局】中美防长会谈释放的几个信号,专家这样解读

【解局】中美防长会谈释放的几个信号,专家这样解读

环球网资讯 2025-10-31 17:19:08 59岁知名港星猝逝!被誉为“最帅展昭”,曝他踢球后心脏出事致死

59岁知名港星猝逝!被誉为“最帅展昭”,曝他踢球后心脏出事致死

一只番茄鱼 2025-10-31 12:51:20 中国人死亡19万,比美军多5倍,好意思说胜利吗?金将军这样回答

中国人死亡19万,比美军多5倍,好意思说胜利吗?金将军这样回答

混沌录 2025-10-29 20:22:14 强势回应外媒,郑丽文:两岸所有矛盾都可通过和平方式化解

强势回应外媒,郑丽文:两岸所有矛盾都可通过和平方式化解

海峡导报社 2025-10-31 12:15:03 太难了!佛山一工厂饭堂停止供餐,每月给400元餐补,致员工不满

太难了!佛山一工厂饭堂停止供餐,每月给400元餐补,致员工不满

火山诗话 2025-10-31 13:52:21 2025-10-31 18:40:49 智东西incentive-icons智东西 聚焦智能变革,服务产业升级。 10679文章数 116892关注度 往期回顾 全部

科技要闻

苹果日赚22亿,库克最大的烦恼是卖断货

  • 亚马逊击碎所有质疑,盘后市值飙涨3300亿美元

  • 比亚迪:卖车更多了,利润变少了

  • 一夜"封神",黄仁勋的英伟达,值半个A股

  • 谷歌营收破千亿,微软云暴增40%

头条要闻

柬埔寨电诈集团头目陈志1.5亿新元资产被新加坡冻结

  • 媒体:中美防长会谈释放了三个信号 董军谈到台湾问题

  • 郑丽文强势表态:两岸所有矛盾都可通过和平方式化解

  • 女子驾车致丈夫死亡 父亲:女儿被扒光遭打到奄奄一息

  • 特朗普将中美领导人会晤称为“G2”会议 中方回应

头条要闻

柬埔寨电诈集团头目陈志1.5亿新元资产被新加坡冻结

  • 媒体:中美防长会谈释放了三个信号 董军谈到台湾问题

  • 郑丽文强势表态:两岸所有矛盾都可通过和平方式化解

  • 女子驾车致丈夫死亡 父亲:女儿被扒光遭打到奄奄一息

  • 特朗普将中美领导人会晤称为“G2”会议 中方回应

体育要闻

他在NBA的两次进球,隔了2754天

  • 阿隆索:对维尼修斯的道歉非常满意,这个问题周三已彻底解决

  • 5战全胜!文班27+18+6+5帽马刺险胜热火 热巴31+10维金斯24分

  • 库里27+6难救主勇士不敌雄鹿,字母哥缺席罗林斯战旧主32+8

  • 联盟第一!雷霆大胜奇才豪取6连胜 亚历山大三节31+7

娱乐要闻

和龚俊演完《暗河传》,她终于红了

  • 曝宋妍霏与窦靖童已同住2年,超多情侣款被扒?

  • 中国电影之夜:钟楚曦短发瞩目,高叶珠圆玉润

  • 古二放录音 王家卫吐槽唐嫣很装,秦雯内涵刘诗诗

  • 司晓迪太猛!自曝有全娱乐圈的瓜,和鹿晗是朋友

财经要闻

英伟达的泡沫,或许能再吹5万亿美元

  • 中美元首釜山会晤:“对话比对抗好”

  • 吴清明确任务清单,六方面提高资本市场制度包容性、适应性

  • 统计局:10月份中国制造业PMI为49%

  • 冷却液防腐性能不足 理想汽车召回部分2024款MEGA

汽车要闻

理想汽车召回11411辆2024款MEGA纯电汽车

  • 吉利陈奇:L3全场景普及仍需时间,安全与成本平衡是行业关键

  • 颜值能打、空间够用 长安Lumin宝藏版4.79万起

  • 置换价17.99万起 奇瑞风云T11正式上市

  • 标配激光雷达、磁流变悬架 深蓝L06预售13.99万元起

态度原创

  • +arrTaiduYuanC[i].tag+'| '+arrTaiduYuanC[i].title+'

    \
旅游 健康 本地 数码 公开课

旅游要闻

行走的历史课,临沂天上王城景区秋日迎来研学千人团

  • 潍坊青州:秋染古城 如诗如画

  • “康养旅居 冬游广西”2025桂黑旅游企业产品对接会在哈尔滨举行

  • 粉色“薄雾”弥漫,荻花飘逸洒脱……申城观赏草进入“最佳赏味期”

核磁VS肌骨超声,谁更胜一筹?

  • 娃得了手足口病咋办?中疾控提示

  • 五味中药房里的"扫地僧",作用竟这么大

  • 一键入冬!请收好这份“暖心”食谱

  • 秋风起花粉飞,谨防鼻炎找上门!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

  • 云游中国|东营,一座听得见生长的城市

  • 这个秋天,一起来粉上漓渚!所有风景只为等你

  • 云游中国|一脚踏入万州,才懂烟火江城的真意

数码要闻

当贝D7X评测:三色激光降维打击 2000元档投影“黑马”

  • 趣倍推出PocketGo小口袋蓝牙音箱,功能丰富售价169元

  • 哈趣H3 Ultra:⌈哈趣×哈曼⌋联名打造专属于你的冬日私人影院

  • 当贝S7 Ultra Pro:光影与智能的极致融合,重塑家庭影院新标准

公开课

李玫瑾:为什么性格比能力更重要?

  • 白岩松谈人口老龄化:社会要降低老年人门槛

  • 为什么人类有不同的肤色?

  • 为何密封包装的大米也会生虫?该如何防治?

  • 李彦宏:百度离破产30天

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉
赞(92234)
未经允许不得转载:>时代速报资讯 » Kimi又开源了!KV缓存暴砍75%,解码速度飙6倍
网站地图