多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
在大型语言模型(LLM)的多轮对话打破M多世界中,处理多轮对话一直是推理提升一个挑战。前不久麻省理工Guangxuan Xiao等人推出的速度正版IDC信用盘StreamingLLM,能够在不牺牲推理速度和生成效果的开源前提下,可实现多轮对话总共400万个token的轮对流式输入,22.2倍的长度推理速度提升。
但StreamingLLM使用原生PyTorch实现,限制对于多轮对话推理场景落地应用的多轮对话打破M多低成本、低延迟、推理提升高吞吐等需求仍有优化空间。速度
Colossal-AI团队开源了SwiftInfer,开源基于TensorRT实现了StreamingLLM,轮对正版IDC信用盘可以进一步提升大模型推理性能46%,长度为多轮对话推理提供了高效可靠的限制落地方案。
开源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM简介
大语言模型能够记住的多轮对话打破M多上下文长度,直接影响了ChatGPT等大模型应用与用户互动的质量。
如何让LLM在多轮对话场景下保持生成质量,对推理系统提出了更高的要求,因为LLM在预训练期间只能在有限的注意力窗口的限制下进行训练。
常见的KV Cache机制能够节约模型计算的时间,但是在多轮对话的情景下,key和value的缓存会消耗大量的内存,无法在有限的显存下无限扩展上下文。同时,训练好的模型在不做二次微调的前提下也无法很好地泛化到比训练序列长度更长的文本,导致生成效果糟糕。
图来源:https://arxiv.org/pdf/2309.17453.pdf
StreamingLLM为了解决了这个问题,通过观察了注意力模块中Softmax的输出,发现了attention sink的现象。我们知道注意力机制会为每一个token分配一个注意力值,而文本最初的几个token总是会分配到很多无用的注意力。当我们使用基于滑动窗口的注意力机制时,一旦这几个token被踢出了窗口,模型的生成效果就会迅速崩溃。只要一直把这几个token保留在窗口内,模型就能稳定地生成出高质量的文本。
比起密集注意力(Dense Attention)、窗口注意力(Window Attention)以及带重计算的滑动窗口注意力(Sliding Window w/ Re-computing),StreamingLLM基于attention sink的注意力机制无论是在计算复杂度还是生成效果上都表现优异。在不需要重新训练模型的前提下,StreamingLLM能够直接兼容目前的主流大语言模型并改善推理性能。
SwiftInfer:基于TensorRT的StreamingLLM实现
为了将StreamingLLM这一技术更好的应用到落地场景,Colossal-AI团队成功地将StreamingLLM方法与TensorRT推理优化结合,不仅继承了原始StreamingLLM的所有优点,而且还具有更高的运行效率。使用TensorRT-LLM的API,我们还能够获得接近于PyTorch API的模型编写体验。
基于TensorRT-LLM,我们重新实现了KV Cache机制以及带有位置偏移的注意力模块。如下图所示,假设我们的窗口大小为10个token,随着生成的token增加(由黄色方块表示),我们在KV缓存中将中间的token踢出,与此同时,始终保持着文本开始的几个token(由蓝色方块表示)。由于黄色方块的位置会发生变化,在计算注意力时,我们也需要重新注入位置信息。
需要注意的是,StreamingLLM不会直接提高模型能访问的上下文窗口,而是能够在支持流式超多轮对话的同时保证模型的生成效果。
大模型无限输入流推理加速46%
原版本的StreamingLLM可以可靠地实现超过400万个token的流式输入,实现了比带重计算的滑动窗口注意力机制高出22.2倍的速度提升。
Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,最多带来额外的最多46%的推理吞吐速度提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。TensorRT-LLM团队也在同期对StreamingLLM进行了类似支持。
Colossal-AI社区动态
Colossal-AI目前已获得GitHub星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求。作为主流开源AI大模型系统社区,Colossal-AI生态在多方面保持活跃更新。
Colossal-LLaMA-2-13B开源
Colossal-LLaMA-2-13B模型,仅用25B token 数据和万元算力,效果远超基于 LLaMA-2 的其他中文汉化模型。即使与其他采用中文语料,可能花费上千万元成本,从头预训练的各大知名模型相比,Colossal-LLaMA-2在同规模下仍表现抢眼。13B 版本通过构建更为完善的数据体系,在知识性内容掌握程度,自然语言处理任务理解程度,以及安全性,价值观等问题上,都有质的提升。
Colossal-AI云平台
Colossal-AI云平台在整合Colossal-AI系统优化和廉价算力的基础上,近期发布了AI云主机的功能,方便用户以近似裸机的方式进行AI大模型的开发和调试,并提供了多种使用方式,包括:Jupyter Notebook、ssh、服务本地端口映射和grafana监控,全方位的为用户提供便捷的开发体验。同时,还为用户预制了含有ColossalAI代码仓库和运行环境的docker镜像,用户无需环境和资源配置,便可一键运行ColossalAI代码仓库中的代码样例。
Colossal-AI开源地址:
https://github.com/hpcaitech/ColossalAI
参考链接:
https://hpc-ai.com/blog/Colossal-AI-SwiftInfer
雷峰网(公众号:雷峰网)
-
文章
85
-
浏览
339
-
获赞
1
热门推荐
-
Aime Leon Dore x 纽亦华 2021 春夏联名帽款系列上架
潮牌汇 / 潮流资讯 / Aime Leon Dore x 纽亦华 2021 春夏联名帽款系列上架2021年03月27日浏览:2722 作为简约系的纽约街牌 Aime遇见造物主一应俱全怎么解锁
遇见造物主一应俱全怎么解锁36qq5个月前 (08-09)游戏知识34塞尔达传说王国之泪贤者遗志在哪里获得
塞尔达传说王国之泪贤者遗志在哪里获得36qq5个月前 (08-09)游戏知识34曼联老妖急盼新赛季复仇 曼城夺冠令他心如刀割
5月27日报道:36岁的内斯塔在不久前做出了离开AC米兰告别顶级联赛的决定,其中一个主要缘由就是“身材条件无法再接受激烈的一致”。但是同为超级球星,且比内斯塔还大了两岁的曼联老枪吉格斯却在日前表现,他《死侍3》新预告和海报 官方剧情简介逆天了
近日《死侍3》新预告和海报发布,北美预售已开启。官方还公布了《死侍3》剧情简介,一起来看看吧!全新预告:《死侍3》剧情简介:“漫威影业为您呈现他们迄今为止最大的错误:《死侍与金刚狼》。没精打采的韦德·曼联老妖急盼新赛季复仇 曼城夺冠令他心如刀割
5月27日报道:36岁的内斯塔在不久前做出了离开AC米兰告别顶级联赛的决定,其中一个主要缘由就是“身材条件无法再接受激烈的一致”。但是同为超级球星,且比内斯塔还大了两岁的曼联老枪吉格斯却在日前表现,他塞尔达传说王国之泪勇气之泉的女神像挑战视频攻略
塞尔达传说王国之泪勇气之泉的女神像挑战视频攻略36qq5个月前 (08-09)游戏知识32德罗巴后蓝军再清洗欧冠功臣 博辛瓦卡劳将离队
5月24日报道:切尔西击败拜仁博得欧冠未能协助多位合同行将到期的球员博得新合同,在德罗巴被证实将告别斯坦福桥后,《每日电讯报》透露,博辛瓦和卡劳这两位异样在欧冠决赛有作出贡献的球员也将被清洗。每日电讯中粮酒业引进法国波尔多名酒“莫艾丝”
5月15日,中粮酒业在上海香格里拉酒店举行了名为“中粮酒业携手法国米其林三星厨皇访华--共享莫艾丝晚宴”活动,标志着来自法国波尔多产区的世界名酒“昂多纳-莫艾丝An神灯称蓝军夺冠助推英格兰 埃夫拉:三狮军能夺冠
5月24日报道:兰帕德和卡希尔都决计满满地表现切尔西牟取欧冠将助推英格兰在欧洲杯上夺魁,而对手埃弗拉也愿望三狮可以以蓝军为典范,抢夺欧洲杯称王。每日星报:埃夫拉称英格兰能夺欧洲杯兰帕德、卡希尔、特里和曼奇尼亲自去请阿扎尔 后者开谈欧冠新王
既然是依托“金元优势”压倒曼联而失掉里尔中场阿扎尔垂青的曼城,近期却失掉了英超“老金主”切尔西的应战。在加冕欧冠几天后,就传出了蓝军有意比利时国脚的消息。上周末才落幕的法甲联赛,让阿扎尔的转会不时悬而塞尔达传说王国之泪伊莱扎任务在哪里做
塞尔达传说王国之泪伊莱扎任务在哪里做36qq5个月前 (08-09)游戏知识25华为廉价折叠屏来了 nova系列小折叠机8月见
华为方面正在开发新的小折叠手机,这款新机属于nova系列,预计将在8月份发布。华为作为最先推出折叠屏设计手机的品牌之一,目前已经取得了全球折叠屏市场的领先地位。但华为折叠屏手机的价格较高,最新的Mat曼联称霸英超20年总积分榜 新王曼城仅位列第十
5月24日报道:2011-12赛季的英超联赛早已落下大幕,虽然曼联在最后时辰丢掉了到手的冠军,不过在英超20年总积分榜上他们毫无悬念地排名第一,阿森纳、切尔西和利物浦位列二到四位,而英超新王曼城仅位列塞尔达传说王国之泪蜥蜴池中沉睡的秘宝挑战视频攻略
塞尔达传说王国之泪蜥蜴池中沉睡的秘宝挑战视频攻略36qq5个月前 (08-09)游戏知识34