您的当前位置:首页>成果 > 正文

小记一下在wenda上使用量化的通义千问(qwen-7b-chat)

来源:哔哩哔哩 时间:2023-08-12 01:06:17

前几天阿里发布了他们的开源大语言模型通义千问(qwen),根据介绍,这个模型不仅在多项评分中排名靠前,而且支持长对话、对api使用能力也有较大进步。而闻达作为一个LLM调用平台,就十分适合qwen。

wenda其实可以直接运行未量化的通义千问qwen-7b模型,只是速度实在感人。每秒只能生成字,难称可用。

究其原因,通过电脑性能监测发现,运行的时候,不仅调用了外接的显卡(跑LLM的主力,12g显存)还同时调用的内置显卡(1650,凑数的,我是笔记本外接显卡)同时cpu也有负荷。推测是自动进行了多卡推理,但是巨大的性能差异和雷电3的小水管严重拖慢了速度。于是进行int8(只有10g多的显存占用)量化运行


【资料图】

首先说一下,这里面的坑还挺多的,但是也没那么多。简简单单就能搞定。

首先量化,我懒,找的别人在h站上量化好的,感谢发布者的工作。链接:/AironHeart/Qwen-7B-Chat-8bit

然后,一定仔细看qwen-7b的readme,你遇到的全部问题里面都记录了,给个好评。然后记得遇到缺啥就安装啥,除了bitsandbytes。

首先在环境中安装必要组件

这只是能保证可用,想能用(18g显存以下的),就得量化。

完成int8的配置

之后不出意外,会提示缺少bitsandbytes,这时候一定要注意版本,Windows需要特定版本才能运行。

我用的这个:

安装完成后就可用正常运行了。这个就是成功的标志

另外发现一个有意思的现象,运行qwen时候,显卡功耗非常低,180w tdp只能跑到24w,速度每秒2字。看项目反馈,有人是提到运行速度慢的问题,目前qwen项目人员也在找问题所在。希望可以找到提高速度的方法。(超长对话显存会来到11g多,长对话时还是要注意)

qwen-7b感觉比glm2-6b聪明点,但是我问的问题不多,实际上差别不大,还需要进一步测试

(顺带一提,问通义千问网页版的时候的回答错的离谱)

我遇到的坑:readme中是max_memory = max_memory忘改,直接pip install bitsandbytes-windows,其他的记不清了

标签:

最新新闻:

新闻放送
Top