机器之心报道
机器之心编辑部
谷歌 Gemma 3 上线刚刚过去一个月,现在又出新版本了。
该版本经过量化感知训练(Quantization-Aware Training,QAT)优化,能在保持高质量的同时显著降低内存需求。
比如经过 QAT 优化后,Gemma 3 27B 的 VRAM 占用量可以从 54GB 大幅降至 14.1GB,使其完全可以在 NVIDIA RTX 3090 等消费级 GPU 上本地运行!
Chatbot Arena Elo 得分:更高的分数(最上面的数字)表明更大的用户偏好。点表示模型使用 BF16 数据类型运行时所需的 NVIDIA H100 GPU 预估数量。
机器之心在一台配备了 RTX 3070 的电脑上简单测试了其中的 12B 版本,可以看到虽然 Gemma 3 的 token 输出速度不够快,但整体来说还算可以接受。
基于量化感知训练的 Gemma 3
在 AI 模型中,研究者可以使用更少的位数例如 8 位(int8)甚至 4 位(int4)进行数据存储。
采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式,数据大小缩减至 1/4。
但是,这种量化方式通常会导致模型性能下降。
那谷歌是如何保持模型质量的?答案是采用 QAT。
与传统在模型训练完成后才进行量化的方式不同,QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算,使模型在后续被量化为更小、更快的版本时,仍能保持准确率损失最小化。
具体实现上,谷歌基于未量化的 checkpoint 概率分布作为目标,进行了约 5,000 步的 QAT 训练。当量化至 Q4_0(一种常见的量化格式) 时,困惑度下降了 54%。
这样带来的好处之一是加载模型权重所需的 VRAM 大幅减少:
Gemma 3 27B:从 54 GB(BF16)降至仅 14.1 GB(int4)Gemma 3 12B:从 24 GB(BF16)缩减至仅 6.6 GB(int4)Gemma 3 4B:从 8 GB(BF16)精简至 2.6 GB(int4)Gemma 3 1B:从 2 GB(BF16)降至仅 0.5 GB(int4)
此图仅表示加载模型权重所需的 VRAM。运行该模型还需要额外的 VRAM 用于 KV 缓存,该缓存存储有关正在进行的对话的信息,并取决于上下文长度。
现在看来,用户在消费级设备上就能运行更大、更强的 Gemma 3 模型,其中:
Gemma 3 27B (int4):现在可以轻松安装在单张 NVIDIA RTX 3090(24GB VRAM)或类似显卡上,本地就能运行最大的 Gemma 3 版本;Gemma 3 12B (int4):可在 NVIDIA RTX 4060 GPU(8GB VRAM)等笔记本电脑 GPU 上高效运行,为便携式设备带来强大的 AI 功能;更小的型号(4B、1B):为资源较为有限的系统(包括手机和烤面包机)提供更强大的可访问性。
来自 Two Minute Papers 频道的玩笑
官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。谷歌还与众多热门开发者工具合作,让用户无缝体验基于 QAT 的量化 checkpoint:
Ollama:从今天起,只需一个简单命令即可原生支持 Gemma 3 QAT 模型。LM Studio:通过用户友好界面,轻松下载并在桌面上运行 Gemma 3 QAT 模型。MLX:利用 MLX 在苹果芯片上对 Gemma 3 QAT 模型进行高效推理。Gemma.cpp:使用专用的 C++ 实现,直接在 CPU 上进行高效推理。llama.cpp:得益于对 GGUF 格式 QAT 模型的原生支持,可轻松集成到现有工作流程中。
激动的网友已经无法抑制内心的喜悦:「我的 4070 就能运行 Gemma 3 12B,这次谷歌终于为即将破产的开发者做了一些事情。」
「希望谷歌朝着 1bit 量化使使劲。」
这个可以本地运行的 Gemma 3 你用了吗,效果如何,欢迎大家评论区留言。
参考链接:https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718
《免费A漫 - 禁漫天堂comic》,《w3u7903ejky2ywls》黑土被❌🐻黄漫
“XXNX15👙火影漫画”
柳神双腿被分到最后的命运
……
04月23日
“弄得好舒服快高潮了说说”郑钦文vs内岛萌夏
↓↓↓
04月23日,学习进行时·快来学习丨如何更好“读懂中国”?习近平主席提供重要指引,美女奶头秘无遮挡脱水手服,大美女出水o,被c❌到爽的视频在线观看,uu幼儿儿童网站密码
04月23日,年夜饭白象汤好喝高汤面走起 过中国年不能缺少仪式感,把🍌伸进女人的🍑屁股里中国,ACG本子※ACG绅士里番,小🐤🐤入🍑🍑视频无遮挡,中国老太婆级特黄大片
04月23日,网红因感冒导致重度肺炎去世!如何判断感冒与肺炎?,刘浩存被压着c到高潮,亚洲国产精品99久久久久久久,公主的腿间舌奴们np肉视频,摸同桌的我的变
04月23日|以落实三大全球倡议为战略引领(和音)|小泽マリア黑人无码|许晴趴在床上被c出白色液体|黄☸️色☸️网☸️女|裸体宋雨琦被❌吸乳羞羞
04月23日|【趣解廿四时】立夏“斗蛋” 你童年的夏日游戏是什么?古巴宣布对持普通护照中国公民实施入境免签|MM131杨晨晨被❌到喷水视频|80岁老太太对小伙又送吃的|小🐥🐥戳进蜜桃里动漫|灰原哀被扒开臀部受罚
04月23日|香港经济复苏步伐加快 中电上半年售电量同比增2.6%|偷窥美女洗澡一区二区三区|千仞雪白丝开档自慰3D动漫AV|明日方舟官方漫画入口|人妖操影院……
04月23日,福建出台一系列保障政策——发展绿色经济 拓宽就业空间北京发布雷电蓝色预警:预计当前至23日大部地区有雷阵雨,gorgeous霉霉,FerrPorno馃拫馃憴91,永久黄网站色视频免费直播二区,91娇羞❌❌⭕⭕白丝
04月23日,如何打破汽车数据“孤岛”?业界共探汽车数据要素未来之路,qoswife媚黑女王游戏特色,023由闺蜜打屁股网站,亲嘴伸进内衣揉胸口激烈视频.,动漫美女被❌羞羞网站视频软件
04月23日|台湾花莲县海域发生4.8级地震 震源深度31千米|女女疯狂做受XXXX|国产精品㊙️天美传媒口|小心🐤入🍑🍑绅士黄油游戏|舒淇的奶头被揉出来了
04月23日,联合国机构间常设委员会集体声明呼吁世界“不要抛弃加沙人民” 中方回应,3D同人18❌AV网站蒂法,chinesefree高潮抽搐,女生吃小头头视频免费,羲母动漫
04月23日,浙江杭州:龙年新春饰品走俏,女主播撒尿全过程㊙️,咒术回战H婬乱版全文阅读,快穿名器高H喷水荡肉爽文男男,🍓导航入口㊙️国产潘甜甜
04月23日,(国际观察)法国政局难以企稳 新总理仍需直面议会“煎熬”,Chinese男男GayXXX,杨思敏被肉干高H潮文不断,男男被粗大的巴捣出白浆软件,男男gv
04月23日|湖南省机场管理集团原副总经理喻辉接受审查调查|九九黄片接电话几级红包直接放在一起无法站直|日本❌❌❌❌❌色情|把校花吊起来揉搓双乳兔女郎|教授和乖乖女H灌满阮阮视频
04月23日|贵州:大学生将兴趣与职业规划相结合 电竞产业带动“新就业”|日本❌❌❌❌69少妇学校|卡戴珊被啪❌21分钟图|无尽❌裸体❌老师❌动漫❌美杜莎|🔯黄🔯色🔯视🔯频网站
04月23日|山东海阳三代核电项目发电突破千亿度|鸣人去小樱家的原视频|足控脚交❌❌❌视频|美女被到高潮喷出白浆漫画入口|春丽被❌吸乳羞羞动画
元梦之星千架无人机送祝福,追踪者游戏W 职权骚扰的上司是我的前女友|【地评线】中安时评:春运数据创新高,“流动中国”更加生机盎然|㊙️韩漫桃桃漫画app|韩漫18禁羞羞漫画白浆|中日无码双飞大全|小🐤🐤戳进🍑无遮挡国产
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺