谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic
智东西编译 金碧辉编辑 程茜
智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。
LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。
LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。
地址:https://github.com/google/lmeval
一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍
LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。
同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。
在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。
在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。
在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。
▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)
在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。
二、评测成本直降90%,月之暗面已部署
据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。
而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。
LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。
开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据
结语:谷歌开源LMEval框架,打通五大厂商API接口
谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。
谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。
来源:The Decoder
相关推荐:老女人老荫户看A片 利用时间静止狂C美女 白丝🌸自慰到流白浆
小舞被爆❌AV羞羞视频
AV➕无码➕高潮➕国产
剑来宁姚让人内射
❌女仆❌无限❌3D
动漫女性被强❌视频
漫画禁漫♥成人无遮挡个软件
美女扒开腿㊙️让男人看
小舞乖~腿弄大一点就不疼了
Japanese pooping 大便
女人自慰免费观看A片
屁屁挨打sp❌❌❌软件
国产femdom调教1567
国产g蝌蚪👅💃🔥
あったかうずまき本子在线看
成人以下禁止观看网站入口
脱了李沁内裤猛烈进入的网站库
✿爆乳女神✿▌麻酥酥▌网站
www国产偷窥❌乂视频游戏
二次元女生光溜溜身子
路飞妈妈登场了
人与性动交ⅩXXXB女视频
裸体美女开被躁流白
фильмонлайн1080
PORNO62😍
喷水🔞🈲高潮
国产熟妇码AV水也
少女たちよ观看动漫的背景故事
18爽爽国产色AV视频免费看
杨晨晨生物课短片曝光
美女㊙️无遮挡撒尿
九色❤️PORNY国产长靴
av预告片在哪看
半夜把亲妺妺c高潮了的
鸣人和手鞠❌无码
尼尔机械纪元18+
国产精品㊙️国产A级中出高清
哦我要熟女
原神芙宁娜裸体被❌羞羞网站
༄༊࿆J💞Jღ᭄ꦿ࿐
女仆被❌到爽视频
18🈲🍆🍑无套直欧美魅影
13小幺女特黄A片
XXXX78🍆🍆HD
美女露出🐻让男生看的漫画
🔞男生🍆❌男生🍑里无遮
jk漫画成人🔞在线观看喷潮
羞羞视频www com
3DHentai2DHentaiTouhou
乖我硬了让我蹭蹭视频
唐舞桐被七个人C还很享受
15少萝羞羞开腿白丝
免费的成品人直播app
大肉大捧一进一出两腿间小说
tobu8HD馃憴馃憴App91
高清乱码🔞❌♋入口
草莓🍓视频旧址www软件
白丝捆绑sm丨Ⅴk
性――交――性――乱老女人3D
扒开❌狂揉❌真人❌捆绑
少妇我被躁爽到高潮A片李宗瑞
少女与动物真人版在哪看啊
怪物❌触手❌美女❌无尽
学生处破女A片黄网站
㊙️好爽好大高潮人口
动漫女被❌❌❌喷水男男
美女被哇哇大叫ww酒店拍摄
精品无码黑人又粗又大又长AV
熟女�9�9人妻の亂倫
第五人格调香师被c到爽
裸体女僵尸三片
爆c黑皮大nx体育生打桩机
坤坤寒进桃子里发出嗟嗟声
MMD➕无码➕高潮➕
美女裸体❌羞羞漫画人物
欧美亚洲十八禁🔞无码男男
男人的🍌伸到🍑里擼擼社软件
免费看同人动漫网站
FutaFuck♥XXX♥furryvideo
扒开美女疯狂揉❌难受d
可以c女性角色的游戏手游推荐
50露脸一X88AV
网友评论 查看所有评论>>