智源最新评测结果发布:豆包大模型“主观评测”排名第一 多榜单位居国内第一
12月19日,主观评测智源研究院发布国内外100余个,智源最新开源和商业闭源的评测大模型综合及专项评测结果。“大语言模型评测能力榜单”中,结果居国豆包通用模型pro(Doubao-pro-32k-preview),发布在主观评测中排名第一。豆包大模多榜单位
智源研究院 FlagEval 大语言模型评测能力榜单-主观评测
“多模态模型评测榜单”中,型排豆包·视觉理解模型(Doubao-Pro-Vision-32k-241028)。名第在视觉语言模型中排名第二,内第仅次于GPT-4o,主观评测是智源最新得分最高的国产大模型。
智源研究院 FlagEval 多模态模型评测榜单-视觉语言模型
“FlagEval大模型角斗场榜单”中,评测豆包通用模型pro(Doubao-pro-32k-240828)。结果居国
在大语言模型榜单中位居第一梯队,发布评分排名第二,豆包大模多榜单位仅次于OpenAI的o1-mini,是得分最高的国产大模型。
智源研究院 FlagEval 大模型角斗场榜单-大语言模型榜单
据智源研究院介绍,大模型评测平台FlagEval目前已覆盖全球800多个开闭源模型,在评测方法与工具上联合了全国10余家高校和机构合作共建。此次公布的榜单中,大语言模型主观评测重点考察的是模型的中文能力,多模态模型评测榜单视觉语言模型主要考察的是模型在图文理解、长尾视觉知识、文字识别以及复杂图文数据分析能力;FlagEval大模型角斗场则是向用户开放的模型对战评测服务,反映了用户对模型的偏好。
大使用量才能打磨出更好的模型。刚刚结束的2024火山引擎冬季FORCE原动力大会公布了豆包大模型最新进展——豆包大模型12月日均tokens使用量超过4万亿,较5月发布时期增长超过33倍,在不同应用场景中调用量快速增长。
使用量和应用场景的提升,也让豆包大模型迎来了全新的升级。其中在“大语言模型评测能力榜单”的主观评测中排名第一的豆包通用模型pro完成新版本迭代,综合处理能力较5月发布时提升了32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%。
在“多模态模型评测榜单”的视觉语言模型中,得分国内最高的豆包·视觉理解模型也在FORCE原动力大会上正式对外发布。豆包·视觉理解模型可以理解用户所输入的文本和图片相关的信息,并给出准确的回答。通过更强的内容识别能力、更强的理解和推理能力、更细腻的视觉描述能力,豆包·视觉理解模型极大地拓宽了大模型场景边界,基于对真实世界的信息处理,可以更好的辅助人类完成复杂的任务。
豆包·视觉理解模型在教育、旅游、电商等场景有着非常广泛的应用。为了更好地帮助企业开拓大模型的创新应用场景,豆包·视觉理解模型的价格为每千tokens 0.003元,比行业平均价格降低85%,相当于一块钱可以处理284张720P图片,让企业和开发者用好视觉理解模型,找到更多创新场景。
从能力升级到模态丰富,火山引擎将持续拓展豆包大模型的能力边界及应用场景,加速推动AI大模型应用的普及与落地,为更多企业智能化升级提供有力支撑。
- ·[流言板]高效!威少首发出战场均15分6板9助2.7断,命中率54%
- ·安布:亚特兰大在库普转会中战胜尤文,布雷默&路易斯是两大核心
- ·[流言板]略显娇小!美媒TA分享文班亚马和格林对位照:昨日最佳照片
- ·[流言板]神奇手感!欧文内线要到位置,背对篮筐空接上篮打成高难2+1
- ·[流言板]天赋对决!杰伦
- ·[流言板]状态不错!加兰首节投篮5中4,已经得到10分
- ·韩国一SUV冲破围墙撞上地铁 汽车司机称刹车失灵了无法减速
- ·英超赛程更新:11月3日22时30曼联vs切尔西,12月2日利物浦vs曼城
- ·欧文:萨拉赫不想离开,他只是想要一份符合他要求的合同
- ·马雷斯卡:霍尔在莱斯特城是最重要的球员,但在切尔西情况不同
- ·冲刺!海港申花争冠赛程:均有亚冠足协杯,均打蓉城&天津+保级队
- ·[流言板]事业爱情双丰收!唐斯Ins晒近照与球迷分享并附文:感恩
- ·玉昆总监:去年在中乙大概花了四五千万,今年有30%左右的提高
- ·心系老东家!胡梅尔斯用笔记本电脑观看多特比赛
- ·邓恩:每个人似乎都想加盟皇马,但曼城与皇马无本质区别
- ·[流言板]神奇手感!欧文内线要到位置,背对篮筐空接上篮打成高难2+1
- ·首球来的有点快!范尼莱斯特城首秀,开场2分钟瓦尔迪破门
- ·山海决⚔泰山vs海港,董路&鹿中原解说!看足协杯决赛上!
- ·足球报:尽管武磊缺席,但无碍海港剑指足协杯首冠
- ·经纪人:瓦伦蒂尼明年1月加盟佛罗伦萨,国米&罗马等队也曾想签他
- ·丰塞卡:莱奥明天担任队长是一种可能 我已经看到我想要的米兰了
- ·普利西奇:我不怎么玩网络,球员不一定要很酷或者当意见领袖
- ·[流言板]哈登生涯失误数来到4011次,超越科比升至历史失误榜第5名
- ·[流言板]1996年的今天,艾弗森、雷
- ·《战锤40K:星际战士2》5.0更新上线 增加DLSS3、FSR3
- ·凯恩:鲁尼小贝和摩尔是我的榜样,大罗是有史以来最出色前锋之一