Meta AI 发布 Llama 3.2 多模态AI模型
性能与GPT4o-mini 相当 能够在边缘设备上高效运行
Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型(11B 和 90B)以及轻量文本模型(1B 和 3B)。
LLaMA 3.2支持同时处理文本、图像和视频,能够理解并生成跨媒体内容。 例如,用户可以在同一交互中结合文字和图像。
评估表明,Llama 3.2 的视觉模型在图像识别和一系列视觉理解任务中与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 竞争。
3B 模型在遵循指令、总结、提示重写和工具使用等任务上超越了 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 竞争力相当。