Nvidia 推出 Llama Nemotron Nano VL 模型
专为复杂文档级图文理解任务打造,适用于服务器与边缘设备部署。
根据marktechpost报道,Nvidia 宣布推出全新视觉-语言模型(VLM)Llama Nemotron Nano VL,旨在高效处理复杂文档级多模态任务,在结构化数据理解、图文信息解析等场景中展现卓越性能。
该模型基于 Llama 3.1 架构,结合 CRadioV2-H 视觉编码器 与 Llama 3.1 8B 指令微调语言模型,支持最长 16K 上下文长度,可同时解析多页文档中的图像与文本信息。通过投影层与旋转位置编码机制,Llama Nemotron Nano VL 实现视觉-文本对齐,并显著优化 token 效率,特别适合图文混合输入及长篇内容解析。
Llama Nemotron Nano VL 的训练过程分为三个阶段:先以商业图像与视频数据集进行交错式图文预训练,再通过多模态指令微调强化交互能力,最后整合纯文本数据优化其语言模型基准表现。训练工作基于 Megatron-LLM 框架 和 Energon 数据加载器,依托 A100 与 H100 GPU 集群完成。
在最新的 OCRBench v2 基准测试中,Llama Nemotron Nano VL 在 OCR、表格解析与图表推理等任务中取得领先表现,尤其在结构化数据提取(如表格、键值对)和布局推理方面,表现可媲美体量更大的模型。
此外,该模型设计灵活,支持在 服务器端与边缘设备部署,提供 4-bit 量化版本(AWQ),结合 TinyChat 与 TensorRT-LLM 实现高效推理,兼容 Jetson Orin 等受限环境。
Nvidia 还提供支持 Modular NIM(推理微服务)、ONNX 和 TensorRT 导出等部署方式,并引入预计算视觉嵌入选项,有效降低静态图像文档处理延迟,为企业应用提供低延迟、高精度的解决方案。
(来源:marktechpost;图片来源:pixabay)