轻量级OCR模型！MonkeyOCR：高效精准的文档解析开源项目！

内容分享9个月前发布青提茉莉o

近日，Yuliang-Liu团队在GitHub上开源了一款轻量级基于LLM的文档解析模型：MonkeyOCR！

支持高效地将非结构化文档内容转换为结构化信息。基于准确的布局分机，显著提升文档解析的准确性和效率。

轻量级OCR模型！MonkeyOCR：高效精准的文档解析开源项目！

主要功能：

文档解析与结构化：将各种格式的文档（如PDF、图像等）中的非结构化内容（包括文本、表格、公式、图像等）转换为结构化的机器可读信息。

轻量级OCR模型！MonkeyOCR：高效精准的文档解析开源项目！

多语言支持：支持多种语言，包括中文和英文。

高效处理复杂文档：在处理复杂文档（如包含公式、表格、多栏布局等）时表现出色。

轻量级OCR模型！MonkeyOCR：高效精准的文档解析开源项目！

快速多页文档处理：高效处理多页文档，处理速度达到每秒0.84页，显著优于其他工具（如MinerU每秒0.65页，Qwen2.5-VL-7B每秒0.12页)。

灵活的部署与扩展：支持在单个NVIDIA3090GPU上高效部署，满足不同规模的需求。

技术原理：

结构-识别-关系（SRR）三元组范式：基于YOLO的文档布局检测器，识别文档中的关键元素（如文本块、表格、公式、图像等）的位置和类别，确保高精度。

轻量级OCR模型！MonkeyOCR：高效精准的文档解析开源项目！

MonkeyDoc数据集：MonkeyDoc是迄今为止最全面的文档解析数据集，包含390万个实例，涵盖中文和英文的十多种文档类型。

轻量级OCR模型！MonkeyOCR：高效精准的文档解析开源项目！

模型优化与部署：用AdamW优化器和余弦学习率调度，结合大规模数据集进行训练，确保模型在精度和效率之间的平衡。

GitHub：https://github.com/Yuliang-Liu/MonkeyOCR

在线体验：
http://vlrlabmonkey.xyz:7685/

#AI开源项目推荐##github##AI技术##开源OCR#OCR模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

符合GB12021.9-2008/GB/T13380-2018 电风扇能效测试系统

符合GB12021.9-2008/GB/T13380-2018 电风扇能效测试系统

4个月前

070

Flink与Hadoop集成：大数据生态的无缝对接

Flink与Hadoop集成：大数据生态的无缝对接

9个月前

01420

收藏夹失控？NAS部署Karakeep，轻松收藏、搜索、管理一切内容。

收藏夹失控？NAS部署Karakeep，轻松收藏、搜索、管理一切内容。

8个月前

290

蓝桥杯青少组scratch选拔赛省赛国赛历年真题库源码stema科学素养

蓝桥杯青少组scratch选拔赛省赛国赛历年真题库源码stema科学素养

1个月前

050

1 条评论

顾小海读者

收藏了，感谢分享

9个月前无记录

回复