用户:Jujizhiwang/MinerU

MinerU全称PDF文档数据转换器,是上海人工智能实验室[1]OpenDataLab团队开发的用于大语言模型(LLM)、多模态大模型(LMMs)文档数据提取的程序,于2024年7月推出。该程序使用基于文档布局检测、OCR识别、公式识别与检测、表格识别与检测模型库PDF-Extract-Kit [2]训练得到,可将PDF文档转化为机器可读格式的工具(如markdownjson[3],能将包含图片、公式表格脚注目录等在内的多种元素的 PDF 文档转化为机器可读的 Markdown 格式;也支持从包含广告、复杂格式等元素在内的网页电子书中解析、抽取正文内容。可应用在RAG(Retrieval-Augmented Generation,检索增强生成) 人工智能技术中,结合学术文献财务报告法律文件电子书籍等专业文档,帮助人们打造自己的私有知识AI引擎的场景中。[4]

产生背景

编辑

在当前信息量激增的时代,人工智能研究者经常需要从海量文档中提取高质量的数据。这些文档可能包括学术文献、行业报告、会议演示文稿教科书、产品说明书以及合同文件等,它们通常以PDF文件或网页的形式呈现。这些文档内容的复杂性和格式的多样性,为AI语料库的快速、准确提取带来了挑战。

发展历程

编辑

在2024年7月4日举行的WAIC 2024科学前沿主论坛上[5],在数据处理环节,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了智能数据提取工具——MinerU。

主要功能

编辑

MinerU是一个开源的文档和网页数据提取工具,由两个主要部分组成:Magic-PDF和Magic-Doc[6],分别负责PDF文档提取和网页内容提取。Magic-PDF能够识别PDF中的版面元素,自动删除非正文内容,如页眉页脚脚注等,并保留原文档的结构和格式,包括标题、段落、列表等。它还能准确提取图片、表格和公式等内容,并按顺序将文档转换为Markdown格式。[7]

在OpenDataLab自研的公式识别模型的支持下,Magic-PDF能够将文档中的公式转换为LaTeX格式。此外,Magic-PDF还能够识别并转换乱码PDF和扫描版PDF文档。

参考资料

编辑
  1. ^ 嘿呀. MinerU--开源最好的PDF文本、图像、表格、LaTex公式的提取工具。来自上海人工智能实验室. X. 2024.11.19 [2024.11.19] (中文). https://x.com/iheycc/status/1858888915324723285 
  2. ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. 2024.11.10 [2024.11.10] (English). https://x.com/pythontrending/status/1855571366302654886 
  3. ^ Gradio. MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON). X. 2024.11.15 [2024.11.15] (English). https://x.com/Gradio/status/1857119339826020443 
  4. ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. 2024.08.23 [2024.08.23] (English). https://www.youtube.com/watch?v=XNU_MbYq25A&t=634s 
  5. ^ 宋薇萍. 上海人工智能实验室发布一系列新成果 书生通用大模型体系迈向通专融合. 中国证券报. 2024.07.05 [2024.07.05] (中文). https://www.cnstock.com/commonDetail/209283 
  6. ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. 2024.7.11 [2024.7.11] (中文). https://x.com/shao__meng/status/1811362253519876589 
  7. ^ 顶层架构领域. MinerU一款全能、开源的文档与网页数据提取工具. 今日头条. 2024.09.13 [2024.09.13] (中文). https://www.51cto.com/article/796972.html