User:Jujizhiwang/MinerU
您所提交的草稿仍需改善。在2024年11月26日由S8321414 (留言)审阅。
如何改善您的草稿
该草稿已重新提交,目前正在等待审核。 |
您所提交的草稿仍需改善。在2024年11月25日由姆汗費焰 (留言)审阅。 如何改善您的草稿
|
MinerU全称PDF文档数据转换器,是上海人工智能实验室[1]OpenDataLab团队开发的用于大语言模型(LLM)、多模态大模型(LMMs)文档数据提取的程序,于2024年7月推出。该程序使用基于文档布局检测、OCR识别、公式识别与检测、表格识别与检测模型库PDF-Extract-Kit [2]训练得到,可将PDF文档转化为机器可读格式的工具(如markdown、json)[3],能将包含图片、公式、表格、脚注、目录等在内的多种元素的 PDF 文档转化为机器可读的 Markdown 格式;也支持从包含广告、复杂格式等元素在内的网页、电子书中解析、抽取正文内容。可应用在RAG(Retrieval-Augmented Generation,检索增强生成) 人工智能技术中,结合学术文献、财务报告、法律文件、电子书籍等专业文档,帮助人们打造自己的私有知识AI引擎的场景中。[4]
产生背景
编辑在当前信息量激增的时代,人工智能研究者经常需要从海量文档中提取高质量的数据。这些文档可能包括学术文献、行业报告、会议演示文稿、教科书、产品说明书以及合同文件等,它们通常以PDF文件或网页的形式呈现。这些文档内容的复杂性和格式的多样性,为AI语料库的快速、准确提取带来了挑战。
发展历程
编辑在2024年7月4日举行的WAIC 2024科学前沿主论坛上[5],在数据处理环节,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了智能数据提取工具——MinerU。
主要功能
编辑MinerU是一个开源的文档和网页数据提取工具,由两个主要部分组成:Magic-PDF和Magic-Doc[6],分别负责PDF文档提取和网页内容提取。Magic-PDF能够识别PDF中的版面元素,自动删除非正文内容,如页眉、页脚、脚注等,并保留原文档的结构和格式,包括标题、段落、列表等。它还能准确提取图片、表格和公式等内容,并按顺序将文档转换为Markdown格式。[7]
在OpenDataLab自研的公式识别模型的支持下,Magic-PDF能够将文档中的公式转换为LaTeX格式。此外,Magic-PDF还能够识别并转换乱码PDF和扫描版PDF文档。
参考资料
编辑您所提交的草稿正在等待有经验的志愿者審核。
您可能需要等待2至3周,因为草稿的审核没有特定的顺序。目前一共有92篇草稿正在等待志愿者審核。
如何改善您的草稿
|
- ^ 嘿呀. MinerU--开源最好的PDF文本、图像、表格、LaTex公式的提取工具。来自上海人工智能实验室. X. 2024.11.19 [2024.11.19] (中文).
https://x.com/iheycc/status/1858888915324723285
- ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. 2024.11.10 [2024.11.10] (English).
https://x.com/pythontrending/status/1855571366302654886
- ^ Gradio. MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON). X. 2024.11.15 [2024.11.15] (English).
https://x.com/Gradio/status/1857119339826020443
- ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. 2024.08.23 [2024.08.23] (English).
https://www.youtube.com/watch?v=XNU_MbYq25A&t=634s
- ^ 宋薇萍. 上海人工智能实验室发布一系列新成果 书生通用大模型体系迈向通专融合. 中国证券报. 2024.07.05 [2024.07.05] (中文).
https://www.cnstock.com/commonDetail/209283
- ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. 2024.7.11 [2024.7.11] (中文).
https://x.com/shao__meng/status/1811362253519876589
- ^ 顶层架构领域. MinerU一款全能、开源的文档与网页数据提取工具. 今日头条. 2024.09.13 [2024.09.13] (中文).
https://www.51cto.com/article/796972.html