用戶:Jujizhiwang/MinerU

MinerU全稱PDF文檔數據轉換器,是上海人工智能實驗室[1]OpenDataLab團隊開發的用於大語言模型(LLM)、多模態大模型(LMMs)文檔數據提取的程序,於2024年7月推出。該程序使用基於文檔佈局檢測、OCR識別、公式識別與檢測、表格識別與檢測模型庫PDF-Extract-Kit [2]訓練得到,可將PDF文檔轉化為機器可讀格式的工具(如markdownjson[3],能將包含圖片、公式表格腳註目錄等在內的多種元素的 PDF 文檔轉化為機器可讀的 Markdown 格式;也支持從包含廣告、複雜格式等元素在內的網頁電子書中解析、抽取正文內容。可應用在RAG(Retrieval-Augmented Generation,檢索增強生成) 人工智能技術中,結合學術文獻財務報告法律文件電子書籍等專業文檔,幫助人們打造自己的私有知識AI引擎的場景中。[4]

產生背景

編輯

在當前信息量激增的時代,人工智能研究者經常需要從海量文檔中提取高質量的數據。這些文檔可能包括學術文獻、行業報告、會議演示文稿教科書、產品說明書以及合同文件等,它們通常以PDF文件或網頁的形式呈現。這些文檔內容的複雜性和格式的多樣性,為AI語料庫的快速、準確提取帶來了挑戰。

發展歷程

編輯

在2024年7月4日舉行的WAIC 2024科學前沿主論壇上[5],在數據處理環節,上海人工智能實驗室(上海AI實驗室)大模型數據基座OpenDataLab團隊開源了智能數據提取工具——MinerU。

主要功能

編輯

MinerU是一個開源的文檔和網頁數據提取工具,由兩個主要部分組成:Magic-PDF和Magic-Doc[6],分別負責PDF文檔提取和網頁內容提取。Magic-PDF能夠識別PDF中的版面元素,自動刪除非正文內容,如頁眉頁腳腳註等,並保留原文檔的結構和格式,包括標題、段落、列表等。它還能準確提取圖片、表格和公式等內容,並按順序將文檔轉換為Markdown格式。[7]

在OpenDataLab自研的公式識別模型的支持下,Magic-PDF能夠將文檔中的公式轉換為LaTeX格式。此外,Magic-PDF還能夠識別並轉換亂碼PDF和掃描版PDF文檔。

參考資料

編輯
  1. ^ 嘿呀. MinerU--开源最好的PDF文本、图像、表格、LaTex公式的提取工具。来自上海人工智能实验室. X. 2024.11.19 [2024.11.19] (中文). https://x.com/iheycc/status/1858888915324723285 
  2. ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. 2024.11.10 [2024.11.10] (English). https://x.com/pythontrending/status/1855571366302654886 
  3. ^ Gradio. MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON). X. 2024.11.15 [2024.11.15] (English). https://x.com/Gradio/status/1857119339826020443 
  4. ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. 2024.08.23 [2024.08.23] (English). https://www.youtube.com/watch?v=XNU_MbYq25A&t=634s 
  5. ^ 宋薇萍. 上海人工智能实验室发布一系列新成果 书生通用大模型体系迈向通专融合. 中國證券報. 2024.07.05 [2024.07.05] (中文). https://www.cnstock.com/commonDetail/209283 
  6. ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. 2024.7.11 [2024.7.11] (中文). https://x.com/shao__meng/status/1811362253519876589 
  7. ^ 頂層架構領域. MinerU一款全能、开源的文档与网页数据提取工具. 今日頭條. 2024.09.13 [2024.09.13] (中文). https://www.51cto.com/article/796972.html