用戶:Jujizhiwang/MinerU
您所提交的草稿仍需改善。在2024年11月26日由S8321414 (留言)審閱。
如何改善您的草稿
該草稿已重新提交,目前正在等待審核。 |
您所提交的草稿仍需改善。在2024年11月25日由姆汗費焰 (留言)審閱。 如何改善您的草稿
|
MinerU全稱PDF文檔數據轉換器,是上海人工智能實驗室[1]OpenDataLab團隊開發的用於大語言模型(LLM)、多模態大模型(LMMs)文檔數據提取的程序,於2024年7月推出。該程序使用基於文檔佈局檢測、OCR識別、公式識別與檢測、表格識別與檢測模型庫PDF-Extract-Kit [2]訓練得到,可將PDF文檔轉化為機器可讀格式的工具(如markdown、json)[3],能將包含圖片、公式、表格、腳註、目錄等在內的多種元素的 PDF 文檔轉化為機器可讀的 Markdown 格式;也支持從包含廣告、複雜格式等元素在內的網頁、電子書中解析、抽取正文內容。可應用在RAG(Retrieval-Augmented Generation,檢索增強生成) 人工智能技術中,結合學術文獻、財務報告、法律文件、電子書籍等專業文檔,幫助人們打造自己的私有知識AI引擎的場景中。[4]
產生背景
編輯在當前信息量激增的時代,人工智能研究者經常需要從海量文檔中提取高質量的數據。這些文檔可能包括學術文獻、行業報告、會議演示文稿、教科書、產品說明書以及合同文件等,它們通常以PDF文件或網頁的形式呈現。這些文檔內容的複雜性和格式的多樣性,為AI語料庫的快速、準確提取帶來了挑戰。
發展歷程
編輯在2024年7月4日舉行的WAIC 2024科學前沿主論壇上[5],在數據處理環節,上海人工智能實驗室(上海AI實驗室)大模型數據基座OpenDataLab團隊開源了智能數據提取工具——MinerU。
主要功能
編輯MinerU是一個開源的文檔和網頁數據提取工具,由兩個主要部分組成:Magic-PDF和Magic-Doc[6],分別負責PDF文檔提取和網頁內容提取。Magic-PDF能夠識別PDF中的版面元素,自動刪除非正文內容,如頁眉、頁腳、腳註等,並保留原文檔的結構和格式,包括標題、段落、列表等。它還能準確提取圖片、表格和公式等內容,並按順序將文檔轉換為Markdown格式。[7]
在OpenDataLab自研的公式識別模型的支持下,Magic-PDF能夠將文檔中的公式轉換為LaTeX格式。此外,Magic-PDF還能夠識別並轉換亂碼PDF和掃描版PDF文檔。
參考資料
編輯您所提交的草稿正在等待有經驗的志願者審核。
您可能需要等待2至3周,因為草稿的審核沒有特定的順序。目前一共有92篇草稿正在等待志願者審核。
如何改善您的草稿
|
- ^ 嘿呀. MinerU--开源最好的PDF文本、图像、表格、LaTex公式的提取工具。来自上海人工智能实验室. X. 2024.11.19 [2024.11.19] (中文).
https://x.com/iheycc/status/1858888915324723285
- ^ Python Trending. PDF-Extract-Kit - A Comprehensive Toolkit for High-Quality PDF Content Extraction. X. 2024.11.10 [2024.11.10] (English).
https://x.com/pythontrending/status/1855571366302654886
- ^ Gradio. MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON). X. 2024.11.15 [2024.11.15] (English).
https://x.com/Gradio/status/1857119339826020443
- ^ Fahd Mirza. MinerU - High-Quality Local PDF Extraction with AI - Dataset Creation Helper. YouTube. 2024.08.23 [2024.08.23] (English).
https://www.youtube.com/watch?v=XNU_MbYq25A&t=634s
- ^ 宋薇萍. 上海人工智能实验室发布一系列新成果 书生通用大模型体系迈向通专融合. 中國證券報. 2024.07.05 [2024.07.05] (中文).
https://www.cnstock.com/commonDetail/209283
- ^ meng shao. MinerU 是一个一站式、开源、高质量的数据提取工具,由 OpenDataLab 开源. X. 2024.7.11 [2024.7.11] (中文).
https://x.com/shao__meng/status/1811362253519876589
- ^ 頂層架構領域. MinerU一款全能、开源的文档与网页数据提取工具. 今日頭條. 2024.09.13 [2024.09.13] (中文).
https://www.51cto.com/article/796972.html