发布时间:2025-06-20 18:28:35编辑:123阅读(23)
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
安装MinerU
创建虚拟环境
conda create -n mineru python=3.10
激活虚拟环境
conda activate mineru
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
参数详解
Usage: mineru [OPTIONS]
Options:
-v, --version 显示版本并退出
-p, --path PATH 输入文件路径或目录(必填)
-o, --output PATH 输出目录(必填)
-m, --method [auto|txt|ocr] 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端)
-b, --backend [pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client] 解析后端(默认为 pipeline)
-l, --lang [ch|ch_server|... ] 指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端)
-u, --url TEXT 当使用 sglang-client 时,需指定服务地址
-s, --start INTEGER 开始解析的页码(从 0 开始)
-e, --end INTEGER 结束解析的页码(从 0 开始)
-f, --formula BOOLEAN 是否启用公式解析(默认开启,仅 pipeline 后端)
-t, --table BOOLEAN 是否启用表格解析(默认开启,仅 pipeline 后端)
-d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端)
--vram INTEGER 单进程最大 GPU 显存占用(仅 pipeline 后端)
--source [huggingface|modelscope|local] 模型来源,默认 huggingface
--help 显示帮助信息
最简单的命令行调用方式如下:
mineru -p <input_path> -o <output_path>
<input_path>:本地 PDF 文件或目录(支持 pdf/png/jpg/jpeg)
<output_path>:输出目录
创建markdown目录,pdf目录,把所有的pdf文档上传到pdf目录。
mkdir markdown_files
mkdir pdf_files
执行命令:
mineru -p /home/sam_admin/pdf_files -o /home/sam_admin/markdown_files
已经成功转为markdown格式了。
识别效果
48966
48099
38838
35965
30382
27168
26160
20997
20831
19183
16°
23°
39°
723°
793°
772°
774°
753°
699°
825°