MinerU-linux环境本地部署

发布时间:2025-06-20 18:28:35编辑:123阅读(23)

    MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。

    安装MinerU


    创建虚拟环境

    conda create -n mineru python=3.10

    激活虚拟环境

    conda activate mineru

    git clone https://github.com/opendatalab/MinerU.git

    cd MinerU

    pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple


    参数详解

    Usage: mineru [OPTIONS]


    Options:

      -v, --version                   显示版本并退出

      -p, --path PATH                 输入文件路径或目录(必填)

      -o, --output PATH               输出目录(必填)

      -m, --method [auto|txt|ocr]     解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端)

      -b, --backend [pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client]     解析后端(默认为 pipeline)

      -l, --lang [ch|ch_server|... ]  指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端)

      -u, --url TEXT                  当使用 sglang-client 时,需指定服务地址

      -s, --start INTEGER             开始解析的页码(从 0 开始)

      -e, --end INTEGER               结束解析的页码(从 0 开始)

      -f, --formula BOOLEAN           是否启用公式解析(默认开启,仅 pipeline 后端)

      -t, --table BOOLEAN             是否启用表格解析(默认开启,仅 pipeline 后端)

      -d, --device TEXT               推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端)

      --vram INTEGER                  单进程最大 GPU 显存占用(仅 pipeline 后端)

      --source [huggingface|modelscope|local]    模型来源,默认 huggingface

      --help                          显示帮助信息


    最简单的命令行调用方式如下:

    mineru -p <input_path> -o <output_path>

    <input_path>:本地 PDF 文件或目录(支持 pdf/png/jpg/jpeg)

    <output_path>:输出目录


    创建markdown目录,pdf目录,把所有的pdf文档上传到pdf目录。

    mkdir markdown_files

    mkdir pdf_files

    image.png


    执行命令:

    mineru -p /home/sam_admin/pdf_files  -o /home/sam_admin/markdown_files

    image.png

    已经成功转为markdown格式了。

    image.png


    识别效果

    b2f05ed56b194554d05246ae891e5d02.png



关键字