Skip to content

提议:新增 MinerU 文档解析 SOP(memory/mineru_sop.md),见 PR #578 #579

@GGzili

Description

@GGzili

背景

想给 memory/ 加一个 MinerU 文档解析能力:PDF / Office / 图片 / HTML → Markdown + 结构化 JSON,调用 mineru.net 官方 API v4,无需本地 GPU。已提 PR #578

形式(按仓库现有"工具配套 SOP"模式)

参考 procmem_scanner_sop.md + procmem_scanner.py

  • memory/mineru_sop.md —— 操作文档(快速开始 / 接口要点 / 注意事项)
  • memory/mineru.py —— 零额外依赖(仅用已有的 requests)。提交 URL 或本地文件 → 轮询 → 下载并解压出 Markdown/JSON。

为什么

文档转 Markdown 是 agent 常见刚需,本能力可复用、token 占用低。

说明

已注意到 CONTRIBUTING 中"特定 API 集成偏向 Skill Marketplace"的定位;如更适合放市场而非核心,我可调整或迁移。由本人实现并自测(py_compile 通过)。

关联 PR: #578

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions