📄 ParseFlow

AI 驱动的全能文档解析库

English | 中文

ParseFlow 是一个全面的文档解析解决方案，支持 PDF、Word、Excel、PowerPoint 和 图片 OCR。它提供独立的核心库和 MCP 服务器，可供 AI 助手使用。

✨ 功能特性

📄 PDF 支持

✅ 多策略文本提取（原始、格式化、清理）
✅ 按页或按范围提取
✅ 🔐 加密 PDF 密码支持
✅ 📄 PDF 合并、拆分、提取页面
✅ 元数据获取、全文搜索

📝 Word / 📊 Excel / 🎯 PowerPoint

✅ 文本提取和搜索
✅ HTML 转换（Word）
✅ 多工作表支持（Excel）
✅ 幻灯片提取（PowerPoint）

🔍 OCR 图片识别

✅ 支持 12 种语言
✅ 图片文字提取和搜索

🧠 语义搜索

✅ AI 向量嵌入
✅ 智能文档搜索（无需精确关键词）

📦 批量处理

✅ 并行处理多个文件
✅ 目录递归扫描
✅ 批量提取和搜索

🤖 MCP 服务器

✅ 20 个 AI 助手工具
✅ 支持 Claude Desktop、Windsurf、Cursor

📦 安装

核心库

npm install parseflow-core

MCP 服务器

npm install -g parseflow-mcp-server
# 或使用 npx
npx parseflow-mcp-server

🚀 快速开始

PDF 解析

import { PDFParser } from 'parseflow-core';

const parser = new PDFParser();
const text = await parser.extractText('document.pdf');
const results = await parser.search('document.pdf', '关键词');

Word 解析

import { WordParser } from 'parseflow-core';

const parser = new WordParser();
const result = await parser.extractText('report.docx');
const html = await parser.extractHTML('report.docx');

Excel 解析

import { ExcelParser } from 'parseflow-core';

const parser = new ExcelParser();
const data = await parser.extractData('spreadsheet.xlsx');
const results = await parser.searchText('data.xlsx', '收入');

PowerPoint 解析

import { PowerPointParser } from 'parseflow-core';

const parser = new PowerPointParser();
const result = await parser.extractText('presentation.pptx');
const results = await parser.searchText('slides.pptx', '关键词');

🛠️ MCP 服务器配置

Claude Desktop

在 claude_desktop_config.json 中添加：

{
  "mcpServers": {
    "parseflow": {
      "command": "npx",
      "args": ["-y", "parseflow-mcp-server"]
    }
  }
}

可用工具（23 个）

类别	工具	描述
PDF	`extract_text`	提取文本（支持加密 PDF）
	`get_metadata`	获取元数据
	`search_pdf`	全文搜索
	`extract_images`	提取图片
	`get_toc`	获取目录
	`merge_pdf`	合并多个 PDF
	`split_pdf`	拆分为单页
	`extract_pdf_pages`	提取指定页码
	`add_watermark`	添加文字水印
	`add_image_watermark`	添加图片水印
	`remove_watermark`	移除水印（覆盖）
Word	`extract_word`	提取文本/HTML
	`search_word`	文本搜索
Excel	`extract_excel`	提取数据
	`search_excel`	单元格搜索
PPT	`extract_powerpoint`	提取幻灯片
	`search_powerpoint`	幻灯片搜索
OCR	`extract_ocr`	图片文字识别
	`search_ocr`	OCR 文本搜索
AI	`semantic_index`	文档向量索引
	`semantic_search`	语义相似搜索
批量	`batch_extract`	批量提取多文件
	`batch_search`	批量搜索多文件

📈 版本历史

版本	功能
v1.8.0	💧 PDF 水印（文字/图片水印）
v1.7.0	📦 批量处理（并行处理多文件）
v1.6.0	🧠 语义搜索（AI 向量嵌入）
v1.5.0	📄 PDF 合并/拆分/提取
v1.4.0	🔐 加密 PDF 支持
v1.3.0	🔍 OCR 图片文字识别
v1.2.0	🎯 PowerPoint 支持
v1.1.0	📝 Word + 📊 Excel 支持
v1.0.0	📄 PDF 基础解析

🔗 链接

npm Core: https://www.npmjs.com/package/parseflow-core
npm MCP: https://www.npmjs.com/package/parseflow-mcp-server
GitHub: https://github.com/Libres-coder/ParseFlow

📄 许可证

MIT License - 详见 LICENSE

Made with ❤️ by Libres-coder

Name		Name	Last commit message	Last commit date
Latest commit History 91 Commits
.github		.github
docs		docs
examples		examples
packages		packages
scripts		scripts
tests		tests
.cleanup-files.txt		.cleanup-files.txt
.cleanup-list.txt		.cleanup-list.txt
.cleanup-plan.md		.cleanup-plan.md
.env.example		.env.example
.eslintignore		.eslintignore
.eslintrc.cjs		.eslintrc.cjs
.gitattributes		.gitattributes
.gitignore		.gitignore
.npmignore		.npmignore
.prettierrc		.prettierrc
.windsurfrules		.windsurfrules
ACTION_ITEMS.md		ACTION_ITEMS.md
ACTION_PLAN.md		ACTION_PLAN.md
CHANGELOG.md		CHANGELOG.md
CI_FIX_COMPLETE.md		CI_FIX_COMPLETE.md
CI_FIX_SUMMARY.md		CI_FIX_SUMMARY.md
CLEANUP_CHECKLIST.md		CLEANUP_CHECKLIST.md
CLEANUP_COMPLETE.md		CLEANUP_COMPLETE.md
CLEANUP_FINAL.md		CLEANUP_FINAL.md
CLEANUP_SUMMARY.md		CLEANUP_SUMMARY.md
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
COMPLETE_AUDIT.md		COMPLETE_AUDIT.md
COMPLETION_REPORT.md		COMPLETION_REPORT.md
CONTRIBUTING.md		CONTRIBUTING.md
CURRENT_STATUS.md		CURRENT_STATUS.md
CURSOR_SETUP.md		CURSOR_SETUP.md
DOCS_CLEANUP_PLAN.md		DOCS_CLEANUP_PLAN.md
DOCS_REVIEW_FINAL.md		DOCS_REVIEW_FINAL.md
DOCUMENTATION_AND_I18N_COMPLETE.md		DOCUMENTATION_AND_I18N_COMPLETE.md
DOCUMENTATION_UPDATE.md		DOCUMENTATION_UPDATE.md
DOCUMENTATION_UPDATE_SUMMARY.md		DOCUMENTATION_UPDATE_SUMMARY.md
DOCUMENT_ANALYSIS.md		DOCUMENT_ANALYSIS.md
FAQ.md		FAQ.md
FILES_REVIEW.md		FILES_REVIEW.md
FILE_NAMING_AUDIT.md		FILE_NAMING_AUDIT.md
FINAL_CLEANUP_REPORT.md		FINAL_CLEANUP_REPORT.md
FINAL_REPORT.md		FINAL_REPORT.md
FINAL_SUMMARY.md		FINAL_SUMMARY.md
FINAL_TEST_REPORT.md		FINAL_TEST_REPORT.md
IMPLEMENTATION_SUMMARY.md		IMPLEMENTATION_SUMMARY.md
LICENSE		LICENSE
MCP_MARKETPLACE_SUBMISSION.md		MCP_MARKETPLACE_SUBMISSION.md
MCP_PUBLISH_SUCCESS.md		MCP_PUBLISH_SUCCESS.md
MCP_REGISTRY_BUG_REPORT.md		MCP_REGISTRY_BUG_REPORT.md
MCP_REGISTRY_PUBLISH_GUIDE.md		MCP_REGISTRY_PUBLISH_GUIDE.md
MCP_REGISTRY_SUBMISSION.md		MCP_REGISTRY_SUBMISSION.md
NEXT_STEPS.md		NEXT_STEPS.md
NPM_PUBLISH_GUIDE.md		NPM_PUBLISH_GUIDE.md
OFFICE_EXAMPLES.md		OFFICE_EXAMPLES.md
PHASE_ABC_COMPLETE.md		PHASE_ABC_COMPLETE.md
POST_RELEASE_TASKS.md		POST_RELEASE_TASKS.md
PROJECT_CLEANUP.md		PROJECT_CLEANUP.md
PROJECT_CLEANUP_SUMMARY.md		PROJECT_CLEANUP_SUMMARY.md
PROJECT_FINAL_STATUS.md		PROJECT_FINAL_STATUS.md
PROJECT_METRICS.md		PROJECT_METRICS.md
PROJECT_REVIEW_AND_ROADMAP.md		PROJECT_REVIEW_AND_ROADMAP.md
PROJECT_STATUS.md		PROJECT_STATUS.md
PROJECT_STRUCTURE_ANALYSIS.md		PROJECT_STRUCTURE_ANALYSIS.md
PROJECT_SUMMARY_v1.7.1.md		PROJECT_SUMMARY_v1.7.1.md
PROMOTION_CONTENT.md		PROMOTION_CONTENT.md
PROMOTION_v1.1.0.md		PROMOTION_v1.1.0.md
PROPER_CI_FIX.md		PROPER_CI_FIX.md
PUBLISH_CHECKLIST_v1.1.0.md		PUBLISH_CHECKLIST_v1.1.0.md
PUBLISH_NOW.md		PUBLISH_NOW.md
QUICK_ACTIONS.md		QUICK_ACTIONS.md
QUICK_MCP_PUBLISH.md		QUICK_MCP_PUBLISH.md
QUICK_START.md		QUICK_START.md
README.md		README.md
README_CN.md		README_CN.md
README_EN.md		README_EN.md
README_NEW.md		README_NEW.md
RELEASE_GUIDE.md		RELEASE_GUIDE.md
RELEASE_STATUS_v1.1.0.md		RELEASE_STATUS_v1.1.0.md
RELEASE_SUCCESS.md		RELEASE_SUCCESS.md
RELEASE_v1.0.0.md		RELEASE_v1.0.0.md
RELEASE_v1.0.2.md		RELEASE_v1.0.2.md
RELEASE_v1.1.0.md		RELEASE_v1.1.0.md
REORGANIZATION_COMPLETE.md		REORGANIZATION_COMPLETE.md
ROADMAP_v2.0.md		ROADMAP_v2.0.md
SCRIPTS_REVIEW.md		SCRIPTS_REVIEW.md
SECURITY.md		SECURITY.md
TODO.md		TODO.md
TRANSLATION_100_PERCENT_COMPLETE.md		TRANSLATION_100_PERCENT_COMPLETE.md
TRANSLATION_COMPLETE_SUMMARY.md		TRANSLATION_COMPLETE_SUMMARY.md
TRANSLATION_FINAL_STATUS.md		TRANSLATION_FINAL_STATUS.md
TRANSLATION_PROGRESS_UPDATE.md		TRANSLATION_PROGRESS_UPDATE.md
UPDATE_SUMMARY.md		UPDATE_SUMMARY.md
WINDSURF_SETUP.md		WINDSURF_SETUP.md
WORK_SUMMARY.md		WORK_SUMMARY.md
check-env.ts		check-env.ts
debug-pdfimages.ts		debug-pdfimages.ts
jest.config.cjs		jest.config.cjs
package.json		package.json
pnpm-lock.yaml		pnpm-lock.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

📄 ParseFlow

✨ 功能特性

📄 PDF 支持

📝 Word / 📊 Excel / 🎯 PowerPoint

🔍 OCR 图片识别

🧠 语义搜索

📦 批量处理

🤖 MCP 服务器

📦 安装

核心库

MCP 服务器

🚀 快速开始

PDF 解析

Word 解析

Excel 解析

PowerPoint 解析

🛠️ MCP 服务器配置

Claude Desktop

可用工具（23 个）

📈 版本历史

🔗 链接

📄 许可证

About

Uh oh!

Releases 4

Packages

Languages

License

Libres-coder/ParseFlow

Folders and files

Latest commit

History

Repository files navigation

📄 ParseFlow

✨ 功能特性

📄 PDF 支持

📝 Word / 📊 Excel / 🎯 PowerPoint

🔍 OCR 图片识别

🧠 语义搜索

📦 批量处理

🤖 MCP 服务器

📦 安装

核心库

MCP 服务器

🚀 快速开始

PDF 解析

Word 解析

Excel 解析

PowerPoint 解析

🛠️ MCP 服务器配置

Claude Desktop

可用工具（23 个）

📈 版本历史

🔗 链接

📄 许可证

About

Resources

License

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases 4

Packages 0

Languages

Packages