PaddleOCR 文档解析
技能 已验证 活跃使用此技能可从 PDF 和文档图像中提取结构化 Markdown/JSON — 表格(精确到单元格)、公式(LaTeX 格式)、图形、印章、图表、页眉/页脚、多栏布局和正确的阅读顺序。触发词:文档解析, 版面分析, 版面还原, 表格提取, 公式识别, 多栏排版, 扫描件结构化, 发票, 财报, 复杂 PDF, PDF转Markdown, 图表, 阅读顺序; reading order, formula, LaTeX, layout parsing, structure extraction, PP-StructureV3, PaddleOCR-VL.
精确地从复杂的文档和图像中提取结构化信息,使内容易于被 LLM 和下游处理使用。
功能
- 提取具有单元格级别精度的表格
- 将公式识别为 LaTeX
- 解析多栏布局和阅读顺序
- 输出结构化的 Markdown 或 JSON
- 支持 PDF 和文档图像
使用场景
- 处理发票和财务报告
- 提取学术论文内容
- 结构化扫描文档数据
- 分析复杂文档布局
非目标
- 简单的纯文本 OCR 任务
- 对简单图像进行速度要求高的 OCR
- 处理屏幕截图或带有清晰文本的简单图像
工作流
- 识别输入源(URL 或本地文件)
- 使用适当的参数执行文档解析脚本
- 解析 JSON 响应(检查 `ok` 状态和 `error` 字段)
- 从结构化输出中提取相关数据(文本、表格、公式)
- 将结果呈现给用户或用于进一步处理
先决条件
- Python 3.9+
- uv 包管理器
- 用于 API 调用的互联网访问
- PADDLEOCR_DOC_PARSING_API_URL 环境变量
- PADDLEOCR_ACCESS_TOKEN 环境变量
安装
npx skills add PaddlePaddle/PaddleOCR通过 npx 运行 Vercel skills CLI(skills.sh)— 需要本地安装 Node.js,以及至少一个兼容 skills 的智能体(Claude Code、Cursor、Codex 等)。前提是仓库遵循 agentskills.io 格式。
质量评分
已验证类似扩展
Paddleocr 文本识别
99当用户希望从图像、照片、扫描件、截图或扫描的 PDF 中提取文本时,请使用此技能。返回机器可读的精确字符串,包含行级文本和可选的 bbox 坐标。对 CJK、小字和手写文本具有很高的准确性。触发词:OCR、文字识别、图片转文字、截图识字、提取图中文字、扫描识字、识字、纯文字、plain text extraction、坐标、检测框、bbox、bounding box、image to text、screenshot、photo scan、recognize text。
Convert Resume to Markdown
100Convert a resume PDF to clean markdown for LLM parsing or candidate pipelines.
Firecrawl Parse
99Efficiently extract and convert the contents of any local file—such as PDF, DOCX, DOC, ODT, RTF, XLSX, XLS, or HTML—into clean, well-formatted markdown saved to disk. Use this skill whenever the user requests to parse, read, or extract information from a file on their computer, including phrases like “parse this PDF”, “convert this document”, “read this file”, “extract text from”, or when a local file path (not a URL) is provided. This skill offers advanced options like generating AI-powered summaries and answering questions based on the file's content. Prefer this tool over `scrape` when handling local files to deliver precise, structured outputs for downstream tasks.
Markdown to Styled PDF
99Generate a professionally styled PDF document from Markdown content with custom fonts, headers, and page numbers.
Document Extraction API
99Extract structured data from documents using AI-powered field extraction.
Nutrient Document Processing
98使用 Nutrient DWS 处理文档。当用户希望从 HTML 或 URL 生成 PDF、转换 Office/图像/PDF、组装或拆分文件包、OCR 扫描件、提取文本/表格/键值对、进行 PII 拟态、添加水印、签名、填充表单、优化 PDF 或生成 PDF/A 或 PDF/UA 等合规性输出时使用。触发器包括转换为 PDF、合并这些 PDF、OCR 此扫描件、提取表格、拟态 PII、签名此 PDF、制作此 PDF/A 或为 Web 交付进行线性化。