PaddleOCR Document Parsing
Skill Verifiziert AktivVerwenden Sie diese Fähigkeit, um strukturierte Markdown/JSON aus PDFs und Dokumentbildern zu extrahieren – Tabellen mit präziser Zellendefinition, Formeln als LaTeX, Abbildungen, Siegel, Diagramme, Kopf-/Fußzeilen, mehrspaltiges Layout und korrekte Lesereihenfolge. Trigger-Begriffe: 文档解析, 版面分析, 版面还原, 表格提取, 公式识别, 多栏排版, 扫描件结构化, 发票, 财报, 复杂 PDF, PDF转Markdown, 图表, 阅读顺序; reading order, formula, LaTeX, layout parsing, structure extraction, PP-StructureV3, PaddleOCR-VL.
Um strukturierte Informationen aus komplexen Dokumenten und Bildern genau zu extrahieren und die Inhalte für LLMs und nachfolgende Verarbeitungen leicht nutzbar zu machen.
Funktionen
- Tabellen mit präziser Zellendefinition extrahieren
- Formeln als LaTeX erkennen
- Mehrspaltige Layouts und Lesereihenfolge analysieren
- Strukturierte Markdown- oder JSON-Ausgabe
- Unterstützung für PDFs und Dokumentenbilder
Anwendungsfälle
- Verarbeitung von Rechnungen und Finanzberichten
- Extrahieren von Inhalten aus wissenschaftlichen Arbeiten
- Strukturieren von Daten aus gescannten Dokumenten
- Analysieren komplexer Dokumentenlayouts
Nicht-Ziele
- Einfache textbasierte OCR-Aufgaben
- Geschwindigkeitskritische OCR auf einfachen Bildern
- Verarbeitung von Screenshots oder einfachen Bildern mit klarem Text
Workflow
- Eingabequelle identifizieren (URL oder lokale Datei)
- Skript zur Dokumentenanalyse mit entsprechenden Parametern ausführen
- Die JSON-Antwort parsen (Status `ok` und `error`-Felder prüfen)
- Relevante Daten (Text, Tabellen, Formeln) aus der strukturierten Ausgabe extrahieren
- Ergebnisse dem Benutzer präsentieren oder zur weiteren Verarbeitung verwenden
Voraussetzungen
- Python 3.9+
- uv Paketmanager
- Internetzugang für API-Aufrufe
- Umgebungsvariable PADDLEOCR_DOC_PARSING_API_URL
- Umgebungsvariable PADDLEOCR_ACCESS_TOKEN
Installation
npx skills add PaddlePaddle/PaddleOCRFührt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.
Qualitätspunktzahl
VerifiziertVertrauenssignale
Ähnliche Erweiterungen
Paddleocr Text Recognition
99Verwenden Sie diese Fähigkeit, wenn der Benutzer Text aus Bildern, Fotos, Scans, Screenshots oder gescannten PDFs extrahieren möchte. Gibt exakte maschinenlesbare Zeichenfolgen mit Text auf Zeilenebene und optionalen Bounding-Box-Koordinaten zurück. Hohe Genauigkeit für CJK, Kleingedrucktes und handschriftlichen Text. Auslöserbegriffe: OCR, 文字识别, 图片转文字, 截图识字, 提取图中文字, 扫描识字, 识字, 纯文字, plain text extraction, 坐标, 检测框, bbox, bounding box, image to text, screenshot, photo scan, recognize text.
Convert Resume to Markdown
100Convert a resume PDF to clean markdown for LLM parsing or candidate pipelines.
Firecrawl Parse
99Efficiently extract and convert the contents of any local file—such as PDF, DOCX, DOC, ODT, RTF, XLSX, XLS, or HTML—into clean, well-formatted markdown saved to disk. Use this skill whenever the user requests to parse, read, or extract information from a file on their computer, including phrases like “parse this PDF”, “convert this document”, “read this file”, “extract text from”, or when a local file path (not a URL) is provided. This skill offers advanced options like generating AI-powered summaries and answering questions based on the file's content. Prefer this tool over `scrape` when handling local files to deliver precise, structured outputs for downstream tasks.
Markdown to Styled PDF
99Generate a professionally styled PDF document from Markdown content with custom fonts, headers, and page numbers.
Document Extraction API
99Extract structured data from documents using AI-powered field extraction.
Nutrient Document Processing
98Verarbeiten Sie Dokumente mit Nutrient DWS. Verwenden Sie dies, wenn der Benutzer PDFs aus HTML oder URLs generieren, Office/Bilder/PDFs konvertieren, Pakete zusammenstellen oder aufteilen, Scans OCRen, Text/Tabellen/Schlüssel-Wert-Paare extrahieren, personenbezogene Daten redigieren, Wasserzeichen hinzufügen, signieren, Formulare ausfüllen, PDFs optimieren oder Compliance-Ausgaben wie PDF/A oder PDF/UA erstellen möchte. Auslöser sind: In PDF konvertieren, diese PDFs zusammenführen, diesen Scan OCRen, Tabellen extrahieren, personenbezogene Daten redigieren, dieses PDF signieren, dieses PDF/A erstellen oder zur Webbereitstellung linearisieren.