Zum Hauptinhalt springen
Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Convert Document For Rag Ingestion

Skill Aktiv

Convert a document to clean markdown suitable for chunking and embedding in a RAG pipeline.

Zweck

To enable AI teams to efficiently prepare documents for RAG pipelines by converting them into a clean, chunkable markdown format.

Funktionen

  • Convert documents to markdown
  • Suitable for RAG chunking and embedding
  • API integration via SDKs and curl
  • Example workflows for n8n

Anwendungsfälle

  • Preparing PDF documents for a RAG knowledge base
  • Converting technical manuals into clean markdown for LLM processing
  • Automating document cleaning for embedding pipelines

Nicht-Ziele

  • Performing complex text analysis beyond format conversion
  • Acting as a general-purpose document editor
  • Interacting with local file systems directly

Security

  • warning:Secret ManagementThe API key is expected to be provided via an environment variable or directly in code examples, with no explicit guidance on secure secret management practices.

Installation

Zuerst Marketplace hinzufügen

/plugin marketplace add iterationlayer/skills
/plugin install skills@iterationlayer-skills

Qualitätspunktzahl

97 /100
Analysiert about 22 hours ago

Vertrauenssignale

Letzter Commit16 days ago
Sterne0
LizenzMIT
Status
Quellcode ansehen

Ähnliche Erweiterungen

Convert Resume to Markdown

100

Convert a resume PDF to clean markdown for LLM parsing or candidate pipelines.

Skill
iterationlayer

Extract Fleet Vehicle Registration

100

Extract vehicle identification, owner details, registration dates, and technical specifications from vehicle registration documents.

Skill
iterationlayer

Document Extraction API

99

Extract structured data from documents using AI-powered field extraction.

Skill
iterationlayer

Convert Contract To Markdown

99

Convert a contract PDF to clean markdown for clause extraction or LLM analysis.

Skill
iterationlayer

Polaris AI DataInsight — Doc Extract Skill

99

Extrahieren Sie strukturierte Daten aus Office-Dokumenten (DOCX, PPTX, XLSX, HWP, HWPX) mit der Polaris AI DataInsight Doc Extract API. Verwenden Sie diese, wenn der Benutzer Text, Tabellen, Diagramme, Bilder oder Formen aus Dokumentdateien parsen, analysieren oder extrahieren möchte. Rufen Sie diese Skill immer dann auf, wenn der Benutzer erwähnt, Inhalte aus Word-, PowerPoint-, Excel-, HWP- oder HWPX-Dateien zu extrahieren, die Dokumentstruktur zu parsen, Dokumentdaten für RAG-Pipelines zu konvertieren oder nach dem Lesen von Tabellen, Diagrammen oder Text aus Office-Formatdokumenten fragt – auch wenn er "DataInsight" oder "Polaris" nicht explizit erwähnt.

Skill
jacob-g-park

PaddleOCR Document Parsing

99

Verwenden Sie diese Fähigkeit, um strukturierte Markdown/JSON aus PDFs und Dokumentbildern zu extrahieren – Tabellen mit präziser Zellendefinition, Formeln als LaTeX, Abbildungen, Siegel, Diagramme, Kopf-/Fußzeilen, mehrspaltiges Layout und korrekte Lesereihenfolge. Trigger-Begriffe: 文档解析, 版面分析, 版面还原, 表格提取, 公式识别, 多栏排版, 扫描件结构化, 发票, 财报, 复杂 PDF, PDF转Markdown, 图表, 阅读顺序; reading order, formula, LaTeX, layout parsing, structure extraction, PP-StructureV3, PaddleOCR-VL.

Skill
PaddlePaddle