Polaris AI DataInsight — Doc Extract Skill
Skill Verifiziert AktivExtrahieren Sie strukturierte Daten aus Office-Dokumenten (DOCX, PPTX, XLSX, HWP, HWPX) mit der Polaris AI DataInsight Doc Extract API. Verwenden Sie diese, wenn der Benutzer Text, Tabellen, Diagramme, Bilder oder Formen aus Dokumentdateien parsen, analysieren oder extrahieren möchte. Rufen Sie diese Skill immer dann auf, wenn der Benutzer erwähnt, Inhalte aus Word-, PowerPoint-, Excel-, HWP- oder HWPX-Dateien zu extrahieren, die Dokumentstruktur zu parsen, Dokumentdaten für RAG-Pipelines zu konvertieren oder nach dem Lesen von Tabellen, Diagrammen oder Text aus Office-Formatdokumenten fragt – auch wenn er "DataInsight" oder "Polaris" nicht explizit erwähnt.
Ermöglicht Benutzern das Parsen, Analysieren und Extrahieren strukturierter Inhalte aus verschiedenen Office-Dokumenttypen mithilfe einer spezialisierten API.
Funktionen
- Extrahieren von Text, Tabellen, Diagrammen, Bildern, Formen und Gleichungen aus Dokumenten
- Unterstützt die Dateiformate DOCX, PPTX, XLSX, HWP, HWPX
- Stellt Daten im strukturierten `unifiedSchema` JSON-Format bereit
- Verarbeitet API-Authentifizierung und Antwort-Parsing
Anwendungsfälle
- Parsen und Analysieren von Inhalten aus Office-Dokumenten
- Konvertieren von Dokumentdaten für RAG-Pipelines
- Extrahieren von Tabellen und Diagrammen in strukturierte Formate (CSV, JSON)
- Automatisieren der Datenextraktion aus Dokumentdateien
Nicht-Ziele
- Bearbeiten oder Modifizieren von Dokumenten
- Extrahieren von Daten aus nicht aufgeführten Dateiformaten
- Ersetzen der Polaris AI DataInsight API selbst
Workflow
- Authentifizieren Sie sich bei der Polaris DataInsight API mit dem bereitgestellten API-Schlüssel.
- Laden Sie die Ziel-Dokumentdatei (DOCX, PPTX, XLSX, HWP, HWPX) über multipart/form-data POST hoch.
- Erhalten Sie eine ZIP-Datei-Antwort von der API.
- Extrahieren Sie die ZIP-Datei und laden Sie das enthaltene `unifiedSchema` JSON.
- Geben Sie die strukturierten JSON-Daten zurück, organisiert nach Seite und Elementtyp.
Voraussetzungen
- Polaris AI DataInsight API-Schlüssel (gespeichert in der Umgebungsvariable POLARIS_DATAINSIGHT_API_KEY)
Execution
- info:Pinned dependenciesDas Python-Skript stützt sich auf Standardbibliotheken, aber spezifische Versionen sind nicht fixiert, was zu Kompatibilitätsproblemen führen könnte.
Installation
npx skills add jacob-g-park/polaris-datainsight-doc-extractFührt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.
Qualitätspunktzahl
VerifiziertVertrauenssignale
Ähnliche Erweiterungen
Website Extraction Api
100Extract typed JSON from public website pages using a schema.
Extract Supplier Catalog From Website
100Extract SKUs, product names, unit prices, availability, and minimum order quantities from a supplier catalog page.
Extract Real Estate Listing
100Extract property address, price, room count, and features from a listing document into structured JSON for MLS and property platforms.
Extract Fleet Vehicle Registration
100Extract vehicle identification, owner details, registration dates, and technical specifications from vehicle registration documents.
Extract Receipt Data
99Extract merchant, date, line items, tax, and total from receipts.
Extract Property Appraisal
99Extract appraised value, property details, and comparable sales from a property appraisal report into structured JSON.