Zum Hauptinhalt springen

Polaris AI DataInsight — Doc Extract Skill

Skill Verifiziert Aktiv

Extrahieren Sie strukturierte Daten aus Office-Dokumenten (DOCX, PPTX, XLSX, HWP, HWPX) mit der Polaris AI DataInsight Doc Extract API. Verwenden Sie diese, wenn der Benutzer Text, Tabellen, Diagramme, Bilder oder Formen aus Dokumentdateien parsen, analysieren oder extrahieren möchte. Rufen Sie diese Skill immer dann auf, wenn der Benutzer erwähnt, Inhalte aus Word-, PowerPoint-, Excel-, HWP- oder HWPX-Dateien zu extrahieren, die Dokumentstruktur zu parsen, Dokumentdaten für RAG-Pipelines zu konvertieren oder nach dem Lesen von Tabellen, Diagrammen oder Text aus Office-Formatdokumenten fragt – auch wenn er "DataInsight" oder "Polaris" nicht explizit erwähnt.

Zweck

Ermöglicht Benutzern das Parsen, Analysieren und Extrahieren strukturierter Inhalte aus verschiedenen Office-Dokumenttypen mithilfe einer spezialisierten API.

Funktionen

  • Extrahieren von Text, Tabellen, Diagrammen, Bildern, Formen und Gleichungen aus Dokumenten
  • Unterstützt die Dateiformate DOCX, PPTX, XLSX, HWP, HWPX
  • Stellt Daten im strukturierten `unifiedSchema` JSON-Format bereit
  • Verarbeitet API-Authentifizierung und Antwort-Parsing

Anwendungsfälle

  • Parsen und Analysieren von Inhalten aus Office-Dokumenten
  • Konvertieren von Dokumentdaten für RAG-Pipelines
  • Extrahieren von Tabellen und Diagrammen in strukturierte Formate (CSV, JSON)
  • Automatisieren der Datenextraktion aus Dokumentdateien

Nicht-Ziele

  • Bearbeiten oder Modifizieren von Dokumenten
  • Extrahieren von Daten aus nicht aufgeführten Dateiformaten
  • Ersetzen der Polaris AI DataInsight API selbst

Workflow

  1. Authentifizieren Sie sich bei der Polaris DataInsight API mit dem bereitgestellten API-Schlüssel.
  2. Laden Sie die Ziel-Dokumentdatei (DOCX, PPTX, XLSX, HWP, HWPX) über multipart/form-data POST hoch.
  3. Erhalten Sie eine ZIP-Datei-Antwort von der API.
  4. Extrahieren Sie die ZIP-Datei und laden Sie das enthaltene `unifiedSchema` JSON.
  5. Geben Sie die strukturierten JSON-Daten zurück, organisiert nach Seite und Elementtyp.

Voraussetzungen

  • Polaris AI DataInsight API-Schlüssel (gespeichert in der Umgebungsvariable POLARIS_DATAINSIGHT_API_KEY)

Execution

  • info:Pinned dependenciesDas Python-Skript stützt sich auf Standardbibliotheken, aber spezifische Versionen sind nicht fixiert, was zu Kompatibilitätsproblemen führen könnte.

Installation

npx skills add jacob-g-park/polaris-datainsight-doc-extract

Führt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.

Qualitätspunktzahl

Verifiziert
99 /100
Analysiert about 22 hours ago

Vertrauenssignale

Letzter Commit3 months ago
Sterne2
LizenzApache-2.0
Status
Quellcode ansehen