Polaris AI DataInsight — 文档提取技能
技能 已验证 活跃使用 Polaris AI DataInsight Doc Extract API 从 Office 文档(DOCX、PPTX、XLSX、HWP、HWPX)中提取结构化数据。当用户想要解析、分析或提取文档文件中的文本、表格、图表、图像或形状时使用。每当用户提及从 Word、PowerPoint、Excel、HWP 或 HWPX 文件提取内容、想要解析文档结构、需要为 RAG 管道转换文档数据,或询问有关读取 Office 格式文档中的表格、图表或文本时,都可以调用此技能 — 即使他们没有明确提到“DataInsight”或“Polaris”。
使您能够使用专用 API 解析、分析和提取各种 Office 文档类型中的结构化内容。
功能
- 从文档中提取文本、表格、图表、图像、形状、公式
- 支持 DOCX、PPTX、XLSX、HWP、HWPX 文件格式
- 以结构化的 `unifiedSchema` JSON 格式提供数据
- 处理 API 身份验证和响应解析
使用场景
- 解析和分析 Office 文档内容
- 为 RAG 管道转换文档数据
- 将表格和图表提取为结构化格式(CSV、JSON)
- 自动化从文档文件中提取数据
非目标
- 编辑或修改文档
- 提取列表中未包含的文件格式的数据
- 替换 Polaris AI DataInsight API 本身
工作流
- 使用提供的 API 密钥与 Polaris DataInsight API 进行身份验证。
- 通过 multipart/form-data POST 上传目标文档文件(DOCX、PPTX、XLSX、HWP、HWPX)。
- 从 API 接收 ZIP 文件响应。
- 解压 ZIP 文件并加载包含的 `unifiedSchema` JSON。
- 返回结构化的 JSON 数据,按页面和元素类型组织。
先决条件
- Polaris AI DataInsight API 密钥(存储在 POLARIS_DATAINSIGHT_API_KEY 环境变量中)
执行
- info:固定的依赖项Python 脚本依赖于标准库,但未固定特定版本,这可能导致兼容性问题。
安装
npx skills add jacob-g-park/polaris-datainsight-doc-extract通过 npx 运行 Vercel skills CLI(skills.sh)— 需要本地安装 Node.js,以及至少一个兼容 skills 的智能体(Claude Code、Cursor、Codex 等)。前提是仓库遵循 agentskills.io 格式。
质量评分
已验证类似扩展
Website Extraction Api
100Extract typed JSON from public website pages using a schema.
Extract Supplier Catalog From Website
100Extract SKUs, product names, unit prices, availability, and minimum order quantities from a supplier catalog page.
Extract Real Estate Listing
100Extract property address, price, room count, and features from a listing document into structured JSON for MLS and property platforms.
Extract Fleet Vehicle Registration
100Extract vehicle identification, owner details, registration dates, and technical specifications from vehicle registration documents.
Extract Receipt Data
99Extract merchant, date, line items, tax, and total from receipts.
Extract Property Appraisal
99Extract appraised value, property details, and comparable sales from a property appraisal report into structured JSON.