跳转到主要内容

Polaris AI DataInsight — 文档提取技能

技能 已验证 活跃

使用 Polaris AI DataInsight Doc Extract API 从 Office 文档(DOCX、PPTX、XLSX、HWP、HWPX)中提取结构化数据。当用户想要解析、分析或提取文档文件中的文本、表格、图表、图像或形状时使用。每当用户提及从 Word、PowerPoint、Excel、HWP 或 HWPX 文件提取内容、想要解析文档结构、需要为 RAG 管道转换文档数据,或询问有关读取 Office 格式文档中的表格、图表或文本时,都可以调用此技能 — 即使他们没有明确提到“DataInsight”或“Polaris”。

目的

使您能够使用专用 API 解析、分析和提取各种 Office 文档类型中的结构化内容。

功能

  • 从文档中提取文本、表格、图表、图像、形状、公式
  • 支持 DOCX、PPTX、XLSX、HWP、HWPX 文件格式
  • 以结构化的 `unifiedSchema` JSON 格式提供数据
  • 处理 API 身份验证和响应解析

使用场景

  • 解析和分析 Office 文档内容
  • 为 RAG 管道转换文档数据
  • 将表格和图表提取为结构化格式(CSV、JSON)
  • 自动化从文档文件中提取数据

非目标

  • 编辑或修改文档
  • 提取列表中未包含的文件格式的数据
  • 替换 Polaris AI DataInsight API 本身

工作流

  1. 使用提供的 API 密钥与 Polaris DataInsight API 进行身份验证。
  2. 通过 multipart/form-data POST 上传目标文档文件(DOCX、PPTX、XLSX、HWP、HWPX)。
  3. 从 API 接收 ZIP 文件响应。
  4. 解压 ZIP 文件并加载包含的 `unifiedSchema` JSON。
  5. 返回结构化的 JSON 数据,按页面和元素类型组织。

先决条件

  • Polaris AI DataInsight API 密钥(存储在 POLARIS_DATAINSIGHT_API_KEY 环境变量中)

执行

  • info:固定的依赖项Python 脚本依赖于标准库,但未固定特定版本,这可能导致兼容性问题。

安装

npx skills add jacob-g-park/polaris-datainsight-doc-extract

通过 npx 运行 Vercel skills CLI(skills.sh)— 需要本地安装 Node.js,以及至少一个兼容 skills 的智能体(Claude Code、Cursor、Codex 等)。前提是仓库遵循 agentskills.io 格式。

质量评分

已验证
99 /100
1 day ago 分析

信任信号

最近提交3 months ago
星标2
许可证Apache-2.0
状态
查看源代码