Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Nemo Curator

Skill Verifiziert Aktiv

GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.

Zweck

To efficiently prepare high-quality training datasets for LLMs by accelerating data curation tasks like deduplication and filtering, significantly reducing processing time and cost.

Funktionen

GPU-accelerated data curation
Multimodal data support (text, image, video, audio)
Fast fuzzy deduplication (16x speedup)
Advanced quality filtering (30+ heuristics)
PII redaction and NSFW detection

Anwendungsfälle

Preparing LLM training data from web scrapes
Cleaning and deduplicating large corpora
Curating multi-modal datasets for AI models
Filtering low-quality or sensitive content from datasets

Nicht-Ziele

CPU-based data processing
Basic data cleaning without advanced curation features
Data processing focused on non-LLM use cases
Acting as a general data analysis tool

Trust

info:Issues AttentionThere are 17 open issues and 4 closed issues in the last 90 days, indicating moderate engagement but a lower closure rate.

Compliance

info:GDPRThe tool processes data which may include personal data, but it is for curation within a training dataset and not submitted to a third party without user approval.

Installation

npx skills add davila7/claude-code-templates

Führt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.

Qualitätspunktzahl

Verifiziert

98 /100

Analysiert 1 day ago

Vertrauenssignale

Letzter Commit1 day ago

GitHub-Inhaber davila7

Sterne27.2k

Downloads 23k

LizenzMIT

Websiteaitmpl.com

Status

Quellcode ansehen

Nemo Curator

Funktionen

Anwendungsfälle

Nicht-Ziele

Trust

Compliance

Qualitätspunktzahl

Vertrauenssignale

Ähnliche Erweiterungen

Nemo Curator

Create Spatial Visualization

PyTDC (Therapeutics Data Commons)

Pysam

Polars Bio

Polars