Zum Hauptinhalt springen
Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Flash Attention

Skill Verifiziert Aktiv

Optimizes transformer attention with Flash Attention for 2-4x speedup and 10-20x memory reduction. Use when training/running transformers with long sequences (>512 tokens), encountering GPU memory issues with attention, or need faster inference. Supports PyTorch native SDPA, flash-attn library, H100 FP8, and sliding window attention.

Zweck

To enable users to significantly accelerate transformer training and inference, and reduce GPU memory usage by leveraging Flash Attention, especially for long sequence lengths.

Funktionen

  • 2-4x speedup for transformer attention
  • 10-20x memory reduction for attention computations
  • Support for PyTorch native SDPA integration
  • Integration with flash-attn library for advanced features
  • Support for H100 FP8 optimization and sliding window attention

Anwendungsfälle

  • Training transformers with long sequences (>512 tokens)
  • Running inference with long context windows
  • Mitigating GPU memory issues during transformer training
  • Accelerating inference for transformer-based applications

Nicht-Ziele

  • Providing a direct tool for agents to call
  • Replacing the need for GPU hardware
  • Optimizing attention mechanisms not based on transformers

Workflow

  1. Check PyTorch version (>=2.2) and GPU compatibility
  2. Install flash-attn library or ensure PyTorch has native support
  3. Integrate Flash Attention into model code using provided examples
  4. Verify speedup and accuracy using profiling and comparison scripts
  5. Optionally enable advanced features like sliding window or FP8 on H100

Voraussetzungen

  • NVIDIA GPU (Ampere+ recommended)
  • CUDA 11.8+ / 12.0+
  • PyTorch 2.2+
  • Python 3.8+

Installation

Zuerst Marketplace hinzufügen

/plugin marketplace add Orchestra-Research/AI-Research-SKILLs
/plugin install AI-Research-SKILLs@ai-research-skills

Qualitätspunktzahl

Verifiziert
95 /100
Analysiert 1 day ago

Vertrauenssignale

Letzter Commit17 days ago
Sterne8.3k
LizenzMIT
Status
Quellcode ansehen

Ähnliche Erweiterungen

Performance Analysis

100

Comprehensive performance analysis, bottleneck detection, and optimization recommendations for Claude Flow swarms

Skill
ruvnet

MongoDB Connection Optimizer

100

Optimieren Sie die Konfiguration von MongoDB-Clientverbindungen (Pools, Timeouts, Muster) für jede unterstützte Treibersprache. Verwenden Sie diese Fähigkeit, wenn Sie an Funktionen arbeiten/diese aktualisieren/überprüfen, die einen MongoDB-Client instanziieren oder konfigurieren (z. B. beim Aufruf von `connect()`), Verbindungspools konfigurieren, Verbindungsprobleme beheben (ECONNREFUSED, Timeouts, Pool-Erschöpfung), Leistungsprobleme im Zusammenhang mit Verbindungen optimieren. Dies schließt Szenarien wie das Erstellen von serverlosen Funktionen mit MongoDB, das Erstellen von API-Endpunkten, die MongoDB verwenden, die Optimierung von MongoDB-Anwendungen mit hohem Datenverkehr, das Erstellen von langlaufenden Aufgaben und Nebenläufigkeit oder das Debuggen von verbindungsbezogenen Fehlern ein.

Skill
mongodb

Sql Optimization

100

Universal SQL performance optimization assistant for comprehensive query tuning, indexing strategies, and database performance analysis across all SQL databases (MySQL, PostgreSQL, SQL Server, Oracle). Provides execution plan analysis, pagination optimization, batch operations, and performance monitoring guidance.

Skill
github

Core Web Vitals

100

Optimieren Sie Core Web Vitals (LCP, INP, CLS) für eine bessere Seitenerfahrung und ein besseres Suchranking. Verwenden Sie, wenn Sie aufgefordert werden, "Core Web Vitals zu verbessern", "LCP zu beheben", "CLS zu reduzieren", "INP zu optimieren", "Seiten-Erfahrungs-Optimierung" oder "Layout-Verschiebungen zu beheben".

Skill
addyosmani

Vector Index Tuning

99

Optimize vector index performance for latency, recall, and memory. Use when tuning HNSW parameters, selecting quantization strategies, or scaling vector search infrastructure.

Skill
wshobson

Oraclaw Solver

100

Industrietaugliche Terminplanung und Ressourcenoptimierung für KI-Agenten. Lösen Sie Aufgabenplanung mit Energieabgleich, Budgetzuweisung und beliebigen LP/MIP-Constraint-Problemen in Millisekunden.

Skill
Whatsonyourmind