Zum Hauptinhalt springen
Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Pipeline Gpu Kernel

Skill Verifiziert Aktiv
Teil von:Agent Almanac

Apply software pipelining (double-buffering) to a tiled GPU kernel to overlap global memory loads with Tensor Core computation. Covers prologue/loop/epilogue restructuring, LDG-register vs cp.async (LDGSTS) variant selection based on compute/load ratio, shared memory budget verification against architecture-specific occupancy cliffs, and SASS-level verification of load/compute overlap.

Zweck

Optimize GPU kernel performance by implementing advanced software pipelining techniques to effectively overlap memory operations with computation.

Funktionen

  • Software pipelining for GPU kernels
  • Double-buffering of shared memory
  • Variant selection based on compute/load ratio
  • Analysis of load/compute overlap in SASS
  • Shared memory budget verification against occupancy cliffs

Anwendungsfälle

  • When a GPU kernel is identified as memory-bound.
  • When warp interleaving alone is insufficient to hide DRAM latency.
  • When restructuring a sequential load-sync-compute-sync kernel loop.
  • When needing to optimize Tensor Core computation by overlapping memory loads.

Nicht-Ziele

  • Optimizing kernels that are not memory-bound.
  • Addressing bottlenecks unrelated to memory loads or Tensor Core computation.
  • Applying pipelining to kernels without a distinct load and compute phase.
  • Basic CUDA compilation; assumes familiarity with `nvcc` and GPU architectures.

Practical Utility

  • info:Usage examplesWhile the SKILL.md provides detailed procedural steps, it lacks concrete end-to-end invocation examples with specific inputs and expected outputs for the CUDA kernel optimization.

Installation

/plugin install agent-almanac@pjt222-agent-almanac

Qualitätspunktzahl

Verifiziert
95 /100
Analysiert about 21 hours ago

Vertrauenssignale

Letzter Commit1 day ago
Sterne14
LizenzMIT
Status
Quellcode ansehen

Ähnliche Erweiterungen

Performance Analysis

100

Comprehensive performance analysis, bottleneck detection, and optimization recommendations for Claude Flow swarms

Skill
ruvnet

MongoDB Connection Optimizer

100

Optimieren Sie die Konfiguration von MongoDB-Clientverbindungen (Pools, Timeouts, Muster) für jede unterstützte Treibersprache. Verwenden Sie diese Fähigkeit, wenn Sie an Funktionen arbeiten/diese aktualisieren/überprüfen, die einen MongoDB-Client instanziieren oder konfigurieren (z. B. beim Aufruf von `connect()`), Verbindungspools konfigurieren, Verbindungsprobleme beheben (ECONNREFUSED, Timeouts, Pool-Erschöpfung), Leistungsprobleme im Zusammenhang mit Verbindungen optimieren. Dies schließt Szenarien wie das Erstellen von serverlosen Funktionen mit MongoDB, das Erstellen von API-Endpunkten, die MongoDB verwenden, die Optimierung von MongoDB-Anwendungen mit hohem Datenverkehr, das Erstellen von langlaufenden Aufgaben und Nebenläufigkeit oder das Debuggen von verbindungsbezogenen Fehlern ein.

Skill
mongodb

Sql Optimization

100

Universal SQL performance optimization assistant for comprehensive query tuning, indexing strategies, and database performance analysis across all SQL databases (MySQL, PostgreSQL, SQL Server, Oracle). Provides execution plan analysis, pagination optimization, batch operations, and performance monitoring guidance.

Skill
github

Core Web Vitals

100

Optimieren Sie Core Web Vitals (LCP, INP, CLS) für eine bessere Seitenerfahrung und ein besseres Suchranking. Verwenden Sie, wenn Sie aufgefordert werden, "Core Web Vitals zu verbessern", "LCP zu beheben", "CLS zu reduzieren", "INP zu optimieren", "Seiten-Erfahrungs-Optimierung" oder "Layout-Verschiebungen zu beheben".

Skill
addyosmani

Analyze Kernel Bottleneck

99

Systematically identify whether a GPU kernel is compute-bound, memory-bound, or latency-bound using roofline analysis, occupancy calculations, compute/load ratio per tile, and SASS instruction inspection. Produces a decision matrix for optimization strategy selection (cp.async, warp interleaving, tiling, double-buffering, or CuAssembler hand-tuning).

Skill
pjt222

Vector Index Tuning

99

Optimize vector index performance for latency, recall, and memory. Use when tuning HNSW parameters, selecting quantization strategies, or scaling vector search infrastructure.

Skill
wshobson