Analyze Kernel Bottleneck
Skill Verifiziert AktivSystematically identify whether a GPU kernel is compute-bound, memory-bound, or latency-bound using roofline analysis, occupancy calculations, compute/load ratio per tile, and SASS instruction inspection. Produces a decision matrix for optimization strategy selection (cp.async, warp interleaving, tiling, double-buffering, or CuAssembler hand-tuning).
To systematically identify GPU kernel performance bottlenecks and provide actionable insights for optimization strategies, enabling developers to improve kernel efficiency.
Funktionen
- GPU kernel bottleneck classification (compute-bound, memory-bound, latency-bound)
- Roofline analysis using arithmetic intensity and machine balance points
- Occupancy calculation to determine active warps per SM
- Compute/load ratio analysis from SASS instructions
- SASS instruction mix and stall code inspection
- Shared memory cliff analysis
- Decision matrix for optimization strategy selection (cp.async, warp interleaving, etc.)
- Structured bottleneck report generation
Anwendungsfälle
- Before optimizing any CUDA kernel to establish a baseline and identify bottlenecks
- After initial kernel implementation to pinpoint optimization paths
- When a kernel's performance does not meet expectations
- To decide between various optimization techniques like cp.async, tiling, or algorithmic changes
Nicht-Ziele
- Directly modifying CUDA source code
- Automated kernel recompilation without user input
- Real-time performance monitoring beyond discrete analysis runs
- Analysis of CPU-bound aspects of host-device workflows
Installation
/plugin install agent-almanac@pjt222-agent-almanacQualitätspunktzahl
VerifiziertVertrauenssignale
Ähnliche Erweiterungen
Optimize for GPU
97GPU-accelerate Python code using CuPy, Numba CUDA, Warp, cuDF, cuML, cuGraph, KvikIO, cuCIM, cuxfilter, cuVS, cuSpatial, and RAFT. Use whenever the user mentions GPU/CUDA/NVIDIA acceleration, or wants to speed up NumPy, pandas, scikit-learn, scikit-image, NetworkX, GeoPandas, or Faiss workloads. Covers physics simulation, differentiable rendering, mesh ray casting, particle systems (DEM/SPH/fluids), vector/similarity search, GPUDirect Storage file IO, interactive dashboards, geospatial analysis, medical imaging, and sparse eigensolvers. Also use when you see CPU-bound Python code (loops, large arrays, ML pipelines, graph analytics, image processing) that would benefit from GPU acceleration, even if not explicitly requested.
Pipeline Gpu Kernel
95Apply software pipelining (double-buffering) to a tiled GPU kernel to overlap global memory loads with Tensor Core computation. Covers prologue/loop/epilogue restructuring, LDG-register vs cp.async (LDGSTS) variant selection based on compute/load ratio, shared memory budget verification against architecture-specific occupancy cliffs, and SASS-level verification of load/compute overlap.
Performance Analysis
100Comprehensive performance analysis, bottleneck detection, and optimization recommendations for Claude Flow swarms
Oraclaw Solver
100Industrietaugliche Terminplanung und Ressourcenoptimierung für KI-Agenten. Lösen Sie Aufgabenplanung mit Energieabgleich, Budgetzuweisung und beliebigen LP/MIP-Constraint-Problemen in Millisekunden.
Oraclaw Decide
100Entscheidungsintelligenz für KI-Agenten. Analysieren Sie Optionen, bilden Sie Entscheidungsabhängigkeiten mit PageRank ab, erkennen Sie Konflikte zwischen Informationsquellen und finden Sie die wichtigsten Entscheidungen.
MongoDB Connection Optimizer
100Optimieren Sie die Konfiguration von MongoDB-Clientverbindungen (Pools, Timeouts, Muster) für jede unterstützte Treibersprache. Verwenden Sie diese Fähigkeit, wenn Sie an Funktionen arbeiten/diese aktualisieren/überprüfen, die einen MongoDB-Client instanziieren oder konfigurieren (z. B. beim Aufruf von `connect()`), Verbindungspools konfigurieren, Verbindungsprobleme beheben (ECONNREFUSED, Timeouts, Pool-Erschöpfung), Leistungsprobleme im Zusammenhang mit Verbindungen optimieren. Dies schließt Szenarien wie das Erstellen von serverlosen Funktionen mit MongoDB, das Erstellen von API-Endpunkten, die MongoDB verwenden, die Optimierung von MongoDB-Anwendungen mit hohem Datenverkehr, das Erstellen von langlaufenden Aufgaben und Nebenläufigkeit oder das Debuggen von verbindungsbezogenen Fehlern ein.