Zum Hauptinhalt springen
Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Gptq

Skill Verifiziert Aktiv

Post-training 4-bit quantization for LLMs with minimal accuracy loss. Use for deploying large models (70B, 405B) on consumer GPUs, when you need 4× memory reduction with <2% perplexity degradation, or for faster inference (3-4× speedup) vs FP16. Integrates with transformers and PEFT for QLoRA fine-tuning.

Zweck

To enable users to deploy large LLMs on consumer GPUs or achieve faster inference speeds by quantizing models to 4-bit using the GPTQ method with minimal accuracy degradation.

Funktionen

  • 4-bit post-training quantization for LLMs
  • Minimal accuracy loss (<2% perplexity degradation)
  • 4x memory reduction for large models
  • 3-4x faster inference compared to FP16
  • Integration with Transformers, PEFT, and vLLM
  • Support for various kernel backends (ExLlamaV2, Marlin, Triton)
  • Guidance on calibration data selection and quantization configuration
  • Instructions for quantizing custom models

Anwendungsfälle

  • Deploying large LLMs (70B, 405B) on memory-constrained consumer GPUs.
  • Reducing memory usage of LLMs for faster loading and inference.
  • Achieving significant inference speedups for real-time applications.
  • Fine-tuning quantized models using QLoRA for memory efficiency.

Nicht-Ziele

  • Providing pre-quantized models directly (focus is on the method).
  • Supporting quantization methods other than GPTQ.
  • Quantization during training (focus is on post-training quantization).
  • Optimizations for CPU-only inference (focus is on GPU acceleration).

Installation

Zuerst Marketplace hinzufügen

/plugin marketplace add Orchestra-Research/AI-Research-SKILLs
/plugin install AI-Research-SKILLs@ai-research-skills

Qualitätspunktzahl

Verifiziert
97 /100
Analysiert 1 day ago

Vertrauenssignale

Letzter Commit17 days ago
Sterne8.3k
LizenzMIT
Status
Quellcode ansehen

Ähnliche Erweiterungen

Peft Fine Tuning

99

Parameter-efficient fine-tuning for LLMs using LoRA, QLoRA, and 25+ methods. Use when fine-tuning large models (7B-70B) with limited GPU memory, when you need to train <1% of parameters with minimal accuracy loss, or for multi-adapter serving. HuggingFace's official library integrated with transformers ecosystem.

Skill
Orchestra-Research

Vector Index Tuning

99

Optimize vector index performance for latency, recall, and memory. Use when tuning HNSW parameters, selecting quantization strategies, or scaling vector search infrastructure.

Skill
wshobson

Performance Analysis

100

Comprehensive performance analysis, bottleneck detection, and optimization recommendations for Claude Flow swarms

Skill
ruvnet

Oraclaw Solver

100

Industrietaugliche Terminplanung und Ressourcenoptimierung für KI-Agenten. Lösen Sie Aufgabenplanung mit Energieabgleich, Budgetzuweisung und beliebigen LP/MIP-Constraint-Problemen in Millisekunden.

Skill
Whatsonyourmind

Oraclaw Decide

100

Entscheidungsintelligenz für KI-Agenten. Analysieren Sie Optionen, bilden Sie Entscheidungsabhängigkeiten mit PageRank ab, erkennen Sie Konflikte zwischen Informationsquellen und finden Sie die wichtigsten Entscheidungen.

Skill
Whatsonyourmind

MongoDB Connection Optimizer

100

Optimieren Sie die Konfiguration von MongoDB-Clientverbindungen (Pools, Timeouts, Muster) für jede unterstützte Treibersprache. Verwenden Sie diese Fähigkeit, wenn Sie an Funktionen arbeiten/diese aktualisieren/überprüfen, die einen MongoDB-Client instanziieren oder konfigurieren (z. B. beim Aufruf von `connect()`), Verbindungspools konfigurieren, Verbindungsprobleme beheben (ECONNREFUSED, Timeouts, Pool-Erschöpfung), Leistungsprobleme im Zusammenhang mit Verbindungen optimieren. Dies schließt Szenarien wie das Erstellen von serverlosen Funktionen mit MongoDB, das Erstellen von API-Endpunkten, die MongoDB verwenden, die Optimierung von MongoDB-Anwendungen mit hohem Datenverkehr, das Erstellen von langlaufenden Aufgaben und Nebenläufigkeit oder das Debuggen von verbindungsbezogenen Fehlern ein.

Skill
mongodb