Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Hqq Quantization

Skill Verifiziert Aktiv

Half-Quadratic Quantization for LLMs without calibration data. Use when quantizing models to 4/3/2-bit precision without needing calibration datasets, for fast quantization workflows, or when deploying with vLLM or HuggingFace Transformers.

Zweck

To enable efficient LLM deployment by quantizing models to lower bit precision without calibration data, facilitating faster inference and reduced memory footprint.

Funktionen

Calibration-free LLM quantization (4/3/2-bit)
Multiple optimized inference backends (Marlin, TorchAO, ATen, etc.)
Seamless integration with HuggingFace Transformers and vLLM
Support for fine-tuning quantized models with PEFT/LoRA
Fast quantization workflows (minutes vs. hours)

Anwendungsfälle

Quantizing LLMs for faster inference without needing calibration datasets.
Reducing memory footprint of LLMs for deployment on resource-constrained environments.
Integrating quantized models into vLLM or HuggingFace Transformers pipelines.
Experimenting with extreme quantization levels (2-bit, 1-bit) for LLMs.

Nicht-Ziele

Performing calibration-based quantization (e.g., AWQ, GPTQ).
Providing CPU-focused quantization (refer to llama.cpp/GGUF).
Replacing simple 8-bit/4-bit quantization tools like bitsandbytes for basic use cases.

Installation

npx skills add davila7/claude-code-templates

Führt das Vercel skills CLI (skills.sh) via npx aus — benötigt Node.js lokal und mindestens einen installierten skills-kompatiblen Agent (Claude Code, Cursor, Codex, …). Setzt voraus, dass das Repo dem agentskills.io-Format folgt.

Qualitätspunktzahl

Verifiziert

96 /100

Analysiert 1 day ago

Vertrauenssignale

Letzter Commit1 day ago

GitHub-Inhaber davila7

Sterne27.2k

Downloads 23k

LizenzMIT

Websiteaitmpl.com

Status

Quellcode ansehen

Hqq Quantization

Funktionen

Anwendungsfälle

Nicht-Ziele

Qualitätspunktzahl

Vertrauenssignale

Ähnliche Erweiterungen

Implementing Llms Litgpt

Ray Train

Huggingface Accelerate

Openrlhf Training

Hqq Quantization

VLLM High Performance LLM Serving