Dieser Inhalt ist noch nicht in Ihrer Sprache verfügbar und wird auf Englisch angezeigt.

Hqq Quantization

Skill Verifiziert Aktiv

Teil von:Agent Native Research Artifact (ARA) Tooling

Half-Quadratic Quantization for LLMs without calibration data. Use when quantizing models to 4/3/2-bit precision without needing calibration datasets, for fast quantization workflows, or when deploying with vLLM or HuggingFace Transformers.

Zweck

To enable users to quantize large language models efficiently and without calibration data, significantly reducing model size and memory footprint for faster inference and deployment.

Funktionen

Calibration-free quantization for LLMs
Supports 8/4/3/2/1-bit precision
Multiple optimized inference backends (Marlin, TorchAO, etc.)
Seamless integration with HuggingFace Transformers and vLLM
Compatibility with PEFT/LoRA for fine-tuning quantized models

Anwendungsfälle

Quantizing LLMs to 4-bit precision without needing calibration datasets
Performing fast quantization workflows for model compression
Deploying quantized LLMs with vLLM or HuggingFace Transformers
Fine-tuning quantized LLMs using PEFT and LoRA

Nicht-Ziele

Providing calibration-based quantization methods like AWQ or GPTQ
Performing model training from scratch
Serving models directly (relies on integration with frameworks like vLLM)

Installation

Zuerst Marketplace hinzufügen

/plugin marketplace add Orchestra-Research/AI-Research-SKILLs

/plugin install AI-Research-SKILLs@ai-research-skills

Qualitätspunktzahl

Verifiziert

98 /100

Analysiert 1 day ago

Vertrauenssignale

Letzter Commit17 days ago

GitHub-Inhaber Orchestra-Research

Sterne8.3k

Downloads 0

LizenzMIT

Websiteorchestra-research.com

Status

Quellcode ansehen

Hqq Quantization

Funktionen

Anwendungsfälle

Nicht-Ziele

Qualitätspunktzahl

Vertrauenssignale

Ähnliche Erweiterungen

Arize Prompt Optimization

Unsloth

Prompt Optimization

Vector Index Tuning

VLLM High Performance LLM Serving

Quantizing Models Bitsandbytes