llamacpp-qwen3.5-0.8b
Un microservizio Docker standalone basato su llama.cpp per eseguire il modello Qwen 3.5 0.8B su GPU AMD (ottimizzato per architettura RDNA3 / gfx1100).
Fornisce un'API HTTP nativa, compatibile al 100% con le specifiche OpenAI. Ideale per l'integrazione diretta con n8n e script Python, mantenendo un'architettura a microservizi pulita e priva di wrapper intermedi.
Prerequisiti
- Docker e Docker Compose installati.
- GPU AMD con driver ROCm installati e funzionanti sul sistema host.
- Accesso ai device
/dev/kfde/dev/dri.
Setup (Little Often)
-
Prepara l'ambiente: Clona il repository e crea la directory dedicata ai modelli.
mkdir models -
Scarica il modello (formato GGUF): Scarica i pesi quantizzati di Qwen 3.5 0.8B all'interno della cartella
models. Ad esempio, per la versione Q8_0:wget [https://huggingface.co/Qwen/Qwen1.5-0.8B-Chat-GGUF/resolve/main/qwen1_5-0_8b-chat-q8_0.gguf](https://huggingface.co/Qwen/Qwen1.5-0.8B-Chat-GGUF/resolve/main/qwen1_5-0_8b-chat-q8_0.gguf) -P ./models/Attenzione: Se scarichi una quantizzazione diversa, aggiorna il nome del file all'interno del parametro
commandneldocker-compose.yml. -
Build e Avvio: Lancia il container in background. La prima esecuzione compilerà
llama.cppdai sorgenti ottimizzandolo per la tua GPU.docker compose up --build -d
Test e Validazione (Double Check)
Verifica che il server sia in ascolto e risponda correttamente utilizzando l'endpoint compatibile OpenAI:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen",
"messages": [
{
"role": "system",
"content": "Sei un assistente AI utile e conciso."
},
{
"role": "user",
"content": "Quali sono i comandi base di Git?"
}
]
}'
Integrazione con n8n
Per collegare questo servizio a n8n:
- Aggiungi un nodo OpenAI nel tuo workflow.
- Nelle impostazioni del nodo (Credentials), imposta l'URL di base dell'API in modo che punti a questo container:
http://<IP_DEL_SERVER_DOCKER>:8000/v1 - Puoi inserire una stringa fittizia nel campo API Key (es.
sk-xxxx), poiché il server locale non richiede autenticazione.
Architettura e Sicurezza (Safety First)
- Isolamento: Il container esegue esclusivamente il binario
llama-server. - Compatibilità RDNA3: Il
DockerfileiniettaHSA_OVERRIDE_GFX_VERSION="11.0.0"eAMDGPU_TARGETS="gfx1100"per forzare la compatibilità della iGPU 780M/RDNA3 con le librerie ROCm. - Hardware Mapping: Assicurati che l'utente che esegue Docker abbia i permessi per accedere ai device video (gruppi
renderevideo).