3.6 KiB
Ecco una proposta di README.md strutturata secondo il tuo approccio Spec-Driven e orientata alla gestione professionale di un'infrastruttura LLM su Linux ROCm.
Ollama Modelfiles - Sacchi Professional Suite
Repository di configurazione per la scuderia di modelli LLM ospitata sul server llm (192.168.254.115). La suite è progettata per interagire con Claude Code Router (CCR), bilanciando potenza di calcolo (APU Radeon 780M) e ampiezza di contesto.
🧠 Filosofia di Progetto
Tutti i modelli sono configurati seguendo rigorosamente le 3 Regole di Sacchi:
- Safety First: Parametri di sistema ottimizzati per prevenire crash del driver ROCm.
- Little Often: Modelli piccoli (Gemma 270M/1B) per task rapidi e frequenti.
- Double Check: Validazione delle specifiche e del codice tramite modelli a largo contesto.
Standard Implementati
- Approccio Spec-Driven: Definizione delle specifiche prima della generazione di codice.
- Test-Driven Development (TDD): Priorità alla scrittura dei test.
- Git Flow: Messaggi in standard Conventional Commits.
- Documentation: Changelog mantenuti secondo lo standard Common Changelog.
🏗️ Struttura della Scuderia
| Modello | Ruolo | Context | File Base |
|---|---|---|---|
| Nemotron Cascade 2 | Deep Thinking / Reasoning | 256k | Modelfile-Nemotron-256k |
| GLM-4.7 Flash | Long Context Analysis | 198k | Modelfile-GLM-198k |
| Gemma 3 4B | Full Stack Coding / Vision | 128k | Modelfile-Gemma3-4b-128k |
| Gemma 3n e4b | Main Coder (Balanced) | 32k | Modelfile-Gemma3n-e4b-32k |
| Gemma 3n e2b | Fast Coding / Debugging | 32k | Modelfile-Gemma3n-e2b-32k |
| Gemma 3 1B | Automazione / Scripting | 32k | Modelfile-Gemma3-1B-32k |
| Gemma 3 270M | Utility / Commit Generator | 32k | Modelfile-Gemma3-270M-32k |
| FunctionGemma | Tool Calling / Utility | 32k | Modelfile-Gemma-Utility |
📂 Organizzazione File
Ogni directory segue lo standard a due file per separare la logica di esecuzione dalla "persona" del modello:
Modelfile-*: Contiene il riferimentoFROMe iPARAMETERtecnici (context, temperature, gpu layers).Modelfile-*.prompt: Contiene ilSYSTEM PROMPTspecifico con le direttive Sacchi/Spec-Driven.
🚀 Setup & Installazione
1. Requisiti di Sistema (Ollama + ROCm)
Per garantire la stabilità sulla Radeon 780M, assicurarsi che l'override di sistema sia attivo in /etc/systemd/system/ollama.service.d/override.conf:
[Service]
Environment="HSA_OVERRIDE_GFX_VERSION=11.0.0"
Environment="HSA_ENABLE_SDMA=0"
Environment="OLLAMA_HOST=0.0.0.0"
2. Creazione dei Modelli
Per registrare un modello, combinare il file di configurazione con il relativo prompt di sistema:
# Esempio per Gemma 3 4B
cd gemma3:4b
ollama create gemma3-128k -f Modelfile-Gemma3-4b-128k
# Nota: Il comando aggiungerà il system prompt definito nel file .prompt se concatenato
🛠️ Utilizzo con Claude Code Router (CCR)
Puntare il router sulla VM devs all'istanza remota:
"Providers": [
{
"name": "ollama-remote",
"api_base_url": "http://192.168.254.115:11434/v1/chat/completions",
"api_key": "ollama",
"models": ["nemotron-pro-256k", "gemma3-128k", "gemma3-utility-32k"]
}
]
📝 Manutenzione
- Logs: Monitorare
journalctl -u ollama -fper eventuali errori MES o timeout GPU. - Updates: Verificare periodicamente le nuove versioni dei modelli base tramite
ollama pull.
Creato da Luca Sacchi - Approccio Sistemistico alla Generazione AI.