ai-chat-to-drive/docs/ricerca_slm.md at main

Files

T

Luca Sacchi Ricciardi 89a87f797e add: ricerche per slm

2026-04-21 21:00:29 +02:00

3.2 KiB

Raw Permalink Blame History

Per analizzare il contenuto delle pagine web direttamente nel browser, la scelta del modello deve bilanciare tre fattori: dimensione del download (per non tediare l'utente), finestra di contesto (per leggere intere pagine) e capacità di ragionamento.

Considerando che lavorerai in un ambiente WebAssembly/WebGPU, ecco le migliori opzioni open-weight attuali (2026):

1. SmolLM2-135M (Hugging Face)

È attualmente il "re" dei modelli ultra-leggeri. Nonostante le dimensioni ridotte, è sorprendentemente bravo nel riassumere testi.

Perché sceglierlo: Pesa circa 270MB in formato quantizzato. Si carica quasi istantaneamente.
Caso d'uso: Estrazione di metadati, tagging automatico e brevissimi riassunti di paragrafi.
Libreria consigliata: Transformers.js.

2. Phi-3.5-mini-instruct (Microsoft)

Un modello da 3.8 miliardi di parametri che compete con modelli molto più grandi.

Perché sceglierlo: Ha una finestra di contesto nativa di 128k token, fondamentale se devi analizzare articoli molto lunghi o intere documentazioni tecniche senza troncare il testo.
Peso: Circa 2.2GB (4-bit quantization).
Caso d'uso: Analisi critica, sentiment analysis profonda e Q&A complesso sul contenuto della pagina.

3. Gemma-2-2B (Google)

Ottimo compromesso tra la leggerezza di SmolLM e la potenza di Phi.

Perché sceglierlo: È ottimizzato specificamente per l'inferenza su dispositivi edge tramite MediaPipe. Ha un'ottima comprensione dell'italiano rispetto ad altri modelli "tiny".
Peso: Circa 1.5GB (4-bit).

Architettura Suggerita per l'Analisi di Pagine Web

Per implementare questa funzione in un'estensione browser o in una Web App, l'architettura ideale segue questo flusso:

Ingestion: Utilizza una libreria come Readability.js (la stessa usata dalla "Modalità Lettura" di Firefox) per pulire il DOM da pubblicità e script, inviando all'LLM solo il testo pulito.
Quantizzazione: Utilizza modelli in formato ONNX o GGUF quantizzati a 4-bit per garantire che l'uso della RAM di sistema rimanga entro limiti accettabili (evitando il crash del tab).
Privacy: Poiché il modello gira via Wasm, i dati della pagina non lasciano mai il computer dell'utente, rispettando pienamente la privacy.

Implementazione Rapida (Snippet Concettuale)

Se utilizzi Transformers.js v3, il caricamento del modello è immediato:

import { pipeline } from '@xenova/transformers';

// Carica il modello SmolLM (ottimizzato per il browser)
const analyzer = await pipeline('summarization', 'onnx-community/SmolLM2-135M-Instruct', {
    device: 'webgpu', // Sfrutta l'accelerazione hardware
});

const pageContent = document.body.innerText; // Meglio se pulito con Readability.js
const summary = await analyzer(pageContent);

Quale scegliere?

Obiettivo	Modello Consigliato
Velocità pura / Estensioni leggere	SmolLM2-135M
Precisione / Analisi di documenti lunghi	Phi-3.5-mini
Equilibrio / Multilingua (Italiano)	Gemma-2-2B

Hai già un'idea di come estrarre il testo dalle pagine (es. tramite un'estensione Chrome o un bookmarklet)?

3.2 KiB Raw Permalink Blame History