AI LLM per Analisi Dati Finanziari
Proposta Tecnica — Installazione On-Premise su Windows Server 2019
16 GB
RAM Disponibile
4 vCPU
Core CPU
5,3 TB
Spazio Disco
€0
Costo Software
Obiettivi del Progetto:
- AI Finanziaria — Elaborare dati finanziari e fornire risposte accurate tramite REST API
- AI Generale — Interfaccia web tipo ChatGPT per argomenti generali, documenti e domande del team
Analisi Server Attuale
| Componente | Valore Attuale | Stato |
|---|---|---|
| Sistema Operativo | Windows Server 2019 Standard (Build 17763) 64-bit | OK |
| CPU | Intel Xeon E312xx (Sandy Bridge) — 4 vCPU @ 2,2 GHz | Limitata |
| RAM | 16 GB (13,9 GB liberi) | Al limite |
| Disco | 5,3 TB NTFS (5,26 TB liberi) | Eccellente |
| GPU | Nessuna (Virtual Display Adapter) | N/D |
| Tipo Server | VM in affitto (KVM/QEMU) — hosting provider aziendale | Confermato |
| Virtualizzazione Nidificata | Disabilitata (Hyper-V non disponibile) | Usare WSL2/Docker |
Nota CPU: Sandy Bridge (2011) non supporta le istruzioni AVX2, fondamentali per la velocità dei motori LLM moderni. Questo impatta le prestazioni di inferenza di circa il 40-60% rispetto a CPU moderne.
1. Stima Hardware
Budget Memoria su 16 GB di RAM
| Componente | Uso RAM | Note |
|---|---|---|
| Windows OS + Servizi | ~3,0 GB | Overhead sistema base |
| WSL2 (Ubuntu) | ~0,5 GB | Kernel sottosistema Linux |
| Modello LLM (Phi-3-mini Q4) | ~4,0 GB | Pesi del modello in memoria |
| Modello Embedding (MiniLM) | ~0,3 GB | Per ricerca vettoriale |
| ChromaDB (Archivio Vettoriale) | ~2,0 GB | Embedding dei documenti |
| FastAPI + Pipeline RAG | ~1,0 GB | Livello applicativo |
| Open WebUI (Interfaccia Chat) | ~0,5 GB | Interfaccia web |
| Totale Stimato | ~11,3 GB | Buffer: ~4,7 GB |
Verdetto: 16 GB sono al limite ma utilizzabili con un modello leggero da 3-4 miliardi di parametri. Lo spazio disco (5,3 TB) è più che sufficiente.
Opzioni Modelli per 16 GB di RAM
| Modello | Dim. | RAM | Qualità | Velocità | Risposta | Verdetto |
|---|---|---|---|---|---|---|
| Phi-3-mini 3.8B Q4 | 2,3 GB | ~4 GB | 6/10 | 2-3 tok/s | ~40s | Scelta Migliore |
| Qwen2.5-3B Q4 | 2,0 GB | ~3,5 GB | 6/10 | 2-3 tok/s | ~40s | Alternativa |
| Gemma-2 2B Q4 | 1,5 GB | ~3 GB | 5/10 | 3-4 tok/s | ~30s | Più veloce, meno preciso |
| Qwen2.5-1.5B Q4 | 1,0 GB | ~2,5 GB | 4/10 | 3-5 tok/s | ~25s | Fallback leggero |
| Mistral 7B Q4 | 4,4 GB | ~8 GB | 8/10 | 0,5-1 tok/s | ~3m | Troppo grande |
Vantaggio RAG: Con la Retrieval-Augmented Generation, anche un modello da 3,8B produce risposte finanziarie accurate. La pipeline RAG recupera i documenti pertinenti e li fornisce come contesto — il modello sintetizza dai vostri dati.
Aspettative di Prestazione
Confronto Tempi di Risposta (~100 token per risposta)
Utenti Simultanei
| Utenti | Tempo di Risposta | Esperienza |
|---|---|---|
| 1 utente | ~45 secondi | Funzionale |
| 2 utenti | ~90 secondi | Lento ma funziona |
| 3+ utenti | Rischio timeout | Non raccomandato |
Qualità: Solo Modello vs Modello + RAG
| Attività | Solo Modello | Modello + RAG |
|---|---|---|
| Chat Generale | Discreto | Buono |
| Terminologia Finanziaria | Debole | Buono |
| Ragionamento Finanziario | Scarso | Moderato |
| Riassunto Documenti | Sufficiente | Buono |
| Interpretazione Numeri | Debole | Moderato |
2. Software Richiesto
Costo Software Totale: €0 — Tutti i componenti sono gratuiti e open-source.
WSL2 + Ubuntu 22.04
Ambiente Linux
Gratuito
Docker Engine
Runtime Container
Gratuito
Ollama
Motore Inferenza LLM
Gratuito
llama.cpp
Backend Inferenza CPU
Gratuito
Phi-3-mini 3.8B
Modello LLM (Microsoft)
Gratuito (MIT)
ChromaDB
Database Vettoriale
Gratuito
Python 3.11+
Runtime Applicativo
Gratuito
FastAPI
Framework REST API
Gratuito
Open WebUI
Interfaccia Chat
Gratuito
LangChain
Orchestrazione RAG
Gratuito
sentence-transformers
Generazione Embedding
Gratuito
Unstructured / PyMuPDF
Parsing Documenti
Gratuito
3. Architettura Proposta
Tutti i servizi girano dentro WSL2 sul Windows Server esistente. Nessuna connessione esterna. ASP.NET si connette tramite REST API su localhost.
Livello Interfaccia Utente
App ASP.NETChiamate REST API
Open WebUIInterfaccia chat :8080
REST APIApp esterne :8000
Livello Applicativo (WSL2 — Ubuntu 22.04)
Gateway FastAPIRouter query + RAG :8000
Pipeline RAGRicerca + iniezione contesto
Livello Motore AI
OllamaInferenza LLM :11434
Phi-3-mini 3.8BModello quantizzato Q4
MiniLM-L6-v2Modello embedding
Livello Dati
ChromaDBEmbedding vettoriali
Archivio DocumentiPDF / Word / HTML / Excel
Log QueryAudit + monitoraggio
Infrastruttura
Air-GappedNessuna chiamata API esterna
Windows Server 2019VM host KVM/QEMU
5,3 TB NTFSStorage persistente
Flusso Dati
| Passo | Azione | Componente | Tempo |
|---|---|---|---|
| 1 | L'utente invia una domanda (API o Web UI) | ASP.NET / Open WebUI | Istantaneo |
| 2 | La domanda viene trasformata in vettore | MiniLM-L6-v2 | ~0,5s |
| 3 | Ricerca semantica nell'indice documenti | ChromaDB | ~1-2s |
| 4 | Documenti Top-K recuperati e ordinati | Pipeline RAG | ~0,5s |
| 5 | Contesto + domanda inviati al LLM | Gateway FastAPI | Istantaneo |
| 6 | Il modello genera la risposta | Ollama + Phi-3-mini | ~35-50s |
| 7 | Risposta restituita con citazioni delle fonti | Gateway FastAPI | Istantaneo |
| Totale end-to-end | ~40-55 secondi | ||
4. Piano Attività — 30 Giorni
Settimana 1 — Giorni 1-7
Fondamenta & Prima Chat Funzionante
- Giorno 1-2: Configurazione WSL2 + Docker su Windows Server, installazione Ubuntu 22.04
- Giorno 3-4: Installazione Ollama, test Phi-3-mini e Qwen2.5, benchmark velocità sulla CPU
- Giorno 5-6: Installazione ChromaDB, configurazione modello embedding, test ricerca vettoriale
- Giorno 7: Deploy Open WebUI, connessione a Ollama — prima interfaccia chat funzionante
Consegnabile: Chatbot funzionante sul vostro server (modalità conversazione generale)
Settimana 2 — Giorni 8-14
Pipeline RAG & Indicizzazione Documenti
- Giorno 8-9: Costruzione pipeline di acquisizione documenti (PDF, Word, HTML, Excel)
- Giorno 10-11: Indicizzazione documenti Intranet di esempio in ChromaDB
- Giorno 12-13: Costruzione gateway FastAPI con ricerca ibrida (semantica + keyword)
- Giorno 14: Test RAG — verifica che le risposte citino i vostri documenti
Consegnabile: Chatbot che risponde dai vostri documenti interni con citazione delle fonti
Settimana 3 — Giorni 15-21
Modalità Finanziaria & REST API
- Giorno 15-16: Ottimizzazione template prompt per elaborazione dati finanziari
- Giorno 17-18: Costruzione e test REST API per integrazione ASP.NET
- Giorno 19-20: Test query finanziarie, ottimizzazione qualità risposte
- Giorno 21: Deploy dashboard di monitoraggio (log query, metriche prestazioni)
Consegnabile: REST API pronta per ASP.NET + modalità query finanziaria operativa
Settimana 4 — Giorni 22-30
Test, Documentazione & Consegna
- Giorno 22-23: Preparazione dataset per fine-tuning LoRA (se l'hardware lo consente)
- Giorno 24-25: Test completo del sistema, casi limite, ottimizzazione prestazioni
- Giorno 26-27: Documentazione completa (architettura, operazioni, risoluzione problemi)
- Giorno 28-29: Sessioni di formazione con il team IT
- Giorno 30: Deploy finale, consegna, piano di supporto
Consegnabile: Sistema completo + documentazione + team IT formato
Percorso di Upgrade
L'architettura scala automaticamente. Basta aggiornare la VM e modelli migliori si sbloccano senza modifiche al codice.
| Livello | Specifiche | Modello | Risposta | Utenti |
|---|---|---|---|---|
| Attuale | 4 core, 16 GB | Phi-3-mini 3.8B Q4 | ~45s | 1-2 |
| Livello 1 | 16 core, 32 GB | Mistral 7B Q4 | ~15-20s | 3-5 |
| Livello 2 | 32 core, 64 GB | Mistral 7B Full | ~8-12s | 5-10 |
| Livello 3 (GPU) | 16c, 64 GB, RTX 4060 | Mistral 7B + LoRA | ~2-4s | 10-20 |
Confronto Costi
API Cloud vs On-Premise (1.000 query/giorno)
Vantaggio Chiave: Query illimitate a costo zero. Privacy totale dei dati — nulla esce dall'azienda.