AI LLM per Analisi Dati Finanziari

Proposta Tecnica — Installazione On-Premise su Windows Server 2019

16 GB
RAM Disponibile
4 vCPU
Core CPU
5,3 TB
Spazio Disco
€0
Costo Software
Obiettivi del Progetto:
  1. AI Finanziaria — Elaborare dati finanziari e fornire risposte accurate tramite REST API
  2. AI Generale — Interfaccia web tipo ChatGPT per argomenti generali, documenti e domande del team

Analisi Server Attuale

ComponenteValore AttualeStato
Sistema OperativoWindows Server 2019 Standard (Build 17763) 64-bitOK
CPUIntel Xeon E312xx (Sandy Bridge) — 4 vCPU @ 2,2 GHzLimitata
RAM16 GB (13,9 GB liberi)Al limite
Disco5,3 TB NTFS (5,26 TB liberi)Eccellente
GPUNessuna (Virtual Display Adapter)N/D
Tipo ServerVM in affitto (KVM/QEMU) — hosting provider aziendaleConfermato
Virtualizzazione NidificataDisabilitata (Hyper-V non disponibile)Usare WSL2/Docker
Nota CPU: Sandy Bridge (2011) non supporta le istruzioni AVX2, fondamentali per la velocità dei motori LLM moderni. Questo impatta le prestazioni di inferenza di circa il 40-60% rispetto a CPU moderne.

1. Stima Hardware

Budget Memoria su 16 GB di RAM

ComponenteUso RAMNote
Windows OS + Servizi~3,0 GBOverhead sistema base
WSL2 (Ubuntu)~0,5 GBKernel sottosistema Linux
Modello LLM (Phi-3-mini Q4)~4,0 GBPesi del modello in memoria
Modello Embedding (MiniLM)~0,3 GBPer ricerca vettoriale
ChromaDB (Archivio Vettoriale)~2,0 GBEmbedding dei documenti
FastAPI + Pipeline RAG~1,0 GBLivello applicativo
Open WebUI (Interfaccia Chat)~0,5 GBInterfaccia web
Totale Stimato~11,3 GBBuffer: ~4,7 GB
Verdetto: 16 GB sono al limite ma utilizzabili con un modello leggero da 3-4 miliardi di parametri. Lo spazio disco (5,3 TB) è più che sufficiente.

Opzioni Modelli per 16 GB di RAM

ModelloDim.RAMQualitàVelocitàRispostaVerdetto
Phi-3-mini 3.8B Q42,3 GB~4 GB6/102-3 tok/s~40sScelta Migliore
Qwen2.5-3B Q42,0 GB~3,5 GB6/102-3 tok/s~40sAlternativa
Gemma-2 2B Q41,5 GB~3 GB5/103-4 tok/s~30sPiù veloce, meno preciso
Qwen2.5-1.5B Q41,0 GB~2,5 GB4/103-5 tok/s~25sFallback leggero
Mistral 7B Q44,4 GB~8 GB8/100,5-1 tok/s~3mTroppo grande
Vantaggio RAG: Con la Retrieval-Augmented Generation, anche un modello da 3,8B produce risposte finanziarie accurate. La pipeline RAG recupera i documenti pertinenti e li fornisce come contesto — il modello sintetizza dai vostri dati.

Aspettative di Prestazione

Confronto Tempi di Risposta (~100 token per risposta)

ChatGPT (Cloud)
2-3s
Locale + GPU (RTX 4060)
3-5s
Locale + CPU Moderna (32c)
10-15s
Il Vostro Server (attuale)
40-55s

Utenti Simultanei

UtentiTempo di RispostaEsperienza
1 utente~45 secondiFunzionale
2 utenti~90 secondiLento ma funziona
3+ utentiRischio timeoutNon raccomandato

Qualità: Solo Modello vs Modello + RAG

AttivitàSolo ModelloModello + RAG
Chat GeneraleDiscretoBuono
Terminologia FinanziariaDeboleBuono
Ragionamento FinanziarioScarsoModerato
Riassunto DocumentiSufficienteBuono
Interpretazione NumeriDeboleModerato

2. Software Richiesto

Costo Software Totale: €0 — Tutti i componenti sono gratuiti e open-source.
WSL2 + Ubuntu 22.04
Ambiente Linux
Gratuito
Docker Engine
Runtime Container
Gratuito
Ollama
Motore Inferenza LLM
Gratuito
llama.cpp
Backend Inferenza CPU
Gratuito
Phi-3-mini 3.8B
Modello LLM (Microsoft)
Gratuito (MIT)
ChromaDB
Database Vettoriale
Gratuito
Python 3.11+
Runtime Applicativo
Gratuito
FastAPI
Framework REST API
Gratuito
Open WebUI
Interfaccia Chat
Gratuito
LangChain
Orchestrazione RAG
Gratuito
sentence-transformers
Generazione Embedding
Gratuito
Unstructured / PyMuPDF
Parsing Documenti
Gratuito

3. Architettura Proposta

Tutti i servizi girano dentro WSL2 sul Windows Server esistente. Nessuna connessione esterna. ASP.NET si connette tramite REST API su localhost.

Livello Interfaccia Utente
App ASP.NETChiamate REST API
Open WebUIInterfaccia chat :8080
REST APIApp esterne :8000
Livello Applicativo (WSL2 — Ubuntu 22.04)
Gateway FastAPIRouter query + RAG :8000
Pipeline RAGRicerca + iniezione contesto
Livello Motore AI
OllamaInferenza LLM :11434
Phi-3-mini 3.8BModello quantizzato Q4
MiniLM-L6-v2Modello embedding
Livello Dati
ChromaDBEmbedding vettoriali
Archivio DocumentiPDF / Word / HTML / Excel
Log QueryAudit + monitoraggio
Infrastruttura
Air-GappedNessuna chiamata API esterna
Windows Server 2019VM host KVM/QEMU
5,3 TB NTFSStorage persistente

Flusso Dati

PassoAzioneComponenteTempo
1L'utente invia una domanda (API o Web UI)ASP.NET / Open WebUIIstantaneo
2La domanda viene trasformata in vettoreMiniLM-L6-v2~0,5s
3Ricerca semantica nell'indice documentiChromaDB~1-2s
4Documenti Top-K recuperati e ordinatiPipeline RAG~0,5s
5Contesto + domanda inviati al LLMGateway FastAPIIstantaneo
6Il modello genera la rispostaOllama + Phi-3-mini~35-50s
7Risposta restituita con citazioni delle fontiGateway FastAPIIstantaneo
Totale end-to-end~40-55 secondi

4. Piano Attività — 30 Giorni

Settimana 1 — Giorni 1-7

Fondamenta & Prima Chat Funzionante

  • Giorno 1-2: Configurazione WSL2 + Docker su Windows Server, installazione Ubuntu 22.04
  • Giorno 3-4: Installazione Ollama, test Phi-3-mini e Qwen2.5, benchmark velocità sulla CPU
  • Giorno 5-6: Installazione ChromaDB, configurazione modello embedding, test ricerca vettoriale
  • Giorno 7: Deploy Open WebUI, connessione a Ollama — prima interfaccia chat funzionante

Consegnabile: Chatbot funzionante sul vostro server (modalità conversazione generale)

Settimana 2 — Giorni 8-14

Pipeline RAG & Indicizzazione Documenti

  • Giorno 8-9: Costruzione pipeline di acquisizione documenti (PDF, Word, HTML, Excel)
  • Giorno 10-11: Indicizzazione documenti Intranet di esempio in ChromaDB
  • Giorno 12-13: Costruzione gateway FastAPI con ricerca ibrida (semantica + keyword)
  • Giorno 14: Test RAG — verifica che le risposte citino i vostri documenti

Consegnabile: Chatbot che risponde dai vostri documenti interni con citazione delle fonti

Settimana 3 — Giorni 15-21

Modalità Finanziaria & REST API

  • Giorno 15-16: Ottimizzazione template prompt per elaborazione dati finanziari
  • Giorno 17-18: Costruzione e test REST API per integrazione ASP.NET
  • Giorno 19-20: Test query finanziarie, ottimizzazione qualità risposte
  • Giorno 21: Deploy dashboard di monitoraggio (log query, metriche prestazioni)

Consegnabile: REST API pronta per ASP.NET + modalità query finanziaria operativa

Settimana 4 — Giorni 22-30

Test, Documentazione & Consegna

  • Giorno 22-23: Preparazione dataset per fine-tuning LoRA (se l'hardware lo consente)
  • Giorno 24-25: Test completo del sistema, casi limite, ottimizzazione prestazioni
  • Giorno 26-27: Documentazione completa (architettura, operazioni, risoluzione problemi)
  • Giorno 28-29: Sessioni di formazione con il team IT
  • Giorno 30: Deploy finale, consegna, piano di supporto

Consegnabile: Sistema completo + documentazione + team IT formato

Percorso di Upgrade

L'architettura scala automaticamente. Basta aggiornare la VM e modelli migliori si sbloccano senza modifiche al codice.

LivelloSpecificheModelloRispostaUtenti
Attuale4 core, 16 GBPhi-3-mini 3.8B Q4~45s1-2
Livello 116 core, 32 GBMistral 7B Q4~15-20s3-5
Livello 232 core, 64 GBMistral 7B Full~8-12s5-10
Livello 3 (GPU)16c, 64 GB, RTX 4060Mistral 7B + LoRA~2-4s10-20

Confronto Costi

API Cloud vs On-Premise (1.000 query/giorno)

OpenAI GPT-4 API
€300-600/mese
Claude API
€250-500/mese
On-Premise (il vostro server)
€0/mese
Vantaggio Chiave: Query illimitate a costo zero. Privacy totale dei dati — nulla esce dall'azienda.

Stime Upgrade VM (futuro)

VM Attuale (16GB/4c)
Incluso
Livello 1 (32GB/16c)
€40-80/mese extra
Livello 2 (64GB/32c)
€80-150/mese extra
Livello 3 + GPU
€150-300/mese extra