AI LLM per Analisi Dati Finanziari

Proposta Tecnica — Installazione On-Premise su Windows Server 2019

16 GB

RAM Disponibile

4 vCPU

Core CPU

5,3 TB

Spazio Disco

€0

Costo Software

Obiettivi del Progetto:

AI Finanziaria — Elaborare dati finanziari e fornire risposte accurate tramite REST API
AI Generale — Interfaccia web tipo ChatGPT per argomenti generali, documenti e domande del team

Analisi Server Attuale

Componente	Valore Attuale	Stato
Sistema Operativo	Windows Server 2019 Standard (Build 17763) 64-bit	OK
CPU	Intel Xeon E312xx (Sandy Bridge) — 4 vCPU @ 2,2 GHz	Limitata
RAM	16 GB (13,9 GB liberi)	Al limite
Disco	5,3 TB NTFS (5,26 TB liberi)	Eccellente
GPU	Nessuna (Virtual Display Adapter)	N/D
Tipo Server	VM in affitto (KVM/QEMU) — hosting provider aziendale	Confermato
Virtualizzazione Nidificata	Disabilitata (Hyper-V non disponibile)	Usare WSL2/Docker

Nota CPU: Sandy Bridge (2011) non supporta le istruzioni AVX2, fondamentali per la velocità dei motori LLM moderni. Questo impatta le prestazioni di inferenza di circa il 40-60% rispetto a CPU moderne.

1. Stima Hardware

Budget Memoria su 16 GB di RAM

Componente	Uso RAM	Note
Windows OS + Servizi	~3,0 GB	Overhead sistema base
WSL2 (Ubuntu)	~0,5 GB	Kernel sottosistema Linux
Modello LLM (Phi-3-mini Q4)	~4,0 GB	Pesi del modello in memoria
Modello Embedding (MiniLM)	~0,3 GB	Per ricerca vettoriale
ChromaDB (Archivio Vettoriale)	~2,0 GB	Embedding dei documenti
FastAPI + Pipeline RAG	~1,0 GB	Livello applicativo
Open WebUI (Interfaccia Chat)	~0,5 GB	Interfaccia web
Totale Stimato	~11,3 GB	Buffer: ~4,7 GB

Verdetto: 16 GB sono al limite ma utilizzabili con un modello leggero da 3-4 miliardi di parametri. Lo spazio disco (5,3 TB) è più che sufficiente.

Opzioni Modelli per 16 GB di RAM

Modello	Dim.	RAM	Qualità	Velocità	Risposta	Verdetto
Phi-3-mini 3.8B Q4	2,3 GB	~4 GB	6/10	2-3 tok/s	~40s	Scelta Migliore
Qwen2.5-3B Q4	2,0 GB	~3,5 GB	6/10	2-3 tok/s	~40s	Alternativa
Gemma-2 2B Q4	1,5 GB	~3 GB	5/10	3-4 tok/s	~30s	Più veloce, meno preciso
Qwen2.5-1.5B Q4	1,0 GB	~2,5 GB	4/10	3-5 tok/s	~25s	Fallback leggero
Mistral 7B Q4	4,4 GB	~8 GB	8/10	0,5-1 tok/s	~3m	Troppo grande

Vantaggio RAG: Con la Retrieval-Augmented Generation, anche un modello da 3,8B produce risposte finanziarie accurate. La pipeline RAG recupera i documenti pertinenti e li fornisce come contesto — il modello sintetizza dai vostri dati.

Aspettative di Prestazione

Confronto Tempi di Risposta (~100 token per risposta)

ChatGPT (Cloud)

2-3s

Locale + GPU (RTX 4060)

3-5s

Locale + CPU Moderna (32c)

10-15s

Il Vostro Server (attuale)

40-55s

Utenti Simultanei

Utenti	Tempo di Risposta	Esperienza
1 utente	~45 secondi	Funzionale
2 utenti	~90 secondi	Lento ma funziona
3+ utenti	Rischio timeout	Non raccomandato

Qualità: Solo Modello vs Modello + RAG

Attività	Solo Modello	Modello + RAG
Chat Generale	Discreto	Buono
Terminologia Finanziaria	Debole	Buono
Ragionamento Finanziario	Scarso	Moderato
Riassunto Documenti	Sufficiente	Buono
Interpretazione Numeri	Debole	Moderato

2. Software Richiesto

Costo Software Totale: €0 — Tutti i componenti sono gratuiti e open-source.

WSL2 + Ubuntu 22.04

Ambiente Linux

Gratuito

Docker Engine

Runtime Container

Gratuito

Ollama

Motore Inferenza LLM

Gratuito

llama.cpp

Backend Inferenza CPU

Gratuito

Phi-3-mini 3.8B

Modello LLM (Microsoft)

Gratuito (MIT)

ChromaDB

Database Vettoriale

Gratuito

Python 3.11+

Runtime Applicativo

Gratuito

FastAPI

Framework REST API

Gratuito

Open WebUI

Interfaccia Chat

Gratuito

LangChain

Orchestrazione RAG

Gratuito

sentence-transformers

Generazione Embedding

Gratuito

Unstructured / PyMuPDF

Parsing Documenti

Gratuito

3. Architettura Proposta

Tutti i servizi girano dentro WSL2 sul Windows Server esistente. Nessuna connessione esterna. ASP.NET si connette tramite REST API su localhost.

Livello Interfaccia Utente

App ASP.NETChiamate REST API

Open WebUIInterfaccia chat :8080

REST APIApp esterne :8000

Livello Applicativo (WSL2 — Ubuntu 22.04)

Gateway FastAPIRouter query + RAG :8000

Pipeline RAGRicerca + iniezione contesto

Livello Motore AI

OllamaInferenza LLM :11434

Phi-3-mini 3.8BModello quantizzato Q4

MiniLM-L6-v2Modello embedding

Livello Dati

ChromaDBEmbedding vettoriali

Archivio DocumentiPDF / Word / HTML / Excel

Log QueryAudit + monitoraggio

Infrastruttura

Air-GappedNessuna chiamata API esterna

Windows Server 2019VM host KVM/QEMU

5,3 TB NTFSStorage persistente

Flusso Dati

Passo	Azione	Componente	Tempo
1	L'utente invia una domanda (API o Web UI)	ASP.NET / Open WebUI	Istantaneo
2	La domanda viene trasformata in vettore	MiniLM-L6-v2	~0,5s
3	Ricerca semantica nell'indice documenti	ChromaDB	~1-2s
4	Documenti Top-K recuperati e ordinati	Pipeline RAG	~0,5s
5	Contesto + domanda inviati al LLM	Gateway FastAPI	Istantaneo
6	Il modello genera la risposta	Ollama + Phi-3-mini	~35-50s
7	Risposta restituita con citazioni delle fonti	Gateway FastAPI	Istantaneo
Totale end-to-end			~40-55 secondi

4. Piano Attività — 30 Giorni

Settimana 1 — Giorni 1-7

Fondamenta & Prima Chat Funzionante

Giorno 1-2: Configurazione WSL2 + Docker su Windows Server, installazione Ubuntu 22.04
Giorno 3-4: Installazione Ollama, test Phi-3-mini e Qwen2.5, benchmark velocità sulla CPU
Giorno 5-6: Installazione ChromaDB, configurazione modello embedding, test ricerca vettoriale
Giorno 7: Deploy Open WebUI, connessione a Ollama — prima interfaccia chat funzionante

Consegnabile: Chatbot funzionante sul vostro server (modalità conversazione generale)

Settimana 2 — Giorni 8-14

Pipeline RAG & Indicizzazione Documenti

Giorno 8-9: Costruzione pipeline di acquisizione documenti (PDF, Word, HTML, Excel)
Giorno 10-11: Indicizzazione documenti Intranet di esempio in ChromaDB
Giorno 12-13: Costruzione gateway FastAPI con ricerca ibrida (semantica + keyword)
Giorno 14: Test RAG — verifica che le risposte citino i vostri documenti

Consegnabile: Chatbot che risponde dai vostri documenti interni con citazione delle fonti

Settimana 3 — Giorni 15-21

Modalità Finanziaria & REST API

Giorno 15-16: Ottimizzazione template prompt per elaborazione dati finanziari
Giorno 17-18: Costruzione e test REST API per integrazione ASP.NET
Giorno 19-20: Test query finanziarie, ottimizzazione qualità risposte
Giorno 21: Deploy dashboard di monitoraggio (log query, metriche prestazioni)

Consegnabile: REST API pronta per ASP.NET + modalità query finanziaria operativa

Settimana 4 — Giorni 22-30

Test, Documentazione & Consegna

Giorno 22-23: Preparazione dataset per fine-tuning LoRA (se l'hardware lo consente)
Giorno 24-25: Test completo del sistema, casi limite, ottimizzazione prestazioni
Giorno 26-27: Documentazione completa (architettura, operazioni, risoluzione problemi)
Giorno 28-29: Sessioni di formazione con il team IT
Giorno 30: Deploy finale, consegna, piano di supporto

Consegnabile: Sistema completo + documentazione + team IT formato

Percorso di Upgrade

L'architettura scala automaticamente. Basta aggiornare la VM e modelli migliori si sbloccano senza modifiche al codice.

Livello	Specifiche	Modello	Risposta	Utenti
Attuale	4 core, 16 GB	Phi-3-mini 3.8B Q4	~45s	1-2
Livello 1	16 core, 32 GB	Mistral 7B Q4	~15-20s	3-5
Livello 2	32 core, 64 GB	Mistral 7B Full	~8-12s	5-10
Livello 3 (GPU)	16c, 64 GB, RTX 4060	Mistral 7B + LoRA	~2-4s	10-20

Confronto Costi

API Cloud vs On-Premise (1.000 query/giorno)

OpenAI GPT-4 API

€300-600/mese

Claude API

€250-500/mese

On-Premise (il vostro server)

€0/mese

Vantaggio Chiave: Query illimitate a costo zero. Privacy totale dei dati — nulla esce dall'azienda.

Stime Upgrade VM (futuro)

VM Attuale (16GB/4c)

Incluso

Livello 1 (32GB/16c)

€40-80/mese extra

Livello 2 (64GB/32c)

€80-150/mese extra

Livello 3 + GPU

€150-300/mese extra