Lβoverfitting Γ¨ un problema comune nellβaddestramento di algoritmi di machine learning, che si verifica quando il modello impara troppo bene i dati dell'insieme di addestramento e non generalizza correttamente su nuovi dati. Questo significa che il modello si Γ¨ adattato con grande precisione alle specifiche osservazioni avvenute nel dataset di addestramento, ma fallisce nella generalizzazione con i dati reali, ovvero il modello ha una elevata varianza. In altre parole, lβoverfitting si verifica quando il modello diventa troppo complesso per la quantitΓ di dati disponibili. Il modello memorizza le caratteristiche specifiche dei dati dell'insieme di addestramento invece di apprendere le relazioni piΓΉ generalizzate tra i dati. CiΓ² significa che il modello puΓ² avere prestazioni molto elevate sui dati utilizzati durante lβaddestramento ma prestazioni scarse su nuovi dati. Per verificare se un modello soffre di overfitting basta vedere che lβerrore sul set di test Γ¨ notevolmente maggiore dellβerrore sul set di addestramento come nellβimmagine sotto.
Cause
Ci sono diverse cause dellβoverfitting:
- Non cβΓ¨ un numero sufficiente di esempi di addestramento
- Il numero di proprietΓ Γ¨ superiore al numero di esempi
- La rete neurale Γ¨ troppo complessa, quindi con troppe unitΓ nascoste o strati;
- gli esempi del training set hanno rumore o errori casuali, la rete potrebbe imparare anche questi errori come parte della soluzione ottimale al problema;
- se ci sono poche variazioni nei campioni del dataset (esempio tutti gli oggetti da rilevare nella stessa posizione), la rete potrebbe concentrarsi solo sulle caratteristiche specifiche a quelle posizioni piuttosto che sulle proprietΓ generalizzate degli oggetti.
Come evitarlo
Per evitare lβoverfitting, Γ¨ possibile utilizzare tecniche come
- Raccogliere piΓΉ dati di addestramento (eventualmente fake usando tecniche di Data augmentation);
- Ridurre la dimensionalitΓ dei dati tramite selezione o estrazione delle caratteristiche;
- Ridurre la complessitΓ della rete, con un minor numero di parametri;
- Introducendo tecniche di Regolarizzazione del modello (L1-L2 o dropout).