Què és l’adequat en l’aprenentatge automàtic i com evitar-ho?



Aquest article tracta sobre l'adequació en l'aprenentatge automàtic amb exemples i algunes tècniques per evitar, detectar l'adequació en un model d'aprenentatge automàtic.

Construir un model d’aprenentatge automàtic no es tracta només d’alimentar les dades, sinó que hi ha moltes deficiències que afecten la precisió de qualsevol model. Equipament excessiu és una d'aquestes deficiències en l'aprenentatge automàtic que dificulta la precisió i el rendiment del model. En aquest article es tracten els temes següents:

Què és l'adequat en l'aprenentatge automàtic?

Es diu que un model estadístic està massa equipat quan l’alimentem amb moltes més dades de les necessàries. Per fer-la relacionable, imagineu-vos intentar encaixar en roba de grans dimensions.





Quan un model s'adapta a més dades de les que realment necessita, comença a captar les dades sorolloses i els valors inexactes de les dades. Com a resultat, l’eficiència i la precisió del model disminueixen. Fem una ullada a alguns exemples d’adequació excessiva per comprendre com passa realment.



Exemples d’excés d’adequació

Exemple 1

Si prenem un exemple de simple regressió lineal , entrenar les dades consisteix a esbrinar el cost mínim entre la línia d’ajust millor i els punts de dades. Passa per diverses iteracions per esbrinar el millor ajustament òptim, minimitzant el cost. Aquí és on entra en joc la sobrealimentació.



La línia que es veu a la imatge superior pot donar un resultat molt eficient per a un nou punt de dades. En el cas de l'adequació excessiva, quan executem l'algorisme d'entrenament en el conjunt de dades, permetem reduir el cost amb cada nombre d'iteracions.

Executant això durant massa temps suposarà un cost reduït, però també s’adaptarà a les dades sorolloses del conjunt de dades. El resultat semblaria semblant al gràfic següent.

Pot semblar eficient, però no ho és realment. L'objectiu principal d'un algorisme com ara regressió lineal és trobar una tendència dominant i ajustar els punts de dades en conseqüència. Però en aquest cas, la línia s'adapta a tots els punts de dades, cosa que és irrellevant per a l'eficiència del model a l'hora de predir els resultats òptims per als nous punts de dades d'entrada.

Considerem ara un exemple més descriptiu amb l'ajuda d'una afirmació de problema.

Exemple 2

Plantejament del problema: Considerem que volem predir si un jugador de futbol aterrarà un lloc en un club de futbol de nivell 1 en funció del seu rendiment actual a la lliga de nivell 2.

Ara imaginem que entrenem i ajustem el model amb 10.000 jugadors d’aquest tipus amb resultats. Quan intentem predir el resultat del conjunt de dades original, diguem que obtenim una precisió del 99%. Però la precisió d’un conjunt de dades diferent arriba al 50%. Això significa que el model no es generalitza bé a partir de les nostres dades de formació i dades invisibles.

Això és el que sembla l’excés d’adequació. És un problema molt comú a l’aprenentatge automàtic i fins i tot a la ciència de dades. Ara entenem el senyal i el soroll.

Senyal vs soroll

En el modelatge predictiu, el senyal fa referència al veritable patró subjacent que ajuda el model a aprendre les dades. D'altra banda, el soroll és irrellevant i les dades aleatòries del conjunt de dades. Per entendre el concepte de soroll i senyal, posem un exemple de la vida real.

Suposem que volem modelar l'edat versus l'alfabetització entre adults. Si mostrem una part molt important de la població, trobarem una relació clara. Aquest és el senyal, mentre que el soroll interfereix amb el senyal. Si fem el mateix amb una població local, la relació es tornarà enfangada. Es veuria afectat per valors atípics i atzarosos, ja que, per exemple, un adult anava a l’escola aviat o algun adult no podia pagar l’educació, etc.

Parlant de soroll i senyal en termes d’aprenentatge automàtic, un bon algorisme d’aprenentatge automàtic separarà automàticament els senyals del soroll. Si l'algorisme és massa complex o ineficient, també pot aprendre el soroll. Per tant, s’adequa al model. També entenem la insuficiència en l’aprenentatge automàtic.

Què és la insuficiència?

Per evitar un excés d’equipament, podríem aturar l’entrenament en una etapa anterior. Però també pot conduir al fet que el model no pugui aprendre prou de les dades de formació, de manera que pot resultar difícil captar la tendència dominant. Això es coneix com a subadequament. El resultat és el mateix que l’adequació, la ineficiència en la predicció dels resultats.

com fer el poder de a Java

Ara que ja hem entès què és realment la insuficiència i l'adequació a l'aprenentatge automàtic, intentem comprendre com podem detectar l'excés d'ajustament a l'aprenentatge automàtic.

Com detectar un excés d’adequació?

El principal desafiament de l’adaptació excessiva és estimar la precisió del rendiment del nostre model amb noves dades. No seríem capaços d'estimar la precisió fins que realment no la provem.

Per solucionar aquest problema, podem dividir el conjunt de dades inicials en conjunts de dades de formació i proves separats. Amb aquesta tècnica, podem aproximar el rendiment del nostre model amb les noves dades.

Entenguem-ho amb un exemple: imaginem que obtenim una precisió del 90% en el conjunt d’entrenament i un 50% de precisió en el conjunt de proves. Llavors, automàticament seria una bandera vermella per al model.

Una altra manera de detectar l’excés de condicionament és començar amb un model simplista que servirà de referència.

Amb aquest enfocament, si proveu algoritmes més complexos, podreu entendre si la complexitat addicional fins i tot val la pena per al model o no. També es coneix com Prova d’afaitar d’Occam , bàsicament tria el model simplista en cas de rendiment comparable en cas de dos models. Tot i que detectar un excés d’adequació és una bona pràctica,però també hi ha diverses tècniques per evitar un excés d’adequació. Fem una ullada a com podem evitar un excés d’ajustament a l’aprenentatge automàtic.

Com evitar l’excés d’aprenentatge automàtic?

A continuació, es detallen diverses tècniques per evitar l'adequació de l'aprenentatge automàtic.

  1. Validació creuada

  2. Formació amb més dades

  3. Eliminació de funcions

  4. Parada anticipada

  5. Regularització

  6. Muntatge

1. Validació creuada

Una de les funcions més potents per evitar / prevenir l’ajust excessiu és la validació creuada. La idea darrere d’això és utilitzar les dades d’entrenament inicial per generar mini dividits de proves de trens i, a continuació, utilitzar aquestes divisions per afinar el vostre model.

En una validació estàndard de plegat k, les dades es particionen en subconjunts k també coneguts com a plegaments. Després d'això, l'algorisme s'entren iterativament en plecs k-1 mentre s'utilitzen els plecs restants com a conjunt de proves, també conegut com a plec de retenció.

La validació creuada ens ajuda a sintonitzar els hiperparàmetres només amb el conjunt d’entrenament original. Bàsicament, manté el conjunt de proves per separat com un veritable conjunt de dades invisibles per seleccionar el model final. Per tant, evitant l'adequació total.

2. Formació amb més dades

És possible que aquesta tècnica no funcioni cada vegada, com també hem comentat a l'exemple anterior, on la formació amb una quantitat important de població ajuda el model. Bàsicament ajuda el model a identificar millor el senyal.

Però, en alguns casos, l'augment de les dades també pot significar alimentar més soroll al model. Quan estem entrenant el model amb més dades, hem d’assegurar-nos que les dades estiguin netes i lliures d’atzar i inconsistències.

3. Eliminació de funcions

Tot i que alguns algoritmes tenen una selecció automàtica de funcions. Per a un nombre significatiu d'aquells que no tenen una selecció de funcions integrada, podem eliminar manualment algunes funcions irrellevants de les funcions d'entrada per millorar la generalització.

Una manera de fer-ho és mitjançant la conclusió de com s’adapta una característica al model. És força similar a la depuració del codi línia per línia.

En el cas que una característica no pugui explicar la rellevància del model, simplement podem identificar-les. Fins i tot podem utilitzar algunes heurístiques de selecció de característiques per obtenir un bon punt de partida.

4. Parada anticipada

Quan el model s’està entrenant, podeu mesurar el rendiment del model en funció de cada iteració. Ho podem fer fins a un moment en què les iteracions milloren el rendiment del model. Després d’això, el model s’adapta a les dades de formació ja que la generalització es debilita després de cada iteració.

Així, bàsicament, aturar-se primerencament significa aturar el procés d'entrenament abans que el model passi el punt en què el model comença a adaptar-se a les dades de l'entrenament. Aquesta tècnica s'utilitza principalment a aprenentatge profund .

5. Regularització

Bàsicament significa, obligar artificialment el vostre model a ser més senzill mitjançant l'ús d'una gamma més àmplia de tècniques. Depèn totalment del tipus d’aprenent que estem utilitzant. Per exemple, podem podar a , utilitzeu un abandonament a xarxa neuronal o afegiu un paràmetre de penalització a la funció de cost en regressió.

Molt sovint, la regularització també és un hiperparàmetre. Vol dir que també es pot ajustar mitjançant la validació creuada.

relació isa i hasa a java

6. Muntatge

Aquesta tècnica combina bàsicament prediccions de diferents models d’aprenentatge automàtic. A continuació s’enumeren dos dels mètodes més habituals d’ensamblatge:

  • L’ensacament intenta reduir les possibilitats d’adequació excessiva als models

  • Impulsar els intents de millorar la flexibilitat predictiva de models més senzills

Tot i que tots dos són mètodes de conjunt, l'enfocament parteix totalment de direccions oposades. L’ensacament utilitza models de bases complexos i intenta suavitzar les seves prediccions, mentre que augmenta utilitza models de bases simples i intenta augmentar la seva complexitat agregada.

Què és Goodness Of Fit?

En el modelatge estadístic, la bondat de l’ajust es refereix a la forma en què els resultats o els valors predits coincideixen amb els valors observats o reals.Un model que ha après el soroll en lloc del senyal està equipat perquè s’adapta al conjunt de dades d’entrenament, però tindrà una eficiència inferior amb el nou conjunt de dades.

La compensació entre el biaix i la variació

Tant la variància com el biaix són formes d'error de predicció a . El compromís entre alta variació i elevat biaix és un concepte molt important en estadístiques i aprenentatge automàtic. Aquest és un concepte que afecta tots els algorismes d’aprenentatge automàtic supervisats.

La compensació de la variació del biaix té un impacte molt significatiu a l’hora de determinar la complexitat, la insuficiència i l’adequació de qualsevol model d’aprenentatge automàtic.

Parcialitat

No és res més que la diferència entre els valors predits i els valors reals o reals del model. No sempre és fàcil que el model aprengui de senyals força complexos.

Imaginem-nos adequant un regressió lineal a un model amb dades no lineals. Per més eficaç que el model aprengui les observacions, no modelarà les corbes de manera eficient. Es coneix com a subadequament.

Desacord

Es refereix a la sensibilitat del model a conjunts específics de les dades de formació. Un algorisme d’alta variància produirà un model estrany que és dràsticament diferent del conjunt d’entrenament.

Imagineu-vos un algorisme que s’adapti al model súper flexible i sense restriccions, que també aprendrà del soroll del conjunt d’entrenament que provoca un ajust excessiu.

Compensació de diferència de parcialitat

Un algorisme d’aprenentatge automàtic no es pot percebre com un mètode únic per entrenar el model, sinó que és un procés repetitiu.

Els algoritmes de variació baixa-variació elevada són menys complexos, amb una estructura simple i rígida.

  • Formaran els models que siguin coherents, però de mitjana imprecisos.

  • Aquests inclouen algoritmes lineals o paramètrics, com ara la regressió, , Etc.

Els algoritmes d’alta variació-biaix baix solen ser més complexos, amb una estructura flexible.

  • Entrenaran els models inconsistents, però de mitjana precisos.

  • Aquests inclouen algoritmes no lineals o no paramètrics com , , Etc.

Això ens porta al final d’aquest article, on hem après l’excés de condicionament en l’aprenentatge automàtic i sobre diverses tècniques per evitar-ho. Espero que tingueu clar tot el que us ha estat compartit en aquest tutorial.

Si heu trobat rellevant aquest article sobre 'Aprofitament excessiu en l'aprenentatge automàtic', consulteu el document una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món.

Som aquí per ajudar-vos en cada pas del vostre viatge i oferir un pla d’estudis dissenyat per a estudiants i professionals que vulguin ser . El curs està dissenyat per donar-vos un avantatge en la programació de Python i formar-vos tant per a conceptes bàsics com avançats de Python juntament amb diversos M'agrada , , Etc.

Si us trobeu amb alguna pregunta, no dubteu a fer-vos totes les vostres preguntes a la secció de comentaris de 'Aprofitament excessiu en l'aprenentatge automàtic' i el nostre equip estarà encantat de respondre-us.