Sesgo y varianza en aprendizaje automático: guía completa y práctica

Siste oppdatering: 11/23/2025
Forfatter: C SourceTrail
  • Sesgo es error sistemático y varianza es sensibilidad al muestreo; el MSE se descompone en Bias² + Var + σ².
  • Regularisering, dimensjoner og balansedata: menos komplette og mer data reduserte varianter, mer rasgos bajan sesgo.
  • En k-NN, el sesgo crece con ky la varianza cae; bagging reduser varianza y boosting reduser sesgo.
  • Distingue sesgo estadístico (MSE) de sesgo de equidad y mídelo con métricas y auditorías por grupo.

Illustrasjon av sesgo y varianza og aprendizaje automático

En aprendizaje supervisado, el equilibrio entre sesgo y varianza es el quid de la cuestión: hay que capturar la estructura real de los datos sin quedarse con el ruido. La gracia (y el dolor de cabeza) está en que, por lo general, no se pueden minimizar ambos a la vez; cuanto más fuerzas uno, más sufre el otro.

Para situarnos, cuando hablamos de sesgo y varianza aquí hablamos de rendimiento estadístico y de generalización, no de ética. El sesgo estadístico mide qué tan lejos, de media, se va tu modello de la verdad, y la varianza mide cuánto cambian sus predicciones si vuelves a entrenarlo con otras muestras del mismo proseso generador de data. Veremos definiciones formales, una derivación paso a paso de la descomposición sesgo-varianza, intuitive løsninger, casos como k-vecinos, regularización, clasificación, efectos del tamaño muestral, y hasta paralelismos con RL y la cognición humana, sin olvidarnos del otro “sesgo” (equidad) y cómo medirlo y.

Qué significan realmente "sesgo" og "varianza" (sentido técnico y etimologiía)

Aunque a veces se explica de forma antropomórfica ("el modelo llega con ideas preconcebidas"), el término "sesgo" viene de la estadística: es la diferencia entre la esperanza del estimador y el valor verdadero. En ML, para cada punto x, el sesgo es la distancia sistemática entre la media de las predicciones del modelo (sobre distintos conjuntos de entrenamiento) y la función real f(x).

La "varianza" se refiere a la variabilidad de la predicción debida a cambiar la muestra de entrenamiento. Técnicamente, es Var_D, condicionada ax: si reentrenas con diferentes D muestreados de la misma distribución, ¿cuánto fluctúa \hat f? Que los pesos cambien mucho es un sintoma posible, men lo que medimos de verdad es la variabilidad de la salida del modelo, no de los parámetros en sí.

Formell plantebehandling

Suponemos data generados por y = f(x) + ε, donde ε tiene media 0 y varianza σ². Contamos con un conjunto de entrenamiento D = {(x₁, y₁), …, (x_n, y_n)} y un algoritmo que produsere una función aprendida \hat f(x; D). Nuestro objetivo es aproximar f(x) lo mejor posible tanto en el entrenamiento como, sobre todo, en puntos no vistos.

Hvordan legge til en ruido, hay un feil ureduserbar que ningún modello puede eliminar: incluso con \hat f perfecta, el término ε aporta σ² al error cuadrático medio.

Descomposición sesgo-varianza del error cuadrático

Para un x fijo, el error esperado puede separarse en tres piezas: sesgo al cuadrado, varianza y ruido irreductible. Es la famosa identidad que estructura el diagnóstico y el tuning de modelos.

E_{D,ε} = (Bias_D)^2 + Var_D + σ^2

Hvor, mer i detalj, vi definerer:

Bias_D = E_D - f(x)
Var_D  = E_D)^2]

Si tomamos después la expectativa respecto a la distribución de x, obtenemos la global funksjon for tipo MSE med samme struktur:

MSE = E_x{ Bias_D^2 + Var_D } + σ^2

Derivación paso a paso (para no quedarse con dudas)

La identidad anterior se obtiene expandiendo el MSE y usando propiedades básicas de la esperanza. Arrancamos de y = f + ε, con E=0 y Var(ε)=σ²:

MSE = E = E - 2 E + E

Desglosando cada pieza: primero, E = f² + σ² porque f no depende de los data y E=0.

E = E = f^2 + 2 f E + E = f^2 + σ^2

Sekund, E = f E al ser ε independiente de \hat fy de media cero.

E = E = E + E = f E

Tercero, usamos que E = Var(X) + (E)², con lo que E = Var(\hat f) + (E)².

E = Var(\hat f) + (E)^2

Al rekombinar: MSE = (f − E)² + Var(\hat f) + σ². El primer término es el sesgo al cuadrado, el segundo la varianza debida al muestreo, y el tercero el ruido uunngåelig.

Intuiciones visuales y por qué “más parámetros” no siempre significa “más complejidad”

Un emplo clásico para construir intuición es aproximar una función roja con basisfunksjoner for radielle azuler. Si las RBF tienen gran “anchura” (curvas muy suaves), el modello es rígido: alto sesgo, baja varianza. Si estrechamos la anchura, el modello se adapta mejor a cada ensayo y puede seguir detaljer finos: baja el sesgo y sube la varianza entre reentrenamientos.

Ojo también a cómo definimos "complejidad". Contar parámetros engaña: el modello f_{a,b}(x) = a·sin(bx) tiene dos parámetros y, aun así, puede interpolar un montón de puntos oscilando con frecuencia alta. Dette komportamiento puede traducirse en sesgo y varianza elevados en presencia de ruido, desmintiendo la ideen simplona de que "pocos parámetros = modelo simple" siempre.

Nøyaktighet og presisjon: una analogía util

Det er ofte å bruke Diana: nøyaktighet (nøyaktighet) se asocia con bajo sesgo (golpes cerca del centro de la diana), y precisión con baja varianza (golpes muy agrupados). Un ajuste lineal a data con patrón cuadrático suele ser exacto "de media" solo si la estructura es lineal; si nei, aflora alt sesgo. I motsetning til, mange fleksible modeller er lokaliserte, men una sensibilidad excesiva al ruido genera alta varianza.

La regularización actúa como uklar uttrykkelig: penalizar la complejidad amortigua cuánto "se mueve" el modello al ver data parecidos, reduciendo varianza a costa de introducir sesgo controlado (guía sobre overfitting y underfitting).

Qué beslutninger redusert sesgo o varianza (y sus efectos colaterales)

Algunas palancas son bastante universales: redusere dimensjoner eller utvalgte egenskaper forenkle modellen og redusere variansen; añadir predictores tiende a bajar el sesgo pero under variasjonen. Mer data, generelt, kortvarianter og tillatelse til å bruke modeller for mer informasjon.

En konkret modell har mandos klar: lineær regresjon og MLG se benefician de regularización (L1/L2) para disminuir varianza; en redes neuronales, mer unidades ocultas suele bajar el sesgo y subir la varianza (aunque la visión clásica se matiza con prácticas modernas y regularizadores potentes). En k-vecinos, k alt = más sesgo y menos varianza; en árboles, la profundidad controla en gran medida la varianza y el beskjæring la limita. Los ensambles también ayudan: bagging redusere variansen y øke redusere sesgo.

La validación cruzada es tu aliada para ajustar hiperparámetros y encontrar el punto dulce. Evaluer en multiple particiones permite detectar si andas corto de sesgo o pasado de varianza sin engañarte con una sola partición afortunada.

k-vecinos más próximos: una fórmula cerrada que lo deja cristalino

Para la regresión k-NN, con expectativa tomada sobre posibles etiquetados de un conjunto de entradas fijo, existe una expresión que separa claramente sesgo, varianza y ruido:

E = ( f(x) - (1/k) \sum_{i=1}^k f(N_i(x)) )^2 + σ^2/k + σ^2

El primer término es el sesgo (crece con k), el segundo la varianza (se reduser con k) y el tercero el ruido irreductible. Con supuestos razonables, el sesgo del 1-NN tiende a desaparecer cuando el tamaño del conjunto de entrenamiento tiende a infinito.

Regularisering på regresión: for Lasso y Ridge mejoran el MSE

En minimos cuadrados, la solución OLS es insesgada, men kan ha store variasjoner. Lasso (L1) og Ridge (L2) introduserte formakontroller, et kamera, redusert notablemente la varianza, lo que baja el MSE totalt. Este compromiso entronca con resultados clásicos como Gauss-Markov (Efficiencia de OLS dentro de la familia lineal insesgada) y limites fundamentales tipo Cramér-Rao para estimeres mer generelle.

Klassifisering: pérdida 0-1 y probabilidades

La descomposición original es para MSE en regresión, pero existen análogos en classificación kon pérdida 0-1. Si planteas la tarea como clasificación probabilística y miras el feil cuadrático esperado de las probabilidades predichas frente a las verdaderas, vuelve a parecer la misma estructura de sesgo, varianza y ruido.

Mer data, menos varianza (y modelos de menor sesgo)

En praktisk idé: al crecer el conjunto de entrenamiento, la varianza tiende a bajar. Eso abre la puerta a usar modelos más expresivos (menor sesgo) sin disparar el error total. Med pocos data, en cambio, suele interesarer beholdervariasjon med modellene mer enkle og regulære fuerte.

Aprendizaje por refuerzo: un equilibrio primo hermano

Aunque la descomposición formal no se aplica tal cual en RL, la generalización también se entiende como la suma de un sesgo asintótico (propio del algoritmo) og en termin av overmontering ligado og data limitados. Dos caras de la misma moneda: método y muestra.

La mirada de la psicologia: heurísticas de alto sesgo/baja varianza

Con datos escasos y ruidosos, el cerebro humano parece optar por reglas simples (alto sesgo) med baja varianza. Esa preferencia puede ser adaptativa: generalizas mejor con poco, a costa de no capturar detaljes finos. En tareas como el reconocimiento genérico de objetos, cierto "cableado previo" ayuda y la experiencia lo va afinando.

Sesgo estadístico vs sesgo social en IA (no es lo mismo)

Conviene distinguir: aquí "sesgo" es el feil systematikk av estimering. En ética de IA, hablamos de Trato Desigual mellom grupper (for data eller algoritmer). Reduser el sesgo estadístico mejora el MSE; mitigar el sesgo sosial persigue egenkapital. Ambas agendaer se cruzan, men ingen idé.

Tipos frecuentes de sesgo en data y sistemas de IA (equidad)

  • Utvalgsskjevhet: la muestra no representa a la población objetivo y true las predicciones for undergruppene dine.
  • Sesgo muestral: categorías sobrerrepresentadas eller infrarepresentadas que debalansere læringen.
  • Bekreftelsestendens: modelbeslutninger eller anotación que refuerzan expectativas previas.
  • Medisineringssesong: data mal recogidos eller instrumentos sesgados forurense målet.
  • Sesgo algoritme: induktive metoder favorecen cierto tipo de relaciones ingen siempre ajustadas a la realidad.
  • Aggregatsessel: segmentaciones o clasificaciones que agrupan mal y arrastran errores.
  • Sesgo por variabilidad de los data: datos demasiado homogéneos o heterogéneos respecto a producción que skade generaliseringen.

Cómo identificar y medir sesgos (equidad) en modelos de IA

  • Rendimiento per gruppe: evalúa por separado métricas en sexo, edad, origen, etc., para detektor brechas.
  • Ulikhetsmålinger: FP-/FN-poser per gruppe, presisjonsforskjell y innvirkning på forvrengning (probabilidad de resultado favorable entre grupos).
  • Følsomhetsprøver: cambios controlados en atributos (s. ej., nombre o dirección) para ver si la predicción se sesga.
  • Simulering av escenarioerSyntetiske profiler for utforske mulige desigualdades (s. ej., scoring crediticio).
  • Analyse av bidrag: técnicas tipo LIME/SHAP para ver qué variabler Empujan decisiones y si algún atributo domina indebidamente.
  • Ekstern revisjon: equipos independientes, data de prueba y reproduserbare protokoller.
  • Conjuntos equilibrados de evaluación: testdesign for medir equidad sin sesgos de base.
  • Kryssvalidering: evalúa la estabilidad del rendimiento por partición y avskrive skjørhet ligader til møret.

Por qué los data anotados pueden introducir sesgos

Las anotaciones son poderosas, men tre ganger: la subjetividad humana y los feilrepetitivos dejan huella. Han aquí los principales focos:

  • subjektivitet: escalas y criterios dispares følge personen.
  • Usammenheng mellom annotatorerfeil med veiledning eller samtykke aumenta la varianza de etiquetas.
  • bekreftelse: indikasjoner som gjelder for alinean etiquetas con hipótesis.
  • Møte med sesjon: si lo que anotamos ya está sesgado, forsterker vi problemet.
  • menneskelige feiltretthet og kompleksitet generiske fallos systematiske.
  • Merknadsverktøy: grensesnitt for bruksmuligheter innfør teknologiske sesjoner.

Elección del conjunto de data: representatividad, diversidad y procedencia

La base lo es alt. Representativitet: Si tu datasett ingen refleja la población objetivo, el modelo aprenderá a normalisere forvrengninger. Mangfold: equilibrar categorías (edad, género, etnia, etc.) permite estimar sesgos con ordfører presisjon.

De har også betydning kvaliteten på anmerkningene (coherencia y guía claras) y la opprinnelse: fuentes como redes sociales tienen demografías y comportamientos particulares; si solo bebes de ahí, herderasen av segsene sine.

Métricas y evaluación: klassifisering og regresión

En binær klassifisering, la forvirringsmatrise konsentrere seg om feil og feil (TP, FP, FN, TN). Métricas clave: presisjon, exhaustividad/recobrado, F1, sammen med ROC-kurve (sensibilidad vs. 1−especificidad) y su AUC korresponderende for å sammenligne modeller og forskjellige parasoller.

En regresión, más allá del MSE/MAE, el coeficiente determinación R² resume la fracción de varianza explicada: R² = 1 − SS_res/SS_tot. Oppmerksomhet: Tilpassede versjoner og informasjonskriterier (AIC/BIC) kan sammenlignes med ulike modeller.

Velg modell, validering og regularisering

Splitt og hersk: opplæring, validering og testing con partición honesta, o bien k-fold CV for tener mer estabilidad. En k-fold, entrenas k veces dejando cada fold como validación una vez; promedias el feil de validación y afinas hiperparámetros desde ahí.

La regularización (L1/L2, frafall, tidlig stopp, vektnedgang, etc.) actúa de “freno” a la complejidad efectiva. Reduser varianza y previene sobreajuste, Asumiendo un sesgo extra que suele compensar con creces el MSE final. En árboles, el poda (beskjæring) har den samme ånden.

Applicaciones y prácticas recomendadas (con un guiño a MLOps)

I fornuftige herrer, som autonome kjøretøy, un modelo muy sesgado puede ignorar peatones atípicos, y uno de alta varianza puede ver mørke som hindringer. i Medisinsk diagnostikk, cuidado con memorizar artefactos de un hospital que luego hacen fallar en otro centro. Aquí brillan los conjuntos de data massive og forskjellige, el aumento de data y los ensambles para estabilizar.

En visión por ordenador moderna, familias como YOLO equilibran presisjon og velocidad; ajustar hiperparámetros como vekt_forfall ayuda a controlar la varianza. Et generisk eksempel på Python bruker Ultralytics-pakken for å illustrere ideen:

from ultralytics import YOLO

# Cargar un modelo ligero de la familia YOLO
model = YOLO("yolo-nano.pt")

# Entrenar ajustando weight_decay para controlar la varianza (sobreajuste)
results = model.train(data="coco8.yaml", epochs=10, weight_decay=5e-4)

Integra estos ajustes con monitorización continua, ML-observabilitet y auditorías de equidad. Nos engañemos: sin validación robusta y datas de calidad, el mejor truco de regularización se queda corto.

Para cerrar el círculo, recuerda que todo este andamiaje convive con conceptos como prediksjonsintervaller (incertidumbre total para nuevos puntos), cotas de información y garantías estadísticas. Avinar el balanse sesgo-varianza, elegir el modello adecuado a los data que tienes y medir bien lo que importa son las claves que marcan la diferencia en producción.

overtilpasning vs. undertilpasning
Relatert artikkel:
Overfitting vs underfitting: guía completa con señales, causas y solutions
Relaterte innlegg: