Información relevante y suficiente en machine learning

En un problema de machine learning (aprendizaje automático) intentamos que las máquinas obtengan información y aprendizaje a partir de un conjunto de datos. Por ello la información que extraigamos de los datos es muy importante tanto si estamos en aprendizaje supervisado (los datos tiene etiquetas o valores objetivo), no supervisado o combinaciones de los mismos.

En el caso de que tengamos variables objetivo o relevantes el problema es qué información de la entrada extraer y que a la vez sea relevante para la variable objetivo. Por ejemplo en reconocimiento del habla, qué información de los sonidos retener para averiguar las palabras que se han dicho.  En la predicción de la tasa de morosidad de un cliente qué factores y características del cliente son los más importantes para estimar esa tasa.

Este es un tema clave, siempre va a depender de la tarea en cuestión y va a condicionar el algoritmo de aprendizaje elegido y su estructura. El éxito del Deep Learning se debe a que para ciertas tareas es muy importante estructurar la información  de entrada de manera distribuida y jerárquica en capas de diferente nivel de abstracción.

Un enfoque para este problema de extracción de información que ha tenido mucho éxito es el método del cuello de botella de la información “information bottleneck method” que introdujeron Tishby, Pereira y Bialek. Ellos formalizaron el problema de como resumir o reducir la variable X preservando la máxima información sobre la variable relevante u objetivo Y.

Para calcular cuánta información sobre X comprimir recurrieron a teoría de la información y es necesario minimizar la siguiente ecuación:

I(X;T) – ßI(T;Y)

donde I(X;T) y I(T;Y) es la información mutua entre X;T y T;Yß es el multiplicador de Lagrange. Modificando el parámetro ß se explora el compromiso entre preservar información relevante de la entrada o comprimirla.

Cuello de botella de la información

Este método, que ha tenido muchas aplicaciones en machine learning y neurociencias computacionales, es una buena guía para el problema de encontrar la información relevante!

 

2 comentarios sobre “Información relevante y suficiente en machine learning

Agrega el tuyo

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

Blog de WordPress.com.

Subir ↑

A %d blogueros les gusta esto: