Debates

En esta página comentaremos los últimos avances, discusiones y debates en machine learning y deep learning.

Unsupervised representation learning (Aprendizaje no supervisado de representaciones)

Uno de los retos actuales en el machine learning es poder aprovechar la gran cantidad de datos no etiquetados para facilitar el proceso de aprendizaje y extraer información. Mientras que el aprendizaje supervisado ha visto un enorme avance en los últimos años, el no supervisado no ha tenido el mismo éxito.

Para que un algoritmo pueda aprender representaciones de manera no supervisada es necesario que cuente con algún tipo de restricción, como señales externas o señales autogeneradas (e.g. ordenando secuencias o reconociendo rotaciones de imágenes).

Este proceso de aprendizaje no-supervisado debe:

  • Extraer las representaciones que separen los factores de variación de los datos.
  • Comprimir la entrada manteniendo la información relevante para el objetivo.
  • Proveer una representación abstracta en un espacio con menos dimensiones en el que operaciones básicas permitan actuar de manera intuitiva.

En este video de DALI 2018 Ferenc Huszár explica muy bien cuáles son los objetivos y principios del aprendizaje de representaciones.

Necesidad de representaciones de alto nivel en machine learning

El objetivo del aprendizaje no supervisado es identificar cierta estructura que explique los factores que causan la variación de los datos observados. Normalmente los métodos empleados como RBM (Restricted Boltzmann machine) o Autoencoders consiguen extraer representaciones que permiten reconstruir los datos de entrada.

Sin embargo, las representaciones obtenidas con estos métodos en ocasiones son muy superficiales y muy cercanas al espacio de entrada (p.e. pixels). Por ello, se hace necesario proponer algoritmos de machine learning que descubran representaciones de alto nivel de los datos y que estas representaciones permitan facilitar funciones cognitivas como percepción, predicción, razonamiento, etc.

En esta presentación, Yoshua Bengio describe dos métodos para identificar esas representaciones. El primero consiste en a través de agentes y políticas actuar sobre el entorno para descubrir factores independientemente controlables y así obtener las representaciones abstractas. El segundo se basa en el “consciousness prior” e intenta descubrir factores abstractos de pocas dimensiones y mucha capacidad predictiva y poder explicatorio. Sería similiar a las ideas que manejan las personas.

¿Necesitan los modelos de machine learning más estructura innata?

Siempre que usamos un algoritmo de machine learning estamos asumiendo una estructura en el algoritmo que facilita el procedimiento de aprendizaje. Por ejemplo en deep learning asumimos que los problemas a los que nos enfrentamos tienen una composicionalidad jerárquica que facilita su aprendizaje con redes neuronales de muchas capas (ver por qué el deep learning funciona tan bien) . En el procesamiento del lenguaje natural asumimos que necesitamos las entradas pasadas (p.e. palabras) además de la entrada actual para extraer información y por eso se usan redes neuronales recurrentes.

Un debate que siempre ha existido en la comunidad de machine learning es si para progresar hacia modelos de inteligencia más generales es necesario asumir más o menos estructura. Es el debate entre naturalismo y empirismo, entre si el aprendizaje viene condicionado y posibilitado por la estructura innata del modelo o simplemente con los datos y el entorno es suficiente. En este debate, Yann LeCun y Gary Marcus argumentan sus posiciones. Gary Marcus, conocido crítico del deep learning, comenta que el aprendizaje de las personas sólo es posible porque en el cerebro se ha desarrollodo la estructura necesaria para relacionar los objetos, el espacio y el tiempo. Y por lo tanto la inteligencia artificial y el machine learning evolucionarían si se incorporara más estructura y primitivas de aprendizaje en los modelos. LeCun, uno de los padres del deep learning, por el contrario argumenta que los avances se han realizado gracias precisamente a eliminar estructura innata en los modelos y que son los datos los que tienen que fijar la estructura del modelo en el proceso de aprendizaje.

Blog de WordPress.com.

Subir ↑

A %d blogueros les gusta esto: