MULTIMODAL AI SOTA

 

Workshop by Neuraptic Labs.

Autor: Marco D’Alessandro

El aprendizaje profundo multimodal (Multimodal Deep Learning) es uno de los retos científicos más apasionantes de nuestro tiempo. Permite a las máquinas construir representaciones complejas y ricas de los estímulos multimodales mediante la captura de la semántica compartida entre los componentes uni-modales, como lo hace el cerebro humano. En este workshop, presentamos una visión general de algunas de las arquitecturas multimodales más interesantes introducidas en los últimos dos años para revisar el SOTA y las direcciones futuras del Aprendizaje Multimodal (Multimodal Learning), directamente con ejemplos.

 

 

Workshop Multimodal AI SOTA (PDF) by Neuraptic Labs.

El workshop está enfocado a los modelos multimodales de una y varias tareas, atendiendo en primer lugar a algunas ideas interesantes de Google Research, como el modelo Perceiver, un transformador agnóstico a la modalidad que maneja datos sin procesar y expresa la capacidad de reducción de la dimensionalidad, y la arquitectura Attention Bottleneck, que modela explícitamente neuronas multimodales entre las específicas de la modalidad, procesando la semántica compartida en una capa de cuello de botella.

Por lo tanto, se han analizado varios submódulos de arquitectura de los modelos transformadores de 3 modalidades para estudiar los principales bloques de construcción del procesamiento de la información multimodal. En particular, el modelo Audio-Visual Dual-Stream Retrieval propuso una recuperación de vídeo tipo CLIP con supervisión de texto, combinando, de hecho, las modalidades de vídeo, audio y texto, mientras que el modelo Video-Audio-Text Transformer (VATT) introdujo el módulo DropToken para reducir la complejidad computacional al tratar estímulos combinados de audio-vídeo-texto de alta dimensión.

Por último, se consideraron ejemplos de modelos multimodales multitarea procedentes de la investigación de Facebook y DeepMind, entre otros. En particular, el modelo Unified Transformer (UniT) propuso un modelo codificador-decodificador para procesar conjuntamente una concatenación de representaciones uni-modales codificadas junto con una representación codificada latente de una tarea específica a resolver, el modelo One For All (OFA), se basó en un vocabulario unificado de texto-imagen-objeto y un codificador-decodificador simple para aprender a resolver hasta 8 tareas, tanto cross-modales como uni-modales, el modelo Uni-Perceiver propuso un modelo de codificador compartido para aprender representaciones latentes tanto de la entrada como del objetivo de una cantidad impresionante de tareas diferentes, aprendiendo a aproximar su probabilidad conjunta, y el más reciente modelo Flamingo introdujo los conceptos de texto de entrada estructurado intercalado por imágenes, y decodificadores condicionales, dejando fluir la información en una arquitectura combinada de módulos aprendibles y congelados.

 Los modelos de aprendizaje multimodal (Multimodal learning) son altamente modulares, y conceptos como la fusión de modalidades y la reducción de la dimensionalidad pueden ser fácilmente manejados por bloques de construcción específicos que participan en el procesamiento de la información.

Tanto los modelos de sólo codificador como los de codificador-decodificador pueden alcanzar objetivos impresionantes en el aprendizaje multitarea, al dejar a los investigadores espacio para opciones arquitectónicas flexibles cuando entran en juego las limitaciones de hardware o de tiempo.

 

Neuraptic Labs es el centro tecnológico y de investigación de Neuraptic AI, desarrollador de ENAIA, plataforma de Operaciones de Aprendizaje Automático Multimodal (MMLOps), capaz de entrenar cualquier IA por muy específica que sea la tarea, capaz de transformar cualquier tipo de input (imagen, PNL, tablas) y combinaciones de los mismos en resultados.

ENAIA hace posible que cualquier empresa pueda disponer de una Inteligencia Artificial asequible, fácil de usar y totalmente adaptada a sus necesidades.

Sobre el autor: Marco D'Alessandro

Sobre el autor: Marco D'Alessandro

Ph.D. in Cognitive Science, Data Scientist and postdoctoral researcher in Computational Cognitive Modeling at Neuraptic AI and the National Research Council of Italy.

Descubre ENAIA y empieza a rentabilizar tus datos

Únete a nuestra comunidad de partners y accede a una tecnología de enorme potencial en un mercado todavía incipiente.