32.8 C
Santo Domingo
domingo, junio 30, 2024

TOP DE ESTA SEMANA

Artículos Relacionados

Descubre Cómo Esta IA Encuentra Momentos Clave en Videos en Segundos

- Anuncio -

La internet está llena de videos instructivos que enseñan todo, desde cómo cocinar la tortita perfecta hasta realizar una maniobra de Heimlich que salva vidas. Sin embargo, encontrar el momento exacto en que ocurre una acción específica en un video largo puede ser tedioso. Para agilizar este proceso, los científicos están trabajando en enseñar a las computadoras a realizar esta tarea. Idealmente, un usuario podría describir la acción que busca y un modelo de inteligencia artificial (IA) saltaría directamente a su ubicación en el video.

Sin embargo, enseñar a los modelos de aprendizaje automático a hacer esto generalmente requiere una gran cantidad de datos de video costosos que han sido meticulosamente etiquetados a mano.

Un Enfoque Más Eficiente

Un nuevo enfoque más eficiente de investigadores del MIT y el MIT-IBM Watson AI Lab entrena a un modelo para realizar esta tarea, conocida como anclaje espaciotemporal, usando solo videos y sus transcripciones generadas automáticamente.

Los investigadores enseñan al modelo a entender un video no etiquetado de dos maneras distintas: observando pequeños detalles para determinar dónde se encuentran los objetos (información espacial) y viendo la imagen completa para entender cuándo ocurre la acción (información temporal).

Comparado con otros enfoques de IA, su método identifica más precisamente acciones en videos largos con múltiples actividades. Curiosamente, descubrieron que entrenar simultáneamente en información espacial y temporal mejora la capacidad del modelo para identificar cada una de forma individual.

Además de agilizar los procesos de aprendizaje en línea y capacitación virtual, esta técnica podría ser útil en entornos de atención médica al encontrar rápidamente momentos clave en videos de procedimientos diagnósticos, por ejemplo.

Desafíos y Soluciones en el Anclaje Espaciotemporal

Los investigadores generalmente enseñan a los modelos a realizar el anclaje espaciotemporal utilizando videos en los que los humanos han anotado los tiempos de inicio y fin de tareas específicas. No solo es costoso generar estos datos, sino que puede ser difícil para los humanos determinar exactamente qué etiquetar. Si la acción es “cocinar una tortita”, ¿comienza cuando el chef empieza a mezclar la masa o cuando la vierte en la sartén?

“Esta vez, la tarea puede ser sobre cocinar, pero la próxima vez podría ser sobre arreglar un coche. Hay tantos dominios diferentes para que las personas anoten. Pero si podemos aprender todo sin etiquetas, es una solución más general”, dice Brian Chen, autor principal de un artículo sobre esta técnica.

Para su enfoque, los investigadores usan videos instructivos no etiquetados y transcripciones de texto acompañantes de un sitio web como YouTube como datos de entrenamiento. Estos no necesitan ninguna preparación especial.

Dividen el proceso de entrenamiento en dos partes. Por un lado, enseñan a un modelo de aprendizaje automático a mirar el video completo para entender qué acciones ocurren en ciertos momentos. Esta información de alto nivel se llama representación global.

Por otro lado, enseñan al modelo a centrarse en una región específica en partes del video donde ocurre la acción. En una cocina grande, por ejemplo, el modelo podría necesitar centrarse solo en la cuchara de madera que el chef está usando para mezclar la masa, en lugar de en todo el mostrador. Esta información detallada se llama representación local.

Un Nuevo Punto de Referencia

Pero cuando llegaron a evaluar su enfoque, los investigadores no pudieron encontrar un punto de referencia efectivo para probar un modelo en estos videos más largos y sin cortar, por lo que crearon uno.

Para construir su conjunto de datos de referencia, los investigadores idearon una nueva técnica de anotación que funciona bien para identificar acciones de varios pasos. Hicieron que los usuarios marcaran la intersección de objetos, como el punto donde el filo de un cuchillo corta un tomate, en lugar de dibujar un cuadro alrededor de los objetos importantes.

“Esto está más claramente definido y acelera el proceso de anotación, lo que reduce el trabajo humano y el costo”, dice Chen.

Además, hacer que varias personas hagan anotaciones puntuales en el mismo video puede capturar mejor acciones que ocurren con el tiempo, como el flujo de leche al ser vertida. No todos los anotadores marcarán el mismo punto exacto en el flujo del líquido.

Cuando usaron este punto de referencia para probar su enfoque, los investigadores encontraron que era más preciso al señalar acciones que otras técnicas de IA.

Mejorando la Interacción Humano-Objeto

Su método también era mejor para centrarse en las interacciones humano-objeto. Por ejemplo, si la acción es “servir una tortita”, muchos otros enfoques podrían centrarse solo en los objetos clave, como un montón de tortitas en un mostrador. En cambio, su método se centra en el momento exacto en que el chef voltea una tortita en un plato.

Los enfoques existentes dependen en gran medida de datos etiquetados por humanos, y por lo tanto no son muy escalables. Este trabajo da un paso hacia la solución de este problema proporcionando nuevos métodos para localizar eventos en el espacio y el tiempo usando el habla que ocurre naturalmente dentro de ellos.

Futuras Mejoras

Los investigadores planean mejorar su enfoque para que los modelos puedan detectar automáticamente cuando el texto y la narración no están alineados y cambiar el enfoque de una modalidad a otra. También quieren extender su marco a datos de audio, ya que generalmente hay fuertes correlaciones entre las acciones y los sonidos que hacen los objetos.

“La investigación en IA ha hecho un progreso increíble hacia la creación de modelos como ChatGPT que entienden imágenes. Pero nuestro progreso en la comprensión de videos está muy atrás. Este trabajo representa un paso significativo en esa dirección”, dice Kate Saenko, profesora en el Departamento de Ciencias de la Computación de la Universidad de Boston, que no participó en este trabajo.

- Anuncio -