Alignement spatio-temporel de séquences vidéo

Le traitement d’images désigne une discipline de l’informatique et des mathématiques appliquées qui étudie les images numériques et leurs transformations, dans le but d’améliorer leurs qualités ou d’en extraire de l’information.

Il s’agit d’un sous-ensemble du traitement du signal dédié aux images et aux données dérivées comme la vidéo (par opposition aux parties du traitement du signal consacrées à d’autres types de données : son et autres signaux monodimensionnels notamment), tout en opérant dans le domaine numérique (par opposition aux techniques analogiques de traitement du signal, comme la photographie ou la télévision traditionnelles).

Dans le contexte de la vision artificielle, le traitement d’images se place après les étapes d’acquisition et de numérisation, assurant les transformations d’images et la partie de calcul permettant d’aller vers une interprétation des images traitées. Cette phase d’interprétation est d’ailleurs de plus en plus intégrée dans le traitement d’images, en faisant appel notamment à l’intelligence artificielle pour manipuler des connaissances, principalement sur les informations dont on dispose à propos de ce que représentent les images traitées (connaissance du domaine). Le professeur Michael Irani et son équipe ont développé une nouvelle approche pour l’alignement de séquences video. L’alignement de séquences video consiste à trouver la transformation géométrique (en temps et en espace) qui relient deux séquences provenant de caméras différentes filmant le même événement. Les séquences sont enregistrées par des caméras non calibrées fixes ou mobiles. Les variations temporelles entre les images d’une même séquence (due par exemple au mouvement d’un objet, aux changements de luminosité, etc.) sont des informations pertinentes pour l’alignement de séquences. En prenant en compte l’ensemble de la séquence lors de l’alignement, la méthode proposée par le professeur Irani permet de gérer efficacement des situations traditionnellement ambigües pour les algorithmes classiques et la possibilité d’aligner et d’intégrer de l’information entre plus de deux séquences. Les applications d’une telle méthode sont entre autres : la fusion d’information provenant d’objectifs différents (infrarouge, faible luminosité) pour des applications liées a la sécurité, la fusion de données entre agrandissements de séquences, et le codage video de meilleure qualité.

David Bitton