Kais Khaldi, doctorant au département Signal et communications et au laboratoire Labsticc, a présenté ses travaux de thèse le 20 janvier 2012, à l’École nationale d’ingénieurs de Tunis (Enit Tunisie).
Résumé : Cette thèse explore l’apport de l’EMD (Empirical Mode Decomposition) en traitement et en analyse des signaux audio et de parole. Cette décomposition du signal en IMFs est adaptative et ne fait pas d’hypothèses de type stationnarité ou linéarité sur le signal à analyser. Le comportement en banc de filtre dyadique de l’EMD ainsi que la quasi-symétrie des IMFs et la possibilité de leur représentation via leurs extrema sont les propriétés à l’origine des outils développés ici pour le débruitage, le codage et le tatouage.Dans le cadre du débruitage des signaux de parole, nous avons initialement proposé une technique basée sur le seuillage des IMFs. Nous avons effectué une analyse comparative des performances de cette technique par rapport au débruitage effectué à base d’ondelettes. Ensuite, pour remédier au problème de l’emploi de filtres MMSE qui nécessite l’estimation des propriétés spectrales du bruit, nous avons introduit le filtre ACWA dans la procédure de débruitage. L’algorithme proposé consiste à filtrer toutes les IMFs du signal de parole bruité, soit au moyen d’un filtre ACWA, soit par seuillage. Ce filtrage, implémenté dans le domaine temporel, permet en particulier de traiter le cas de bruits colorés. Finalement, afin de gérer le cas de trames de parole hybrides, constituées de mélanges de séquences voisées et non voisées, nous avons introduit un indice de stationnarité dans la procédure de débruitage afin de détecter les trames de transition entre sons voisés et non voisés. Dans le cadre du codage des signaux audio et de parole, nous avons proposé quatre techniques de compression. Les deux premières approches sont basées sur l’EMD et les suivantes exploitent l’EMD en association avec la transformée de Hilbert. En particulier, nous avons proposé d’employer un codage prédictif de l’amplitude et de la fréquence instantanée des IMFs.
Finalement, nous avons également étudié le problème du tatouage des signaux audio et de parole dans le contexte de la protection des droits d’auteurs. Le nombre d’IMFs peut être variable selon l’attaque mise en oeuvre mais la procédure proposée, qui consiste à insérer la marque du tatouage dans le codage des extrema de la dernière IMF reste robuste aux attaques classiques. De plus, nous avons introduit un code de synchronisation de la marque afin d’en faciliter l’extraction.
Ces différentes contributions sont illustrées sur des données synthétiques et réelles et les résultats comparés à ceux de méthodes éprouvées telles que le filtre MMSE pour le débruitage, les traitements par ondelettes et les codecs AAC et MP3 pour le codage ou les principales techniques de tatouage. Ces tests montrent les bonnes performances des algorithmes développés autour de l’EMD et illustrent la puissance de cet outil pour l’analyse et le traitement des signaux audio et de parole.
Mots-clés : EMD, denoising, encoding, watermarking, Hilbert transform, instantaneous amplitude, instantaneous frequency.
Membres du jury : Laurent Daudet, professeur, Université de Paris 7 – Sofia Ben Jebara, professeur, Sup’Com, Ariana, Tunisie – Thierry Chonavel, professeur, Télécom Bretagne, Brest – Abdel-Ouahab Boudraa, maître de conférences, Ecole Navale, Brest – Monia Turki, maître assistante, ENIT, Tunis, Tunisie – Amel Ben Azza, maître de conférences, URISA Sup’Com, El Ghazala – Ali Kenchaf, professeur, ENSTA Bretagne, Brest.
Voir les publications de Kais Khaldi dans la base de l’École.


Chargement










