Accueil, contact	Activités de recherche Cette page contient un résumé de mon activité de recherche, de la problématique posée et de mon approche ; un aperçu des principaux résultats auxquels j'ai abouti ; un aperçu de mes publications et de mes principales participations dans des projets européens (NB : page non mise à jour depuis 2007, merci de regarder directement la page des publications).
	Curriculum Vitae
	Activités de recherche
	Livres
	Publications

Présentation synthétique

Mon activité de recherche a trait à la modélisation de l'interprétation du langage naturel, et à l'élaboration de systèmes de dialogue homme-machine basés sur cette modélisation. Avec une approche fondée sur la spontanéité de la communication entre l'homme et la machine, c'est à la machine de faire l'effort de comprendre les énoncés émis spontanément par l'utilisateur, et non à cet utilisateur d'apprendre un langage artificiel et des contraintes particulières pour interagir avec elle. Cette approche se traduit, pour la machine, par une connaissance approfondie des mécanismes de communication humaine et par un panel d'algorithmes. L'élaboration de tels algorithmes requiert la formalisation et l'adaptation computationnelle de théories issues des sciences cognitives et de la linguistique. Je me suis focalisé sur le dialogue homme-machine avec support visuel, c'est-à-dire faisant intervenir la perception visuelle à travers une scène affichée à l'écran, et sur la résolution de la référence multimodale, c'est-à-dire sur le problème consistant à faire le lien entre d'une part les mots et gestes produits par l'utilisateur, et d'autre part les objets gérés par l'application. Mon activité pluridisciplinaire se place ainsi dans le domaine de la psychologie pour la modélisation de la perception visuelle ; de la linguistique et de la linguistique-informatique pour le traitement automatique du langage naturelle ; de la pragmatique pour la modélisation du contexte et la modélisation de la gestion du dialogue ; et de l'informatique pour l'intégration formelle des divers points de vue et pour l'élaboration d'architectures logicielles adaptées à la complexité et l'hétérogénéité des mécanismes.

Avant mon entrée au CNRS, cette activité de recherche a comporté six étapes complémentaires :

un stage de fin d'étude d'école d'ingénieur d'une durée de neuf mois, effectué au Laboratoire Central de Recherches de Thomson-CSF (maintenant THALES Recherche et Technologie) à Orsay ;
un DEA effectué à l'Institut Gaspard Monge à Marne-la-Vallée et au LORIA à Nancy ;
une thèse de doctorat réalisée au LORIA sous la direction de Laurent Romary ;
un post-doctorat d'un an dans le cadre du projet européen IST OZONE, effectué à Nancy, en collaboration avec des partenaires académiques (notamment plusieurs équipes de l'INRIA) et industriels (notamment Philips et Thomson Multimédia) ;
un post-doctorat de six mois dans le cadre du projet européen IST MIAMM, effectué à Nancy, en collaboration avec le DFKI de Saarbruecken, TNO de Soesterberg et SONY Stuttgart ;
un contrat d'ingénieur de recherche à durée indéterminée, en cours à THALES Recherche et Technologie à Orsay.

Plusieurs aspects du travail ont été approfondis au cours de ces étapes :

synthèses pluridisciplinaires sur le traitement automatique de la perception visuelle, du langage et du geste ;
analyses méthodologiques, en particulier réflexions autour de la possibilité de valider un modèle de l'interprétation du langage ;
analyses expérimentales, en particulier études sous divers aspects d'un corpus multimodal ;
modélisations à la fois cognitives et formelles, en particulier de la référence et de la saillance ;
implantations informatiques : réalisation d'un système de dialogue-machine complet (OZONE), qui a permis de valider certaines des modélisations proposées ; amélioration d'une architecture dédiée à des systèmes d'interaction et de dialogue homme-machine (THALES) ;
gestion de projets : gestion d'une partie des activités dans les projets européens MIAMM et OZONE ; participation à la mise en place d'autres projets européens ;
encadrement d'activités de recherche et de stages d'ingénieurs.

Les sections suivantes se focalisent sur les résultats principaux des activités de modélisation et d'implantation informatique, ainsi que sur la répartition de ces activités dans mes publications et mes participations à des projets européens.

Modélisation de la perception visuelle

Dans le dialogue homme-machine avec support visuel, les actions de l'utilisateur vont concerner de manière privilégiée les objets affichés sur l'écran. C'est le cas par exemple dans une application permettant d'aménager virtuellement l'intérieur d'une future maison : lors du dialogue avec la machine, l'utilisateur va être amené à faire des références telles que « déplace la chaise bleue contre le mur » ou « change la couleur de la table ». Dans ces exemples, « la chaise bleue » et « la table » sont des expressions référentielles qui ont été produites compte tenu d'une scène visuelle particulière. Cette scène peut ne comprendre qu'un seul objet de type chaise et de couleur bleue, mais peut également en comprendre plusieurs (et conduit alors à rendre l'expression « la chaise bleu » a priori ambiguë). Ce dernier cas est bien plus fréquent qu'on ne le croit : notre perception est axée par de nombreux facteurs cognitifs et psychologiques, et il arrive que dans des dispositions particulières d'objets, on ne voit qu'une seule chaise bleue là où il en existe plusieurs, l'une d'entre elles étant particulièrement saillante. La machine ne connaît que les objets et leurs caractéristiques, et doit donc être dotée de capacités de perception visuelle pour prendre en compte les facteurs humains, identifier les objets saillants et comprendre ainsi les énoncés de l'utilisateur.

Ce problème nécessite une approche pluridisciplinaire : les théories en perception visuelle sont avant tout issues de la sémiotique (Cocula & Peyroutet, 1986 ; Groupe MU, 1992) et de la psychologie (Wertheimer, 1923 ; Bruce & Green, 1993) ; les approches pratiques que sont l'architecture et la photographie apportent certains éléments complémentaires (Itten, 1985 ; Freeman, 1989 ; Sanmiguel, 2000) ; et le tout relève des sciences cognitives dont l'un des objectifs est de comprendre comment fonctionne la perception visuelle humaine.

C'est en suivant une telle approche que j'ai proposé une modélisation à la fois cognitive et formelle des groupements perceptifs et de la saillance visuelle. Le chapitre d'ouvrage [6] dans ma liste détaillée de publications ci-dessous, réalisé en collaboration avec Antonella De Angeli (psychologue de l'Université de Trieste) a posé les bases théoriques d'un tel travail. Mon ouvrage sur le dialogue homme-machine [18] et la publication [3] ont exploré certains aspects : construction de groupes perceptifs selon les critères de proximité, de similarité et de continuité de la Théorie de la Gestalt (Wertheimer, 1923) ; étude de la notion de saillance visuelle. J'ai en particulier proposé dans [17] une classification systématique des facteurs physiques et cognitifs de la saillance visuelle, et j'ai montré comment on pouvait tendre vers son évaluation quantitative dans les systèmes de dialogue homme-machine.

Modélisation formelle du langage et du geste (multimodalité)

Que l'on s'intéresse au langage seul ou au langage associé au geste, il apparaît qu'un message repose aussi bien sur les informations énoncées que sur des informations implicites (Ducrot, 1972) : implicite lié à la saillance d'informations dans le contexte ; implicite lié à l'usage conjoint de plusieurs mots, ou de mots et de gestes ; implicite lié à des sous-entendus ou des présuppositions ; etc. (cf. [10] qui propose une classification des différentes facettes de l'implicite). Mon objectif est l'exploitation des informations explicites et de la situation contextuelle pour identifier l'implicite. Cette identification passe par des suppositions et des inférences. Pour les limiter, j'ai choisi de m'appuyer sur la Théorie de la Pertinence (Sperber & Wilson, 1995), théorie pragmatique et cognitive qui montre en particulier que la communication linguistique est à la fois ostensive (avec les mots que l'on utilise, on ne fait que donner des indices) et inférentielle (on provoque chez l'interlocuteur un mécanisme de traitement de ces indices qui lui permet d'identifier de nouveaux éléments et d'atteindre ainsi le sens du message). J'ai montré dans mon ouvrage [18] que ce principe s'applique également à la communication multimodale, et plus particulièrement au dialogue homme-machine multimodal spontané. Je propose dans [2] une méthodologie d'exploitation de la Théorie de la Pertinence dans ce cadre, que j'utilise dans [9] où je propose une caractérisation formelle de la pertinence qui pourrait aboutir à terme à une proposition de formalisation de la pertinence.

Plus particulièrement sur le langage, je m'intéresse à la notion de structure informationnelle (ou structure communicative) qui rend compte de la mise en avant d'éléments dans un message linguistique, et de la construction globale du message autour de ces éléments. L'exemple le plus simple est le suivant : dans « c'est Jean qui venu » (utilisation d'un présentatif), Jean est plus mis en avant que dans « Jean est venu ». La structure informationnelle fait intervenir les notions de focus, de thème, de topique... et la notion de saillance linguistique. Avec mon expérience liée à l'identification des facteurs de saillance visuelle, j'ai opéré un transfert interdisciplinaire et montré comment il était possible d'identifier des facteurs génériques de saillance qui s'appliquent aussi bien aux messages visuels que linguistiques (cf. [8], [17] et [20]). J'ai contribué à éclaircir les rapports entre focus et saillance, entre thème et saillance, entre topique et saillance, et à identifier de nouveaux facteurs de saillance linguistique qui ne sont pas encore pris en compte dans les théories linguistiques (Alshawi, 1987 ; Lambrecht, 1994 ; Hajicová et al., 1995). Je montre comment un système peut prendre en compte ces facteurs pour quantifier la saillance des éléments d'un message linguistique (cf. [13] qui traite des différentes méthodes de quantification possibles et [21] pour leur application). Dans [17] qui constitue un premier aboutissement de ces travaux, je propose une caractérisation de la saillance linguistique et de la structure informationnelle.

Plus particulièrement sur les rapports entre geste et langage, je me suis intéressé tout d'abord aux aspects théoriques avec d'une part une étude de la façon dont le geste vient compléter un énoncé oral [5], et d'autre part une étude des ostensions indirectes, c'est-à-dire des situations de référence dans lesquelles le geste n'indique pas exactement l'objet désigné par le langage, mais un objet qui lui est lié, par exemple selon une relation métonymique [24]. Ces activités de recherche m'ont permis d'ancrer le geste dans les modèles linguistiques, d'une manière plus approfondie que les théories linguistiques (qui considèrent généralement le geste comme indiquant directement les référents ou comme un complément très neutre du langage). J'ai ainsi pu élaborer un modèle de l'interprétation multimodale dans mon ouvrage [18]. J'ai pu d'autre part apporter mon point de vue aux activités relatives aux systèmes de dialogue multimodaux, avec ma participation au groupe de travail Interaction Multimodale du Groupement de Recherche Information-Interaction-Intelligence, où, suite à ma publication [1] et à ma thèse, j'ai montré que la fusion du langage et du geste devait intervenir après des interprétations partielles, c'est-à-dire au niveau de la sémantique et non au niveau des événements comme c'est le cas dans la majorité des travaux dans ce domaine (par exemple ceux de Sharon Oviatt). J'ai également mené une activité de réflexion prospective autour de l'intégration du sens du toucher dans l'interaction multimodale, avec une étude de l'utilisation conjointe du langage et d'un dispositif de capture du geste incluant un retour d'effort (modalité haptique) [4].

Modélisation cognitive : les domaines de référence

Lors de l'interprétation d'un énoncé multimodal, la perception visuelle, les gestes et les termes linguistiques employés fournissent des indices ostensifs qu'il s'agit de confronter et d'intégrer pour aboutir à la résolution des références, puis au sens de l'énoncé. En suivant une intuition de Francis Corblin (1995) et l'approche générale d'Anne Reboul (Reboul & Moeschler, 1998) ou de la Théorie de la Représentation du Discours (Kamp & Reyle, 1993), j'ai proposé dans mon ouvrage [18] et dans un article de la revue Traitement Automatique des Langues en collaboration avec Susanne Salmon-Alt [7] une modélisation fondée sur la gestion de domaines de référence, qui correspondent à la représentation formelle d'un point de vue cognitif et contextuel sur les référents. Cette modélisation a pour but une implantation informatique (cf. section suivante) et privilégie donc les facteurs physiques aux facteurs cognitifs et psychologiques. Au niveau de la perception visuelle, les indices ostensifs sont ainsi les caractéristiques visuelles des objets et les propriétés structurelles de leur disposition. Ces indices contribuent à la construction de domaines de référence visuels. Au niveau du geste de désignation, je montre comment un grand nombre de gestes n'indiquent pas directement les référents mais constituent au contraire des indices ostensifs. Ces indices forment une base pour des inférences aboutissant à l'identification des référents, éventuellement par l'intermédiaire d'un domaine de référence gestuel. Au niveau du langage, tout mot, toute structure syntaxique est un indice concourant à l'identification de procédures pour la résolution des références. En m'appuyant sur le travail de Francis Corblin (1987), je montre en particulier comment la détermination se trouve à la source d'inférences exploitables pour la spécification de contraintes sur le domaine de référence linguistique, domaine essentiel non seulement pour l'interprétation courante mais aussi pour celle des expressions ultérieures [11]. En m'appuyant sur la séantique verbale, je montre comment la prédication fournit également des éléments pour construire des domaines linguistiques [14].

L'intérêt de ma modélisation par rapport aux théories existantes est d'utiliser un cadre formel unifié, celui du domaine de référence avec les contraintes qui le caractérisent, pour la confrontation et l'intégration des modalités et des différents facteurs hétérogènes (saillance, aspects contextuels, historique du dialogue) qui interviennent lors de l'interprétation. Ce travail montre en outre l'intérêt pour un système de dialogue de gérer des structures correspondant aux informations implicites (et aux représentations mentales de l'utilisateur) pour le processus d'interprétation. Il s'agit néanmoins d'un premier pas vers une modélisation plus cognitive de l'interprétation du langage.

Validations et réalisations informatiques

Compte tenu des phénomènes couverts par les modélisations proposées, la validation prend deux aspects : premièrement des études expérimentales sur des points précis, deuxièmement la réalisation de plusieurs systèmes de dialogue permettant de tester des comportements interprétatifs globaux sur des applications et avec des modes d'interaction variés.

En ce qui concerne le premier aspect, j'ai réalisé plusieurs études du corpus multimodal Magnét'Oz, corpus obtenu suite à une expérimentation de type Magicien d'Oz au LORIA. Ces expérimentations, dont les résultats sont présentés dans [18], ont porté sur l'association du geste et des déterminants, sur les composants linguistiques apparaissant conjointement à un geste, ou encore sur la façon dont un geste désigne un groupe perceptif ou seulement une partie d'un groupe. Elles m'ont permis d'appuyer quelques points de ma modélisation, mais ne constituent pas encore une véritable validation. D'autres expérimentations sont prévues.

En ce qui concerne le deuxième aspect, les travaux d'implantation que j'ai effectués durant mon stage-ingénieur dans le cadre du projet européen COVEN, mes post-doctorats dans le cadre des projets européens MIAMM et OZONE, ainsi qu'actuellement dans de cadre de projets THALES, m'ont permis de réaliser différentes parties de plusieurs systèmes de dialogue, et ce dans des cadres académiques ou industriels très différents. Ainsi, au cours de ma participation au projet COVEN, j'ai pu ajouter à un système existant un module exploitant les phénomènes de saillance visuelle, et montrer en quoi la prise en compte de ces phénomènes pouvait améliorer l'aspect spontané de l'interaction. Au cours de ma participation au projet MIAMM, j'ai pu tester l'intérêt d'une gestion de domaines de référence pour la résolution des références multimodales. Les différences importantes entre les modes d'interaction de COVEN et de MIAMM m'ont permis de prendre conscience de la variété des modes d'interaction et de diriger mes recherches ultérieures vers une meilleure généricité. Enfin, j'ai eu l'opportunité au cours de mon premier post-doctorat de tester une partie de ma modélisation dans le cadre du projet européen OZONE, dont l'un des aspects a consisté en l'implantation d'un démonstrateur. J'ai ainsi pu tester l'intégration d'un interpréteur de références multimodales dans un ensemble plus global incluant tous les aspects du dialogue homme-machine : reconnaissance de la parole, reconnaissance de trajectoires gestuelles, analyse syntaxique, analyse sémantique, fusion des modalités, résolution de la référence, identification des actes de langage, gestion du dialogue, planification des réponses, synthèse vocale. Compte tenu du nombre et de la diversité de ces modules, j'ai eu l'opportunité de réfléchir sur les architectures des systèmes de dialogue, et j'ai pu proposer, en collaboration avec Bertrand Gaiffe et Matthieu Quignard, des recommandations sur l'implantation d'architectures multi-agents dans ce cadre [12]. L'exploitation dans OZONE des travaux réalisés dans le cadre du projet MIAMM concernant la représentation des contenus sémantiques transitant entre les agents, a d'autre part fait l'objet d'une proposition allant dans le sens d'une normalisation de tels contenus [15]. J'ai encadré pendant 9 mois Alexandre Denis, élève-ingénieur en dernière année, pour les aspects techniques de la réalisation du démonstrateur OZONE, et j'ai travaillé en collaboration avec Christophe Cérisara de l'équipe PAROLE du LORIA spécialisée dans la reconnaissance de la parole. Nous avons pu ainsi réaliser en moins d'un an un système opérationnel, certes sur une tâche très restreinte, mais néanmoins capable de traiter un large éventail de phénomènes linguistiques et multimodaux. Cette expérience de gestion de projet et d'implantation informatique m'a permis de montrer tout l'intérêt de mon approche pluridisciplinaire, et d'approfondir des aspects connexes à mes activités de recherche : actes de langage [23], architectures [16], ressources linguistiques et multimodales [15]. Cette réalisation informatique m'a également permis de prendre conscience de nouveaux problèmes constituant autant de perspectives de recherches.

Répartition de ces activités dans mes publications

1.	Landragin, F., Gaiffe, B., Bellalem, N. & Romary, L., Fusion de contraintes pour la synchronisation des modalités et pour la résolution des références dans un énoncé multimodal, In: Colloque sur les Interfaces Multimodales, 10 ans de multimodalité, Grenoble, 2000 (4 pages)	Présentation d'un algorithme de résolution des références multimodales basé sur le traitement de formes logiques à un niveau sémantique. Contrairement à ceux des autres publications, cet algorithme (le premier réalisé au cours de ma thèse) s'ancre fortement dans la sémantique formelle.
2.	Landragin, F., Bellalem, N. & Romary, L., Compréhension automatique du geste et de la parole spontanés en communication homme-machine : apport de la théorie de la pertinence, In: Oralité et gestualité. Interactions et comportements multimodaux dans la communication (actes du colloque ORAGE'01), L'Harmattan, 2001 (4 pages)	Synthèse des problèmes liés à notre approche de la compréhension automatique de la multimodalité. Présentation des grandes lignes de notre méthodologie basée sur la théorie de la pertinence.
3.	Landragin, F., Bellalem, N. & Romary, L., Visual Salience and Perceptual Grouping in Multimodal Interactivity, In: Workshop on Information Presentation and Natural Multimodal Dialogue, Verona, Italy, 2001 (5 pages)	Synthèse sur les critères de saillance visuelle et de groupement des objets de la scène. Exploitation de ces deux phénomènes implicites dans la compréhension des références langagières et multimodales.
4.	Landragin, F., Bellalem, N. & Romary, L., Referring to Objects with Spoken and Haptic Modalities, In: IEEE International Conference on Multimodal Interfaces (ICMI'02, Pittsburgh, PA), IEEE CS Press, Los Alamitos, CA, 2002 (6 pages)	Démonstration de la possibilité d'adapter le modèle des domaines de référence à un mode d'interaction particulier, celui du geste avec retour de force (ou geste haptique) présent dans le projet MIAMM.
5.	Landragin, F., The Role of Gesture in Multimodal Referring Actions, In: IEEE International Conference on Multimodal Interfaces (ICMI'02, Pittsburgh, PA), IEEE CS Press, Los Alamitos, CA, 2002 (6 pages)	Synthèse sur les rôles possibles du geste de désignation, en termes de délimitation de domaines de référence ou d'extraction de référents dans un domaine implicite. Proposition d'un algorithme de résolution des références multimodales sur cette base.
6.	Landragin, F., De Angeli, A., Wolff, F., Lopez, P. & Romary, L., Relevance and Perceptual Constraints in Multimodal Referring Actions, In: van Deemter, K. & Kibble, R. (Eds.), Information Sharing: Reference and Presupposition in Language Generation and Interpretation, CSLI Publications, Stanford, CA, 2002 (19 pages)	Présentation d'une adaptation computationnelle de la Théorie de la Pertinence pour l'aide à la résolution des références multimodales, une importance particulière étant donnée au contexte visuel.
7.	Landragin, F., Salmon-Alt, S. & Romary, L., Ancrage référentiel en situation de dialogue, Traitement Automatique des Langues 43(2), Hermès, 2002 (31 pages)	Présentation de l'intégration de la perception visuelle, du langage, du geste et de la tâche applicative dans un cadre théorique unifié. Cet article de revue constitue le noyau du travail de recherche effectué pendant ma thèse. Il aboutit à la spécification d'un algorithme basé, d'une part sur la modélisation d'ensembles contextuels en structures de traits, d'autre part sur la modélisation du processus d'interprétation en un mécanisme d'unification de ces structures.
8.	Landragin, F., La saillance comme point de départ pour l'interprétation et la génération, Journée d'étude de l'Association pour le Traitement Automatique des LAngues (ATALA) sur le thème : structure communicative/structure informationnelle, Paris, 2003 (4 pages)	Caractérisation de la saillance, avec une identification des critères de saillance visuelle et des critères de saillance linguistique. Cette présentation se focalise sur la saillance linguistique (transposition des critères de saillance visuelle et proposition d'une méthode de calcul numérique), et fait le rapprochement avec la structure communicative.
9.	Landragin, F., Une caractérisation de la pertinence pour les actions de référence, In: Dixième conférence sur le traitement automatique des langues (TALN 2003), Batz-sur-Mer, 2003 (10 pages)	Proposition d'une caractérisation de la pertinence d'expressions référentielles multimodales, avec un intérêt particulier pour l'effort de traitement. La caractérisation exploite la notion de domaine de référence et s'avère ainsi plus fine et plus homogène que celle proposée dans la publication 6.
10.	Landragin, F., Clues for the Identification of Implicit in Multimodal Referring Actions, In: Tenth International Conference on Human-Computer Interaction (HCI International 2003, Heraklion, Crete, Greece), Lawrence Erlbaum Associates, Mahwah, NJ, 2003 (5 pages)	Synthèse sur la problématique de l'interprétation en dialogue homme-machine multimodal, du point de vue de l'identification de l'implicite à travers les indices donnés par l'énoncé de l'utilisateur et par la scène visuelle, support de l'interaction.
11.	Landragin, F. & Romary, L., Referring to Objects Through Sub-Contexts in Multimodal Human-Computer Interaction, In: Seventh Workshop on the Semantics and Pragmatics of Dialogue (DiaBruck'03), Saarbrücken, Germany, 2003 (8 pages)	Exploration systématique des phénomènes de référence dans le dialogue multimodal, proposition d'une classification des modes de référence liés à l'existence de domaines de référence, et spécification d'un algorithme d'identification des modes possibles pour chaque type de groupe nominal.
12.	Gaiffe, B., Landragin, F. & Quignard, M., Le dialogue naturel comme un service dans un contexte multi-applicatif, In: Journée d'étude de l'Association pour le Traitement Automatique des LAngues (ATALA) sur les relations entre systèmes multi-agents et traitement automatique des langues (AGENTAL), Paris, 2004 (10 pages)	Exploration d'une architecture multi-agents permettant de distinguer clairement les aspects dialogue (un agent : le gestionnaire du dialogue) des aspects applicatifs (un agent par application). Description du gestionnaire du dialogue en trois modules : linguistique, collaboratif et applicatif. Exploitation du modèle des domaines de référence dans le module linguistique, avec illustration dans le cadre du projet OZONE.
13.	Landragin, F., L'utilisation de scores numériques en sémantique computationnelle, Journées scientifiques de Sémantique et Modélisation (JSM'04), Lyon, 2004	Synthèse sur les différentes méthodes de quantification en sémantique, avec l'exemple de la quantification de la saillance. Cette présentation vient compléter la publication 8.
14.	Landragin, F., Interface sémantique-pragmatique et domaines de référence, In: Quatrièmes Journées d'Études Linguistiques de Nantes (JEL 2004), Nantes, 2004 (6 pages)	Premier pas vers une intégration de la sémantique verbale dans le modèle des domaines de référence, avec la construction de domaines sur la base de la prédication.
15.	Landragin, F., Denis, A., Ricci, A. & Romary, L., Multimodal Meaning Representation for Generic Dialogue Systems Architectures, In: Fourth International Conference on Language Resources and Evaluation (LREC 2004, Lisbon, Portugal), 2004 (4 pages)	Compte-rendu des modifications apportées au format de représentation sémantique MMIL (MultiModal Interface Language) lors de la ré-utilisation de l'architecture MIAMM pour le projet OZONE.
16.	Landragin, F. & Romary, L., Dialogue History Modelling for Multimodal Human-Computer Interaction, In: Eighth Workshop on the Semantics and Pragmatics of Dialogue (Catalog'04), Barcelona, Spain, 2004 (8 pages)	Synthèse sur la spécification et la gestion d'un historique du dialogue au sein d'un système de dialogue homme-machine multimodal, avec un intérêt pour la nature des historiques liés à chacune des modalités mise en cause, et un intérêt pour la représentation unifiéee des informations (en lien avec la publication 15).
17.	Landragin, F., Saillance physique et saillance cognitive, Cognition, Représentation, Langage (CORELA) 2(2), 2004 (24 pages)	Inventaire des facteurs de saillance linguistique et de saillance visuelle, avec une distinction entre les facteurs physiques qui se déduisent de l'environnement physique, et les facteurs cognitifs qui dépendent des états mentaux du sujet. Proposition des notions de P-saillance (saillance physique) et de C-saillance (saillance cognitive).
18.	Landragin, F., Dialogue homme-machine multimodal, Hermès-Lavoisier, Paris, 2004, ISBN 2-7462-0992-6 (270 pages)	Version corrigée de ma thèse, avec une répartition en trois parties : une première partie portant sur la problématique et la méthodologie pour la résolution de la référence aux objets dans le dialogue homme-machine ; une deuxième partie présentant les concepts et le modèle à base de domaines de référence qui est proposé ; et une troisième partie décrivant quelques applications de ce modèle.
19.	Landragin, F., Traitement des actes de langage dans un système de dialogue homme-machine, Journées scientifiques de Sémantique et Modélisation (JSM'05), Paris, 2005	Synthèse portant sur les phénomènes à prendre en compte pour un traitement adéquat des actes de langage dans les systèmes de dialogue, et en particulier des actes de langage complexes (indirects et composites). Parallèle entre la résolution des actes de langage complexes et les aspects coopératifs dans le dialogue finalisé.
20.	Landragin, F., Modélisation de la saillance visuelle et linguistique, In: Sixième Colloque des Jeunes Chercheurs en Sciences Cognitives (CJCSC'05), Bordeaux, 2005 (6 pages)	Proposition de cinq dimensions d'étude de la notion de saillance : saillance visuelle et saillance linguistique, saillance liée à la forme du message et à son contenu, saillance à effet immédiat ou continu, saillance préalable ou nouvelle, saillance informative ou rhétorique.
21.	Landragin, F., Traitement automatique de la saillance, In: Douzième conférence sur le traitement automatique des langues (TALN 2005), Dourdan, 2005 (10 pages)	Proposition de deux principes caractérisant la notion de saillance et permettant sa quantification en contexte : le principe de primordialité qui favorise les entités les plus importantes, et le principe de singularité qui favorise les entités singulières (ayant une particularité que les autres entités du contexte courant n'ont pas).
22.	Landragin, F., Modeling Context for Referring in Multimodal Dialogue Systems, In: Fifth International and Interdisciplinary Conference on Modeling and Using Context (CONTEXT'05), Paris, 2005 (14 pages)	Synthèse correspondant au noyau de ma thèse, avec la présentation du modèle des domaines de référence multimodaux. En particulier pour les aspects liés à la saillance et au geste, les contenus des publications 3 et 5 sont intégrés, mis à jour et complétés.
23.	Landragin, F., Indirect Speech Acts and Collaborativeness in Human-Machine Dialogue Systems, In: First International Symposium on the Exploration and Modelling of Meaning (SEM-05), Biarritz, 2005 (8 pages)	Dans la continuité de la publication 19, synthèse sur les paramètres qu'un système devrait prendre en compte pour un traitement adéquat des actes de langage indirects et composites, avec l'objectif de rendre les systèmes plus collaboratifs.
24.	Landragin, F., Une caractérisation de la référence ostensive indirecte, Revue de Sémantique et de Pragmatique (RSP) 18, 2005 (19 pages)	Inventaire des phénomènes de décalage entre l'objet désigné par un geste ostensif et le référent de l'énoncé linguistique simultané. Classification des transferts sémantiques associés, et proposition d'un processus d'interprétation ascendante qui permette à un système de dialogue homme-machine de prendre en compte ces phénomènes au cœur de la multimodalité.
25.	Landragin, F., Visual Perception, Language and Gesture: A Model for their Understanding in Multimodal Dialogue Systems, Signal Processing 86(12), 2006 (18 pages)	Version mise à jour de l'état de l'art, de l'approche et des concepts proposés dans la publication 22, à laquelle s'ajoute l'algorithme de la publication 11. Il s'agit de la version anglaise définitive du noyau de ma thèse.
26.	Landragin, F., Modélisation du sens et du contexte sur la base de représentations des objets référés, Journées scientifiques de Sémantique et Modélisation (JSM'06), Bordeaux, 2006	Cette communication pose la question de la faisabilité d'une théorie de représentation du sens en partant des phénomènes de référence aux objets (prépondérants en dialogue). Quelques pistes sont proposées pour étendre le modèle des domaines de référence multimodaux en une telle théorie.
27.	Landragin, F., Influence de la situation lors de la résolution des anaphores dans le dialogue, Treizième conférence sur le traitement automatique des langues (TALN 2006), Leuven, Belgique, 2006 (10 pages)	A partir de la notion de saillance et d'une étude des événements intervenant dans les dialogues, il s'agit de caractériser les phénomèmes d'exophore (ou anaphore à antécédent non pas linguistique mais situationnel). Une méthode pour confronter les paramètres linguistiques et situationnels est proposée.
28.	Sedogbo, C., Grisvard, O., Landragin, F., Lard, J. & Praud, S., HMI Engineering Productivity: the Poor Child of MDE/MDA Trends. A Vision for Model-Driven Human-Computer Interaction Engineering, Dix-huitième Conférence Francophone sur l'Interaction Homme-Machine (Model-Driven Engineering and Human-Computer Interaction Workshop at IHM 2006), Montréal, Canada, 2006 (2 pages)	Face au constat qu'il est de plus en plus difficile de développer des systèmes de dialogue multimodaux (du fait de la complexité croissante des phénomènes dont on veut rendre compte et de la complexité croissante des matérialisations logicielles), une nouvelle voie est explorée, consistant à tirer parti des recherches faites dans le domaine de l'ingénierie dirigée par les modèles. Il s'agit ainsi de préparer une future méthode de développement de systèmes, consistant non pas à coder les différents modules mais à spécifier un ensemble de modèles dont seront dérivés automatiquement les modules. Les grands principes de la méthode sont posés et sont par ailleurs appliqués dans le projet EMODE.
29.	Landragin, F., Physical, Semantic and Pragmatic Levels for Multimodal Fusion and Fission, Seventh International Workshop on Computational Semantics (IWCS-7), Tilburg, The Netherlands, 2007 (5 pages)	Synthèse sur les décompositions possibles des processus de gestion de la multimodalité en entrée et en sortie, avec les aspects de fusion et de fission d'information. Proposition de trois niveaux (physique, sémantique et pragmatique) qui relèvent des mêmes types de traitement en entrée aussi bien qu'en sortie. Perspectives sur le concept de multimodalité symétrique.
30.	Landragin, F., Taking Situational Factors into Account when Resolving Anaphora: an Approach based on Events and Salience, Sixth Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2007), Lagos, Portugal, 2007 (6 pages)	Il s'agit en gros de la version anglaise de la publication 27, avec plus de précisions concernant la notion de saillance et quelques corrections apportées suite aux commentaires des relecteurs.
31.	Landragin, F., Un exemple de polysémie du geste co-verbal en situation de communication homme-machine et ses conséquences sur les analyses sémantiques et pragmatiques, Deuxième Colloque International de l'Association Française de Linguistique Cognitive (AFLiCo 2), Lille, 2007 (2 pages)	Cette présentation fait le point sur le fameux exemple « mets ça ici » à la base des travaux sur les systèmes de dialogue multimodaux. Le geste co-verbal est imaginé sous différentes formes, et en particulier sous la forme d'un arc de cercle qui vient illustrer l'action de déplacement. Le processus de fusion multimodale est déroulé de manière à montrer comment la tâche intervient pour mettre en avant ou supprimer des hypothèses de fusion et d'interprétation.
32.	Landragin, F., L'anaphore à antécédent flou : une caractérisation et ses conséquences sur l'annotation des relations anaphoriques, Journée d'étude de l'Association pour le Traitement Automatique des LAngues (ATALA) sur la résolution des anaphores, Paris, 2007 (2 pages)	Dans la lignée de la sémantique sous-spécifiée, étude de quelques cas d'anaphores pour lesquelles l'identification exacte de l'antécédent est inutile voire impossible, par exemple lorsqu'il s'agit d'une personne ou de son idée : que le pronom « elle » reprenne l'une ou l'autre n'a aucune importance pour la bonne compréhension de la phrase. Introduction de la notion d'anaphore à antécédent flou, et caractérisation des groupes nominaux potentiellement flous. Conséquences techniques sur l'annotation des relations anaphoriques.

Répartition de ces activités dans des projets européens

Projet ACTS-AC040 COVEN (COllaborative Virtual ENvironments, 1995-1998). Un des aspects de ce projet était l'interaction multimodale dans un environnement virtuel. La tâche applicative consistait en l'aménagement d'un intérieur. Ma participation (officieuse) s'est limitée à améliorer le module de résolution de la référence. Elle a permis de faire apparaître des problèmes relatifs aux phénomènes de saillance visuelle (et de montrer l'insuffisance des travaux dans ce domaine).

Projet IST-2000-29487 MIAMM (Multidimensional Information Access using Multiple Modalities, 2001-2004). La tâche applicative consiste en l'interaction haptique pour l'exploration d'une base de données comprenant des morceaux de musique. J'ai montré l'intérêt des sous-ensembles contextuels constituant mon modèle d'interprétation de la référence dans ce cadre. J'ai participé à la phase de définition des scénarios d'interaction avec le dispositif à retour de force PHANToM de SensAble. Je me suis également occupé en tant que coordinateur de la démonstration française qui a été présentée lors de l'évaluation finale du projet.

Projet IST-2000-30026 OZONE (O3, Offering an Open and Optimal roadmap towards consumer oriented ambient intelligence, 2001-2004). J'ai participé à ce projet en tant que responsable des activités de l'équipe Langue et Dialogue. Cette participation incluait les aspects suivants : décisions des travaux de recherche et d'implantation, choix matériels et logiciels, encadrement de stagiaires, réalisation d'un démonstrateur, valorisation des travaux par des publications, co-rédaction de deliverables et de rapports divers, présentations orales pour des auditoires académiques et industriels, reporting. Le démonstrateur consistait en un terminal de réservation de billets de train : une carte géographique était affichée et l'utilisateur pouvait demander des informations sur les trajets possibles puis réserver un billet. L'interaction était multimodale, c'est-à-dire que des gestes pouvaient être effectués sur l'écran tactile qui était celui d'un Tablet PC.

Projet ITEA-04046 EMODE (Enabling Adaptive Multimodal Interfaces, 2005-2007). J'ai participé à ce projet en tant qu'expert en dialogue homme-machine et en interfaces multimodales, et parfois en tant que remplaçant du responsable technique. Ma participation incluait les aspects suivants : recherche autour des modèles liés aux dispositifs d'interaction et à la gestion du dialogue ; coordination et co-rédaction de livrables sur l'approche, les langages (standards) utilisés, et l'architecture à l'exécution ; présentations orales et animations de groupes de travail au sein du consortium ; reporting et participation à un symposium ITEA.

Références bibliographiques pour cette page

Alshawi, H. (1987), Memory and Context for Language Interpretation, Cambridge University Press.
Bruce, V. & Green, P. (1993), La perception visuelle : physiologie, psychologie et écologie, PUG.
Caron, J. (1989), Précis de psycholinguistique, PUF, Paris.
Cocula, B. & Peyroutet, C. (1986), Sémantique de l'image. Pour une approche méthodique des messages visuels, Delagrave.
Corblin, F. (1987), Indéfini, défini et démonstratif, Droz, Genève.
Corblin, F. (1995), Les formes de reprise dans le discours. Anaphores et chaînes de référence, PUR.
Denis, M. (1989), Image et cognition, PUF, Paris.
Ducrot, O. (1972), Dire et ne pas dire, Hermann, Paris.
Freeman, M. (1989), L'image, Editions VM.
Groupe MU (1992), Traité du signe visuel : pour une rhétorique de l'image, Seuil.
Hajicová, E., Hoskovek, T. & Sgall, P. (1995), Discourse Modelling Based on Hierarchy of Salience, Prague Bulletin of Mathematical Linguistics 64.
Itten J. (1985), Art de la couleur, Dessain et Tolra.
Kamp, H. & Reyle, U. (1993), From Discourse to Logic, Kluwer, Dordrecht.
Lambrecht, K. (1994), Information Structure and Sentence Form. Topic, Focus and the Mental Representation of Discourse Referents, Cambridge University Press.
Miller, G.A. (1956), The Magical Number Seven, Plus or Minor Two: Some Limits on our Capacity for Processing Information, Psychological Review 63, pp. 81-97.
Rastier F. (1991), Sémantique et recherches cognitives, PUF.
Reboul, A. & Moeschler, J. (1998), Pragmatique du discours, de l'interprétation de l'énoncé à l'interprétation du discours, Armand Colin.
Sanmiguel, D. (2000), Perspective et composition, Gründ.
Sperber, D. & Wilson, D. (1995), Relevance. Communication and Cognition (2nd edition), Blackwell, Oxford UK and Cambridge USA.
Wertheimer, M. (1923), Untersuchungen zur Lehre von der Gestalt II, Psychologische Forschung 4, pp. 301-350.

Activités de recherche