Aller à l’une de ces dates :
22 January 2009, Marco Kuhlmann, University of Uppsala (Sweden)
29 January 2009, Detmar Meurers, University of Tübingen (Germany)
26 February 2009, Bogdan Minescu, Université d’Avignon.
26 February 2009, Philipp Cimiano, AIFB, Universitaet Karlsruhe (Germany)
26 March 2009, Günther Neumann, DFKI Saarbrücken (Germany)
2 April 2009, Max Silberztein, LASELDI. Université de Franche-Comté
27 April 2009, Pascale Sébillot,IRISA / INSA de Rennes
30 April 2009, Marie Chagnoux, LIP6/Université de Paris 6
7 May 2009, Beatrice Daille, LINA/Universite de Nantes
15 May 2009, Pascal Matsakis, Université de Guelph (Canada)
28 May 2009, Pascal Denis, INRIA/Rocquencourt
11 June 2009, Abdel Ennaji, Université de Rouen
26 June 2009, Maarten de Rijke, University of Amsterdam (NL)
2 July 2009, Kamel Smaïli, Université de Nancy 2
Sauf indication contraire, les présentations ont lieu le jeudi à 14h au LORIA.
22 January 2009 ; 14:00-15:00, Salle A006
Marco Kuhlmann, University of Uppsala (Sweden) parlera de Dependency Structures and Lexicalized Grammars
Résumé : In this talk, I show that that both the generative capacity and the parsing complexity of lexicalized grammar formalisms are systematically related to structural properties of the dependency structures that these formalisms can induce. Dependency structures model the syntactic dependencies among the words of a sentence. They have received a lot of interest in computational linguistics lately, and have been increasingly used in tasks such as information extraction, machine translation, and parsing. I identify three empirically relevant classes of dependency structures, and show how they can be characterized both in terms of restrictions on the relation between dependency and word order and within an algebraic framework. I develop natural notions of automata and grammars for dependency structures, show how these yield infinite hierarchies of ever more powerful dependency languages, and classify several grammar formalisms with respect to the languages in these hierarchies that they are able to characterize. My results provide fundamental insights into the relation between dependency structures and lexicalized grammars.
29 January 2009 ; 14:00-15:00, Salle A006
Detmar Meurers, University of Tübingen (Germany) parlera de Diagnosing meaning errors in Intelligent Computer-Assisted Language Learning
Résumé : To integrate Intelligent Computer-aided Language Learning (ICALL) systems into foreign language teaching practice, such systems arguably need to offer meaning-based, contextualized activities. Current ICALL systems can detect and provide feedback for incorrect grammatical forms used by a learner. But in most (I)CALL systems, the appropriateness of answer content is simply determined by string matching : if the input string matches that of a stored target answer, then the input answer is interpreted as correct. Clearly matching meaning through form in this way severely restricts the types of exercises that can be offered to learners given that the expected input variation must be tightly controlled. At the other end of the spectrum, some projects have advocated supporting learner input that is entirely unconstrained in contents and form, requiring extensive robust form and content analysis as part of a very ambitious research agenda. In this joint work with Stacey Bailey, we want to argue that it useful to explore the spectrum between the extremes, to determine what level of content analysis is appropriate for which kind of contextualized activities. An interesting type of activity in the middle ground are short-answer reading comprehension questions for which learner answers may vary widely in form, but there is an expected meaning which can be expressed in a target response. The task of comparing the meaning of the target and the learner answer can be seen as related to current CL tasks such as paraphrase or textual entailment detection. But different from those it is a contextualized task : the meaning of the target and the learner answers are compared in relation to the reading comprehension question and the text which this question is about, which avoids some of the problems that have been pointed out for general, uncontextualized textual entailment. The Content Assessment Module we have developed for English reaches an accuracy of 88% for semantic error detection and 87% for a more fine-grained semantic error diagnosis on previously unseen test data drawn from real-life foreign language classrooms.
26 February 2009 ; 11:00-12:00, Salle C005
Bogdan Minescu, Université d’Avignon parlera de Utilisation des réseaux de confusion pour la reconnaissance de la parole et application au "Service 3000" de France Telecom
Résumé : Cette thèse s’intéresse aux réseaux de confusion comme représentation compacte et structurée des hypothèses multiples produites par un moteur de reconnaissance de parole et transmises à un module de post-traitement applicatif. Les réseaux de confusion (CN pour Confusion Networks) sont générés à partir des graphes de mots et structurent l’information sous la forme d’une séquence de classes contenant des hypothèses de mots en concurrence. Le cas d’usage étudié dans ces travaux est celui des hypothèses de reconnaissance transmises à un module de compréhension de la parole dans le cadre d’une application de dialogue déployée par France Telecom. Deux problématiques inhérentes à ce contexte applicatif sont soulevées.
De façon générale, un système de dialogue doit non seulement reconnaître un énoncé prononcé par un utilisateur, mais aussi l’interpréter afin de déduire sons sens. Du point de vue de l’utilisateur, les performances perçues sont plus proches de celles de la chaîne complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont ces performances que nous cherchons à optimiser. Le cas plus particulier d’une application déployée implique de pouvoir traiter des données réelles et donc très variées. Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert par le modèle sémantique de l’application ou non, etc. Étant donnée cette grande variabilité, nous posons la question de savoir si le fait d’appliquer les mêmes traitements sur l’ensemble des données, comme c’est le cas dans les approches classiques, est une solution adaptée. Avec cette double perspective, cette thèse s’attache à la fois à enrichir l’algorithme de construction des CNs dans le but d’optimiser globalement le processus de compréhension et à proposer une stratégie adéquate d’utilisation des réseaux de confusion dans le contexte d’une application réelle.
Après une analyse des propriétés de deux approches de construction des CNs sur un corpus de données réelles, l’algorithme retenu est celui du pivot. Nous en proposons une version modifiée et adaptée au contexte applicatif en introduisant notamment un traitement différencié des mots du graphe qui privilégie les mots porteurs de sens. En réponse à la grande variabilité des énoncés à traiter dans une application déployée, nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre en compte les spécificités des différents types d’énoncés. Nous montrons notamment qu’il est préférable de n’exploiter la richesse des sorties multiples que sur les énoncés réellement porteurs de sens. Cette stratégie permet à la fois d’optimiser les temps de calcul et d’améliorer globalement les performances du système.
26 February 2009 ; 14:00-15:00, Salle A006
Philipp Cimiano, AIFB, Universitaet Karlsruhe (Germany) parlera de TITLE
Résumé :
26 March 2009 ; 14:00-15:00, Salle A006
Günter Neumann, University of Saarbruecken (Germany) parlera de Data-oriented Parsing with Lexicalized Tree Insertion Grammars
Résumé : I will present a number of strategies for the creation and parsing of Lexicalized Tree Insertion Grammars (LTIG) The grammars are automatically extracted from different sorts of treebanks, e.g., treebanks generated from HPSG parses or dependency-based treebanks. In case of HPSG, we describe a method for the automatic extraction of a Stochastic LTIG from a linguistically rich German HPSG Treebank. The extraction method is strongly guided by HPSG—based head and argument decomposition rules. The tree anchors correspond to lexical labels encoding fine—grained information. In case of dependency-based treebanks, I present a fully automatic method for transforming dependency trees encoded in the CoNLL format to a constituent-style tree format. Parsing is performed by an efficient two-level early-based parser, which among others, has a high degree of language independency and can handle multiword lexical anchors efficiently.
2 April 2009 ; 14:00-15:00, Salle A006
Max Silberztein,LASELDI. Université de Franche-Comté parlera de Analyses syntaxiques avec NooJ
Résumé : Je présenterai les ressources linguistiques et les outils que NooJ propose pour développer (éditer, tester, déboguer et accumuler) des grammaires locales, structurelles et transformationnelles.
27 April 2009 ; 14:00-15:00, Salle A006
Pascale Sébillot, IRISA / INSA de Rennes parlera de Topic analysis of written and oral corpora
Résumé : After a short description of the main principles of topic analysis, the talk will focus on Faestos, a fully automatic system able to detect and characterize the main topics in a multi-thematic written corpus, with no a priori knowledge. An overview of some applications of topic analysis, developed at IRISA in the context of multimedia stream structuring, will then be presented, with a focus on the speech modality. One of these works deals with the topic segmentation of automatically transcribed TV or radio broadcast news, using lexical, syntactic and audio cues. A second one aims at characterizing the topic of each obtained segment, in spite of transcription errors, to get new data from the Internet and adapt the transcription process to the topic.
30 April 2009 ; 14:00-15:00, Salle A006
Marie Chagnoux, LIP6 / Université de Paris 6 parlera de Modéliser la structure énonciative : l’exemple des phénomènes citationnels et modaux
Résumé :Les applications de TAL qui visent à accéder au contenu sémantique de documents (recherche d’information, résumé par extraction, etc.) traitent généralement l’information au niveau local. Or, isoler un segment textuel de sa structure globale rompt la continuité référentielle et peut engendrer de nombreux problèmes pour la compréhension des informations ainsi identifiées. Nous proposerons un cadre méthodologique directement implémentable pour repérer et représenter à l’aide d’arbres la structure hiérarchisée des textes en examinant plus particulièrement la question de la prise en charge énonciative : qui prend en charge l’information ? cette prise en charge est-elle pleinement assumée, modalisée, déléguée à un tiers ? Nous montrerons en outre que la représentation des textes par des arbres rend directement compte de la complexité de la structure discursive et permet, par exemple, de faire émerger automatiquement d’un corpus les textes sujets à controverses.
15 May 2009 ; 14:00-15:00, Salle C103
Pascal Matsaki, Universite de Guelf, Ontario (Canada) parlera de
Understanding the Spatial Organization of Image Regions by Means of F-Histograms and F-Templates : A Guided Tour
Space plays a fundamental role in human cognition. In everyday situations, it is often viewed as a construct induced by spatial relationships, rather than as a container that exists independently of the objects located in it. Spatial relationships, therefore, have been thoroughly investigated in many disciplines, including cognitive science, psychology, linguistics, geography and artificial intelligence. In computer vision and related fields, understanding the spatial organization of regions in images is an important task. The modeling of spatial relationships raises two fundam ental questions : How to identify the spatial rela tionships between two given objects ? How to identify the object that best satisfies a given relationship to a reference object ? F-histograms and F-templates are tools designed to answer these questions. In this talk, we will present them, and compare them with other existing tools. We will reflect on their duality, describe their characteristics and properties, discuss their strengths and weaknesses. We will review the different algorithms that have been developed for F-histogram and F-template calculation. We will also review the current and potential applications in various domains, such as scene description, human-robot communication, object classification and retrieval.
7 May 2009 ; 14:00-15:00, Salle A006
Beatrice Daille, Universite de Nantes parlera de
Exploitation de corpus comparables pour l’accès à l’information multilingue
Résumé :
Les corpus comparables constituent une ressource de choix pour résoudre nombre de problèmes au traitement du multilinguisme. Les méthodes pour exploiter ces corpus sont fondées sur une analyse contextuelle intégrant de multiples paramètres. Dans le cadre de l’aide à la constitution de ressources lexicales bilingues, nous présenterons la méthode état de l’art et les quelques améliorations qui lui ont été apportéesen particulier pour traiter le vocabulaire des langues de spécialités.
28 May 2009 ; 14:00-15:00, Salle A006
Pascal Denis, INRIA/Rocquencourt parlera de
Specialized rankers and global models for coreference resolution
Résumé :
Coreference resolution is the task of mapping linguistic expressions to the discourse entities they evoke, e.g. determining whether a textual mention like "the man" refers to the same entity evoked by another mention like "John". It is an important aspect of natural language understanding that has great relevance for practical applications such as information retrieval and text summarization. Great progress has been made in coreference resolution through the use of machine learning techniques, but state-of-the-art performance still leaves much room for improvement. Even though a large part of the performance bottleneck stems from the need for (currently out-of-reach) deep understanding and reasoning about the content of the texts, there are significant opportunities to provide better models and use richer information sources for the task.
In this talk, I will discuss two strategies for overcoming deficiencies of previous approaches. The first strategy is to use specialized ranking models that target specific types of referential expressions and that are a better fit for the task than more commonly used classification models. The second is to use integer linear programming to create joint, global models that assume less independence between individual coreference decisions and that can cleanly integrate multiple information sources---such as discourse status and named-entity classification---with coreference determination. Both of these strategies lead to significant performance improvements, as measured according to three different metrics, and they open the way toward augmenting systems with further information, such as discourse structure. A running sub-theme of this talk will be the importance of evaluating coreference resolution systems with multiple scoring metrics.
11 June 2009 ; 14:00-15:00, Salle A006
Abdel Ennaji, U. Rouen parlera de
Systèmes hybrides d’apprentissage incrémental
Résumé :
Les modèles d’apprentissage statistique sont en pleine expansion tant fondamentale que pratique dans des applications complexes d’extraction de connaissances et de fouille de données. Toutefois, ces techniques se trouvent limitées sur des problèmes réels par nature de taxinomie mal connue, évolutive, et avec peu de données étiquetées de qualité suffisante.
Cette présentation va aborder le problème de l’apprentissage incrémental, c.à.d. capable de poursuivre l’apprentissage au fur et à mesure de la disponibilité des données. L’approche proposée est hybride dans le sens où elle procède par une phase de clustering préalable (basée topologie) avant de construire des classifieurs localement et uniquement en cas de besoin. Cette démarche permet d’envisager des perspectives en apprentissage semi-supervisé.
26 June 2009 ; 14:00-15:00, Salle C103
Maarten de Rijke, University of Amsterdam (NL) parlera de
Searching User Generated Content
Résumé :
Recent years have witnessed a tremendous growth in the amount of user generated content available online : blogs, discussion forums, comments, micro-blogging, etc. In the talk I will survey the challenges presented by user generated content from a search engine point of view. I will discuss recent evaluation efforts, present a sample of recent work on modeling search of user generated content and conclude with a quick look at search tasks involving user generated content that await further research.
2 July 2009 ; 14:00-15:00, Amphithéatre
Kamel Smaïli, Université de Nancy 2 donnera un tutoriel sur les
Principes et Techniques en traduction statistique
Structure du tutoriel :
Bref Historique de la traduction automatique
Présentation de la traduction Parole-Parole
Les difficultés de la traduction
Principes des modèles d’IBM
Composants d’un modèle de traduction
— Modèle de traduction
— Modèle de langage
— Décodage
Modèle d’alignement
Déroulement de l’algorithme EM (Expectation-Maximisation) pour déterminer une table de traduction
Présentation du principe du décodage
Déroulement sur un exemple de traduction en utilisant l’algorithme implanté dans PHARAOH
Evaluation automatique de la traduction : BLEU et autres
Conclusion et démonstration

