FILTRAGE AUTOMATIQUE DE TEXTES NLP+IA 96 International Conference on Natural Language Processing and Industrial Applications 1996, Moncton. Canada. Jawad BERRI *, Emmanuel CARTIER *, Jean-Pierre DESCLES *, Agata JACKIEWICZ *,**, Jean-Luc MINEL * * CAMS ( U.M.R. 17 du CNRS, EHESS, Paris-Sorbonne) 96, bd Raspail - 75006 Paris FRANCE ** CR2A-DI 19, avenue Dubonnet 92411 Courbevoie FRANCE email :{berri,cartier,descles,jackiewi,minel}@msh-paris.fr Resume : Nous proposons dans cet article une approche originale de filtrage d'informations textuelles par exploration contextuelle. Son principe est base sur le reperage d'indices linguistiques relatifs a : la mise en valeur par l'auteur, a l'argumentation causale et aux differents enonces definitoires. Cette approche ne necessite pas de connaissances sur le domaine mais s'appuie sur une base de connaissances linguistique. Les connaissances linguistiques du systeme sont decrites brievement, ainsi que leur implementation dans un prototype informatique operationnel, fruit d'une collaboration entre un laboratoire universitaire et une entreprise industrielle. Mots cles : filtrage de textes, resume automatique, exploration contextuelle, connaissances linguistiques, regles heuristiques 1 Introduction Le filtrage d'informations et plus specialement le resume automatique de textes ont donne lieu a de nombreux travaux bases sur une approche classique du traitement du langage naturel (De Jong 82 ; Lehnert 82 ; Hahn & Reimer 85 ; Sabah 88 ; Mike 94). Nous proposons une approche alternative, le filtrage d'informations textuelles par exploration contextuelle, basee sur le reperage d'indices linguistiques, en vue d'identifier : i) certaines informations structurantes du texte, ii) l'argumentation causale et l'argumentation par la cause (Jackiewicz 97) , iii) differents enonces definitoires (Cartier 97). Cette approche ne necessite pas de connaissances sur le domaine mais exige une analyse linguistique fine et systematique des phenomenes en question, et permet de traiter des textes de structures heterogenes. 2 La methode d'exploration contextuelle L'exploration contextuelle est une methode generale du traitement du langage qui se propose d'apporter des solutions a des problemes tres divers lies au langage independamment d'un domaine particulier. L'exploration contextuelle ne se base pas sur une analyse syntaxique profonde du texte, mais sur un reperage de marqueurs consideres comme pertinents pour la tache a effectuer. Pour la tache de filtrage, l'etude des processus cognitifs mis en oeuvre par les resumeurs professionnels (Endres-Niggemeyer 96) ou par des individus de differents ages et formation (Coirier 90 ; Passerault 84) montrent que ceux-ci utilisent notamment le reperage de differents marqueurs textuels, structurels, lexicaux et thematiques. De plus, differents travaux de linguistique textuelle (Roulet 85, 87 ; Charolles 88, 89 ; Adam 90) soulignent par leur methodologie l'interet d'un reperage de marqueurs linguistiques et de leur combinaison dans l'attribution d'une signification aux unites plus larges que le mot. Nous avons systematise et formalise ces approches en construisant : i) un modele de la structure du texte ou les differents elements constitutifs d'un texte (sections, paragraphes, titres, phrases, unites lexicales) sont consideres comme des indices contextuels potentiels susceptibles de guider la tache d'etiquetage semantique, ii) un modele d'etiquetage semantique des segments textuels. Pour decrire ce processus d'etiquetage, l'exploration contextuelle (Descles et ali. 95), propose un formalisme, les regles d'exploration contextuelle en vue de construire une base de connaissances linguistiques. 3 Les etiquettes semantiques L'objectif du systeme est d'attribuer aux phrases des etiquettes relatives a l'information identifiee dans ces phrases. En nous appuyant sur les premiers resultats du systeme SERAPHIN (Le Roux et al. 94 ; Berri et al 95), nous avons defini les etiquettes generales suivantes : annonce thematique, recapitulation thematique, conclusion globale, enonce definitoire, argumentation causale et argumentation par la cause. 3.1 L'annonce thematique L'etiquette " annonce thematique " est attribuee aux phrases exprimant le sujet, le theme d'un segment textuel quelconque, ou explicitant une predication defendue dans un tel segment. Il s'agit d'une information requise pour l'intelligibilite du texte1. L'annonce thematique par excellence est le plan du document, exprime en tete de texte et/ou, plus rarement, en conclusion du texte. Nous reconnaissons ces enonces par la co-presence d'un deictique (le present document, nous...) ou d'une formulation impersonnelle (il faut..., il est utile de...), d'un presentatif (commencer l'etude, presenter, expliquerons, montrerons) et de marqueurs d'integration lineaire; des contraintes transphrastiques permettent d'extraire aussi les enonces relies. Dans les cas ou le texte ne comprend pas de plan de document explicite en tete ou repris en fin de document, ni de titres et de sous-titres, nous recherchons des annonces thematiques au fil du texte. Nous avons ainsi identifie trois formes d'annonce locale : a l'aide des memes marqueurs deictiques ou impersonnels et presentatifs que pour l'annonce globale , a l'aide d'une question directe ou indirecte ou par l'entremise d'un soulignement . 3.1.2 Recapitulation/conclusion thematique L'etiquette " recapitulation/conclusion thematique " est attribuee aux phrases explicitant les enseignements et conclusions generaux du texte ; il s'agit la encore d'une information capitale, puisqu'elle correspond a ce qu'il faudra retenir de la demarche textuelle. Cette classe d'information comporte deux sous-classes : les recapitulations et les conclusions. Les enonces recapitulatifs sont aisement identifiables au moyen de locutions : pour nous resumer..., nous pouvons recapituler/resumer en disant..., en resume, en guise de recapitulation..., cependant, la lourdeur meme de ces expressions fait qu'elles sont assez rares. Les enonces conclusifs comprennent deux types principaux de marqueurs, dont les uns sont non ambigus et les autres fortement ambigus, en voici quelques exemples2 : (13) Il faudrait donc utiliser toutes les energies disponibles car pour empecher l'effet de serre il faut que l'emploi des energies qui le favorise soit limite de facon que le CO2 qu'elles produisent ne depasse pas ce qui peut etre resorbe par le cycle du carbone.(...) (14) Notre deuxieme conclusion, est que, a cause de l'effet de serre, l'interet de developper l'electronucleaire est devenu evident a un certain nombre d'hommes politiques, d'industriels et de scientifiques de disciplines diverses. (...) (15) Donc, pour que le developpement de I'electronucleaire ait une influence significative, il faudra qu'il soit tres important. Ceci est notre troisieme conclusion.(...) (16) De toute facon il sera evidemment necessaire de freiner l'augmentation de la consommation d'energie puisque les reserves de combustibles fossiles sont limitees: elles representent quelques dizaines d'annees pour le petrole, 60 a 100 ans pour le gaz naturel et plusieurs siecles pour le charbon.(...) (BERTIN) Pour lever l'ambigu•te des connecteurs conclusifs (13, 15) ou reformulatifs (16), nous requerons la co-presence d'un marqueur de soulignement (14) ou d'un modal alethique (13,15,16) et contraignons la position du connecteur dans la phrase (13,15). Pour n'extraire que les conclusions globales, nous contraignons la position de la phrase dans le texte. 3.1.3 Les definitions Les enonces definitoires (17, 18) constituent un autre type d'information recherchee ; nous elaborons a l'heure actuelle des regles qui permettront d'extraire les differentes formulations d'une definition, ainsi que l'enonce converse, la denomination (17) : (17) (a) Vapeur d'eau, gaz carbonique, monoxyde de carbone, methane, chlorofluorocarbures, oxydes d'azote et ozone sont ce que l'on appelle communement des "gaz a effet de serre". (b) Sous ce vocable sont regroupes les gaz qui laissent passer le rayonnement solaire incident mais qui absorbent les rayonnements infrarouges de grande longueur d'onde renvoyes par la surface de la Terre, les empechant ainsi de s'echapper vers l'espace. (LAMBERT) (18) L'effet de serre est un phenomene naturel : la couche superieure de l'atmosphere, composee d'eau et de gaz, absorbe, comme la vitre d'une serre, une partie des rayons infrarouges emis par la Terre. (NOYER) A cote de ce type d'enonces, nous avons elabore un ensemble de regles qui, sur la base d'un groupe nominal du titre, extraient certaines predications a son propos ; ce type d'enonces presente l'interet de pallier a l'absence des annonces thematiques classiques. 3.2 Argumentation causale et argumentation par la cause Notre approche de selection de phrases importantes d'un texte fait egalement appel a l'information causale. Plus precisement, elle est fondee sur l'identification des donnees causales exprimees dans deux contextes argumentatifs particuliers : l'argumentation causale et l'argumentation par la cause (Plantin 90 ; Perelman 92). Dans le premier, la cause participe a l'expression et a la construction d'un savoir nouveau (le lien causal est encore une these a confirmer ou a infirmer). Dans le deuxieme, elle joue le role d'argument, particulierement pertinent, car fonde sur le reel, pour justifier des choix et evaluations effectues, ou pour legitimer des objectifs et projets futurs. Dans les deux cas, le raisonnement causal fournit une information precieuse car synthetique et directement exploitable, qui enrichit la connaissance et sert de guide pour l'action. Notre procedure de recherche de l'information causale pertinente dans un texte est fondee sur l'identification des marqueurs de causalite (declencheurs) dans un contexte argumentatif adequat. Dans l'argumentation causale, ce contexte est fonde sur des indices (emploi du conditionnel, des verbes modaux, etc.) exprimant le caractere hypothetique, possible, demontre, largement admis, certain, ... , de l'information causale presente dans la phrase. 19) Selon l'UNICEF, l'ecotaxe aurait un effet pervers sur l'economie : elle entrainerait une baisse de la competitivite et de la capacite a creer des emplois. Dans l'argumentation par le lien causal, le contexte qui depasse habituellement le cadre de la phrase contient des indices relatifs, d'une part a l'evaluation des consequences (reelles ou possibles) et d'autre part, a l'action envisagee. L'information causale exprimee n'est plus centrale, elle sert a montrer que cette action est possible et comment l'operer. 20) Les risques de changement climatique consecutif a un accroissement de l'effet de serre ont conduit la France a se fixer un objectif volontariste de prevention des emissions de gaz a effet de serre et a proposer un accord international sur les moyens de prevention. Pour une presentation plus ample du modele causal voir (Jackiewicz 96). 4 Filtrage des phrases etiquetees A partir des phrases etiquetees , il est possible de construire des extraits qui repondent aux besoins specifiques d'un utilisateur. Pour cela, nous avons defini des strategies de selection Si constituees des parametres SEi, Pi, SFi. La strategie d'exploration SE precise l'ordre d'exploration des sections et la profondeur d'exploration (et donc de selection) du texte. Pour chaque section du texte, il est possible de preciser un profil de filtrage P. Le profil de filtrage P, qui peut etre determine par l'utilisateur du systeme, precise l'importance de chaque etiquette. Ainsi pour un certain type de recherches, des enonces " conclusif " sont consideres comme plus importants que les enonces " d'annonce thematique " lorsqu'ils se trouvent dans la derniere section du texte, ou encore " l'argumentation orientee effet " est plus importante que " l'argumentation orientee cause ". Un profil de filtrage se presente sous la forme d'une liste hierarchisee d'etiquettes, ce qui permet aussi d'ignorer un certain type d'informations. La profondeur d'exploration permet d'ignorer les sections les plus profondes qui correspondent generalement a des explications detaillees de l'auteur sur un point precis. Nous avons defini deux strategies operationnelles : une " strategie standard " qui explore le texte lineairement en selectionnant les phrases qui correspondent au profil de filtrage et une " strategie entrelacee " dans laquelle l'introduction puis la conclusion sont d'abord explorees, en tenant compte aussi de la structure en paragraphes de ces deux segments textuels. Ensuite le systeme poursuit une exploration lineaire du texte. Nous etudions actuellement un autre type de strategies, appelee " strategie veille ", qui pourra s'instancier en veille strategique, veille sociale, veille technologique, etc., ou les etiquettes sont regroupees et hierarchisees dans des classes, et ou les classes sont elles memes hierarchisees. Cette voie prometteuse necessite neanmoins un travail systematique sur un corpus important pour identifier des heuristiques. Le seuil de filtrage SF permet de produire un ensemble de phrases correspondant a un nombre fixe de phrases relativement a la taille du texte source (par exemple 20% du texte source) 5 Construction de l'extrait L'extrait est construit a partir de la structure originelle du texte source, en reprenant les titres et les sous-titres de celui-ci, meme si aucune phrase n'a ete selectionnee dans une des sections. La comprehension d'une phrase est souvent dependante de son contexte et plus precisemment de ce que Adam (Adam 90) appelle liage et sequence textuelle. C'est pourquoi pour chaque phrase Phi selectionnee nous recherchons les phrases Phij qui lui sont liees, soit par des marqueurs anaphoriques, soit par des signes de marquage de sequence textuelle. Si un marqueur anaphorique est present dans une phrase, alors la phrase precedente lui est liee. Dans le cas d'un marqueur de sequence textuelle (en premier lieu, en second lieu, etc.) toutes les phrases qui appartiennent a celle-ci sont liees pour former un ensemble coherent. 6 Architecture du systeme informatique Le systeme informatique, operationnel depuis juillet 1995, est realise dans un langage hybride a base de representation objet (Fig. 1). Nous n'en donnons ici qu'une breve description, le lecteur interesse pourra se reporter a (Berri 96). Un module de pretraitement du texte source construit une representation objet du texte en s'appuyant sur les balises SGML et en reperant les phrases a partir des caracteres de ponctuation et de regles heuristiques pour resoudre les problemes lies aux sigles, aux references bibliographiques, etc. Un module de reperage des marqueurs d'exploration contextuelle identifie les mots ou les lexies complexes qui sont consideres comme des indices contextuels en declenchant des methodes qui traitent les flexions morphologiques. Un module d'etiquetage attribue une etiquette semantique adequate a un segment textuel, generalement une phrase. Les regles d'exploration contextuelle sont traduites en regles de production et regroupees en taches ; toutes les taches sont declenchees, par consequent une phrase peut se voir attribuer plusieurs etiquettes semantiques. Un module de selection exploite cet etiquetage semantique pour moduler l'extrait produit en fonction des besoins specifiques des utilisateurs potentiels (voir ¤4) et applique la ou les strategies choisies par l'utlisateur pour selectionner les phrases qui constitueront l'extrait final. Figure 1 : Architecture du systeme informatique. 7 Evaluation L'evaluation de resumes est une tache difficile en raison de l'impossibilite de definir des indicateurs qui mesurent la quantite d'informations presente dans un texte. Il est d'usage dans la litterature de retenir des indicateurs utilises en informatique documentaire comme le taux de rappel et le taux de precision. Nous pensons que ceux-ci sont peu adaptes pour l'evaluation de resumes. En effet, ces indicateurs mesurent l'adequation entre une question d'un utilisateur, exprimee sous forme de mots clefs et d'operateurs booleens, et le theme principal d'un texte. Nous avons prefere definir trois protocoles pour l'evaluation des extraits obtenus a parir d'un corpus de 21 textes (au total 100 textes seront traites) n'ayant pas ete utilises pour la constitution de la base de connaissances linguistiques. Le protocole P1 evalue la qualite intrinseque des extraits, c'est a dire la lisibilite et la coherence du texte, a partir des indicateurs suivants : le nombre de liens anaphoriques non resolus, le nombre de liens argumentatifs absents, le nombre de phases sans pertinence et une note de qualite globale (comprise entre 0 et 2) attribuee par le lecteur. Le tableau 1 resume les resultats obtenus (chaque cellule du tableau indique le nombre de textes correspondant). Le protocole P2 evalue la qualite d'un extrait comparativement a des extraits produits par des resumeurs. Un jury de trois lecteurs classera les differents resumes. Le protocole P3, defini dans le cadre du projet SERAPHIN (Le Roux et al. 94; Berri et al. 95) par la Direction des Etudes et des Recherches de la societe E.D.F., evalue la qualite informative du resume. Un jury de lecteurs constitue de specialistes du domaine, note chaque resume en le comparant au texte source.Les protocoles P2 et P3 sont en cours d'evaluation. 8 Conclusion La plupart des systemes de resume ou de filtrage de textes utilisent des methodes statistiques pour attribuer a des phrases un score de pertinence. Le principe meme de ces methodes impose deux limitations importantes. D'une part, l'impossibilite de tenir compte de phenomenes bien connus en linguistique comme la polysemie, l'ambiguite, l'anaphore, et d'autre part l'impossibilite d'adapter le filtrage au dire de l'auteur (definir, argumenter, conclure, etc.) Nous pensons avoir montre qu'une approche linguistique du texte, basee sur l'etude approfondie des marqueurs permet de mieux apprehender son contenu semantique et offre ainsi la possibilite de moduler l'extrait produit. Valeurs obtenues dans les 25 textes 0 1 2 3 4 Anaphores non resolues 9 8 2 4 1 Phrases sans pertinence 19 6 0 0 0 Liens argumentatifs manquants 10 7 3 3 2 Lisibilite 4 15 6 - - Tableau 1 : Evaluation des extraits 8 References (Adam 90) Adam J.M. , Elements de linguistique textuelle, Mardaga, Liege, 1990. (Berri et al. 95) J. Berri, D. Le Roux, D. Malrieu , J-L. Minel, SERAPHIN un systeme d'extraction automatique d'enonces importants , Actes du colloque Genie linguistique, Montpellier, pp 409-419, 1995. (Berri et al. 95) J. Berri, D. Le Roux, D. Malrieu , J-L. Minel, SERAPHIN main sentences automatic extraction system, Second Language Engineering Convention, Londres, 1995. (Berri 96) J. Berri, Contribution a la methode d'exploration contextuelle, applications au resume automatique et aux representations temporelles; realisation informatique du systeme SERAPHIN, These de l''Universite Paris Sorbonne , 1996. (Cartier 97) E. Cartier , LA DEFINITION : ses formes d'expression, son contenu et sa valeur dans les textes, these en cours. (Charolles 88) M. Charolles, Les plans d'organisation textuelle , periode, chaines, portees et sequences , Pratiques, n57, Metz, 1988. (Charolles 89) M. Charolles, Marquages linguistiques et resume de textes , in Charolles M. et Petitjean A. [eds], Le resume de texte , aspects linguistiques, semiotiques, psycholinguistiques et automatiques, Colloque international de linguistique organise par les Universites de Metz et Nancy II, Klincksieck, 12-13-14 sept. 1989. (Choueka 85) T. Choueka, S. Lusignan, Disambiguation by short contexts. Computer and Humanities, 19, 3, pp 147-157, 1985. (Coirier 91) P. Coirier, Production of argumentative discourse , the textual function of statements considered important by the speaker , ds G. Denhiere et JP Rossi, Text and Text Processing, Elsevier Science Publishers B.V. [North Holland], 1991. (De Jong 82) G. De Jong, An overview of the FRUMP system , in Strategies for Natural Language Processing/ W.G. Lehnert & M.H. Ringle [eds], London , Lawrence Erlbaum, pp. 149-172, 1982. (Descles et al. 91) J-P. Descles, C. Jouis, D. Maire Reppert, H-G. Oh, Exploration contextuelle et semantique , Un systeme expert qui trouve les valeurs semantiques des temps de l'indicatif dans un texte , in Knowledge modeling and expertise transfert, D. Herin-Aime, R. Dieng, J.P. Regourd, J.P. Angoujard [eds], 371-400, Amsterdam, Washington DC, Tokyo, IOS Press, 1991. (Descles et al. 95) J-P. Descles, J. Berri, A. Jackiewicz, D. Malrieu, J-L. Minel, Le resume automatique par exploration contextuelle Rapport CAMS, 62 p, 1995. (Endres-Niggemeyer 96) B. Endres-Niggemeyer, Summarising text, a paraitre, 1996. (Fayol 89) M. Fayol, Le resume , un bilan provisoire des recherches en psychologie cognitive , in Charolles M. et Petitjean A. [eds] , Le resume de texte , aspects linguistiques, semiotiques, psycholinguistiques et automatiques, Colloque international de linguistique organise par les Universites de Metz et Nancy II, Klincksieck, 12-13-14 sept. 1989. (Fuchs et al. 93) C. Fuchs, L. Danlos, A. Lacheret-Dujour, D. Luzzati, B. Victorri, Linguistique et traitement automatique des langues, Hachette , Paris, 1993. (Hahn et Reimer 85) U. Hahn, U. Reimer, The TOPIC project , text-oriented procedures for information management and condensation of expository texts , University of Constance, 1985. (Jackiewicz 97) A. Jackiewicz, Modelisation des connaissances extraites des documents techniques. Le pobleme de la causalite. These en cours, 1997. (Jackiewicz 96) A. Jackiewicz, La notion de cause pour le filtrage de phrases importantes d'un texte, NLP+IA96, Moncton, Canada, 1996. (Kallgreen 88) G. Kallgreen, Automatic abstracting of content in text , Nordic Journal in Linguistics, 11, pp. 89-110, , 1988. (Lehnert 81) W.G. Lehnert, Plot units and narrative summarization , Cognitive Science, 5, pp. 293-331, 1981. (Le Roux 91) D. Le Roux, Automatisation de l'activite resumante , essai de typologie , Actes du colloque international sur le resume de texte, Pont-a-Mousson / Universite de Nancy II, Klincksieck Ed., septembre 1991. (Le Roux et al. 94) D. Le Roux, J-L. Minel, J. Berri, SERAPHIN Project , the industrial approach , Actes du colloque Cognitive Science in industry , pp 275-283, 1994. (Luhn 58) H.P. Luhn, The automatic creation of litterature abstracts , IBM, Journal of research and development, 2, pp. 159-165, 1958. (Marandin 93) J-M. Marandin, Analyseurs syntaxiques. Equivoques et problemes TAL Analyse syntaxique 34, 1, pp. 5-33, 1993. (Miike et Itoh 94) S. Miike, E. Itoh & al., A full-text retrieval system with a dynamic abstract generation function, SIGIR 94, Dublin, pp. 152-161, 1994. (Paice 81) C.D. Paice, The automatic generation of literature abstracts , an approach based on the identification of self indicating phrases in , Information retrieval research / Oddy, R.N. [Ed.], pp. 172-191, 1981. (Paice 90) C.D. Paice, Constructing literature abstracts by computer , techniques and prospects, Information processing management, 26 [1], pp. 171-186, 1990. (Passerault 84) J.M. Passerault, Niveau, importance relative et rappel des elements d'un texte , resultats et interpretation , L'Annee Psychologique, 84, 251-266, 1984. (Perelman 92) C. Perelman, L. Olbrechts-Tyteca, Traite de l'argumentation, Editions de Bruxelles, 1992. (Plantin 90) C. Plantin, Essais sur l'argumentation, Editions Kime, Paris, 1990 (Pugeault 94) F. Pugeault , P. Saint Dizier, M.G. Monteil, Knowledge Extraction from Texts, a method for extracting predicate-argument structure in texts , in proceedings Coling 94 Kyoto, 1994. (Renouf 95) A. Renouf, J. Collier, A system of automatic textual abridgement , Actes du colloque Genie linguistique, Montpellier, pp 395-407, 1995. (Roulet et al. 85) E. Roulet et al., L'articulation du discours en francais contemporain, Bern, Peter Lang, 1985. (Roulet 87) E. Roulet, Completude interactive et connecteurs reformulatifs , Cahiers de linguistique francaise, nˇ8, pp.111-140, 1987. (Sabah 88) G. Sabah, L'intelligence artificielle et le langage, representation des connaissances, Hermes C, Paris, 1988. (Saint Dizier 95) P. Saint-Dizier, Constraint propagation techniques for lexical semantics descriptions in Computational semantics, Saint-Dizier P., Viegas E., Cambridge University New York pp 426-440, 1995. (Slator 91) B. Slator, Using context for some preference , in Lexical Acquisition, Exploiting On-Line Resources to build a Lexicon, Zernik, U. Ed., Lawrence Earlbaum, Hillsdale, NJ, 1991. 1 Voir (Fayol 89) pour une justification de l'importance de ce type d'information, notamment dans l'objectif d'un resume. Nous faisons aussi reposer notre analyse sur l'existence d'une norme textuelle propre aux textes a visee informative et argumentative qui recommande de disposer des reperes permettant au lecteur d'identifier sa structure thematique et les enseignements generaux, les points importants du propos. Il nous semble tout aussi raisonnable de postuler l'existence de normes specifiques de mise en texte, propres aux specialites. 2 Tous les exemples de cet article proviennent du corpus de textes utilise dans le projet SERAPHIN, identifies par le nom de l'auteur.