DOC

La notion de titre

By Ann Carpenter,2014-11-26 16:03
6 views 0
La notion de titre

Mémoire de maîtrise Sciences du Langage,

    mention Industries de la Langue.

    Etude exploratoire des relations intertitres

    et des relations entre titres et texte

    dans des documents scientifiques et techniques

    longs et structurés

    Thomas PORQUET

Université de Toulouse le Mirail

Année universitaire 2002/2003

2

Remerciements

Ma gratitude va tout particulièrement à Mme Pery-Woodley. qui m’a proposé un

    sujet et encadré pour ce mémoire au cours de cette année, un peu spéciale pour plusieurs raisons.

Et un grand merci à :

    Christophe Pimm. Pour tes conseils avisés de vieux routard du mémoire, ton acharnement quasi-thérapeutique à la programmation et ta mauvaise foi manifeste dans le domaine du jeu vidéo.

    Antoine. Ami de bientôt longue date et colocataire. Sache que je travaille quand je suis allongé, les yeux fermés, dans le canapé : ce mémoire en est la preuve.

    Mes parents. Pour votre patience, vos relectures tatillonnes et le reste. Mon frère.

    Mes ami(e)s. Caroline, Elise, Leslie, Mathilde, Souheïma, Alexis. Comme ça, gratuitement.

    La bibliothèque du quartier de St Cyprien et à ses collègues. Pour toute cette culture gratuite.

     3

    Sommaire

    1 INTRODUCTION 7 2 LE CADRE DE L’ETUDE 9 2.1 L’ACCES SELECTIF MULTI-ECHELLE A DES DOCUMENTS LONGS 9 2.2 LES TEXTES BALISES 11 2.2.1 LE LANGAGE SGML 11 2.2.2 LE LANGAGE HTML 12 2.2.3 LE LANGAGE XML 12 2.2.4 UNE SELECTION DES BALISES PERTINENTES 13 2.3 QUELQUES CARACTERISTIQUES DUN TEXTE 15 2.3.1 GENRE ET DOMAINE DES TEXTES 15 2.3.2 DISCOURS ET TEXTE 18 2.3.3 INTRODUCTION AU MODELE D’ARCHITECTURE TEXTUELLE 20 2.3.4 COHESION ET COHERENCE 21 2.3.5 L’ANAPHORE ET LA COREFERENCE 22 2.4 LES TITRES 25 2.4.1 HISTORIQUE ET DEFINITION 25 2.4.2 DESCRIPTION(S) DES TITRES 27 2.4.3 UNE TYPOLOGIE DES TITRES 27 2.4.4 UNE GRAMMAIRE DES TITRES 28 2.4.5 LES FONCTIONS DES TITRES 29 2.4.5.1 la fonction "d'intitulation" 29 2.4.5.2 La fonction d'organisation 30 2.4.6 LES RELATIONS ENTRE TITRES 30 2.4.6.1 Les relations syntaxiques 30 2.4.6.2 Les relations logico-sémantiques 31 2.5 LES GROUPES NOMINAUX COMPLEXES 31 2.5.1 LE SYNTAGME NOMINAL ET RAPPELS DE SYNTAXE 31 2.5.2 UNE TENTATIVE DE DEFINITION DU GROUPE NOMINAL COMPLEXE 32 2.5.3 LA DECOMPOSITION EN TETE ET EXPANSION 34 2.6 BILAN DU CADRE DE LETUDE 35

     4

     L’ANALYSE DES DONNEES 36 3

    3.1 LE PROGRAMME DEXTRACTION DES TITRES ET DE LEURS REPRISES 36 3.1.1 LA PARTIE COMMUNE DE LALGORITHME 36 3.1.2 QUELQUES EXPLICATIONS 37 3.1.3 LES PARTICULARITES DU TRAITEMENT DU CHAPITRE ENTITES/ASSOCIATION 38 3.1.4 LES PARTICULARITES DU TRAITEMENT DE L’HDR 39 3.1.5 LES LIMITES ET AMELIORATIONS POSSIBLES DU PROGRAMME 41 3.1.5.1 Les limites constatées 41 3.1.5.2 Les améliorations futures 42 3.2 LES TITRES ET LES RELATIONS INTERTITRES 42 3.2.1 DEPOUILLEMENT DES DONNEES 42 3.2.1.1 Les titres du chapitre e/a de P. Rigaux 43 3.2.1.2 Les titres de l’habilitation de C. Jacquemin 45 3.2.2 LES TITRES ET LES RELATIONS INTERTITRES : UN BILAN 50 3.3 LES RELATIONS TITRES / SEGMENTS TITRES 53 3.3.1 QUEL(S) CLASSEMENT(S) POSSIBLE(S) POUR UNE REPRISE ? 53 3.3.2 LES RESULTATS 55 3.3.2.1 Chapitre entité/association de P. Rigaux 56 3.3.2.2 Habilitation à Diriger des Recherches de C. Jacquemin 57 3.3.2.3 Commentaires sur les résultats 58 3.3.3 DES PISTES A SUIVRE ? 61 4 CONCLUSION 63 5 BIBLIOGRAPHIE 65 6 ANNEXES 68

     5

    Liste des tableaux

Tableau 1 :

    Nombre de reprises entre chaque niveau de titres dans le chapitre e/a p.40 Tableau 2 :

    La détermination des titres de l’HDR p.43

    Tableau 3 :

    Nombre de reprises entre chaque niveau de titres dans l’HDR p.43

    Tableau 4 :

    Nombre de reprises indifférenciées dans le chapitre e/a p.53 Tableau 5 :

    Nombre de reprises selon leur fonction grammaticale, dans le chapitre e/a p.53

    Tableau 6 :

    Nombre de reprises en fonction de position de la partie du titre reprise, dans le chapitre e/a p.53

    Tableau 7 :

    Nombre de reprises, par nature et par fonction, par niveau de titre dans le chapitre e/a p.54

    Tableau 8 :

    Nombre de reprises indifférenciées dans l’HDR p.54

    Tableau 9 :

    Nombre de reprises selon leur fonction grammaticale dans l’HDR p.55

    Tableau 10 :

    Nombre de reprises, par nature de la partie du titre reprise dans l’HDR p.55

    Tableau 11 :

    Nombre de reprises, par nature et par fonction, par niveau de titre dans l’HDR p.55

     6

1 Introduction

    Ce mémoire a pour but de proposer une première étude exploratoire,

    essentiellement qualitative, des titres dans les documents longs et structurés, matériaux privilégiés pour la navigation sélective.

    Ce sujet trouve son origine dans un projet collectif de conception d’outil de navigation textuelle, initié en septembre 2002 et coordonné par Christian Jacquemin. La mise au point de ce navigateur doit aider l’utilisateur à choisir puis à accéder directement aux endroits du texte dont les thèmes l’intéressent.

    Il est rapidement apparu que les titres, très présents, particulièrement dans le type de documents du projet, portent des informations pertinentes sur le contenu des textes. En outre, ce sont des objets encore peu étudiés. Mon interrogation porte spécialement sur deux questions :

    ; De quoi ces titres sont-ils constitués ? La constatation immédiate de la forte

    présence de groupes nominaux simples ou complexes fournit un premier

    élément de réponse et orientera le traitement de la deuxième question.

    ; Quelle(s) fonction(s) linguistique(s) remplissent-ils dans le texte qui les

    accueille ? On essaiera de relever toutes les reprises lexicales et de les classer.

    Ainsi, on disposera d’une cartographie sommaire de ce phénomène dans des

    textes réels.

Ce mémoire est composé de deux parties.

    La première partie pose les bases théoriques de l’étude. J’y détaillerai le projet de conception d’un outil de navigation/visualisation à l’origine du questionnement sur l’importance du rôle des titres dans les documents longs et structurés. Dans un souci de traitement automatique de données, je m’intéresserai à la façon dont sont balisés les textes, disponibles et utilisés sous forme électronique. Puis, condition indispensable pour réduire ou extraire des informations cohérentes d’un document, la notion même de texte, indissociable de celle de discours, est discutée. Je me pencherai ensuite sur une caractéristique essentielle du texte : la cohésion, assurée, entre autres, par la coréférence et l’anaphore. Je dresserai enfin un panorama de

    travaux réalisés sur les titres portant sur leurs rôles et leur(s) relation(s) avec le reste du texte et dans lesquels sont ébauchées des descriptions de structures. La seconde partie sera consacrée à l’étude que j’ai menée sur des données textuelles

    réelles. Elle sera menée sur deux textes : le chapitre entité/association extrait du livre Pratique de MySQL et PHP de P. Rigaux et l’Habilitation à Diriger des

     7

Recherches (HDR) de C. Jacquemin intitulée Variation terminologique :

    Reconnaissance et acquisition automatique de termes et de leurs

    variantes en corpus. Je commencerai par ne m’intéresser qu’à l’ensemble des

    titres, la ? titraille ?, de chacun de ces deux textes d’études. Je vérifierai à cette occasion si les structures présentes obéissent à la grammaire élaborée dans la première partie. Puis j’examinerai les répétitions de mots entre titres, à la lumière de leur position (en tête ou en expansion).

    Je finirai en relevant les répétitions des formes des titres dans les segments titrés, en fonction de leur position dans les titres et de leur fonction grammaticale dans les segments.

     8

2 Le cadre de l’étude

    Le cadre de l’étude est composé de deux éléments distincts :

    ; un exposé succinct du projet multidisciplinaire de conception d’un outil de

    visualisation/navigation de C. Jacquemin.

    ; un rappel des notions sur lesquelles je m’appuie à la fois pour appréhender

    mon objet d’étude et mener une exploration rigoureuse des données dégagées.

2.1 L’accès sélectif multi-échelle à des documents longs

    L’étude des relations intertitres et entre titres et segments titrés s’inscrit dans le projet multidisciplinaire : accès sélectif multi-échelle à des documents longs,

    1navigation et visualisation.

    Né de la constatation conjointe de la diversification et de l’accroissement volumique des documents numériques, ce projet tente de proposer une alternative au parcours séquentiel d’un texte long à l’écran. La réalisation finale sera ? une nouvelle

    interface pour l’accès à l’information textuelle ?, c'est-à-dire un outil d’accès et de

    visualisation sélectifs. L’accès sélectif consiste à extraire les thèmes principaux du texte puis à les reformuler, dans une optique similaire à celle du résumé automatique. Le mode de visualisation sera choisi après des études cognitives de stratégies de lecture (comment se comporte un utilisateur face à des informations textuelles présentées en 2D ou 3D et non plus linéairement ? ) et des études linguistiques qui établissent le(s) lien(s) entre mise en forme spatiale et structuration discursive des documents. En outre, est prévu un moyen de faire varier la granularité du document résultant du traitement prévu qui consiste à choisir entre s’approcher du texte et voir ses détails ou s’en éloigner et appréhender

    sa structure d’ensemble.

    La multidisciplinarité du projet, évoquée plus haut, apparaît bien dans la liste des chercheurs impliqués et leur domaine respectif :

    ; A l’IRIT (Institut de Recherche en Informatique de Toulouse) : Jacques Virbel,

    Mustapha Mojahid, Christophe Luc. Ils se penchent sur la représentation de

1 dont une présentation est disponible en ligne à :

    http://www.limsi.fr/Individu/jacquemin/PRESENTATION-HTML/index.html

     9

    la mise en forme des documents et sur le rôle des titres, importants au

    moment de proposer une version simplifiée des textes.

    ; A l’ERSS (Equipe de Recherche en Syntaxe et Sémantique, à Toulouse) :

    Marie-Paule Pery-Woodley, Marie-Paule Jacques, Josette Rebeyrolle et

    Christophe Pimm. Leur champ de recherche principal est l’analyse discursive

    multi-échelle et l’étude des cadres discursifs, susceptibles de fournir des

    indices d’extraction d’informations.

    ; Au LIP6 (Laboratoire d’Informatique de Paris 6) : Patrick Gallinari et Massik-

    Reza Amini travaillent à l’établissement de procédures de filtrage pour

    l’extraction automatique de segments pertinents.

    ; Au LPEQ (Laboratoire de Psychologie Expérimentale et Quantitative, à Nice) :

    Bérénice Closson étudie l’impact de la présentation (structure spatiale) des

    informations d’un texte sur les stratégies de lecture. Pour cela, elle s’appuie

    particulièrement sur l’analyse de temps de fixation.

    ; Au LIMSI (Laboratoire d'Informatique pour la Mécanique et les Sciences de

     à Orsay), où le projet complet est coordonné, Brigitte Grau, l'Ingénieur,

    Michèle Jardino, Bill Turner et Christian Jacquemin s’intéressent à

    l’indexation automatique de textes, à l’extraction d’informations ainsi qu’au

    mélange nécessaire des approches strictement numériques et linguistiques

    dans le but d’obtenir une analyse thématique correcte d’un texte. D’autre

    part, ils travaillent aussi sur la conception de l’outil de visualisation.

    La conception d’un outil de sélection de l’information nécessite des mises au point sur le choix :

    ; du contenu : où et quels sont les segments porteurs d’une information

    pertinente pour l’utilisateur (i.e. le lecteur du document long) ?

    ; des paramètres de mise en forme spatiale : comment présenter les

    segments extraits à l’utilisateur ?

    Ceci en fonction du niveau de granularité choisi par l’utilisateur (le texte résultat est très ou peu compressé).

    On devra donc tenir compte de l’importance du niveau hiérarchique dans lesquels

    on extrait ou on choisit les extraits du texte. C’est là que la question de la reprise du titre, ou d’une partie du titre, dans le segment titré apparaît dans le but d’établir des critères de sélection d’extraits. La deuxième question étant : quelle est la

    position de cette reprise ? On verra dans la deuxième partie de ce mémoire que cette question est à tiroirs.

     10

Report this document

For any questions or suggestions please email
cust-service@docsford.com