<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="wordpress/2.3" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>

<channel>
	<title>Projet ANACAL</title>
	<link>http://www.luiggisansonetti.fr/projet_anacal</link>
	<description>Archivage, Normalisation et Analyse de Corpus d'Acquisition du Langage</description>
	<pubDate>Wed, 21 Nov 2007 07:32:47 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.3</generator>
	<language>fr</language>
			<item>
		<title>Introduction au projet ANACAL</title>
		<link>http://www.luiggisansonetti.fr/projet_anacal/?p=3</link>
		<comments>http://www.luiggisansonetti.fr/projet_anacal/?p=3#comments</comments>
		<pubDate>Wed, 21 Nov 2007 07:32:47 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[anacal]]></category>

		<guid isPermaLink="false">http://www.luiggisansonetti.fr/projet_anacal/?p=3</guid>
		<description><![CDATA[
Introduction
Il y a quelques années, Martine Vertalier et moi-même avons réfléchi à la sauvegarde des transcriptions faites par les étudiants dans le cadre des enseignements en linguistique de l’acquisition à l’Université Paris 3. En effet, au cours de leurs études, ces étudiants sont amenés à recueillir des dialogues entre adulte et enfant en situation de [...]]]></description>
			<content:encoded><![CDATA[<ol>
<li><strong>Introduction</strong></li>
<p>Il y a quelques années, Martine Vertalier et moi-même avons réfléchi à la sauvegarde des transcriptions faites par les étudiants dans le cadre des enseignements en linguistique de l’acquisition à l’Université Paris 3. En effet, au cours de leurs études, ces étudiants sont amenés à recueillir des dialogues entre adulte et enfant en situation de «parole spontanée». Ces enregistrements d&#8217;interactions verbales sont transcrits par l&#8217;étudiant et rendus par la suite à l&#8217;enseignant pour corrections et notations. Au fil des ans, plusieurs centaines de corpus se sont ainsi entassés dans les armoires, parfois même chez les enseignants – quand les documents ne sont pas jetés, faute de place ou d’intérêt.<br />
Dans le cadre d&#8217;un projet d&#8217;archivage de corpus de dialogues en acquisition du langage  au sein de l&#8217;Université de Paris III, nous avons été amenés à réfléchir sur la méthode à adopter pour la sauvegarde de ces données qui sont constituées, le plus généralement, d&#8217;un enregistrement sonore, de la transcription annotée des corrections et d&#8217;un travail d&#8217;analyse commenté.<br />
Avant de numériser les documents sonores, nous nous sommes intéressés à la transcription en nous demandant comment la récupérer, puis la « réécrire » pour y pratiquer des analyses assistées par ordinateur. Cette réflexion m’a amené à concevoir un programme d’aide au traitement des corpus, en passant par différents modules de préparation et de conversion des données.</p>
<li><strong>Programme ANACALISEUR</strong></li>
<p>Le programme ANACALISEUR  a été conçu, à l’origine, pour simplifier le travail des étudiants en acquisition du langage à Paris III quant à la mise en page de leur document, et à la saisie des informations et des énoncés. Le fait de proposer aux étudiants un modèle de document permet de récupérer des travaux homogènes quant à la présentation des données, dans un objectif de d’archivage et de normalisation de corpus.<br />
Ce programme est constitué de plusieurs modules de traitement sur documents. Ces modules permettent :</p>
<ul>
<li>la création de nouvelles transcriptions ;</li>
<li>la conversion d’anciennes transcriptions aux nouvelles normes de présentation et de convention ;</li>
<li>l’adaptation d’une transcription pour l’analyser avec un logiciel de statistique textuelle comme Lexico3 ;</li>
<li>l’adaptation d’une transcription pour l’analyser avec le programme CLAN du projet CHILDES ;</li>
<li>la mise en forme des corpus étiquetés automatiquement avec Cordial et le CLAN ;</li>
<li>la (re-)numérotation les énoncés</li>
<li>la normalisation xml des transcriptions…</li>
</ul>
<li><strong>Les modules</strong></li>
<ol>
<li><em>La création d’une nouvelle transcription</em></li>
<p>Tous les étudiants n’ont pas les mêmes pratiques de l’ordinateur, ni les mêmes logiciels de traitement de texte. Lorsqu’un étudiant suit les consignes de présentation du document, il peut utiliser soit les tabulations, soit les espaces pour décaler une ligne. Les tableaux sont parfois centrés ou alignés à gauches, avec des traits plus ou moins fins. Les indications concernant les en-têtes et les pieds de pages peuvent aussi varier suivant la connaissance du logiciel.<br />
Afin d’éviter les différences de typographie, le module ouvre un document qui fait office de modèle, comprenant une présentation préétablie et des styles prédéfinis. Le module permet de remplir le tableau de présentation du corpus sans avoir à insérer de lignes et colonnes, à savoir à quel endroit se place l’information. La présentation du document est déjà faite.<br />
A la fin de la saisie des informations concernant la transcription (situation de l’entretien, présentation de l’enfant, références des supports utilisés, durée de l’enregistrement…), l’enregistrement du document se fait automatiquement avec le prénom de l’enfant suivi du numéro de corpus, dans le répertoire « craloe ».<br />
Pour la transcription de l’enregistrement, l’étudiant doit décaler les énoncés avec des alinéas différents en fonction des locuteurs. Deux « styles prédéfinis » ont été ajoutés au modèle : un style « Adulte » est appliqué pour les énoncés de l’adulte, et un style « Enfant » pour ceux de l’enfant. Ainsi, il n’y a plus besoin de faire de tabulation ni d’ajouter des espaces multiples pour la présentation de la transcription.</p>
<li><em>La conversion d’une ancienne transcription</em></li>
<p>Les transcriptions existantes ne se présentent pas toutes de la même façon : plusieurs espaces en guise de tabulation, des sauts de lignes pour l’alignement des parole spontanées, les : ou – pour séparer la référence de l’énoncé à l’énoncé lui-même (A1 : blabla, A1 – blabla ou encore A1 blabla)… De plus, avec les recherches, les conventions changent également : remplacement d’un signe par un autre (marque de pause), comptage d’éléments non comptés auparavant… En effet, avant, les énoncés « vides » (mm) n’étaient pas numérotés (J – mm). Mais d’un point de vue traitement informatique, il est plus commode de numéroter tous les énoncés pour garder la chronologie des énoncés. D’un point de vue théorique, lorsqu’un locuteur produit un « mm », cela signifie quelque chose dans l’interaction (acquiescement, questionnement…).<br />
Pour effectuer tous ces changements, le module copie uniquement les énoncés des locuteurs de l’ancienne transcription et les colle dans le nouveau modèle, avec la présentation préétablie et les styles prédéfinis. Le traitement fini, le fichier est automatiquement enregistré dans le répertoire « craloe ».</p>
<li><em>La conversion d’une transcription vers le logiciel Lexico3 </em></li>
<p>Une des premières questions étaient de savoir pourquoi archiver les transcriptions. C’était, entre autres, dans l’objectif d’analyser ces corpus avec des logiciels de statistiques textuelles. Mais pour analyser un corpus avec un logiciel, quel qu’il soit, il faut le rendre compatible en modifiant son format d’origine, en ajoutant des éléments, en effaçant d’autres informations…<br />
Lexico3 a plusieurs contraintes pour analyser un fichier : il n’y a plus de mise en forme possible (pas de caractères gras ou soulignés, pas de pagination, ni d’en-tête…) et il faut des « clés », des balises contenant une information quant au découpage du corpus en unités comparables (par exemple si l’on veut comparer les énoncés de l’adulte à ceux de l’enfant, le corpus 1 au corpus 2…).<br />
Ensuite, il y a des contraintes dues aux observables. Dans une transcription, il y a des indications quant au déroulement de l’enregistrement ou de l’interaction (l’enfant montre du doigt, l’enregistrement s’arrête brusquement, rires…). Ces commentaires ne sont pas à être pris en compte par le logiciel. Le logiciel va segmenter le corpus en unité minimale observable que sont les mots. Il va ainsi constituer le « dictionnaire des formes », la liste de tous les mots présents dans le corpus. Si nous ajoutons à cette liste des mots appartenant à des commentaires, nous n’avons plus seulement les mots « énoncés » par les locuteurs. Il faut donc procéder à plusieurs traitements pour préparer un corpus pour Lexico3.</p>
<li><em>La conversion d’une transcription vers le logiciel CLAN</em></li>
<p>Dans le domaine de l’acquisition du langage, il existe depuis les années 1980, le projet CHILDES  regroupant des corpus, un système de transcription et un ensemble de programmes d’analyse statistique. Le logiciel CLAN comprend une quarantaine de modules pour analyser le corpus. Pour donner un corpus au programme, il faut le transcrire suivant la convention CHAT qui est très strict.<br />
Le module permet de préparer le corpus pour l’analyse avec Clan en l’adaptant suivant les contraintes du logiciel. </p>
<li><em>La mise en forme des transcriptions étiquetées avec Cordial et CLAN</em></li>
<p>Dans le cadre de la linguistique de l’acquisition, nous travaillons sur des corpus transcrits orthographiquement afin de rechercher les processus d’élaboration du fonctionnement cognitivo-langagier de l’enfant, processus observés à travers la mise en place de la syntaxe dans les interactions verbales entre l’adulte et l’enfant. Pour pouvoir utiliser l’informatique dans le repérage des phénomènes syntaxiques, il est nécessaire d’étiqueter grammaticalement tous les « mots » du corpus.<br />
Plusieurs logiciels sont capables d’étiqueter des textes, mais nous avons retenu Cordial pour ses « bonnes » performances quant à catégoriser des données issues de corpus oraux, et ce malgré les approximations et difficultés rencontrées du fait que ces logiciels sont d’abord conçus pour étiqueter des textes écrits .<br />
Avec le corpus catégorisé, nous pouvons procéder à des analyses sur la syntaxe des énoncés, sur les temps des verbes, sur les constructions complexes comme d’un verbe suivi d’un verbe à l’infinitif. Le programme CLAN permet également l’étiquetage automatique des transcriptions.<br />
Néanmoins, la lecture du corpus étiqueté peut être rendue difficile du fait de l’ajout d’informations par le logiciel. Les fichiers étiquetés ne sont lisibles que pour les logiciels. Il nous est plus difficile de revenir au texte. De plus, les logiciels utilisent des ressources internes différentes, et obtiennent des résultats d’étiquetages parfois très différents l’un de l’autre.<br />
Comme il m’a semblé intéressant de pouvoir comparer les étiquetages entre eux, j’ai mis au point un petit module de nettoyage permettant une lecture plus « agréable » des transcriptions étiquetées.<br />
Concernant l’étiquetage avec Cordial, le module récupère la forme lemmatisée du mot suivie de sa catégorie, en mettant un mot par ligne pour faciliter la lecture du corpus. Concernant l’étiquetage avec CLAN, le module ne récupère que les informations de la ligne %mor et met un mot par ligne.
</ol>
<li><strong>Perspectives</strong></li>
<p>Ce programme, encore au stade de développement, a déjà été testé par plusieurs étudiants de Licence Sciences du langage à Paris III, principalement pour la création de nouvelle transcription.<br />
D’autres modules sont en cours de réflexion et de programmation. Ces prochains modules permettront, par exemple de renuméroter une transcription. En effet, suivant les anciennes conventions, les énoncés vides n’étaient pas numérotés. Dans les nouvelles conventions, tous les énoncés, même « vides », sont numérotés. Pour ne pas avoir à modifier la numérotation énoncé par énoncé, un module le fera automatiquement, permettant aussi de numéroter les corpus déjà analysés avec Lexico3.<br />
Un autre développement en cours est la conversion au format XML, afin de garantir une standardisation pérenne et une interopérabilité entre disciplines, traitements et logiciels. La structure de document (appellée DTD) retenue pour cette normalisation se veut la plus minimaliste possible pour permettre une conversion facilité vers d’autres applications manipulant ou nécessitant l’encodage XML (Transcriber , CLAN…).</p>
<p>A suivre…</p>
]]></content:encoded>
			<wfw:commentRss>http://www.luiggisansonetti.fr/projet_anacal/?feed=rss2&amp;p=3</wfw:commentRss>
		</item>
		<item>
		<title>Bonjour tout le monde !</title>
		<link>http://www.luiggisansonetti.fr/projet_anacal/?p=1</link>
		<comments>http://www.luiggisansonetti.fr/projet_anacal/?p=1#comments</comments>
		<pubDate>Mon, 22 Oct 2007 11:04:24 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[Non classé]]></category>

		<guid isPermaLink="false">http://www.luiggisansonetti.fr/projet_anacal/?p=1</guid>
		<description><![CDATA[Très prochainement vous saurez tout (ou presque) du Projet ANACAL !
Un forum de discussions et d&#8217;échanges d&#8217;informations et d&#8217;expériences est désormais ouvert et disponible ici:
http://www.luiggisansonetti.fr/projet_anacal/forum
]]></description>
			<content:encoded><![CDATA[<p>Très prochainement vous saurez tout (ou presque) du Projet ANACAL !<br />
Un forum de discussions et d&#8217;échanges d&#8217;informations et d&#8217;expériences est désormais ouvert et disponible ici:<br />
<a target="_blank" href="http://www.luiggisansonetti.fr/projet_anacal/forum">http://www.luiggisansonetti.fr/projet_anacal/forum</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.luiggisansonetti.fr/projet_anacal/?feed=rss2&amp;p=1</wfw:commentRss>
		</item>
	</channel>
</rss>

