Annotation linguistique de documents Web dans une architecture distribuée et adaptable

Par Thierry Hamon
Date : samedi 25 novembre 2006 15h25
Durée : 20 minutes
Langue :

Vous pouvez trouver plus d'information sur le site du présentateur :


Dans le cadre du projet ALVIS (www.alvis.info/alvis), nous avons conçu une plate-forme d'enrichissement linguistique de documents issus du Web, exploitant des outils de Traitement Automatique des Langues (TAL) existants. Cette architecture est distribuée afin de répondre aux contraintes liées aux traitements de gros volumes de textes, et adaptable pour spécialiser l'analyse linguistique de ces textes. Une collection de 55 329 documents (soit plus 80 millions de mots) a pu être annotée en 3 jours. La plate-forme, développée en Perl et disponible sous forme de modules, peut être vu comme un cadre de travail modulaire dans lequel il est possible d'intégrer de nouveaux outils de TAL. Lors de l'exposé, nous présenterons la plate-forme, aussi bien du point de vue de sa conception que de son implémentation. Nous donnerons également un aperçu des performances obtenues.