Pourquoi annoter des articles ?

Pour entraîner des IA dans une langue spécifique, il est nécessaire disposer de données d’entraînement dans cette langue qui soient suffisamment performantes pour aider la machine à apprendre. Avec la mise à disposition de modèles de traduction de plus en plus performants, la création de ces données d’entraînement en français peut se faire également en traduisant automatiquement des données annotées anglophones. Dans le cas des questions-réponses, qui permettent par exemple d’entraîner des chatbots ou des moteurs de recherche, nous se savons pas encore si le fait de disposer de données natives en français est plus performant que des données traduites.

Pour répondre à cette question, il faut disposer de données en français natif pour l’évaluation de modèles existants. Une fois que nous disposons d’un véritable jeu de données d’évaluation francophone, nous pourrons l’utiliser pour mesurer l’apport de données d’entraînement nativement en français.

PIAF est le projet qui explore cette question scientifique, et nous vous proposons d’y participer.

Le défi est le suivant : en quelques mois, nous avons pour objectif de créer plus de 100 000 questions-réponses sur la base d’extraits d’articles Wikipédia en français. Nous avons fait un premier calcul : pour générer 20 000 questions-réponses, ce qui correspond à un premier fragment dont nous analyserons les performances, il est nécessaire de mobiliser 400 heures d’annotation. Si 500 personnes contribuent individuellement environ 45 minutes à l’annotation, nous atteindrons ce premier palier !

Comment contribuer ?

Dans un premier temps, l’objectif sera de constituer avec vous le jeu de données d’évaluation de PIAF, c’est à dire celui qui permettra d’évaluer si les données de questions-réponses en français natif sont plus performantes que des données traduites d’une autre langue. Pour cela, nous organisons tous les vendredis, de 12h30 à 14h, des “annotathons”, ateliers de présentation hebdmodaires pour présenter le projet et vous guider pas à pas dans la contribution.

Vous souhaitez y participer ? Inscrivez-vous à notre liste de diffusion pour être informé et inscrit. Si vous souhaitez organiser un annotathon au sein de votre organisation, vous pouvez également nous contacter par mail.

Lorsque la plateforme sera plus largement accessible ou si vous avez participé à un premier annotathon, vous pourrez contribuer à PIAF où et quand vous le souhaitez ! Une fois passé le cap questions-réponses pour le jeu de données d’évaluation, nous évaluerons la performance des données et lancerons une phase d’annotation pour les données d’entraînement.

Voici un mode d’emploi pour annoter des articles :

Annoter un extrait d’article Wikipédia signifie pour le projet PIAF de créer des questions et des réponses en rapport avec le contenu de l’article en question.

1. Rendez-vous sur la plateforme d’annotation. Notre plateforme d’annotation a été développée en “mobile first”, donc c’est encore plus simple de l’utiliser en mobilité !

2. Une fois connecté(e), il vous est proposé de tester les différentes utilisations de la plateforme avant d’annoter. Une fois les trois niveaux effectués vous pouvez ensuite choisir un thème et annoter un paragraphe. Comment faire ? Vous êtes invités à lire un extrait d’article et de générer 5 questions-réponses différentes : écrivez une première question dont la réponse se trouve dans le texte, puis surlignez la réponse (si vous êtes sur mobile le surlignage est réalisé grâce à l’écran tactile, si vous êtes sur ordinateur, c’est avec votre souris). La réponse surlignée s’affiche ensuite en dessous de la question.

3. Répétez la génération de questions-réponses pour les 4 suivantes. Vous pouvez revenir en arrière et modifier vos contributions.

4. Validez votre contribution pour cet article et passez à un autre ! Vous pouvez aussi changer de thème si vous le souhaitez.

alt text

Charte de contribution

Nous souhaitons développer ce projet de manière éthique et ouverte. Pour annoter les articles Wikipédia, nous avons fait le choix d’une posture citoyenne et pédagogique. Nous nous inspirons ainsi de projets contributifs existants, comme Common Voice de la fondation Mozilla ou des initiatives de sciences participatives.

Une démarche citoyenne : en contribuant volontairement à PIAF, vous améliorez la présence de corpus en français dans le domaine de l’intelligence artificielle. Les données d’entraînement seront ensuite disponibles sous format libre et réutilisables permettant par exemple à des laboratoires d’approfondir certaines de leur recherches ou à des administrations d’améliorer des services à destination des usagers.

Une visée pédagogique : l’intelligence artificielle, c’est d’abord de l’humain, et ce n’est pas une fin en soi. A travers ce projet, nous souhaitons également permettre à des profils non techniques de mieux saisir les différentes dimensions de l’intelligence artificielle. Les événements d’annotation que nous organisons seront par exemple l’occasion pour des agents publics, des étudiants, et tout citoyen volontaire de découvrir l’IA par la pratique !

Nous souhaitons que ce projet initie une réflexion sur la reconnaissance de contributions volontaires à des projets d’intérêt général (certifications, valorisation dans la communauté, etc.). N’hésitez pas à nous contacter si vous souhaitez partager vos idées : piaf@data.gouv.fr.