Le texte comme donnée brute en sciences humaines

Philippe Dessus

Univ. Grenoble Alpes, LaRAC, 38000 Grenoble Cedex 9, France

Ces dernières années, les méthodes d’analyse textuelle pour analyser divers phénomènes de sciences humaines sont devenues très répandues, au travers de plusieurs sous-disciplines, comme la textométrie (Heiden et al., 2010), la scientométrie (Börner & Polley, 2014), et le traitement automatique du langage naturel (Natural Language Processing, Manning & Schütze, 1999). Avec la disponibilité de corpus de données de plus en plus variée et importante, il est possible de réaliser des analyses textuelles de très nombreuses productions écrites ou orales. Ces analyses sont utiles pour connaître le comportement humain et faire des inférences.

Prenons deux exemples parmi bien d’autres. L’analyse des citations faites dans un article nous informe du réseau de références mobilisées, et des comparaisons peuvent être faites inter- et intra-disciplines (Lund et al., 2020). L’analyse des tours de parole des participants à une discussion nous informe de leur contribution (en termes de qualité et quantité) à la discussion (Dessus et al., 2022). Il existe de nombreux outils logiciels qui permettent ce type d’analyses (voir Dessus et Rinck, 2021). Présentons rapidement l’un d’entre eux.

ReaderBench est un système en ligne d’analyse automatique de discussions en partie fondé sur la théorie dialogique de Bakhtine (1981). Une discussion (par exemple, un débat philosophique), une fois transcrite, est analysée selon deux aspects (voir le tutoriel de Dessus & Mandran, 2020) : – une analyse en réseaux sociaux, qui analyse la contribution de chacun à la discussion générale ; –une analyse en réseaux de cohésion, qui rend compte des liens sémantiques des tours de parole des participants entre eux : une discussion aura une faible cohésion si chacun exprime des idées sémantiquement différentes.

Un tel système peut être utilisé pour avoir une vue globale et immédiate des thèmes abordés dans un forum de discussion, d’un MOOC, par exemple, ou de comprendre comment un groupe d’élèves en vient à élaborer une solution collective à un problème. Il est bien sûr possible, et même recommandé, de comparer les évaluations du système à des évaluations humaines. Le texte en tant que donnée brute, qu’il soit issu de documents écrits ou de conversations, est d’un intérêt premier pour réaliser des recherches en sciences humaines. Les personnes intéressées pourront explorer les différentes fonctionnalités de ReaderBench , ou encore s’inscrire au MOOC de FUN “Introduction à la linguistique de corpus”, actuellement ouvert.

Références

Bakhtin, M. M. (1981). The dialogic imagination: Four essays. University of Texas Press. • Börner, K., & Polley, D. E. (2014). Visual insights. A practical guide to making sense of data. MIT Press.

Börner, K., & Polley, D. E. (2014). Visual insights. A practical guide to making sense of data. MIT Press.

Dessus, P., Dascalu, M., Mandran, N., Gutu-Robu, G., Dormoy-Fournier, C., & Ruseti, S. (2022). L’analyse sémantique automatique pour étudier les discussions visant la construction collaborative de connaissances. In B. Albero & J. Thievenaz (Eds.), Traité de méthodologie de la recherche en sciences de l’éducation et de la formation. Dijon : Raison & passions.

Dessus, P. & Mandran, N. (2020). Utiliser ReaderBench pour analyser automatiquement des discussions. Grenoble : Univ. Grenoble Alpes, document de cours Inspé.

Dessus, P. & Rinck, F. (2021). Outils d’analyse textométrique pour l’enseignement. Grenoble : Univ. Grenoble Alpes, document de cours Inspé.

Grimmer, J., Roberts, M. E., & Stewart, B. M. (2022). Text as data. A new framework for machine learning and the social sciences. Princeton University Press.

Heiden, S., Magué, J.-P., & Pincemin, B. (2010). TXM: Une plateforme logicielle open-source pour la textométrie – conception et développement. JADT 2010, Rome.

Lund, K., Jeong, H., Grauwin, S., & Jensen, P. (2020). Research in Education Draws Widely From the Social Sciences and Humanities. Frontiers in Education, 5. https://doi.org/10.3389/feduc.2020.544194

Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing. MIT Press.

Philippe Dessus

Articles recommandés

Laisser un commentaire