Faire de largent avec le web

Comment

Author: Admin | 2025-04-28

Textmining, analyse de textesL'essentiel de cette page !Un résumé de ce que je sais en sur le textming sous R.Vous trouverez aussi des sous liens pour la détection du plagiat, mais aussi les méta-analyse où R peut s'avérer utile pour construire un réseau mettant en relation les notions qu'on retrouve colocalisées ensemble dans les publications scientifiques.Ouvrir les 2 libraires les plus pratiques pour le text-mininglibrary("readtext") # Ouverture de plusieurs documents de tous les typeslibrary(quanteda) # textminingIndiquer que l'on désire travailler ne langue française pour la stemmatisation (couper les fins de mots) :# Deprecated quanteda_options(language = "french")Attention, quanteda évolue beaucoup, pour charger ses fonctions statistiques, il faut maintenant faire :install.packages(quanteda.textmodels)library(quanteda.textmodels)install.packages("quanteda.textstats")library("quanteda.textstats")install.packages("quanteda.textplots")library("quanteda.textplots")1.0- Charger un corpus à partir du web (web scraping)On peut charger du contenu web avec la librairie rvest, en voici un exemple :install.packages("rvest")library("rvest")page_wiki https://fr.wikipedia.org/wiki/Transylvanie_(région)") # Exemple d'URLcode_html tableaux_de_la_page % html_table(.,fill=T)Remarque : les pipes "%>%" peuvent nécessiter l'exécution de la librairie magrittr.1.1- Ouvrir un à plusieurs fichiersOuvrir un seul fichierP1 Regrouper différents corpus ou fichiers avec la fonction rbind()P Ouvrir plusieurs fichiers d'un coupP P Remarque : attention si vous donnez une liste de fichier à ouvrir par readtext, il ne les ouvrira pas dans l'ordre demandé mais dans l'ordre alphabétique.Attention à l'encodage du fichier pour éviter les problèmes de caractères spéciaux :P 1.2- Créer le corpus avec la fonction corpus()Regrouper différents corpus ou fichiers avec la fonction rbind()mon_corpus Si votre corpus correspond à un document qu'il faut couper à chaque balise (tel un dialogue, on peut le faire avec la fonction

Add Comment