Comment
Author: Admin | 2025-04-27
Dictionnaire pré-installé.On peut continuer le nettoyage du token par la suite pour éliminer les mots que l'on ne souhaite pas conserver, souvent ceux qui n'apporte par un sens particulier (stopwords)# Charger un dictionnaire en ligneswfr1 # Compléter ce dictionnaireswfr1 Ou en faire un plus complexe avec racinisation ou lemmisation :swfr2 Ou encore : Charger son propre dictionnaire rédigé dans un bloc note ou chaque mot est à la ligneswfr2 % str_split(.,pattern="\n") %>% unlist(.)Application des dictionnaires pour nettoyertoks_news toks_news Remarque : il existe d'autres approches pour les dictionnaires, en particulier pour regrouper les déclinaisons d'un verbe ou trier les mots par sentiments.4.2- Mettre en place la DFMLa DFM est une matrice qui se construit à partir d'un token. C'est un tableau qui répertorie le nombre d’occurrences de chaque mot.Grâce à la DTM, un text va ainsi être converti en une structure numérique qui pourra être étudiée par des outils mathématiques.my_dfmcf. dfm_remove() pour supprimer les stopwords et la ponctuationcf. dfm_wordstem() "stem" qui permet de ne conserver que la racine des mots pour réduire les différences liées aux conjugaisons et aux plurieltolower pour tout convertir en minusculesPondérer la DFMIl peut être pertinent de pondérer la DFM, surtout si les oeuvres à comparer ont des tailles différentes.Un mot peut apparaître 10 fois dans un ouvrage de 100 pages et 20 fois dans un ouvrage de 200 pages, si on ne met pas la DFM/DTM en %, (pondération), on ne pourra voir que le mot a la même fréquence dans les deux documents.dtm_ajust Identifier les
Add Comment