Crypto suivi

Comment

Author: Admin | 2025-04-28

Rédigés sous la forme d'expression régulière.Pour manipuler les expression régulières, vous trouverez un complément sur la page données de type texte.Fonctions utiles de la librairie stringrstr_detect(texte, pattern = " ") # détecte si il y a des espaces.str_replace(texte, pattern = "a?", "") # remplace le premier "a" suivi d'un caractère quelconque par rien ("").str_replace_all(texter, pattern = "rouge-gorge", "oiseau") # remplace tous les rouge-gorge par oiseau.str_split() # découpe le texte sur un motifExemple 1 : j'ai un roman que je souhaite découper pour séparer dans un corpus le préambule, chaque chapitre numéroté et l'épiloguemon_corpus # Coupe chaque chapire qui est suivi par au moins 1 chiffre 1 à 9 puis, à la rigueur un autre chiffre 0 à 9.mon_corpus mon_corpus Exemple 2 : une fonction pour récupérer la réponse entre 2 questionswash if (clean == T) { before after } my_pattern reponse t_before t_after t_reponse reponse return(reponse)}reponse print(reponse) # On a récupéré l'adresseRemarque : faire appel à une boucle for pour une extraction sur plusieurs documents du corpusLe token est la première approche du textming : on découpe le corpus sur chaque espace. Un token est donc un ensemble de textes découpés mot par mot.Une suite de ligne suivi de "pipes" représentées par %>% permet de faire l'ensemble des traitements nécessaires pour la fabrication d'un token.toks_news %tokens_remove(., pattern = stopwords('fr'), valuetype = 'fixed') %>% tokens_tolower(., keep_acronyms = FALSE) remove_punct = T : éliminer la ponctuationremove_numbers : éliminer les nombrestokens_remove() : éliminer des motifs, ici on éliminer les mots banaux (stopwords) d'un

Add Comment