Nettoyage laiton noirci

Comment

Author: Admin | 2025-04-28

Exemple de résultats, on voit sur la ligne 1 (caractère 3 et 4) qu'il y a 2 types d'espaces, ce qui va poser problème lors du découpage du corpus.On voit aussi qu'il y a plusieurs types de guillemets ("), («) et (») à nettoyer. ' - \n ! " ( ) * , . 8335 2298 116134 1867 3808 974 2 14 14 1 6448 9213 : ; ? @ \\ « » Δ Κ Χ ά έ 643 13 1009 1 1 10 10 1 2 1 1 1 2.3- Remplacer un type de caractères particuliersParfois, un caractère spécial semble ne pas vouloir s'éliminer (apostrophe courbe, espace particulière), on va pouvoir forcer son remplacement sans faire appel à son code ascii (difficile à trouver). Exemple :Je m'aperçois que le 2ème caractère de ma liste de caractère devrait être remplacé par une espace, je vais utiliser str_replace_all() de la librairie stringr (ne pas confondre avec str_replace() qui ne fera qu'un seul remplacement dans le document).corpus Pour d'autres remplacements/nettoyage (majuscules, fin des mots), d'autres nettoyage peuvent se faire ultérieurement.A ce stade, on peut considérer que le corpus est prêt.Vous faites toujours les mêmes nettoyages : un conseil, regroupez vos traitements de nettoyage dans une fonction cleanclean Exemple :clean corpus corpus return(corpus)}3- Extraire du texte grâce aux expressions régulièresSouvent, dans un document, on souhaite extraire une section particulière, comme tous les chapitres, toutes les réponses à un questionnaire.On peut donc faire appel à différentes fonctions qui reconnaîtront des motifs très particuliers (pattern)

Add Comment