Traitement du langage naturel pour la correspondance floue de chaînes de caractères avec Python
Lorsque nous comparons le prix d’une chambre d’hôtel entre différents sites Web, nous devons nous assurer que nous comparons des pommes avec des pommes
En informatique, la correspondance floue de chaînes de caractères est la technique qui consiste à trouver des chaînes de caractères qui correspondent approximativement (plutôt qu’exactement) à un modèle. En d’autres termes, la correspondance floue de chaînes de caractères est un type de recherche qui trouvera des correspondances même si les utilisateurs orthographient mal les mots ou ne saisissent que des mots partiels pour la recherche. Elle est également connue sous le nom de correspondance approximative de chaînes de caractères.
La recherche floue de chaînes de caractères peut être utilisée dans diverses applications, telles que :
Un vérificateur d’orthographe et un correcteur d’erreurs d’orthographe, de fautes de frappe. Par exemple, un utilisateur tape « Missisaga » dans Google, une liste d’occurrences est retournée avec « Afficher les résultats pour mississauga ». C’est-à-dire que la requête de recherche renvoie des résultats même si la saisie de l’utilisateur contient des caractères supplémentaires ou manquants, ou d’autres types d’erreurs d’orthographe.
Un logiciel peut être utilisé pour vérifier les enregistrements en double. Par exemple, si un client est répertorié plusieurs fois avec différents achats dans la base de données en raison de différentes orthographes de son nom (c’est-à-dire Abigail Martin vs Abigail Martinez) une nouvelle adresse, ou un numéro de téléphone saisi par erreur.
En parlant de déduplication, cela peut ne pas être aussi facile qu’il n’y paraît, en particulier si vous avez des centaines de milliers d’enregistrements. Même Expedia ne le fait pas à 100% :