L'elaborazione del linguaggio naturale per la corrispondenza di stringhe fuzzy con Python

Quando confrontiamo i prezzi delle camere d’albergo tra diversi siti web, dobbiamo essere sicuri di confrontare le mele con le mele

In informatica, la corrispondenza di stringhe fuzzy è la tecnica di trovare stringhe che corrispondono a un modello approssimativamente (piuttosto che esattamente). In un’altra parola, il fuzzy string matching è un tipo di ricerca che troverà le corrispondenze anche quando gli utenti scrivono male le parole o inseriscono solo parole parziali per la ricerca. È anche conosciuta come corrispondenza approssimativa delle stringhe.

La ricerca fuzzy delle stringhe può essere usata in varie applicazioni, come:

Un correttore ortografico e un correttore di errori di battitura. Per esempio, un utente digita “Missisaga” in Google, una lista di risultati viene restituita insieme a “Mostra i risultati per mississauga”. Cioè, la query di ricerca restituisce risultati anche se l’input dell’utente contiene caratteri aggiuntivi o mancanti, o altri tipi di errori di ortografia.
Un software può essere usato per controllare i record duplicati. Per esempio, se un cliente è elencato più volte con acquisti diversi nel database a causa di diverse ortografie del suo nome (cioè Abigail Martin contro Abigail Martinez) un nuovo indirizzo, o un numero di telefono inserito erroneamente.

Parlando di deduplicazione, potrebbe non essere così facile come sembra, in particolare se si hanno centinaia di migliaia di record. Anche Expedia non lo fa al 100%:

L’elaborazione del linguaggio naturale per la corrispondenza di stringhe fuzzy con Python

Quando confrontiamo i prezzi delle camere d’albergo tra diversi siti web, dobbiamo essere sicuri di confrontare le mele con le mele

Lascia un commento Annulla risposta