Natural Language Processing for Fuzzy String Matching with Python

Ha szállodai szobaárakat hasonlítunk össze különböző weboldalak között, meg kell győződnünk arról, hogy az almát az almával hasonlítjuk össze

A számítástechnikában a fuzzy string matching az olyan karakterláncok megtalálásának technikája, amelyek megközelítőleg (és nem pontosan) egyeznek egy mintával. Más szóval, a fuzzy string matching egy olyan típusú keresés, amely akkor is talál talál találatokat, ha a felhasználók rosszul írják a szavakat, vagy csak részleges szavakat adnak meg a kereséshez. Hozzávetőleges karakterlánc-illesztésnek is nevezik.

Az elmosódott karakterlánc-keresés különböző alkalmazásokban használható, például:

Egy helyesírás-ellenőrző és helyesírási hiba-, gépelési hibajavító. Ha például egy felhasználó beírja a Google-ba a “Missisaga” szót, a találatok listáját kapja vissza a “Showing results for mississauga” kifejezéssel együtt. Vagyis a keresési lekérdezés akkor is eredményt ad vissza, ha a felhasználói bevitel további vagy hiányzó karaktereket, illetve más típusú helyesírási hibákat tartalmaz.
A szoftver használható a duplikált rekordok ellenőrzésére. Például, ha egy ügyfél többször szerepel különböző vásárlásoknál az adatbázisban a nevének eltérő írásmódja (pl. Abigail Martin vs. Abigail Martinez), egy új cím vagy egy tévesen megadott telefonszám miatt.

A dedupe-ról szólva, ez nem biztos, hogy olyan egyszerű, mint amilyennek hangzik, különösen, ha több százezer rekordról van szó. Még az Expedia sem csinálja 100%-ig jól:

Ha szállodai szobaárakat hasonlítunk össze különböző weboldalak között, meg kell győződnünk arról, hogy az almát az almával hasonlítjuk össze

Vélemény, hozzászólás? Kilépés a válaszból