Zpracování přirozeného jazyka pro fuzzy porovnávání řetězců v jazyce Python

Pokud porovnáváme cenu hotelového pokoje na různých webových stránkách, musíme se ujistit, že porovnáváme jablka s jablky

V informatice je fuzzy porovnávání řetězců technika hledání řetězců, které odpovídají vzoru přibližně (nikoli přesně). Jinými slovy, fuzzy porovnávání řetězců je typ vyhledávání, který najde shody, i když uživatelé špatně napíší slova nebo zadají jen část slov pro vyhledávání. Je také známý jako přibližná shoda řetězců.

Fuzzy vyhledávání řetězců lze použít v různých aplikacích, například:

Kontrola pravopisu a oprava pravopisných chyb, překlepů. Například uživatel zadá do Googlu „Missisaga“, vrátí se mu seznam výsledků spolu se „Showing results for mississauga“. To znamená, že vyhledávací dotaz vrátí výsledky, i když uživatelův vstup obsahuje další nebo chybějící znaky nebo jiné typy pravopisných chyb.
Software lze použít ke kontrole duplicitních záznamů. Například pokud je zákazník v databázi uveden vícekrát s různými nákupy kvůli odlišnému zápisu jeho jména (např. Abigail Martin vs. Abigail Martinez) nové adrese nebo chybně zadanému telefonnímu číslu.

Když už jsme u deduplikace, nemusí to být tak snadné, jak se zdá, zejména pokud máte statisíce záznamů. Ani Expedia to nedělá stoprocentně správně:

Pokud porovnáváme cenu hotelového pokoje na různých webových stránkách, musíme se ujistit, že porovnáváme jablka s jablky

Napsat komentář Zrušit odpověď na komentář