Algoritmus Jaro-Winkler, neboli Jaro-Winklerova vzdálenost, je praktická míra podobnosti textových řetězců, která dokáže kvantifikovat „jak moc si jsou dva texty blízké“. Nejčastěji se používá při propojování záznamů, deduplikaci dat a fuzzy vyhledávání, kde nelze spoléhat na přesnou shodu.

Oproti základní Jaroově vzdálenosti navíc zvýhodňuje shodu na začátku řetězce, tedy prefix, což přesně odpovídá tomu, jak lidé zadávají neúplné nebo zkrácené názvy. Díky tomu je velmi vhodná pro vyhledávání v číselnících, například v seznamech obcí, ulic nebo osob.

V praxi se algoritmus dobře uplatní i v prostředí Delphi, kde lze kombinovat Jaro-Winklerovo skóre s normalizací českých textů – odstraněním diakritiky, převodem na lowercase a jemnou penalizací rozdílné délky řetězců. Výsledkem je rychlé a robustní vyhledávání, které si poradí s překlepy, zkrácenými vstupy i českými znaky.

Kdo byl William Erwin Winkler?

William Erwin Winkler (* 11. listopadu 1946 + 30. června 2022) byl americký statistik, který strávil většinu své kariéry v americkém Úřadu pro sčítání lidu . Je známý mnoha příspěvky k vývoji pravděpodobnostních metod pro propojování záznamů a vylepšením Jaro vzdálenosti pro řetězce.

Proč je Jaro-Winklerova vzdálenost důležitá?

Jaro-Winkler je obzvláště užitečný při práci s řetězci, které mohou mít drobné nesrovnalosti v důsledku překlepů, zkratek nebo fonetických variací. Jeho důraz na porovnávání prefixů ho činí robustním v případech, kdy jsou dva řetězce podobné, ale ne identické. Díky tomu je cenný pro aplikace, jako je deduplikace, oprava pravopisu a porovnávání jmen a vyhledávání v seznamech.

Na rozdíl od Levensteinovy vzdálenosti, umožňuje Jaro-Winker lépe zohlednit dálku shody na začátku retězce a proto lépe odpovídá lidskému způsobu vyhledávání a je vhodný pro prohledávání a výběr z číselníků, například názvů obcí, seznamu zboží a podobné textové seznamy. I při neurčitém vstupu – pouze první znaky a zbytek s chybami vyhledá poměrně správně „co vlastně uživatel chtěl zadat.“

Levenshteinova vzdálenost pro zjistění podobnosti stringů

Metoda Levenshtein (1965), pojmenovaná po ruském matematikovi židovského původu Vladimiru Iosifoviči Levenštejnovi, je starší, jednodušší a hůře pracuje s typickými lidskými překlepy a nereflektuje pozici znaků. Také nebere v úvahu význam shody zleva: jednak překlep a nerčitost není obvykle v prvních 1-2 znacích, a tak by nedokončené „Pra“ mělo najít spíš Praha než Brť. Levenstainova metoda ovšem vyhodnotí že „Pra“ jen bližší „Brť“ než Praha – v tomto kontextu je Levenstain nepoužitelný, protože se příliš omezuje shodou délky (hledáme nejpodobnější vzorek od délce c znaků). Pro hledání shody názvů, kdy názvy mohou mýt neúplné (např. jen prvních několik znaků, nebo vstup s překlepy) je vhodnější algoritmus Jaro-Winkler. Ten je poměrně mladý, pochází z 90.let. Je rychlejší a odstranuje problémy Levensteina

Jak funguje Jaro-Winklerova vzdálenost?

Jaro-Winklerova vzdálenost vypočítává hodnotu mezi 0 a 1, kde 0 označuje žádnou podobnost a 1 představuje identické řetězce. Zohledňuje počet shodných znaků, počet transpozic (prohozených znaků) a faktor škálování pro běžné shody prefixů. Faktor škálování v Jaro-Winklerově metodě přikládá vyšší váhu podobnostem prefixů, což ji činí obzvláště efektivní v případech, kdy jsou běžné drobné překlepy nebo prefixy.

Jaro-Winklerův vzorec podobnosti. Teoretické maximální hodnoty pro l a p nemusí být přesně 4 a 0,25, aby se zabránilo překročení hodnoty podobnosti Jaro-Winklerova vzorce nad 1, pokud lp=1 nepřekročí 1. Winklerovo počáteční doporučení je nastavit l=4 a p=0,1.

Jak se vypočítává Jaro-Winklerova vzdálenost?

Výpočet zahrnuje tři hlavní kroky: výpočet Jaroovy vzdálenosti (hodnota mezi 0 a 1), výpočet společné délky prefixu a použití Jaro-Winklerova vzorce. Vzorec zohledňuje Jaroovu vzdálenost a faktor škálování prefixu (obvykle 0,1 nebo 0,25) a odpovídajícím způsobem upravuje skóre podobnosti.

Jaká jsou omezení Jaro-Winklerovy vzdálenosti?

I když je Jaro-Winklerova vzdálenost efektivní, nemusí být ideální pro všechny scénáře. Je citlivá na volbu škálovacího faktoru, který je třeba upravit na základě konkrétní datové sady a aplikace. Navíc nemusí zachytit složitější sémantické rozdíly mezi řetězci. V příkladu níže používám bonus za shodu prefixu +5% za písmeno prefixu a penalizace za rozdíl délky -0,4% za rozdíl znaku.

Jak použít Jaro-Winklerovu vzdálenost k nalezení duplicitních záznamů?

Jaro-Winklerova vzdálenost je vhodná pro fuzzy porovnávání a deduplikaci dat. Tento algoritmus lze použít k výpočtu podobnosti jmen, adres nebo jakýchkoli textových polí. Funkce vrací skóre a lze stanovit minimální prahovou hodnotu rozdílu skóre. Záznamy se stejným skóre nebo s rozdílem skórem menším než prahová hodnota, lze považovat za duplicitní.

Příklad algoritmu pro optimalizovaného na vyhledávání v číselníku názvů obcí. Funkce FindNearestByJaroWinkler(aUserInput: string): Integer; má vstupním parametr aUserInput – kde je hledaný text, např. část názvu obce, a výstupem je index záznamu, který je nejpodobnější. Váhu preferenci shody prefixu se začátkem stringu a penalizaci za příliš odlišnou délku je možné optimalizovat podle charakteru a obsahu dat. Pracuje s polem objektů nebo rekordů Arr , které mohou osahovat např. PSC, Jméno obce česky, jméno obce optimalizované pro vyhledávání (je rychlejší toto provést při načítání celého číselníku jednou, než pokaždé při prohledávání převádět české texty do nějakého normalizovaného tvaru , například převod na malá písmena, nebo převod na malá písmena a odstranění diakritiky a jiné, podle charakteru dat). Funkce vrací hodnotu – index – ukazatel na záznam s nejlepší shodou. Při praktické aplikaci se osvědčilo po zadaní několik prvních znaků zobrazit asi 10-15 záznamů s tím, že kurzor je nastaven na záznam s indexem nejlepší shody, vráceného funkcí. 

function JaroDistance(const S1, S2: string): Double;
var len1, len2, maxDist, i, j, start, finish: Integer;
    matches1, matches2: array of Boolean;
    matches, transpositions: Integer;
begin
  len1 := Length(S1);
  len2 := Length(S2);

  if (len1 = 0) and (len2 = 0) then begin
    Result := 1.0;
    exit;
  end;

  if (len1 = 0) or (len2 = 0) then begin
    Result := 0.0;
    exit;
  end;

  maxDist := (Max(len1, len2) div 2) - 1;
  if maxDist < 0 then
    maxDist := 0;

  SetLength(matches1, len1);
  SetLength(matches2, len2);

  matches := 0;
  transpositions := 0;

  // 1. Najdi shodné znaky
  for i := 1 to len1 do
  begin
    start := Max(1, i - maxDist);
    finish := Min(len2, i + maxDist);

    for j := start to finish do
    begin
      if (not matches2[j-1]) and (S1[i] = S2[j]) then
      begin
        matches1[i-1] := True;
        matches2[j-1] := True;
        Inc(matches);
        Break;
      end;
    end;
  end;

  if matches = 0 then begin
    Result := 0.0;
    exit;
  end;

  // 2. Spočítej transpozice
  j := 1;
  for i := 1 to len1 do
  begin
    if matches1[i-1] then
    begin
      while (j <= len2) and (not matches2[j-1]) do
        Inc(j);

      if (j <= len2) and (S1[i] <> S2[j]) then
        Inc(transpositions);

      Inc(j);
    end;
  end;

  transpositions := transpositions div 2;

  Result :=
      (matches / len1 +
       matches / len2 +
       (matches - transpositions) / matches) / 3.0;
end;

function JaroWinkler(const S1, S2: string): Double;
var
  jaro: Double;
  prefixLen: Integer;
  i, maxPrefix: Integer;
begin
  jaro := JaroDistance(S1, S2);

  // prefix max 4 znaky
  maxPrefix := Min(4, Min(Length(S1), Length(S2)));
  prefixLen := 0;

  for i := 1 to maxPrefix do
  begin
    if S1[i] = S2[i] then
      Inc(prefixLen)
    else
      Break;
  end;

  // Winklerovo zvýraznění prefixu
  Result := jaro + (prefixLen * 0.1 * (1.0 - jaro));
end;


function PrefixMatchLen(const A, B: AnsiString): Integer;
var
  i, LA, LB: Integer;
begin
  LA := Length(A);
  LB := Length(B);
  Result := 0;

  for i := 1 to Min(LA, LB) do
    if A[i] = B[i] then
      Inc(Result)
    else
      Break;
end;


function FindNearestByJaroWinkler(aUserInput: string): Integer;
var BestScore: Double;
    PrefixBonus, Penalty, Score: Double;
  BestIndex: Integer;
  i: Integer;
  NormInput, NormTown: string;
  LInput  : integer;
  IsMultiWord : boolean;
  Prefix : string;
begin
  BestIndex := -1;
  BestScore := -1.0;

  NormInput := AnsiLowerCase(Trim(aUserInput)); //RemoveDiacriticsFast(Trim(aUserInput));
  if NormInput = '' then begin
    Result := 0;
    exit;
  end;
  LInput := Length(NormInput);
  IsMultiWord := Pos(' ', NormInput) > 0;

  for i := 0 to Arr.NumElems-1 do begin

    // Arr je nějaké obecné pole textů které obsahuje záznamy (TObjectList)
    // Arr.GetElem(i)  vrací i-tý záznam z pole (class /record), 
    // PSC, Obec a NormM, kde NormM obsahuje názvy Obec již převedená na malá písmena 
    // (AnsiLowerCase apod.), případně s převedenou diakritikou na a..z , aby se 
    // hodnoty dat nemusely "normalizovat" - převádět pokaždé při hledání

    NormTown := Arr.GetElem(i).NormM; 

    // 1. multiword input (např. "nad labem")
    if IsMultiWord then begin

      // rychlý substring filtr
      if AnsiPos(NormInput, NormTown) = 0 then Continue;

    end else begin

      // 2. jednoslovný input
      if (LInput >= 2) then begin
         //extrahuj prefix 3 znaky
         //kontroluj zda je prefix jen na začátku nátvu
        Prefix := Copy(NormInput, 1, 2);
        if not AnsiSameText(Copy(NormTown, 1, 2), Prefix) then
          Continue;
      end;
    end;

    // 3. penalizace za příliš dlouhý rozdíl a bonus za shodu prefixu
    // rychlé, přesné, neláme logiku, nepřeskočí nejlepší výsledek
    // jen proto, že vstup je krátký a NormTown příliš dlouhý

    PrefixBonus := PrefixMatchLen(NormInput, NormTown) * 0.05; // +5% za písmeno prefixu
    // penalizace za rozdíl délky
    Penalty := Abs(Length(NormTown) - LInput) * 0.004; // -0,4% za rozdíl znaku

    // 4. následně JaroWinkler se zohledněním penalizace
    Score := JaroWinkler(NormInput, NormTown) + PrefixBonus - Penalty;

    //xList.Add(NormInput +'   -   '+ NormTown + '  Bonus :'+FloatToStrF(PrefixBonus, ffFixed, 8, 4)+'  Penalty: '+ FloatToStrF(Penalty, ffFixed, 8, 4)+ '  Score: '+FloatToStrF(Score, ffFixed, 8, 4));

    if Score > BestScore then begin
      BestScore := Score;
      BestIndex := i;
    end;
  end;
  Result := BestIndex;
end;

Autor: rn

