pchyrkowski: Problemy z nazwiskami.

Wyobraźmy sobie sytuację, w której pracujemy jako konsultant telefoniczny na tzw. ,,słuchawce'' i oferujemy swoim klientom zaproszenia na darmowy pokaz. Kłopotliwe może okazać się dyktowanie nazwisk, gdyż np. nazwiska Puławski, Pułaski, Puładzki itp. brzmią bardzo podobnie, a różnią się pisownią. W przypadku, gdy będziemy chcieli wyszukać błędnie wpisaną osobę o nazwisku Puławski, komputer nie wskaże nam, że mogła zaistnieć pomyłka w pisowni i nigdy nie dotrzemy do klienta (bądź też wymyślanie podobnych w wymowie nazwisk zajmie nam niepotrzebnie zbyt wiele czasu). Czy jest zatem metoda, która usprawni wykrywanie podobnie brzmiących nazwisk?

Około 1918 roku dwoje Amerykanów - Robert Russell i Margaret Odell stworzyło system Soundex, którego główną ideą było kodowanie różnych wariantów podobnie brzmiących nazwisk (jak np. Smith i Smyth, Ericson i Erickson), tak że przy poszukiwaniu jednego z nich widziało się także pozostałe wersje pisowni i miało się pewność, że nie zostały pominięte w obserwacji. Oto zasady działania systemu:

1. Podajemy pierwszą literę nazwiska

2. Pomijamy dalej wszystkie z następujących liter: A, E, I, O, U, H, Y, W

3. Pozostałym literom przypisujemy cyfry:

B, F, P, V = 1

C, G, J, K, Q, S, X, Z = 2

D, T = 3

L = 4

M, N =5

R = 6

4. W przypadku występowania w oryginalnej pisowni dwóch lub więcej identycznych liter obok siebie należy zapisać jedynie pierwszą z nich.

5. Kodujemy jedynie cztery litery. Jeżeli jest ich mniej, puste pozycje uzupełniamy zerami aż do uzyskania ciągu czterocyfrowego.

Przykład:

John, Jon = J500

Smith, Smyth = S530

Eriksen, Erikson = E6225

Wersja amerykańska działa dla nazwisk angielskich, czy dla polskich słów również będzie odpowiednia? Jeśli nie, to jak należałoby usprawnić kod, by działał on poprawnie?

Strony

www.pchyrkowski.com

środa, 17 lutego 2016

Problemy z nazwiskami.

Brak komentarzy:

Prześlij komentarz