www.pchyrkowski.com

Zapraszam na moją stronę internetową!

środa, 17 lutego 2016

Problemy z nazwiskami.


Wyobraźmy sobie sytuację, w której pracujemy jako konsultant telefoniczny na tzw. ,,słuchawce'' i oferujemy swoim klientom zaproszenia na darmowy pokaz. Kłopotliwe może okazać się dyktowanie nazwisk, gdyż np. nazwiska Puławski, Pułaski, Puładzki itp. brzmią bardzo podobnie, a różnią się pisownią. W przypadku, gdy będziemy chcieli wyszukać błędnie wpisaną osobę o nazwisku Puławski, komputer nie wskaże nam, że mogła zaistnieć pomyłka w pisowni i nigdy nie dotrzemy do klienta (bądź też wymyślanie podobnych w wymowie nazwisk zajmie nam niepotrzebnie zbyt wiele czasu). Czy jest zatem metoda, która usprawni wykrywanie podobnie brzmiących nazwisk?

Około 1918 roku dwoje Amerykanów - Robert Russell i Margaret Odell stworzyło system Soundex, którego główną ideą było kodowanie różnych wariantów podobnie brzmiących nazwisk (jak np. Smith i Smyth, Ericson i Erickson), tak że przy poszukiwaniu jednego z nich widziało się także pozostałe wersje pisowni i miało się pewność, że nie zostały pominięte w obserwacji. Oto zasady działania systemu:

1. Podajemy pierwszą literę nazwiska

2. Pomijamy dalej wszystkie z następujących liter: A, E, I, O, U, H, Y, W

3. Pozostałym literom przypisujemy cyfry:

B, F, P, V = 1
C, G, J, K, Q, S, X, Z = 2
D, T = 3
L = 4
M, N =5
R = 6

4. W przypadku występowania w oryginalnej pisowni dwóch lub więcej identycznych liter obok siebie należy zapisać jedynie pierwszą z nich.

5. Kodujemy jedynie cztery litery. Jeżeli jest ich mniej, puste pozycje uzupełniamy zerami aż do uzyskania ciągu czterocyfrowego.

Przykład:
John, Jon = J500 
Smith, Smyth = S530
Eriksen, Erikson = E6225

Wersja amerykańska działa dla nazwisk angielskich, czy dla polskich słów również będzie odpowiednia? Jeśli nie, to jak należałoby usprawnić kod, by działał on poprawnie?

Brak komentarzy:

Prześlij komentarz