Wyobraźmy sobie sytuację, w której pracujemy jako konsultant telefoniczny na tzw. ,,słuchawce'' i oferujemy swoim klientom zaproszenia na darmowy pokaz. Kłopotliwe może okazać się dyktowanie nazwisk, gdyż np. nazwiska Puławski, Pułaski, Puładzki itp. brzmią bardzo podobnie, a różnią się pisownią. W przypadku, gdy będziemy chcieli wyszukać błędnie wpisaną osobę o nazwisku Puławski, komputer nie wskaże nam, że mogła zaistnieć pomyłka w pisowni i nigdy nie dotrzemy do klienta (bądź też wymyślanie podobnych w wymowie nazwisk zajmie nam niepotrzebnie zbyt wiele czasu). Czy jest zatem metoda, która usprawni wykrywanie podobnie brzmiących nazwisk?
Około 1918 roku dwoje Amerykanów - Robert Russell i
Margaret Odell stworzyło system Soundex, którego główną ideą było kodowanie różnych
wariantów podobnie brzmiących nazwisk (jak np. Smith i Smyth,
Ericson i Erickson), tak że przy poszukiwaniu jednego z nich
widziało się także pozostałe wersje pisowni i miało się
pewność, że nie zostały pominięte w obserwacji. Oto zasady
działania systemu:
1. Podajemy pierwszą
literę nazwiska
2. Pomijamy dalej
wszystkie z następujących liter: A, E, I, O, U, H, Y, W
3. Pozostałym
literom przypisujemy cyfry:
B, F, P, V = 1
C, G, J, K, Q, S,
X, Z = 2
D, T = 3
L = 4
M, N =5
R = 6
4. W przypadku
występowania w oryginalnej pisowni dwóch lub więcej identycznych
liter obok siebie należy zapisać jedynie pierwszą z nich.
5. Kodujemy jedynie
cztery litery. Jeżeli jest ich mniej, puste pozycje uzupełniamy
zerami aż do uzyskania ciągu czterocyfrowego.
Przykład:
John, Jon = J500
Smith, Smyth = S530
Eriksen, Erikson = E6225
Wersja amerykańska działa dla nazwisk angielskich, czy dla polskich słów również będzie odpowiednia? Jeśli nie, to jak należałoby usprawnić kod, by działał on poprawnie?
Brak komentarzy:
Prześlij komentarz