Po prostu wyślij tłumaczenie. Nie dodawaj żadnych komentarzy, wyjaśnień ani metatekstu:
Został wydany z tak wieloma błędami ortograficznymi, że wygląda jak szaleństwo w Kalifornii lat 60.
Fakty zostały zniekształcone nie do poznania. Internet o tym wszystkim pamiętał. Dwa lata później, korzystając z modelu Gemini, kwoty CV stały się dokładniejsze. Ale to tylko częściowe rozwiązanie problemu. Wydawcy nienawidzą takiego podejścia, a użytkownicy je tolerują.
Kluczowy problem pozostaje ten sam: sztuczna inteligencja nadal nie potrafi poprawnie liczyć liter w słowach.
Straszny.
Pewnie pamiętacie incydent ze słowem „truskawka”. Modelka pomyliła litery i straciła głowę, ile „r” może być w słowie. To wydarzyło się dwa lata temu. We wtorek pojawiło się nowe wyzwanie: Naomi Rohatyn zadała proste pytanie:
„Ile „e” znajduje się w słowie „astronomiczny”?
Sztuczna inteligencja odpowiedziała z przekonaniem, że jest ich dokładnie dwóch. Wyjaśnił nawet, jak przeliterować to słowo: „a-s-t-r-e-n-o-mi-c-a-e-l”.
Sami zrobiliśmy test. Okazało się, że wyniki były takie same. Wydaje się, że model działa tak samo w przypadku każdego słowa składającego się z więcej niż trzech sylab. Sieci społecznościowe były w szoku. Ludzie uważali, że to zabawne. Dlaczego powinniśmy być zaskoczeni?
Dlaczego nie potrafi poprawnie policzyć liter?
Nie chcę, żeby zabrzmiało to tak, jakby Billy Madison przygotowywał się do targów, ale pomyśl o tym: jeśli sztuczna inteligencja prowadzi do niższych współczynników klikalności, CV musi być dokładne. To musi być niezawodne. Ta logika wydaje się rozsądna. Ale wdrożenie nie jest takie.
Modele językowe nie czytają tak jak my. Przetwarzają tokeny, a nie listy. Wyobraź sobie, że model odczytuje wartości, a nie znaki. Jeśli poprosisz ją, aby policzyła poszczególne litery, nie będzie w stanie tego zrobić. Tokenizacja zamienia słowa w identyfikatory numeryczne. Słowo „astronomiczny” staje się jednym blokiem. Ale model nie może automatycznie znaleźć liter „e” ani „t”. Rozumie tę koncepcję.
Poprosiłem Bliźniąt, żeby to zrobił. Odpowiedział wprost:
„Nie czytam SMS-ów tak jak ty.”
Kiedy piszesz „jabłko”, Twój mózg widzi pięć oddzielnych znaków. Model Gemini widzi jeden blok – token. Ona wie, co to jest jabłko. Ale nie może zrozumieć, że w pojęciu są dwa „p”, chyba że zostanie zmuszona do podzielenia słów na osobne bloki.
„Ponieważ przetwarzam słowa jako całe bloki… nie mogę automatycznie „pisać” liter.”
Jest to ograniczenie strukturalne, a nie brak inteligencji. Przynajmniej tak mówią.
Mashable skontaktował się z Google. Nie zaproponowali od razu rozwiązania tego problemu.
Uczenie maszynowe naprawdę dobrze radzi sobie z rozumieniem kontekstu. Ale alfabet pozostaje liniowy. Modelka widzi las, ale zapomina o drzewach i liściach.
Kto teraz będzie liczył litery?
