A A A

XV-wieczny manuskrypt kontra sztuczna inteligencja

PC Format 6/2018
Jedna z najdziwniejszych ksiąg od wieków opiera się próbom odczytania. Niedawno z manuskryptem Wojnicza zmierzyła się sztuczna inteligencja. Piotr Dębek


Ręcznie napisana i zilustrowana między 1404 a 1438 rokiem księga od chwili odkrycia w 1912 roku opiera się próbom odczytania. Ba, nie udało się dotąd ustalić nawet, w jakim języku została napisana! Nad manuskryptem Wojnicza łamali sobie głowy brytyjscy specjaliści od łamania szyfrów, którzy wprawę zdobywali, dekodując niemieckie komunikaty podczas II wojny światowej, a także fachowcy z amerykańskiej Agencji Bezpieczeństwa Narodowego (NSA). Ostatnio do analizy liczącej 240 stron księgi zaprzęgnięto sztuczną inteligencję, przeprowadzono badania, ogłoszono sukces. Czy jednak naprawdę komputery złamały średniowieczny szyfr?

Tajemniczy zabytek

Manuskrypt Wojnicza (nazwa pochodzi od nazwiska polskiego antykwariusza Michała Wojnicza, który księgę kupił w 1912 od jezuitów) jest księgą tyleż imponującą, co tajemniczą. Do dzisiaj zachowało się 240 stron, na których ręcznie wykonane ilustracje towarzyszą tekstowi spisanemu w nieznanym języku, nieznanym alfabetem i przez nieznanego autora. Materiału do badań jest więc sporo, a manuskrypt od momentu znalezienia stanowi wyzwanie dla zawodowych kryptologów i amatorów historycznych tajemnic. Im dłużej nie udawało się złamać XV-wiecznego szyfru, tym bardziej fantastyczne powstawały teorie na temat manuskryptu Wojnicza. Wedle jednej z nich księga jest formą żartu jednego alchemika wobec drugiego, a zapis to losowy bełkot, nieniosący żadnej treści. Skoro kryptologowie i lingwiści nie podołali, w celu rozwiązania zagadki sięgnięto po sztuczną inteligencję.

Jak wyliczyć język

Greg Kondrak, profesor kanadyjskiego Uniwersytetu Alberty, oraz jego student Bradley Hauer przełożyli znaki dziwnego alfabetu z XV-wiecznego manuskryptu na kod zrozumiały dla komputera, a następnie porównali prawidłowości i częstotliwość pojawiania się poszczególnych znaków z przykładowymi tekstami w 380 znanych językach. Metoda analizy częstotliwości występowania liter wskazała jako najbliższy średniowiecznej księdze język… mazatecki – dialekt Indian z gór Sierra Madre w Meksyku. Ponieważ jednak trudno traktować poważnie hipotezę, jakoby w Europie przed podróżami Kolumba spisano księgę w języku nieodkrytych jeszcze Indian, mazatecki został odrzucony.

Następne w kolejności prawdopodobieństwa to: mozarabski (funkcjonujący od 5 do 13 wieku na Półwyspie Iberyjskim język będący mieszanką łaciny i dialektów lokalnych plemion romańskich), włoski i ladino (dialekt judeo-hiszpański). Naukowcy założyli jednak, że w tekście zostały zapisane wyłącznie spółgłoski (to zabieg stosowany w językach semickich) oraz że zapis wykorzystuje anagramy (litery w obrębie słowa są przestawione). Przy takich założeniach algorytmy wskazały język hebrajski jako najbardziej prawdopodobny. Przestawiając litery i dodając samogłoski, za pomocą serwisu Google Translate naukowcy z kanadyjskiego uniwersytetu odczytali pierwsze zdanie księgi jako: „Ona przedstawiła zalecenia kapłanowi, panu domu, i mnie, i ludziom.”

Tajemnica nadal czeka

Wyniki badań kanadyjskich naukowców uznano za kontrowersyjne. Zarzucano arbitralność założeń o braku samogłosek i anagramach w tekście manuskryptu czy brak konsultacji z lingwistami znającymi średniowieczną odmianę hebrajskiego. Analiza porównawcza pozwoliła jednak znaleźć prawidłowości typowe dla języka naturalnego, a tym samym wykluczyć hipotezę, jakoby Manuskrypt był żartem i zawierał tylko przypadkowy bełkot. Na odczytanie średniowiecznej księgi musimy jeszcze poczekać, a manuskrypt Wojnicza nadal pozostaje wyzwaniem dla lingwistów, kryptologów i speców od SI.

Projekt zakończony

Z Gregiem Kondrakiem, autorem komputerowej analizy manuskryptu Wojnicza, rozmawiamy o badaniach nad dokumentem.

PC Format: Czy udało się do tej pory odczytać większą część manuskryptu i czy więcej wiadomo o treści księgi?
Greg Kondrak: Nie twierdzę, że odcyfrowaliśmy manuskrypt. Nasz projekt został zakończony i nie pracujemy już nad odczytaniem manuskryptu.

PC Format: Czy udało się znaleźć eksperta od średniowiecznej wersji hebrajskiego, który podjąłby się odczytania i interpretacji tekstu?
Greg Kondrak: Nie udało się nam znaleźć na naszej uczelni eksperta od średniowiecznego języka hebrajskiego i kryptologii, choć teraz, gdy wyniki badań przyciągnęły tak dużą uwagę, wiele osób zwraca się do nas z ofertą pomocy.

PC Format: Mógłby pan odnieść się do zarzutów o arbitralnym charakterze założeń (brak samogłosek, anagramy) i zbyt swobodnym tłumaczeniu odczytanego zdania?
Greg Kondrak: Wyniki naszych badań opublikowane w tomie czwartym „Transactions of the Association for Computational Linguistics” są możliwe do powtórzenia. Efekt nie był zależny od Google Translate, który został tylko wspomniany dla zilustrowania, jak niespójna sekwencja hebrajskich znaków może zostać „przetłumaczona” na gramatycznie poprawny angielski.


Ocena:
Oceń:
Komentarze (0)

Redakcja nie ponosi odpowiedzialności za treść komentarzy. Komentarze wyświetlane są od najnowszych.
Najnowsze aktualności




Artykuły z wydań

  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
Zawartość aktualnego numeru

aktualny numer powiększ okładkę Wybrane artykuły z PC Format 6/2019
Przejdź do innych artykułów
płyta powiększ płytę
Załóż konto
Co daje konto w serwisie pcformat.pl?

Po założeniu konta otrzymujesz możliwość oceniania materiałów, uczestnictwa w życiu forum oraz komentowania artykułów i aktualności przy użyciu indywidualnego identyfikatora.

Załóż konto