Biblioteka Kongresu digitalizuje miliony stron gazet
Gazety z dawnych lat to dobre źródło historyczne.
Amerykańska Biblioteka Kongresu wpadła na pomysł, by zdigitalizować katalog starych gazet oraz stworzonych z nich mikrofilmów. Są one cennym źródłem wiedzy o wydarzeniach z dawnych lat, a zestawione ze sobą pozwalają zobaczyć, w jaki sposób ludzie do tych wydarzeń się odnosili.
Podróż przez wieki
Łącznie udało się zebrać 16 mln stron dotyczących całej historii Stanów Zjednoczonych. Przy digitalizacji wykorzystano technikę uczenia maszynowego.
Naukowcy uczyli sztuczną inteligencję rozpoznawania poszczególnych składowych tekstów, takich jak nagłówki, wyimki, tytuły czy ilustracje, obrysowując je na początku ramkami, a potem pozwalając działać maszynie.
System potrafi także porządkować treści wizualne i odróżniać np. zdjęcia, ilustracje, mapy, komiksy, kreskówki i reklamy. Pozwoliło to na wyodrębnienie poszczególnych składowych, a w efekcie prostszą nawigację po całej kolekcji. Można wyszukać np. mapy z czasu wybranych wojen.
Historia bez cenzury
Dzięki efektom pracy naukowców, trwającej nieprzerwanie przez 19 dni, już teraz można podziwiać pisma pochodzące z lat 1789–1963. Oczywiście z całym dobrodziejstwem inwentarza: w gazetach z tamtego okresu można odnaleźć też sporo treści rasistowskich.
Projekt zakłada stworzenie kolejnych tego typu kolekcji. Naukowcy udostępnili też nieodpłatnie wykorzystane podczas prac narzędzie Newspaper Navigator pod tym adresem.
fot. Biblioteka Kongresu