A A A

Testy CAPTCHA pod lupą

Jeśli klikanie kwadratów z hydrantami przeciwpożarowymi i zdjęć szkolnych autobusów sprawia, że Twoja krew się gotuje, nie jesteś sam. Katarzyna Bielińska

captcha
źródło: Adobe Stock

Nie należę do osób, które bawi układanie puzzli czy rozwiązywanie innego rodzaju obrazkowych szarad. Mimo to, dziś udało mi się kilka razy trafić fragmentem układanki na właściwe miejsce (cena za wejście do serwisu Allegro) i zgadnąć, które obrazki przestawiają kominy, skutery i kotki (cóż, korzystanie z Discorda to przywilej dla bystrzaków). Wbrew pozorom, rozwiązanie testu CAPTCHA to nie zawsze bułka z masłem. Wizualne łamigłówki lubią sprawiać kłopoty. Czy jeśli obrazek przestawia tylko kawałek autobusu, to czy powinnam go kliknąć? Czy wybierając kwadraty z sygnalizacją świetlną, mam brać pod uwagę również słupy? Niewyraźne zdjęcia zmuszają użytkowników do przyklejania się do ekranu tylko po to, aby mogli rozpoznać, czy rozmyta plama na jezdni to rzeczywiście przejście dla pieszych? A rachityczne drzewko na szczycie wzgórza jest palmą czy świerkiem?

Dwie i pół godziny z CAPTCHA

Nie robiłam oczywiście nic specjalnego, bo przed tego rodzaju wyzwaniami stają każdego dnia niemal wszyscy internauci. Każdy z nas co pewien czas rozwiązuje jakiś test CAPTCHA, dzięki czemu może udowodnić maszynie (sic!), że jest człowiekiem, a nie maszyną. Według firmy Cloudflare rozwiązanie testu CAPTCHA zajmuje średnio 32 sekundy. Jeśli przyjdzie nam robić to tylko 10 razy dziennie, na udowadnianiu swojego człowieczeństwa spędzimy pięć minut każdego dnia. W skali miesiąca daje to już dwie i pół godziny bezmyślnego i irytującego klikania w obrazki. Albo przepisywania słów, poprzedzonego wpatrywaniem się w monitor, aby rozróżnić, czy widzimy „m” czy „n” a może „r”? Czy to zero „0” czy wielka litera „O”? Przechylania głowy, odsuwania krzesła, mrużenia oczu i panicznych myśli, czy czasem nie potrzebujemy nowych okularów…

Botom mówimy dość

Nie. Spokojnie – to tylko CAPTCHA. System został opracowany przez inżynierów Carnegie Mellon University w 2000 r. (choć do autorstwa CAPTCHA przyznają się również twórcy wyszukiwarki AltaVista (ktoś ją jeszcze pamięta?), którzy poprzez łamigłówki chcieli uniemożliwić botom dodawanie adresów URL do ich wyszukiwarki internetowej). Nazwa CAPTCHA jest akronimem od: Completely Automated Public Turing test to tell Computers and Humans Apart (czyli: całkowicie zautomatyzowany, publiczny test Turinga rozpoznający ludzi i komputery) i właściwie mówi wszystko. Na początku XXI w. zespół kierowany przez Luisa von Ahna chciał znaleźć sposób na odfiltrowanie przytłaczających armii botów spamujących udających ludzi. Naukowcy z Wydziału Informatyki Uniwersytetu Carnegie Mellon opracowali program wyświetlający zniekształcony tekst, którego komputer nie byłby w stanie odczytać, ale człowiek – i owszem. Niewygórowaną ceną, jaką użytkownik musiał zapłacić za to, aby otrzymać dostęp do formularza czy witryny internetowej, było przepisanie testu w osobnym polu. Program okazał się szalenie udany, a CAPTCHA stała się wszechobecnym narzędziem i akceptowaną (mniej lub bardziej) częścią codziennego doświadczenia użytkownika Internetu.

Zadanie kodów CAPTCHA jest jedno: chronić strony WWW przed botami spamerów (np. uniemożliwić im masowe zakładanie kont czy zostawianie komentarzy) i innych ciemnych postaci podziemia komputerowego. Początkowo te małe internetowe łamigłówki działały świetnie. Jeszcze na początku XXI wieku do odsiania większości botów spamujących wystarczały zwykłe obrazki tekstowe. Jednak dekadę później testy musiały być już trudniejsze, aby przechytrzyć możliwości programów do optycznego rozpoznawania znaków, opracowywane przez hakerów w odpowiedzi na CAPTCHA. Dodatkowo na rynku zaczęły się pojawiać sponsorowane przez spamerów farmy CAPTCHA. Tysiące osób (pochodzących zwłaszcza z biedniejszych krajów) pracowały za grosze, rozwiązując masowo testy obrazkowe i próbując wprowadzając system w błąd. Tak rozpoczął się wyścig między właścicielami witryn a spamerami, w którym tak naprawdę przegranymi są zwykli użytkownicy, którzy spędzają nad CAPTCHA coraz więcej czasu.


źródło: Adobe Stock

reCAPTCHA, czyli projekt: digitalizacja

Mimo tych utrudnień, mechanizm CAPTCHA okazał się sam w sobie solidnym produktem, który spełniał swoje zadanie. Jednak jego twórcy nie byli do końca zadowoleni. Doszło bowiem do nieco kuriozalnej sytuacji polegającej na tym, że miliony internautów dobrowolnie przepisywało bezsensowne obrazki tekstowe – cóż za marnotrawstwo świetnej, ale nikomu niepotrzebnej darmowej roboty! Dlatego zespół von Ahna zaczął się zastanawiać, jak wykorzystać ten potencjał w bardziej praktyczny sposób. Inżynierowie zaczęli kombinować: z jednej strony wiele osób każdego dnia musi rozpoznawać nieczytelne dla komputera litery, by móc wejść na określoną stronę internetową. Z drugiej zaś – przecież są tysiące zdigitalizowanych dzieł, z którymi nie radzi sobie najlepsze oprogramowanie OCR (Optical Character Recognition – Optyczne Rozpoznawanie Znaków) służące do masowego wprowadzania do pamięci komputerów książek i innych tekstów (tych, które powstały przed erą masowej komputeryzacji). W starych książkach często pojawiają się fragmenty nieczytelne (powodem jest rozmazany atrament czy uszkodzony papier), w przypadku których oprogramowanie OCR jest bezradne. Ponieważ człowiek lepiej od maszyny radzi sobie z prawidłowym rozpoznawaniem takich tekstów, instytucje zajmujące się digitalizacją zasobów bibliotecznych zatrudniają pracowników, których zadaniem jest weryfikacja błędów OCR.

Przepisz i pomóż

Wystarczyło połączyć te dwa fakty – i tak narodził się pomysł na reCAPTCHA, czyli system, który pozwala zastąpić pracę weryfikatorów przez rozproszonych użytkowników sieci każdego dnia rozwiązujących ok. 200 milionów zadań CAPTCHA. Pomysł w swej prostocie genialny, no i przede wszystkim skuteczny. Jeśli rozwiązanie jednego zadania zajmuje 10 sekund, to łączna liczba przepracowanych w ten sposób godzin przekracza 150 tysięcy dziennie. Spożytkowanie nawet niewielkiej części tej pracy do pomocy przy digitalizacji pozwala na zaoszczędzenie kilku tysięcy etatów pracowników weryfikujących działanie OCR metodami tradycyjnymi. Mechanizm reCAPTCHA został wdrożony w witrynach na całym świecie. Z punktu widzenia użytkownika niemal nic się nie zmieniło: wpisuje litery i cyfry, które widzi na ekranie. Ale zamiast losowych słów, system prosi o rozpoznanie i przepisanie prawdziwych wyrazów i liczb zaczerpniętych z tekstów archiwalnych. Inżynierowie Uniwersytetu Carnegie Mellon działanie testów reCAPTCHA zaczęli od przepisywania archiwów „The New York Timesa”, a następnie sprzedali metodę Google’owi, który zaczął używać jej do transkrypcji starych książek. Jeśli więc pamiętasz ziarniste obrazki starego tekstu, z których rozpoznaniem miałeś być może przez chwilę kłopot, to były to prawdziwe słowa z prawdziwych stron, a ty prawdopodobnie przez moment stałeś się wolontariuszem pracującym dla Google’a i „The New York Timesa”.

Od świnek w okularach po plamy z flamingów

Niestety, wraz z upływem czasu i rozwojem sztucznej inteligencji boty coraz lepiej radzą sobie z CATPCHA. Nie może więc dziwić, że system ten musiał ewoluować, aby dawać sobie radę z coraz doskonalszym orężem spamerów. Inżynierowie na całym świecie przez długie lata pilnie poszukiwali lepszego pomysłu na CAPTCHA niż rozpoznawanie tekstu lub obrazu. „Patentów” było wiele, bo historia CAPTCHA jest burzliwa. Pojawiały się koncepcje zadania polegające na klasyfikowaniu obrazów osób według wyrazu twarzy, płci i pochodzenia etnicznego.



Niektórzy proponowali CAPCHTA kulturowe pole, polegające na przykład na zgadywaniu rymowanek powszechnych w obszarze, w którym użytkownik miał dorastać. Tego rodzaju testy miały od były skierowane nie tylko do botów, ale także do ludzi pracujących na zagranicznych farmach CAPTCHA, którzy rozwiązują łamigłówki za grosze. „Verified”, jedno z najdłużej działających forów rosyjskojęzycznych poświęconych wszelkiego rodzaju oszustwom internetowym, wypytywało użytkowników o losowe fragmenty dzieł rosyjskiej kultury podczas rejestracji lub logowania. Próbowano utrudniać rozpoznawanie obrazu, prosząc użytkowników o zidentyfikowanie, na przykład świń, ale przedstawionych jako postać kreskówki, do tego w przeciwsłonecznych okularach. Aby utrudnić złamanie CAPTCHA naukowcy z Tel-Awiwu opracowali zautomatyzowany system do tworzenia obrazów z ukrytymi figurami. Ich system wykorzystuje proste wizerunki rozpoznawalnej, poruszającej się postaci, np. biegnącego mężczyzny czy galopującego konia i przekształca je w plamy ukryte wśród innych plam. Komputery zazwyczaj nie są w stanie wykryć figury, ale ludzkie oko zazwyczaj potrafi dostrzec flaminga po prawej stronie obrazka.



W jeszcze innej intrygującej odmianie CAPTCHA z 2010 roku naukowcy zaproponowali użycie CAPTCHA do indeksowania starożytnych petroglifów.


CAPTCHA

Wyścig trwa

Wszystko wskazuje na to, że wyścig między ekspertami ds. bezpieczeństwa w Internecie a robotami spamującymi może prędko się nie skończyć. Zwłaszcza, że jak wynika z analiz przeprowadzonych przez Google’a w 2014 r. sztuczna inteligencja może złamać nawet najbardziej złożone obrazy CAPTCHA i reCAPTCHA z dokładnością 99,8 procent. Zwłaszcza, że mechanizm CAPTCHA, oprócz wielu zalet, ma także poważne wady. Jedną z największych jest brak możliwości jego wykorzystania przez osoby niedowidzące albo mające ograniczone zdolności ruchu. Zwłaszcza, że pożera niepotrzebnie energię elektryczną i wystawia na szwank naszą cierpliwość. Może więc skończyć z całym tym szaleństwem CAPTCHA? Ale co w zamian? Nie tak łatwo zrezygnować z weryfikacji tego, kim (lub czym) jest użytkownik po drugiej stronie ekranu w sytuacji, gdy 25,6% ruchu na witrynach internetowych jest generowana przez boty (dane z 2020 r.).


Firma Cloudflare zaproponowała niedawno nieco inne rozwiązanie. Inżynierowie proponują zastąpić system CAPTCHA mechanizmem kryptograficznego poświadczania osobowości (Cryptographic Attestation of Personhood), wykorzystującym sprzętowe klucze USB (takie jak YubiKey). Uwierzytelnienie następuje po odczytaniu kryptograficznego sekretu znajdującego się w kluczu. System ten jest na razie eksperymentem. Zanim więc nie odtrąbią rychłego końca szaleństwa związanego z CAPCTHA może warto – zamiast irytacji – podczas rozwiązywania testu pomyśleć, że robimy coś dobrego dla ludzkości (np. digitalizujemy książki) albo zrobić z tego codziennego rytuału ćwiczenie zen?

Bibliografia

Josh Dzieza, Why CAPTCHAS have gotten so difficult, serwis internetowy Theverge.com, [dostęp: 02.09.2021]

Kate Horowitz, The Surprisingly Devious History of CAPTCHA, serwis internetowy Mentalfloss.com, [dostęp: 02.09.2021]

Stacey Burling, CAPTCHA: The story behind those squiggly computer letters, serwis internetowy Phys.org, [dostęp: 02.09.2021]

Sharon Waters, I’m Not a Robot! So Why Won’t Captchas Believe Me?, serwis internetowy magazynu „The Wired”, [dostęp: 02.09.2021]


Tagi: technologie
Ocena:
Oceń:
Komentarze (0)

Redakcja nie ponosi odpowiedzialności za treść komentarzy. Komentarze wyświetlane są od najnowszych.
Najnowsze aktualności

Raport FTC na temat gromadzenia danych
24 października 2021
Dostawcy usług internetowych zbierają ogromną ilość szczegółowych danych na temat klientów – wynika z raportu Federalnej Komisji Handlu...

Drożeje Raspberry Pi
24 października 2021
Cena jednopłytkowego komputera Raspberry Pi wzrosła po raz pierwszy od czasu premiery

Taniej na platformie Google Play
24 października 2021
Nie wszystko drożeje. Koncern z Mountain View ogłosił obniżkę opłat dla autorów aplikacji rozpowszechnianych na zasadzie subskrypcji za...

Pytania do gigantów
24 października 2021
Amerykańskie Biuro Ochrony Finansowej Konsumentów (CFPB) chce wiedzieć, jak firmy technologiczne gromadzą i wykorzystują dane finansowe...
Artykuły z wydań

  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
Zawartość aktualnego numeru

aktualny numer powiększ okładkę Wybrane artykuły z PC Format 6/2021
Przejdź do innych artykułów
płyta powiększ płytę
Załóż konto
Co daje konto w serwisie pcformat.pl?

Po założeniu konta otrzymujesz możliwość oceniania materiałów, uczestnictwa w życiu forum oraz komentowania artykułów i aktualności przy użyciu indywidualnego identyfikatora.

Załóż konto