A A A

Zeskanuj i edytuj

PC Format 11/2010
Stanąłeś przed dylematem, jak przekopiować tekst z obrazka czy zeskanowanego dokumentu do edytora tekstu? Rozwiązanie jest proste, wystarczy skorzystać z aplikacji do rozpoznawania pisma. Pokażemy, jak to zrobić online, za darmo i bez potrzeby instalacji oprogramowania. [Maciej Koziński]

Rozpoznawanie struktury dokumentu

Czasami dokumenty, np. artykuły w prasie specjalistycznej, artykuły naukowe, mają złożoną strukturę, na którą składają się kolumny, ilustracje, ramki. Niektóre z usług OCR potrafią odtworzyć tę strukturę. By otrzymać dokument przypominający strukturą oryginał, zeskanuj strony w kolorze i zażądaj pliku wynikowego (patrz warsztat „Rozpoznawanie tekstu i grafiki”) w formacie DOC, RTF lub PDF.

Dzięki technologii OCR (Optical Character Recognition) możesz bez konieczności przepisywania przetworzyć zeskanowany lub sfotografowany cyfrowy obraz dokumentu na tekst nadający się do edycji, poprawek czy przeróbek. Pokazujemy, jak w tym celu wykorzystać aplikację online, której możesz używać na dowolnym komputerze, bez konieczności jej instalacji. Potrzebujesz tylko zdjęcia lub skanu strony, którą chcesz przenieść do edytora tekstu.

Zeskanuj swój dokument

Jeżeli nie masz jeszcze dokumentu w postaci zdjęcia lub skanu, wykonaj skan tak, by usługa OCR rozpoznała poprawnie jak najwięcej znaków. Jeśli skanujesz czysty tekst (np. stronę z książki bez ilustracji), ustaw rozdzielczość skanowania na 300 punktów na cal (300 dpi) i głębię kolorów na co najmniej 256 odcieni szarości. Otrzymasz stosunkowo niewielki plik, litery reprezentowane przez dużą liczbę punktów, a odcienie szarości pozwolą zarysować gładko krawędzie znaków, co poprawi jakość rozpoznawania.

Zapisz obraz dokumentu

Zeskanowany obraz możesz zapisać w formacie kompresji stratnej JPEG (do wartości ok. 60 proc. – wartości niższe zwiększą liczbę błędów przy rozpoznawaniu tekstu), pod warunkiem że zachowałeś rozdzielczość 300 DPI. Zniekształcenia powstające w wyniku kompresji stratnej na krawędziach znaków przy tej rozdzielczości będą nieistotne. W przypadku skanowania z mniejszą rozdzielczością zapisz obraz, używając formatu kompresji bezstratnej, np. TIFF z kompresją albo PNG.

Rozpoznawanie tekstu i grafiki

Do rozpoznawania tekstu i pozostałych elementów dokumentu polecamy serwis OCRonline. Usługa potrafi nie tylko przetworzyć tekst, ale i rozpoznać jego strukturę (patrz ramka „Rozpoznawanie struktury dokumentu”), a także złożyć pojedynczy dokument z wielu zeskanowanych stron. Użycie OCRonline jest limitowane – z jednego adresu IP można przesłać dziennie do 100 stron.


Otwórz stronę www.ocronline.com. Następnie wybierz z listy Document language język rozpoznawalnego dokumentu. W naszym przykładzie będzie to język polski.


Musisz także określić format wyjściowy dokumentu (w takim formacie otrzymasz gotowy dokument). W tym celu z listy wybierz jeden z dostępnych formatów. Do wyboru masz: Microsoft Word (DOC), PDF, Rich Text Format (RTF) lub czysty tekst (TXT). Teraz musisz wskazać pliki przeznaczone do przetworzenia, kliknij przycisk Browse.


W wywołanym oknie dialogowym zaznacz wybrane pliki z obrazami. Zatwierdź swój wybór przyciskiem Otwórz. Wybrane przez ciebie pliki pojawią się na liście Upload Queue. Jeśli przypadkowo wybrałeś błędne dane, możesz usunąć je z listy, klikając czerwony przycisk X.



Prześlij pliki z listy na serwer – w tym celu kliknij przycisk  Upload. Sprawdź, czy pliki są uporządkowane we właściwej kolejności. Możesz już pobrać przetworzony dokument, klikając wyświetlony odsyłacz.


Uwaga! Jeżeli skanowane strony mają zbyt złożoną strukturę (kolumny, ramki, grafika), podziel je na kilka części o prostszej strukturze, używając do tego np. darmowego edytora graficznego (np. IrfanView) i zapisując poszczególne części w osobnych plikach. Dzięki temu OCRonline łatwiej rozpozna i zrekonstruuje układ strony.

Plusy i minusy sieciowych usług OCR

PLUSY:
  • Nie musisz instalować oprogramowania
  • Możesz wykonać rozpoznanie w dowolnym miejscu i czasie, korzystając np. z szybszego łącza
  • Nie obciążasz własnego komputera
MINUSY:
  • Brak ręcznego wspomagania rozpoznania struktury dokumentu i wynikająca z tego próba rozpoznawania tekstu na rysunkach, winietach i w infografice
  • Zagrożenia prywatności i poufności wynikające z przesyłania dokumentu w sieci

Tagi: internet www
Ocena:
Oceń:
Komentarze (0)

Redakcja nie ponosi odpowiedzialności za treść komentarzy. Komentarze wyświetlane są od najnowszych.
Najnowsze aktualności




Artykuły z wydań

  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
Zawartość aktualnego numeru

aktualny numer powiększ okładkę Wybrane artykuły z PC Format 1/2022
Przejdź do innych artykułów
płyta powiększ płytę
Załóż konto
Co daje konto w serwisie pcformat.pl?

Po założeniu konta otrzymujesz możliwość oceniania materiałów, uczestnictwa w życiu forum oraz komentowania artykułów i aktualności przy użyciu indywidualnego identyfikatora.

Załóż konto