Co to jest OCR?
Zgodnie z definicją znajdującą się w Wikipedii, OCR (z ang. optical character recognition) to „zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym o postaci rastrowej. Zadaniem OCR jest zwykle rozpoznanie tekstu w zeskanowanym dokumencie (na przykład papierowym formularzu lub stronie książki)”.
Tyle definicja. Jeżeli chodzi o usługi, to pod pojęciem OCR kryje się m.in.:
konwertowanie plików PDF do Word (z zachowaniem układu i grafiki)
konwertowanie plików graficznych (skanów/zdjęć) zawierających treść do formatu Word
zaawansowana edycja graficzna plików PDF (podmiana tekstu/tłumaczenie)
przygotowanie materiałów do tłumaczenia dla biur tłumaczeń
Przygotowanie dokumentów do tłumaczenia
Nasze usługi OCR są skierowane głównie do biur tłumaczeń, dla których opracowujemy materiały źródłowe i przygotowujemy je do tłumaczenia:
Pliki nieedytowalne, takie jak np. foldery reklamowe czy instrukcje obsługi w przypadku których kluczową rolę odgrywa ich wizualna prezencja – wymagają najczęściej dodatkowego przygotowania przed tłumaczeniem. Proces przygotowania dokumentów polega zazwyczaj na:
przetwarzaniu zeskanowanych dokumentów - jeśli klient dostarcza zeskanowane dokumenty, używamy OCR, aby przekształcić je w edytowalny tekst, który można następnie tłumaczyć,
konwersji formatów - jeśli dokument jest zapisany w formacie, który nie jest kompatybilny z narzędziem CAT, to OCR może być użyte do konwersji na odpowiedni format,
integracji z narzędziami CAT - po OCR, tekst może być łatwo zaimportowany do narzędzi CAT, co umożliwia wykorzystanie funkcji takich jak pamięć tłumaczeniowa i baza terminologiczna.
Usługa OCR najczęściej wymaga zarówno użycia oprogramowania OCR jak i pracy specjalisty DTP, jak np. w przypadku folderów, instrukcji bądź materiałów reklamowych przesyłanych w formie skanów, zdjęć bądź niskiej jakości plików .pdf. Przy niezbyt skomplikowanych dokumentach pdf czasami samo użycie oprogramowania OCR daje już zadowalające efekty. Jakość uzyskanych dokumentów edytowalnych zależy jednak w dużym stopniu od tekstu źródłowego.