
Co to jest OCR?
Zgodnie z definicją znajdującą się w Wikipedii, OCR (z ang. optical character recognition) to „zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym o postaci rastrowej. Zadaniem OCR jest zwykle rozpoznanie tekstu w zeskanowanym dokumencie (na przykład papierowym formularzu lub stronie książki)”.
Tyle definicja. Jeżeli chodzi o usługi, to pod pojęciem OCR kryje się m.in.:
- konwertowanie plików PDF do Word (z zachowaniem układu i grafiki)
- konwertowanie plików graficznych (skanów/zdjęć) zawierających treść do formatu Word
- zaawansowana edycja graficzna plików PDF (podmiana tekstu/tłumaczenie)
- przygotowanie materiałów do tłumaczenia dla Biur Tłumaczeń
Przygotowanie dokumentów do tłumaczenia
Nasze usługi OCR są skierowane głównie do biur tłumaczeń, dla których opracowujemy materiały źródłowe i przygotowujemy je do tłumaczenia w formacie .doc/.docx lub formatach obsługiwanych przez programy CAT (wspomagających tłumaczenie).
Pliki nieedytowalne, takie jak np. foldery reklamowe czy instrukcje obsługi w przypadku których kluczową rolę odgrywa ich wizualna prezencja – wymagają najczęściej dodatkowego przygotowania przed tłumaczeniem.
Usługa OCR najczęściej wymaga zarówno użycia oprogramowania OCR jak i pracy specjalisty DTP, jak np. w przypadku folderów, instrukcji bądź materiałów reklamowych przesyłanych w formie skanów, zdjęć bądź niskiej jakości plików .pdf. Przy niezbyt skomplikowanych dokumentach pdf czasami samo użycie oprogramowania OCR daje już zadowalające efekty. Jakość uzyskanych dokumentów edytowalnych zależy jednak w dużym stopniu od tekstu źródłowego.