Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revize Předchozí verze Následující verze | Předchozí verze | ||
ocr [2014/05/01 10:56] – walard | ocr [2019/02/25 17:20] (aktuální) – upraveno mimo DokuWiki 127.0.0.1 | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
+ | **OCR ** neboli optické rozpoznávání znaků (z anglického Optical Character Recognition) je metoda, která pomocí scanneru umožňuje digitalizaci tištěných textů, s nimiž pak lze pracovat jako s normálním počítačovým textem. Počítačový program převádí obraz buď automaticky, | ||
+ | Převedený text je téměř vždy v závislosti na kvalitě předlohy třeba podrobit důkladné korektuře, protože OCR program nemusí rozeznat všechna písmena správně. OCR – zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, | ||
+ | |||
+ | U nevhodných předloh, např. slabě vytištěných jehličkových výtisků nebo dohromady slitých písmen, se z časového hlediska vyplatí spíše přepis textu. [[http:// | ||
+ | |||
+ | |||
+ | ====== OCR aplikace ====== | ||
+ | Kvalitní OCR aplikace jsou tesseract s grafickou nadstavbou YAGF a online OCR. | ||
+ | |||
+ | ===== GOCR ===== | ||
+ | |||
+ | Gocr je zástupce OCR programů dostupných zadarmo, který zvládá rozpoznávání diakritiky a je použitelný pro česky psané texty (umí zpracovat naskenované texty do kódování UTF-8). Má úspěšnost asi 85%. Kvůli této úspěšnosti je dobré využít vhodný nástroj ke kontrole správnosti zpracovaného textu, např. OpenOffice, nebo aspell. | ||
+ | |||
+ | Program podporuje užití databáze známých znaků, nebo vytváření (" | ||
+ | |||
+ | **Příklad použití: | ||
+ | |||
+ | Po mých pokusech s nastavením skeneru jsem zůstal u volby " | ||
+ | |||
+ | Přejdeme do adresáře kde máme naskenované dokumenty v některém z podporovaných grafických formátů: | ||
+ | < | ||
+ | cd / | ||
+ | </ | ||
+ | < | ||
+ | ls Enter | ||
+ | </ | ||
+ | |||
+ | < | ||
+ | 002.png 006.png | ||
+ | 000.png 003.png | ||
+ | 001.png 004.png | ||
+ | 005.png 009.png | ||
+ | </ | ||
+ | < | ||
+ | gocr -f UTF8 -i 001.png -o 001.txt | ||
+ | </ | ||
+ | potom pokračujeme i s dalšími soubory až převedeme všechny soubory. Gocr je celkem rychlý. | ||
+ | |||
+ | < | ||
+ | gocr -f UTF8 -i 001.png -o 001.txt | ||
+ | </ | ||
+ | |||
+ | Můžete také použít jednoduchý příkaz, který rozpozná všechny PNG soubory v adresáři: | ||
+ | < | ||
+ | for f in `ls *.png`; do gocr -f UTF8 -i " | ||
+ | </ | ||
+ | **-f UTF8** = výstup bude v kódování UTF8\ | ||
+ | **-i 001.png** = input tj. vstupní soubor\ | ||
+ | **-o 001.txt** = output, výstupní soubor - takto se bude jmenovat náš elektronický dokument | ||
+ | |||
+ | Pokud potřebujete výsledné textové soubory převést do jiného kódování, | ||
+ | kódování ISO-8859-2 můžete použít např.: | ||
+ | |||
+ | < | ||
+ | recode UTF-8..ISO-8859-2 001.txt | ||
+ | </ | ||
+ | |||
+ | < | ||
+ | recode UTF-8..ISO-8859-2 *.txt | ||
+ | </ | ||
+ | |||
+ | Pokud program recode upozorní na špatné konce řádků, můžete použít parametr -f. | ||
+ | |||
+ | < | ||
+ | recode -f UTF-8..ISO-8859-2 *.txt | ||
+ | </ | ||
+ | ==== Manuálová stránka (man gocr) ==== | ||
+ | < | ||
+ | GOCR(1) | ||
+ | |||
+ | JMÉNO | ||
+ | gocr - konzolový program pro optické zpracování znaků (OCR) | ||
+ | |||
+ | SYNTAXE | ||
+ | gocr [OPTION] [-i] pnm-file | ||
+ | |||
+ | POPIS | ||
+ | gocr je program pro optické rozpoznávání znaků, který může být použit z | ||
+ | | ||
+ | a rozpoznaný text vypisuje na standardní výstup. Pokud je namísto názvu | ||
+ | pnm souboru použita pomlčka, jsou data čtena | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | pgm nebo pbm souborem. | ||
+ | |||
+ | |||
+ | OPTIONS | ||
+ | | ||
+ | |||
+ | -i file | ||
+ | čte vstup ze souboru " | ||
+ | je jako název souboru uvedena jednoduchá pomlčka) | ||
+ | |||
+ | -o file | ||
+ | uloží výstup do souboru | ||
+ | výstup | ||
+ | |||
+ | -e file | ||
+ | odešle | ||
+ | výstup, nebo na standardní výstup, pokud je namísto " | ||
+ | dena pomlčka | ||
+ | |||
+ | -x file | ||
+ | tato možnost | ||
+ | zpracovávání. " | ||
+ | roury (viz man mkfifo), nebo deskriptor souboru 1...255. | ||
+ | volba je užitečná | ||
+ | aktuální | ||
+ | tupný pouze, pokud bylo gocr zkompilování s definovanou konstan‐ | ||
+ | tou __USE_POSIX. | ||
+ | |||
+ | -p path | ||
+ | cesta k databázi včetně ukončovacího lomítka (výchozí je ./db/). | ||
+ | Zde budou umístěny obrázky s naučenými znaky | ||
+ | |||
+ | -f format | ||
+ | výstupní formát rozpoznaného textu (ISO8859_1 TeX HTML XML UTF8 | ||
+ | ASCII). | ||
+ | pravděpodobnosti úspěšnosti rozpoznání daného znaku | ||
+ | |||
+ | -l level (úroveň) | ||
+ | nastavit úroveň šedé na úroveň " | ||
+ | pro autodetekci), | ||
+ | ely jsou interpretovány jako pozadí vstupního souboru | ||
+ | |||
+ | -d size | ||
+ | nastavit velikost prachu v pixelech | ||
+ | hodnota | ||
+ | nota je -1 pro autodetekci | ||
+ | |||
+ | -s num nastavit | ||
+ | (typografických terčíků). Výchozí hodnotou je 0 pro autodetekci. | ||
+ | Širší mezery jsou chápány jako mezery mezi slovy, užší jako mez‐ | ||
+ | ery mezi znaky. | ||
+ | |||
+ | -v verbosity | ||
+ | upovídaný | ||
+ | bosity" | ||
+ | |||
+ | -c string | ||
+ | výpis upovídaných znaků pouze pro znaky z řetězce " | ||
+ | tyto znaky je generováno | ||
+ | neznámé znaky. Tato možnost je vhodná k omezení výstupu ladících | ||
+ | informací pouze na potřebné. | ||
+ | |||
+ | -C string | ||
+ | rozpoznávat | ||
+ | funkce, která umožní omezení | ||
+ | určité | ||
+ | je potřeba použít -- | ||
+ | |||
+ | -a certainty | ||
+ | nastavit hodnotu spolehlivosti | ||
+ | Znaky s větší | ||
+ | přijaty, znaky s menší | ||
+ | (nerozpoznané). | ||
+ | pouze znaky s větší spolehlivostí na správnost. | ||
+ | |||
+ | -m mode | ||
+ | nastavit režim operace; " | ||
+ | je 0) | ||
+ | |||
+ | -n bool | ||
+ | pokud je " | ||
+ | je nyní zastaralá, použijte -C " | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | | ||
+ | |||
+ | | ||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | | ||
+ | |||
+ | | ||
+ | |||
+ | | ||
+ | | ||
+ | | ||
+ | |||
+ | | ||
+ | | ||
+ | | ||
+ | |||
+ | | ||
+ | 2) | ||
+ | |||
+ | |||
+ | |||
+ | AUTOR | ||
+ | Joerg Schulenburg (see http:// | ||
+ | First version of man page by Tim Waugh < | ||
+ | |||
+ | INFORMACE O VERZI | ||
+ | Tato stránka dokumentuje gocr, verze 0.41 | ||
+ | |||
+ | DALŠÍ INFORMACE | ||
+ | | ||
+ | | ||
+ | | ||
+ | |||
+ | PŘÍKLADY | ||
+ | gocr -v 33 text1.pbm | ||
+ | výpis | ||
+ | vidět postup rozpoznávání. | ||
+ | |||
+ | gocr -v 7 -c _YV text1.pbm | ||
+ | upovídaný výstup pro neznámé znaky Y and V | ||
+ | |||
+ | djpeg -pnm -gray text.jpg | gocr - | ||
+ | převést jpg obrázek do pnm formátu a použít jako vstup | ||
+ | |||
+ | Linux 20 Aug 2006 GOCR(1) | ||
+ | </ | ||
+ | Domovská stránka [[http:// | ||
+ | |||
+ | ==== gocr-gtk grafická nástavba gocr ==== | ||
+ | |||
+ | Grafická nástavba programu gocr gocr-gtk. Spouští se příkazem " | ||
+ | |||
+ | Ve složce **Setting** dopíšeme k příkazu / | ||
+ | < | ||
+ | / | ||
+ | </ | ||
+ | Lze vybrat postupně všechny naše naskenované obrázky a pak najednou konvertovat. Soubory, které se vytvoří, budou mít příponu .txt a budou se nacházet ve stejném adresáři jako naskenované obrázky. Jednoduše lze měnit velikost prachu odstín šedi a šířku mezery (přednastaveno je 10/160/0). Pokud potřebujeme překódovat. Např. na ISO-8859-2: | ||
+ | < | ||
+ | recode -f UTF-8..ISO-8859-2 *.txt | ||
+ | </ | ||
+ | ===== Kooka ===== | ||
+ | |||
+ | Je kompletní program pro skenování obrázků, využívající jako OCR právě program gocr. Jednoduše lze použít kontrolu pravopisu, která funguje dobře, ale musíme si nainstalovat slovník **aspell-cs**, | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== LOCR ===== | ||
+ | |||
+ | Zatím verze 0.1, je zdarma. | ||
+ | [[http:// | ||
+ | |||
+ | |||
+ | ===== ocre ===== | ||
+ | Vypadá zajímavě. Umí i polské znaky, je grafický a autor píše, že ho bude rozšiřovat na další jazyky dle přání uživatelů. Tak pišme!!! | ||
+ | [[http:// | ||
+ | |||
+ | =====Hebrew OCR ===== | ||
+ | Rozpozná poezii a biblické texty v hebrejštině. | ||
+ | [[http:// | ||
+ | |||
+ | ===== ClaraOCR ===== | ||
+ | Výborně vypadající grafický program, ale už se dlouho nevyvíjí. Nepodporuje české znaky, ale je možné naučit jej nové znaky (tip! c + háček = č!) | ||
+ | [[http:// | ||
+ | |||
+ | ===== Tesseract OCR ===== | ||
+ | Původně komerční OCR program od firmy HP, nyní vyvíjen společností Google pod licencí Apache. [[http:// | ||
+ | |||
+ | {{: | ||
+ | |||
+ | **Grafické nadstavby** YAGF, gImageReader | ||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | **Nastavení YAGF** | ||
+ | Spusťte YAGF a ve sloupci **Settings → OCR Settings ** vybrat tesseract | ||
+ | |||
+ | {{: | ||
+ | |||
+ | ===== Online OCR ===== | ||
+ | Grafická nadstavba teseractu [[http:// | ||
+ | |||
+ | ===== ABBYY FineReader CLI===== | ||
+ | [[http:// | ||
+ | |||
+ | |||
+ | ====== Odkazy ====== | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | {{page> | ||
+ | |||
+ | {{page> | ||
+ | |||
+ | {{page> |