Máme PDF soubor, který obsahuje naskenované stánky anglické knihy, a potřebujeme jej převést na holý text. Pokud možno na Linuxu a z příkazové řádky. Pojďme na to.
Nejdříve soubor PDF rozbijeme na jednotlivé stránky: Jedna stránka — jeden bitmapový soubor:
pdftoppm input.pdf page
Získáme spoustu souborů page-001.ppm
, page-002.ppm
, atd.
K převodu obrázků na text použijeme program tesseract. Připravíme si makefile
, který nám zajistí převod všech souborů:
SRC := $(wildcard *.ppm) DST := $(patsubst %.ppm,%.txt,$(SRC)) all: $(DST) %.txt: %.ppm tesseract $< $(basename $@)
Vlastní převod spustíme jednoduše pomocí make
. Vytvoří se nám soubory page-001.txt
, page-002.txt
, atd. Tyto sloučíme do jediného výstupního textového souboru takto:
cat page-???.txt >output.txt
A máme hotovo.