OCRPDF ist ein Programm zum Erkennen von Text aus gescannten Dokumenten mit Nachbearbeitung. Es verwendet pdfimages und tesseract und wendet konfigurierbare Filter auf die Ausgabe an. (non)