Quelle: Gb_prev.pdf
Wenn man sich die Gildenbrief-PDFs ansieht, sieht man, dass der Text sauber gedruckt ist, wie direkt geschrieben.
Ein Scan sieht hingegen eher so aus wie unten. Alles etwas fransig, weil der Scanner ja nur die Buchstaben abfotografiert. Selbst wenn er im Hintergrund eine Texterkennung macht, um die PDFs durchsuchbar zu machen, bleiben die für den Benutzer sichtbaren Buchstaben die gescannten Buchstaben stehn.
Um hier sauberen Text wie oben zu bekommen, müsste man den gescannte Text durch das Ergebnis einer Texterkennung ersetzen. Danach müsste man prüfen, dass trotzdem alles sauber layoutet ist und dass die Texterkennung sauber gearbeitet hat: Keine doppelten Leerzeichen, wo keine hingehören; keine falsch erkannten Buchstaben (Umlaute sind manchmal eine fiese Falle für die amerikanischen Softwares); Kursivschrift richtig; Fettschrift richtig.
Quelle: Corrinis - Stadt der Abenteuer