Einstellungen - OCR

Die folgenden Einstellungen finden Sie unter Settings->TBox->OCR:

EngineName

Beschreibung

Gibt an, welche Engine für OCR verwendet wird.

Beispiel

Tesseract

Tesseract

CharSet

Beschreibung

Gibt an, welcher Zeichensatz für die Erkennung verwendet wird. Dies ist besonders für die Analyse von Controls interessant, die nur eine eingeschränkte Zahl von Zeichen anzeigen können. So könnte man für ein Control, das nur IPv4-Adressen anzeigen kann, etwa den Zeichensatz auf "0123456789." einschränken. Ähnliches gilt auch für Datums-Controls etc.

Beispiel

0-9

a-z

A-Z

<>-+*#~!.:,I'"/\

ConfigFile

Beschreibung

Pfad zu einer optionalen Konfigurationsdatei für Tesseract. Diese kann beispielsweise verwendet werden, um ein Benutzerwörterbuch anzugeben.

Beispiel

%TRICENTIS_ALLUSERS_APPDATA%\OCR

DumpImage

Beschreibung

Falls aktiviert, wird das Ergebnis des analysierte Bildes unter %TRICENTIS_ALLUSERS_APPDATA%\OCR gespeichert. Diese Einstellung dient ausschließlich zu Debug-Zwecken.

Beispiel

Off(0)

Flip

Beschreibung

Gibt an, ob ein Bild vor der Erkennung gespiegelt wird.

Beispiel

Off(0)

Sprache

Beschreibung

Gibt an, welche Sprache für die Erkennung verwendet wird. Der Sprachcode richtet sich nach dem Kürzel einer Trainings-Datei aus dem Tessdata-Verzeichnis (siehe unten). Die verwendete Trainingsdatei enthält die Muster für die Erkennung und ist so maßgeblich für die Erkennungsrate. Werden einzelne Zeichen nicht richtig erkannt, zB ein ö mit Unterstrich, können diese wie weiter unten beschrieben trainiert werden. Nach erfolgreichen Training kann dann hier das Kürzel der neuen Traings-Datei angegeben werden.

Beispiel

eng

MonochromBrightnessFactor

Beschreibung

Diese Einstellung wird benötigt, um ein Bild in ein Schwarz-Weiß-Bild umzurechen. Zusätzlich muss die Einstellung UseMonochrom aktiviert sein. Der Wert gibt an, wie dunkel die Farbe eines Pixels sein muss, damit sie im Ergebnisbild einem schwarzen Pixel entspricht. Alle Pixel mit einer Helligkeit oberhalb des angegebenen Wertes erscheinen als weiße Pixel im Ergebnisbild. Je niedriger dieser Wert ist, umso dunkler muss ein Pixel sein, um als Schwarz erkannt zu werden. Diese Einstellung wird verwendet, um störenden (hellen) Hintergrund zu entfernen und Tesseract ein reines Schwarz-Weiß-Bild zu übergeben.

Beispiel

0.7

RemoveLineBreaks

Beschreibung

Ist dieses Einstellung auf 1 gesetzt, werden aus dem erkannten Text Zeilenumbrüche (CRLFs) entfernt.

Beispiel

On(1)

Rotation

Beschreibung

Gibt an, um wieviel Grad das Bild vor der Analyse gedreht werden soll. Wird hier beispielsweise der Wert 90 angegeben, kann ein Text ausgelesen werden, der um 90 Grad gedreht am Bildschirm zu sehen ist.

Beispiel

0

ScaleFactor

Beschreibung

Gibt an, um welchen Faktor ein Bild vor der Erkennung vergrößert werden soll. Die Eingabe von Gleitkommazahlen ist möglich.

Beispiel

3

SegmentationMode

Beschreibung

Gibt an, welcher SegmentationMode verwendet wird. Der SegmentationMode definiert, wie mit den Zeichen im zu analysierenden Bild umgegangen werden soll. Standardmäßig ist der Wert auf 7 gesetzt. Dies entspricht einer Optimierung für die Erkennung von Text, der nur eine Zeile besitzt (gilt für fast alle Labels von Controls wie beispielsweise Buttons).

Folgende SegmentationModes stehen für Tesseract zur Verfügung:

OsdOnly = 0

AutomaticSegmentationWithOsd = 1

AutomaticSegmentationWithoutOsd = 3

SingleColumnVariableTextSize = 4

UniformTextBlockVertical = 5

UniformTextBlock = 6

SingleLine = 7

SingleWord = 8

SingleWorldInCircle = 9

SingleCharacter = 10

Beispiel

Single Line(7)

SetCharSpacing

Beschreibung

Ist dieser Wert größer 0, wird versucht, den Abstand zwischen den Zeichen auf den angegebenen Wert zu setzen. Der neue Wert in Pixel entspricht dann dem neuen Zeichenabstand. Damit diese Einstellung funktioniert, dürfen nur Bilder übergeben werden, die frei von Symbolen und zusätzlichen Zeichenelementen wie Rahmen oder Linien sind. Um zu erkennen welche Pixel Teil eines Zeichens (schwarze Pixel) sind, wird die Einstellung MonochromBrightnessFactor verwendet.

Beispiel

-1

UseInversion

Beschreibung

Invertiert ein Bild vor der Analyse (Farbwerte werden auf ihr Inverses umgerechnet). Schwarz wird somit zu Weiß (und umgekehrt).

Beispiel

Off(0)

UseMonochrom

Beschreibung

Gibt an, ob ein Bild vor der Analyse in ein Schwarz-Weiß-Bild umgerechnet werden soll.

Beispiel

On(1)

Textract

DumpImage

Beschreibung

Falls aktiviert, wird das Ergebnis des analysierte Bildes unter %TRICENTIS_ALLUSERS_APPDATA%\OCR gespeichert. Diese Einstellung dient ausschließlich zu Debug-Zwecken.

Beispiel

Off(0)