Einstellungen - OCR

Die folgenden Einstellungen finden Sie unter Settings->TBox->OCR:

EngineName
Beschreibung	Gibt an, welche Engine für OCR verwendet wird.
Beispiel	Tesseract

Tesseract

CharSet
Beschreibung	Gibt an, welcher Zeichensatz für die Erkennung verwendet wird. Dies ist besonders für die Analyse von Controls interessant, die nur eine eingeschränkte Zahl von Zeichen anzeigen können. So könnte man für ein Control, das nur IPv4-Adressen anzeigen kann, etwa den Zeichensatz auf "0123456789." einschränken. Ähnliches gilt auch für Datums-Controls etc.
Beispiel	0-9 a-z A-Z <>-+*#~!.:,I'"/\

CharSet

Beschreibung

Gibt an, welcher Zeichensatz für die Erkennung verwendet wird. Dies ist besonders für die Analyse von Controls interessant, die nur eine eingeschränkte Zahl von Zeichen anzeigen können. So könnte man für ein Control, das nur IPv4-Adressen anzeigen kann, etwa den Zeichensatz auf "0123456789." einschränken. Ähnliches gilt auch für Datums-Controls etc.

Beispiel

0-9

a-z

A-Z

<>-+*#~!.:,I'"/\

ConfigFile
Beschreibung	Pfad zu einer optionalen Konfigurationsdatei für Tesseract. Diese kann beispielsweise verwendet werden, um ein Benutzerwörterbuch anzugeben.
Beispiel	%TRICENTIS_ALLUSERS_APPDATA%\OCR

DumpImage
Beschreibung	Falls aktiviert, wird das Ergebnis des analysierte Bildes unter %TRICENTIS_ALLUSERS_APPDATA%\OCR gespeichert. Diese Einstellung dient ausschließlich zu Debug-Zwecken.
Beispiel	Off(0)

Flip
Beschreibung	Gibt an, ob ein Bild vor der Erkennung gespiegelt wird.
Beispiel	Off(0)

Sprache
Beschreibung	Gibt an, welche Sprache für die Erkennung verwendet wird. Der Sprachcode richtet sich nach dem Kürzel einer Trainings-Datei aus dem Tessdata-Verzeichnis (siehe unten). Die verwendete Trainingsdatei enthält die Muster für die Erkennung und ist so maßgeblich für die Erkennungsrate. Werden einzelne Zeichen nicht richtig erkannt, zB ein ö mit Unterstrich, können diese wie weiter unten beschrieben trainiert werden. Nach erfolgreichen Training kann dann hier das Kürzel der neuen Traings-Datei angegeben werden.
Beispiel	eng

MonochromBrightnessFactor
Beschreibung	Diese Einstellung wird benötigt, um ein Bild in ein Schwarz-Weiß-Bild umzurechen. Zusätzlich muss die Einstellung UseMonochrom aktiviert sein. Der Wert gibt an, wie dunkel die Farbe eines Pixels sein muss, damit sie im Ergebnisbild einem schwarzen Pixel entspricht. Alle Pixel mit einer Helligkeit oberhalb des angegebenen Wertes erscheinen als weiße Pixel im Ergebnisbild. Je niedriger dieser Wert ist, umso dunkler muss ein Pixel sein, um als Schwarz erkannt zu werden. Diese Einstellung wird verwendet, um störenden (hellen) Hintergrund zu entfernen und Tesseract ein reines Schwarz-Weiß-Bild zu übergeben.
Beispiel	0.7

RemoveLineBreaks
Beschreibung	Ist dieses Einstellung auf 1 gesetzt, werden aus dem erkannten Text Zeilenumbrüche (CRLFs) entfernt.
Beispiel	On(1)

Rotation
Beschreibung	Gibt an, um wieviel Grad das Bild vor der Analyse gedreht werden soll. Wird hier beispielsweise der Wert 90 angegeben, kann ein Text ausgelesen werden, der um 90 Grad gedreht am Bildschirm zu sehen ist.
Beispiel	0

ScaleFactor
Beschreibung	Gibt an, um welchen Faktor ein Bild vor der Erkennung vergrößert werden soll. Die Eingabe von Gleitkommazahlen ist möglich.
Beispiel	3

SegmentationMode
Beschreibung	Gibt an, welcher SegmentationMode verwendet wird. Der SegmentationMode definiert, wie mit den Zeichen im zu analysierenden Bild umgegangen werden soll. Standardmäßig ist der Wert auf 7 gesetzt. Dies entspricht einer Optimierung für die Erkennung von Text, der nur eine Zeile besitzt (gilt für fast alle Labels von Controls wie beispielsweise Buttons). Folgende SegmentationModes stehen für Tesseract zur Verfügung: OsdOnly = 0 AutomaticSegmentationWithOsd = 1 AutomaticSegmentationWithoutOsd = 3 SingleColumnVariableTextSize = 4 UniformTextBlockVertical = 5 UniformTextBlock = 6 SingleLine = 7 SingleWord = 8 SingleWorldInCircle = 9 SingleCharacter = 10
Beispiel	Single Line(7)

SegmentationMode

Beschreibung

Gibt an, welcher SegmentationMode verwendet wird. Der SegmentationMode definiert, wie mit den Zeichen im zu analysierenden Bild umgegangen werden soll. Standardmäßig ist der Wert auf 7 gesetzt. Dies entspricht einer Optimierung für die Erkennung von Text, der nur eine Zeile besitzt (gilt für fast alle Labels von Controls wie beispielsweise Buttons).

Folgende SegmentationModes stehen für Tesseract zur Verfügung:

OsdOnly = 0

AutomaticSegmentationWithOsd = 1

AutomaticSegmentationWithoutOsd = 3

SingleColumnVariableTextSize = 4

UniformTextBlockVertical = 5

UniformTextBlock = 6

SingleLine = 7

SingleWord = 8

SingleWorldInCircle = 9

SingleCharacter = 10

Beispiel

Single Line(7)

SetCharSpacing
Beschreibung	Ist dieser Wert größer 0, wird versucht, den Abstand zwischen den Zeichen auf den angegebenen Wert zu setzen. Der neue Wert in Pixel entspricht dann dem neuen Zeichenabstand. Damit diese Einstellung funktioniert, dürfen nur Bilder übergeben werden, die frei von Symbolen und zusätzlichen Zeichenelementen wie Rahmen oder Linien sind. Um zu erkennen welche Pixel Teil eines Zeichens (schwarze Pixel) sind, wird die Einstellung MonochromBrightnessFactor verwendet.
Beispiel	-1

UseInversion
Beschreibung	Invertiert ein Bild vor der Analyse (Farbwerte werden auf ihr Inverses umgerechnet). Schwarz wird somit zu Weiß (und umgekehrt).
Beispiel	Off(0)

UseMonochrom
Beschreibung	Gibt an, ob ein Bild vor der Analyse in ein Schwarz-Weiß-Bild umgerechnet werden soll.
Beispiel	On(1)

Textract

DumpImage
Beschreibung	Falls aktiviert, wird das Ergebnis des analysierte Bildes unter %TRICENTIS_ALLUSERS_APPDATA%\OCR gespeichert. Diese Einstellung dient ausschließlich zu Debug-Zwecken.
Beispiel	Off(0)