Einstellungen - OCR
Die folgenden Einstellungen finden Sie unter Settings->TBox->OCR:
Beschreibung |
Gibt an, welche Engine für OCR verwendet wird. |
Beispiel |
Tesseract |
CharSet |
|
Beschreibung |
Gibt an, welcher Zeichensatz für die Erkennung verwendet wird. Dies ist besonders für die Analyse von Controls interessant, die nur eine eingeschränkte Zahl von Zeichen anzeigen können. So könnte man für ein Control, das nur IPv4-Adressen anzeigen kann, etwa den Zeichensatz auf "0123456789." einschränken. Ähnliches gilt auch für Datums-Controls etc. |
Beispiel |
0-9 a-z A-Z <>-+*#~!.:,I'"/\ |
ConfigFile |
|
Beschreibung |
Pfad zu einer optionalen Konfigurationsdatei für Tesseract. Diese kann beispielsweise verwendet werden, um ein Benutzerwörterbuch anzugeben. |
Beispiel |
%TRICENTIS_ALLUSERS_APPDATA%\OCR |
DumpImage |
|
Beschreibung |
Falls aktiviert, wird das Ergebnis des analysierte Bildes unter %TRICENTIS_ALLUSERS_APPDATA%\OCR gespeichert. Diese Einstellung dient ausschließlich zu Debug-Zwecken. |
Beispiel |
Off(0) |
Flip |
|
Beschreibung |
Gibt an, ob ein Bild vor der Erkennung gespiegelt wird. |
Beispiel |
Off(0) |
Sprache |
|
Beschreibung |
Gibt an, welche Sprache für die Erkennung verwendet wird. Der Sprachcode richtet sich nach dem Kürzel einer Trainings-Datei aus dem Tessdata-Verzeichnis (siehe unten). Die verwendete Trainingsdatei enthält die Muster für die Erkennung und ist so maßgeblich für die Erkennungsrate. Werden einzelne Zeichen nicht richtig erkannt, zB ein ö mit Unterstrich, können diese wie weiter unten beschrieben trainiert werden. Nach erfolgreichen Training kann dann hier das Kürzel der neuen Traings-Datei angegeben werden. |
Beispiel |
eng |
MonochromBrightnessFactor |
|
Beschreibung |
Diese Einstellung wird benötigt, um ein Bild in ein Schwarz-Weiß-Bild umzurechen. Zusätzlich muss die Einstellung UseMonochrom aktiviert sein. Der Wert gibt an, wie dunkel die Farbe eines Pixels sein muss, damit sie im Ergebnisbild einem schwarzen Pixel entspricht. Alle Pixel mit einer Helligkeit oberhalb des angegebenen Wertes erscheinen als weiße Pixel im Ergebnisbild. Je niedriger dieser Wert ist, umso dunkler muss ein Pixel sein, um als Schwarz erkannt zu werden. Diese Einstellung wird verwendet, um störenden (hellen) Hintergrund zu entfernen und Tesseract ein reines Schwarz-Weiß-Bild zu übergeben. |
Beispiel |
0.7 |
RemoveLineBreaks |
|
Beschreibung |
Ist dieses Einstellung auf 1 gesetzt, werden aus dem erkannten Text Zeilenumbrüche (CRLFs) entfernt. |
Beispiel |
On(1) |
Rotation |
|
Beschreibung |
Gibt an, um wieviel Grad das Bild vor der Analyse gedreht werden soll. Wird hier beispielsweise der Wert 90 angegeben, kann ein Text ausgelesen werden, der um 90 Grad gedreht am Bildschirm zu sehen ist. |
Beispiel |
0 |
ScaleFactor |
|
Beschreibung |
Gibt an, um welchen Faktor ein Bild vor der Erkennung vergrößert werden soll. Die Eingabe von Gleitkommazahlen ist möglich. |
Beispiel |
3 |
SegmentationMode |
|
Beschreibung |
Gibt an, welcher SegmentationMode verwendet wird. Der SegmentationMode definiert, wie mit den Zeichen im zu analysierenden Bild umgegangen werden soll. Standardmäßig ist der Wert auf 7 gesetzt. Dies entspricht einer Optimierung für die Erkennung von Text, der nur eine Zeile besitzt (gilt für fast alle Labels von Controls wie beispielsweise Buttons). Folgende SegmentationModes stehen für Tesseract zur Verfügung: OsdOnly = 0 AutomaticSegmentationWithOsd = 1 AutomaticSegmentationWithoutOsd = 3 SingleColumnVariableTextSize = 4 UniformTextBlockVertical = 5 UniformTextBlock = 6 SingleLine = 7 SingleWord = 8 SingleWorldInCircle = 9 SingleCharacter = 10 |
Beispiel |
Single Line(7) |
SetCharSpacing |
|
Beschreibung |
Ist dieser Wert größer 0, wird versucht, den Abstand zwischen den Zeichen auf den angegebenen Wert zu setzen. Der neue Wert in Pixel entspricht dann dem neuen Zeichenabstand. Damit diese Einstellung funktioniert, dürfen nur Bilder übergeben werden, die frei von Symbolen und zusätzlichen Zeichenelementen wie Rahmen oder Linien sind. Um zu erkennen welche Pixel Teil eines Zeichens (schwarze Pixel) sind, wird die Einstellung MonochromBrightnessFactor verwendet. |
Beispiel |
-1 |
UseInversion |
|
Beschreibung |
Invertiert ein Bild vor der Analyse (Farbwerte werden auf ihr Inverses umgerechnet). Schwarz wird somit zu Weiß (und umgekehrt). |
Beispiel |
Off(0) |
UseMonochrom |
|
Beschreibung |
Gibt an, ob ein Bild vor der Analyse in ein Schwarz-Weiß-Bild umgerechnet werden soll. |
Beispiel |
On(1) |
Textract
DumpImage |
|
Beschreibung |
Falls aktiviert, wird das Ergebnis des analysierte Bildes unter %TRICENTIS_ALLUSERS_APPDATA%\OCR gespeichert. Diese Einstellung dient ausschließlich zu Debug-Zwecken. |
Beispiel |
Off(0) |