diff --git a/Command-Line-Usage.md b/Command-Line-Usage.md index 5c09dc8..d6d95b4 100644 --- a/Command-Line-Usage.md +++ b/Command-Line-Usage.md @@ -94,42 +94,13 @@ Output salta sobre o cäo preguieoso. The output can be different based on the order of languages, so -l eng+deu can give different result than -l deu+eng. - -## Using different Page Segmentation Modes - -The following examples are using this image with text in Devanagari script and Sanskrit language. - -![san002.png] (https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png) - - tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm6 -l san -psm 6 - -Output - - विर्व्य 16 - ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191 - दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213 - द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238 - द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263 - ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300 - पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329 - द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355 - द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360 - र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363 - अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365 - अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394 - क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397- - कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432 - गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति` 457 - गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488 - गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491 - यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493 - 'शिवगङ्गासद्दृस्रनत्माव'ळि 517 - गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531 - + ## Searchable pdf output tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng pdf +This creates a pdf with the image and a separate searchable text layer with the recognized text. + ## HOCR output tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng hocr @@ -181,7 +152,123 @@ Output -## TSV output (only available in 3.05-dev in master branch) +## TSV output (Currently available in 3.05-dev in master branch on github) + tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng tsv +Output + + level page_num block_num par_num line_num word_num left top width height conf text + 1 1 0 0 0 0 0 0 1024 800 -1 + 2 1 1 0 0 0 98 66 821 596 -1 + 3 1 1 1 0 0 98 66 821 596 -1 + 4 1 1 1 1 0 105 66 719 48 -1 + 5 1 1 1 1 1 105 66 74 32 90 The + 5 1 1 1 1 2 205 67 143 40 87 (quick) + 5 1 1 1 1 3 376 69 153 41 89 [brown] + 5 1 1 1 1 4 559 71 105 40 89 {fox} + 5 1 1 1 1 5 687 73 137 41 89 jumps! + 4 1 1 1 2 0 104 115 784 51 -1 + 5 1 1 1 2 1 104 115 96 33 91 Over + 5 1 1 1 2 2 224 117 60 32 89 the + 5 1 1 1 2 3 310 117 224 39 88 $43,456.78 + 5 1 1 1 2 4 561 121 136 42 92 + 5 1 1 1 2 5 722 123 70 32 92 #90 + 5 1 1 1 2 6 818 125 70 41 89 dog + 4 1 1 1 3 0 103 165 733 42 -1 + 5 1 1 1 3 1 103 165 32 32 91 & + 5 1 1 1 3 2 160 166 237 41 88 duck/goose, + 5 1 1 1 3 3 424 178 40 24 92 as + 5 1 1 1 3 4 493 171 122 33 91 12.5% + 5 1 1 1 3 5 638 172 43 33 89 of + 5 1 1 1 3 6 700 174 136 33 91 E-mail + 4 1 1 1 4 0 103 215 809 50 -1 + 5 1 1 1 4 1 103 215 92 33 89 from + 5 1 1 1 4 2 220 219 497 42 87 aspammer@website.com + 5 1 1 1 4 3 742 223 32 33 93 is + 5 1 1 1 4 4 799 233 113 32 88 spam. + 4 1 1 1 5 0 102 266 776 49 -1 + 5 1 1 1 5 1 102 266 72 32 89 Der + 5 1 1 1 5 2 198 267 209 36 78 ,,schnelle” + 5 1 1 1 5 3 433 269 136 34 91 braune + 5 1 1 1 5 4 594 272 116 33 91 Fuchs + 5 1 1 1 5 5 735 274 143 41 83 springt + 4 1 1 1 6 0 102 315 817 43 -1 + 5 1 1 1 6 1 102 315 86 33 75 fiber + 5 1 1 1 6 2 212 317 69 32 91 den + 5 1 1 1 6 3 306 318 125 33 86 faulen + 5 1 1 1 6 4 456 320 117 33 92 Hund. + 5 1 1 1 6 5 601 322 48 33 87 Le + 5 1 1 1 6 6 674 324 130 33 87 renard + 5 1 1 1 6 7 827 325 92 33 90 brun + 4 1 1 1 7 0 101 366 733 44 -1 + 5 1 1 1 7 1 101 366 174 40 88 «rapide» + 5 1 1 1 7 2 302 373 102 28 88 saute + 5 1 1 1 7 3 428 371 214 39 87 par-dessus + 5 1 1 1 7 4 667 372 34 33 91 le + 5 1 1 1 7 5 725 374 109 33 90 chien + 4 1 1 1 8 0 100 419 760 46 -1 + 5 1 1 1 8 1 100 424 209 31 89 paresseux. + 5 1 1 1 8 2 337 419 48 32 90 La + 5 1 1 1 8 3 409 420 108 40 90 volpe + 5 1 1 1 8 4 543 430 165 26 89 marrone + 5 1 1 1 8 5 733 424 127 41 85 rapida + 4 1 1 1 9 0 100 466 735 46 -1 + 5 1 1 1 9 1 100 466 93 32 90 salta + 5 1 1 1 9 2 219 475 106 33 90 sopra + 5 1 1 1 9 3 351 468 26 32 90 i] + 5 1 1 1 9 4 403 478 89 24 90 cane + 5 1 1 1 9 5 517 471 117 41 89 pigro. + 5 1 1 1 9 6 662 473 42 32 96 El + 5 1 1 1 9 7 729 482 106 25 88 zorro + 4 1 1 1 10 0 99 516 735 48 -1 + 5 1 1 1 10 1 99 516 144 33 78 marrén + 5 1 1 1 10 2 268 517 128 41 77 répido + 5 1 1 1 10 3 421 520 93 33 90 salta + 5 1 1 1 10 4 540 521 105 34 93 sobre + 5 1 1 1 10 5 669 523 34 32 90 el + 5 1 1 1 10 6 728 532 106 32 87 perro + 4 1 1 1 11 0 98 568 732 46 -1 + 5 1 1 1 11 1 98 574 187 31 89 perezoso. + 5 1 1 1 11 2 313 568 30 31 92 A + 5 1 1 1 11 3 369 578 129 32 91 raposa + 5 1 1 1 11 4 523 579 155 26 89 marrom + 5 1 1 1 11 5 703 573 127 41 75 répida + 4 1 1 1 12 0 98 616 613 46 -1 + 5 1 1 1 12 1 98 616 93 32 86 salta + 5 1 1 1 12 2 217 617 104 33 90 sobre + 5 1 1 1 12 3 346 627 21 24 89 0 + 5 1 1 1 12 4 391 621 66 31 72 C50 + 5 1 1 1 12 5 481 621 230 41 74 preguieoso. + +## Using different Page Segmentation Modes + +The following examples are using this image with text in Devanagari script and Sanskrit language. + +![san002.png] (https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png) + + tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm6 -l san -psm 6 + +Output + + विर्व्य 16 + ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191 + दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213 + द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238 + द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263 + ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300 + पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329 + द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355 + द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360 + र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363 + अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365 + अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394 + क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397- + कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432 + गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति` 457 + गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488 + गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491 + यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493 + 'शिवगङ्गासद्दृस्रनत्माव'ळि 517 + गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531