Updated Command Line Usage (markdown)

Shreeshrii 2016-03-18 15:48:09 +05:30
parent 59555e6b1a
commit b16a625b4a

@ -94,42 +94,13 @@ Output
salta sobre o cäo preguieoso.
The output can be different based on the order of languages, so -l eng+deu can give different result than -l deu+eng.
## Using different Page Segmentation Modes
The following examples are using this image with text in Devanagari script and Sanskrit language.
![san002.png] (https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png)
tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm6 -l san -psm 6
Output
विर्व्य 16
ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191
दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213
द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238
द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263
ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300
पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329
द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355
द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360
र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363
अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365
अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394
क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397-
कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432
गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति` 457
गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488
गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491
यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493
'शिवगङ्गासद्दृस्रनत्माव'ळि 517
गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531
## Searchable pdf output
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng pdf
This creates a pdf with the image and a separate searchable text layer with the recognized text.
## HOCR output
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng hocr
@ -181,7 +152,123 @@ Output
</html>
## TSV output (only available in 3.05-dev in master branch)
## TSV output (Currently available in 3.05-dev in master branch on github)
tesseract --tessdata-dir ./ ./testing/eurotext.png ./testing/eurotext-eng -l eng tsv
Output
level page_num block_num par_num line_num word_num left top width height conf text
1 1 0 0 0 0 0 0 1024 800 -1
2 1 1 0 0 0 98 66 821 596 -1
3 1 1 1 0 0 98 66 821 596 -1
4 1 1 1 1 0 105 66 719 48 -1
5 1 1 1 1 1 105 66 74 32 90 The
5 1 1 1 1 2 205 67 143 40 87 (quick)
5 1 1 1 1 3 376 69 153 41 89 [brown]
5 1 1 1 1 4 559 71 105 40 89 {fox}
5 1 1 1 1 5 687 73 137 41 89 jumps!
4 1 1 1 2 0 104 115 784 51 -1
5 1 1 1 2 1 104 115 96 33 91 Over
5 1 1 1 2 2 224 117 60 32 89 the
5 1 1 1 2 3 310 117 224 39 88 $43,456.78
5 1 1 1 2 4 561 121 136 42 92 <lazy>
5 1 1 1 2 5 722 123 70 32 92 #90
5 1 1 1 2 6 818 125 70 41 89 dog
4 1 1 1 3 0 103 165 733 42 -1
5 1 1 1 3 1 103 165 32 32 91 &
5 1 1 1 3 2 160 166 237 41 88 duck/goose,
5 1 1 1 3 3 424 178 40 24 92 as
5 1 1 1 3 4 493 171 122 33 91 12.5%
5 1 1 1 3 5 638 172 43 33 89 of
5 1 1 1 3 6 700 174 136 33 91 E-mail
4 1 1 1 4 0 103 215 809 50 -1
5 1 1 1 4 1 103 215 92 33 89 from
5 1 1 1 4 2 220 219 497 42 87 aspammer@website.com
5 1 1 1 4 3 742 223 32 33 93 is
5 1 1 1 4 4 799 233 113 32 88 spam.
4 1 1 1 5 0 102 266 776 49 -1
5 1 1 1 5 1 102 266 72 32 89 Der
5 1 1 1 5 2 198 267 209 36 78 ,,schnelle”
5 1 1 1 5 3 433 269 136 34 91 braune
5 1 1 1 5 4 594 272 116 33 91 Fuchs
5 1 1 1 5 5 735 274 143 41 83 springt
4 1 1 1 6 0 102 315 817 43 -1
5 1 1 1 6 1 102 315 86 33 75 fiber
5 1 1 1 6 2 212 317 69 32 91 den
5 1 1 1 6 3 306 318 125 33 86 faulen
5 1 1 1 6 4 456 320 117 33 92 Hund.
5 1 1 1 6 5 601 322 48 33 87 Le
5 1 1 1 6 6 674 324 130 33 87 renard
5 1 1 1 6 7 827 325 92 33 90 brun
4 1 1 1 7 0 101 366 733 44 -1
5 1 1 1 7 1 101 366 174 40 88 «rapide»
5 1 1 1 7 2 302 373 102 28 88 saute
5 1 1 1 7 3 428 371 214 39 87 par-dessus
5 1 1 1 7 4 667 372 34 33 91 le
5 1 1 1 7 5 725 374 109 33 90 chien
4 1 1 1 8 0 100 419 760 46 -1
5 1 1 1 8 1 100 424 209 31 89 paresseux.
5 1 1 1 8 2 337 419 48 32 90 La
5 1 1 1 8 3 409 420 108 40 90 volpe
5 1 1 1 8 4 543 430 165 26 89 marrone
5 1 1 1 8 5 733 424 127 41 85 rapida
4 1 1 1 9 0 100 466 735 46 -1
5 1 1 1 9 1 100 466 93 32 90 salta
5 1 1 1 9 2 219 475 106 33 90 sopra
5 1 1 1 9 3 351 468 26 32 90 i]
5 1 1 1 9 4 403 478 89 24 90 cane
5 1 1 1 9 5 517 471 117 41 89 pigro.
5 1 1 1 9 6 662 473 42 32 96 El
5 1 1 1 9 7 729 482 106 25 88 zorro
4 1 1 1 10 0 99 516 735 48 -1
5 1 1 1 10 1 99 516 144 33 78 marrén
5 1 1 1 10 2 268 517 128 41 77 répido
5 1 1 1 10 3 421 520 93 33 90 salta
5 1 1 1 10 4 540 521 105 34 93 sobre
5 1 1 1 10 5 669 523 34 32 90 el
5 1 1 1 10 6 728 532 106 32 87 perro
4 1 1 1 11 0 98 568 732 46 -1
5 1 1 1 11 1 98 574 187 31 89 perezoso.
5 1 1 1 11 2 313 568 30 31 92 A
5 1 1 1 11 3 369 578 129 32 91 raposa
5 1 1 1 11 4 523 579 155 26 89 marrom
5 1 1 1 11 5 703 573 127 41 75 répida
4 1 1 1 12 0 98 616 613 46 -1
5 1 1 1 12 1 98 616 93 32 86 salta
5 1 1 1 12 2 217 617 104 33 90 sobre
5 1 1 1 12 3 346 627 21 24 89 0
5 1 1 1 12 4 391 621 66 31 72 C50
5 1 1 1 12 5 481 621 230 41 74 preguieoso.
## Using different Page Segmentation Modes
The following examples are using this image with text in Devanagari script and Sanskrit language.
![san002.png] (https://cloud.githubusercontent.com/assets/82178/13678011/81953684-e6ba-11e5-91e8-5c40518e94a6.png)
tesseract --tessdata-dir /usr/share testing/san002.png testing/san002-psm6 -l san -psm 6
Output
विर्व्य 16
ज्यालत्रुखीसह्स्रनामक्तोव्रम्- नामाकळिट्. 191
दुर्गासहस्रनामस्तीत्रम्- १ नामांक्ळिन्नू ॰213
द्रुर्गासहस्रनत्मस्तीन्रम्- २ नामावळिऽ 238
द्दुगसिद्द्स्रनत्मक्तोत्रम्दकाराद्दि(३) नामाव'ळिऽ 263
ट्टुगसिहस्रनामक्तोत्रम्- ४ नामावळिइं 300
पार्वतीं ह्यो) सहस्रनामातोत्रम्- नामावळिऽ’ 329
द्दुर्गानवाक्षरीन्निशतींनत्माव'क्ति 355
द्बुर्गाष्टोत्तरङ्प्तनत्मरतोव्रम्- नामावक्ति 360
र्व्यत्मामस्वोत्रम्- नामाक्ळिऽ 363
अन्नपूण्स्सिहस्रनत्मस्तीत्रम्- नामावक्ति 365
अन्नघूर्गाष्टोत्तस्यातनामस्तीन्रम्- नामावक्ति 394
क्रुलकुर्व्यसहस्रनत्मक्तोत्रम्- कवचम्… नामावळिथ् 397-
कुमारींसहृस्रनामक्तोन्नम्- नामावळिय् 432
गङ्ग’म्यासद्वृस्रनप्मक्तोव्रम्- नाम।वक्ति` 457
गङ्ग’म्याष्टोत्तराप्तनामप्तोत्रम्- नामावळिऽ 488
गङ्गादातनप्तास्तोत्रम्- नामावक्ति 491
यमुनासहस्रनामरतोव्रम्- नम्पावळिय् 493
'शिवगङ्गासद्दृस्रनत्माव'ळि 517
गम्पत्रीसह्स्रनत्मक्तोत्रम्- नाम।व'ळिऽ (१) 531