Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
gscan2pdf [Le 21/12/2021, 09:06] wiki-corrector-bot passage de http à https sur les liens externes (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892) |
gscan2pdf [Le 19/09/2022, 21:01] (Version actuelle) f2ot [Pour la ROC avec tesseract] |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | |||
{{tag>Xenial scanner graphisme ocr pdf}} | {{tag>Xenial scanner graphisme ocr pdf}} | ||
Ligne 17: | Ligne 16: | ||
gscan2pdf permet d'enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy). | gscan2pdf permet d'enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy). | ||
- | **gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:tesseract-ocr|tesseract]] ou [[:ocr#gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract. L'intégration d'OCRopus pour la ROC sur des documents à mise en page complexe sera faite prochainement dans gscan2pdf (version 0.9.30 sans doute, vers mai-juin 2009). | + | **gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:tesseract-ocr|tesseract]] ou [[:ocr#gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract. |
Ligne 42: | Ligne 41: | ||
* **il est possible de réaliser directement la ROC sur le document scanné** : Menu "Fichier --> Scanner", puis, dans l'onglet "Options de la page", cocher la case "Effectuer la reconnaissance optique de caractères sur les pages scannées", sélectionner "Tesseract" comme moteur de reconnaissance optique de caractères et sélectionner la langue qui sera utilisée pour le post-traitement de la ROC. Dans l'onglet "Scan Options", il faut chercher les options permettant d'obtenir le meilleur résultat de ROC en fonction de votre document. Pour du texte imprimé en noir et blanc avec des polices de 10 à 12, le mode "Noir et blanc" associé à une résolution de 300 ppi semble convenir. | * **il est possible de réaliser directement la ROC sur le document scanné** : Menu "Fichier --> Scanner", puis, dans l'onglet "Options de la page", cocher la case "Effectuer la reconnaissance optique de caractères sur les pages scannées", sélectionner "Tesseract" comme moteur de reconnaissance optique de caractères et sélectionner la langue qui sera utilisée pour le post-traitement de la ROC. Dans l'onglet "Scan Options", il faut chercher les options permettant d'obtenir le meilleur résultat de ROC en fonction de votre document. Pour du texte imprimé en noir et blanc avec des polices de 10 à 12, le mode "Noir et blanc" associé à une résolution de 300 ppi semble convenir. | ||
- | * **on peut aussi réaliser de la ROC sur des fichiers déjà enregistrés** au format TIFF (TIF), PNG, JPEG (JPG), ou image PDF... Pour cela : Menu "Fichier --> Importer", sélectionner le fichier et valider. Bien que tesseract ne puisse opérer directement que sur des fichiers au format TIFF (TIF), gscan2pdf permet de réaliser la reconnaissance optique de caractères avec tesseract sur des fichiers aux formats PNG, JPEG (JPG)... (pour permettre cela, gscan2pdf utilise imagemagick pour convertir temporairement au format TIFF les fichiers ayant d'autres extensions). | + | * **on peut aussi réaliser de la ROC sur des fichiers déjà enregistrés** au format TIFF (TIF), PNG, JPEG (JPG), ou image PDF... Pour cela : Menu "Fichier --> Ouvrir", sélectionner le fichier et valider. Bien que tesseract ne puisse opérer directement que sur des fichiers au format TIFF (TIF), gscan2pdf permet de réaliser la reconnaissance optique de caractères avec tesseract sur des fichiers aux formats PNG, JPEG (JPG)... (pour permettre cela, gscan2pdf utilise imagemagick pour convertir temporairement au format TIFF les fichiers ayant d'autres extensions). Pour lancer la reconnaissance des caractères: Menu "Outils --> ROC", sélectionner la langue et démarrer la reconnaissance optique des caractères. |
- | <note>Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante, sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparait dans la liste seulement par la lettre "**f**"... à ne pas confondre avec "**français**", sinon vous aurez des surprises ;-)</note> | + | <note>Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante, sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "**f**"... à ne pas confondre avec "**français**", sinon vous aurez des surprises ;-)</note> |
- | **Le résultat de la ROC apparait dans l'onglet 'OCR Output' de la fenêtre gscan2pdf.** Si rien n'apparait dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil --> nettoyer (clean up)) de gscan2pdf. | + | **Le résultat de la ROC apparaît dans l'onglet 'Calque du texte' de la fenêtre gscan2pdf. Pour sauvegarder le résultat, il faut enregistrer l'image sous un format qui contient les caractères (Texte, PDF...). ** Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil --> nettoyer (clean up)) de gscan2pdf. |
<note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "unpaper"** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF : | <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "unpaper"** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF : | ||
Ligne 73: | Ligne 72: | ||
Onglet Options de la page > Post-traitement : Désactiver la case "Effectuer la reconnaissance optique de caractères sur les pages scannées". | Onglet Options de la page > Post-traitement : Désactiver la case "Effectuer la reconnaissance optique de caractères sur les pages scannées". | ||
- | Pour améliorer la photocopie en noir et blanc : | + | Pour améliorer la photocopie en noir et blanc : |
1) Onglet Mode de numérisation : Choisissez le mode Trait | 1) Onglet Mode de numérisation : Choisissez le mode Trait |