
SCAN, PDF et OCR en cours
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5600
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
Re: OCR en cours
Et les gratuits cités? (je n'ai aucune expertise dans ça, et malheureusement pas le temps de m'y pencher
)

Le passé, c'était mieux avant
Re: OCR en cours
Relis la citation que j'ai extraite de l'article : ils déconseillent les gratuits.
Notre site : https://www.ginungagap.fr/
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5600
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
Re: OCR en cours
Oui mais je suppose qu'ils les déconseillent pour les non-initiés ou pour ceux qui veulent faire des trucs compliqués. C'est souvent le cas dans ces bancs d'essais, ils sont quand même très pointilleux (et pointus) les mecs.
Le passé, c'était mieux avant
Re: OCR en cours
Pour avoir testé de l'OCR sur du texte pur (pas d'image), je sais que la reconnaissance des caractères d'imprimerie est super importante (notamment les accents et les apostrophes). Je suppose que c'est là que le bât blesse. Et si en plus tu ajoutes la gestion des images et leur positionnement dans le document...
Jette un œil aux critiques des deux derniers logiciels, tu verras que même des logiciels pro ont du mal à tout gérer.
Et en cherchant des avis sur les gratuits cités, je trouve des notes lamentables sur les forum de type 01net / Commentçamarche / etc. ou un commentaire du style "peu concluant", "les caractères doivent être bien espacés", ...
Jette un œil aux critiques des deux derniers logiciels, tu verras que même des logiciels pro ont du mal à tout gérer.
Et en cherchant des avis sur les gratuits cités, je trouve des notes lamentables sur les forum de type 01net / Commentçamarche / etc. ou un commentaire du style "peu concluant", "les caractères doivent être bien espacés", ...
Notre site : https://www.ginungagap.fr/
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5600
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
- Rag-naroth
- Rédacteur
- Messages : 219
- Inscription : lun. 25 août 2014 18:17
- Localisation : sur le forum d'à coté !
- Contact :
Re: OCR en cours
... oui, c'est très galère ! Comme dit la moitié même avec un logiciel pro (Adobe acrobat pro, en l’occurrence), il y a des heures de taf ! Il faut systématiquement repasser derrière le logiciel qui confond allègrement les i maj avec les l ou le i min avec le :, les a avec le = , le t et le f , sans parler de la ponctuation, où la moindre tache devient un point, une virgule. En fonction des polices de caractères, qu'il veut mieux avoir sur son ordi d'ailleurs, le logiciel peut carrément jeter l'éponge et ne rien détecter. Bref, un vrai boulot de m...
un exemple avec un texte bien net et un logiciel pro :
un exemple avec un texte bien net et un logiciel pro :
Vous ne pouvez pas consulter les pièces jointes insérées à ce message.
Re: OCR en cours
Moâ je trouve pdf xviewer TRÈS bien.
Mais il ne diminue pô la taille du fichier de départ!
Sinon parfait pour mon usage!
J'ai OCRisé les masques d'Athanor et (pour moâ) c'est parfait sans avoir fait trop de retouches!
Mais il ne diminue pô la taille du fichier de départ!
Sinon parfait pour mon usage!
J'ai OCRisé les masques d'Athanor et (pour moâ) c'est parfait sans avoir fait trop de retouches!
"Il vient une heure où protester ne suffit plus, après la philosophie, il faut l'action, la vive force achève ce que l'idée a ébauché." V. HUGO
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5600
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
Re: OCR en cours
Oui c'est sûr que c'est chouette quand même. Ce qui est le plus ennuyeux est qu'on ne gagne rien en visibilité
et que le fond est toujours aussi dégueu. C'est vraiment dommage ça.

Le passé, c'était mieux avant
Re: OCR en cours
Euh, si je le scanne mieux, est-ce que ça arrangera l'ocrisation ou on va s'embêter pour rien ?
Notre site : https://www.ginungagap.fr/
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5600
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
Re: OCR en cours
Déjà on aura plus le fond dégueulasse... Là où le texte est le plus mal OCRisé dans le pdf, c'est là où le fond bavait sur le texte. Plus le texte est clair, plus ça devrait être bien OCRisé.
Après, si on peut remplacer certaines pages uniquement dans le PDF, tu peux peut-être ne scanner que les pages qui sont actuellement dégueu. Non?
Après, si on peut remplacer certaines pages uniquement dans le PDF, tu peux peut-être ne scanner que les pages qui sont actuellement dégueu. Non?
Le passé, c'était mieux avant