Page 1 sur 1

.pdf, avec OCR ou pas ?

Message Publié : 13 Nov 2021, 16:05
par com_71
Il y a eu par ailleurs cet échange :
GdM a écrit :...Bien sûr, mais ce [les cahiers Léon Trotsky sur marxists.org] sont des photocopies des pages, alors que sur ce site [http://cahiers-leon-trotsky.eu/], il est proposé des fichiers corrigés aux formats textes pdf et word. Ce n’est pas pareil : c’est utilisable...

com a écrit :...Vérification faite (sur le numéro 1), non, les .pdf de marxists.org ne sont pas des fac-similés, mais incluent la reconnaissance des caractères (OCR).

Quelques tentatives d'explications :

Les .pdf peuvent être de simples images scannées, comme des photocopies (ex. les scans des vieux numéros de VO et LO https://journal.lutte-ouvriere.org/journal/archives). Dans ce cas, ils peuvent être lus sur ordi ou sur tablette, mais on ne peut pas y faire des recherches de mots ou d'expressions, ou les transformer en ebooks lisibles aisément sur une liseuse.

Ou alors les .pdf issus d'un scan peuvent, bien qu'ayant le même aspect de photocopies, inclure une reconnaissance caractère par caractère [OCR]. Dans ce cas (ex : https://www.marxists.org/francais/clt/index.htm) on pourra lancer des recherches, faire des copier-coller et en faire aisément - avec le logiciel calibre - des ebooks, lisibles sur liseuse.

Les .pdf obtenus à partir d'un logiciel de traitement de texte (comme word), incluent évidemment la reconnaissance caractère par caractère. (ex. http://cahiers-leon-trotsky.eu/)

Re: .pdf, avec OCR ou pas ?

Message Publié : 13 Nov 2021, 18:44
par Zorglub
Pour être plus précis, le PDF est une sorte de conteneur qui contient image, texte, ou les deux.
Un traitement de texte permet de sortir un PDF texte (en plus d'éventuelles images), l'OCR (optical character recognition) n'entre pas en jeu ici.
Pour les PDF image, l'OCR peut se pratiquer a posteriori ou bien à la volée avec certains scanners.

Re: .pdf, avec OCR ou pas ?

Message Publié : 13 Nov 2021, 18:49
par Zorglub
Je ne peux pas éditer mon message. Je me réponds donc. Il y a Paperwork, un logiciel libre très pratique, fonctionnant sous GNU/Linux (dispo pour Ubuntu et d'autres) et Windows. Vous mettez vos PDF, image ou texte, dans un dossier (et éventuels sous-dossiers), et Paperwork va les analyser avec OCR au besoin puis les indexer. Ainsi au lieu de trier vous faites une recherche.