.pdf, avec OCR ou pas ?

.pdf, avec OCR ou pas ?

Message par com_71 » 13 Nov 2021, 16:05

Il y a eu par ailleurs cet échange :
GdM a écrit :...Bien sûr, mais ce [les cahiers Léon Trotsky sur marxists.org] sont des photocopies des pages, alors que sur ce site [http://cahiers-leon-trotsky.eu/], il est proposé des fichiers corrigés aux formats textes pdf et word. Ce n’est pas pareil : c’est utilisable...

com a écrit :...Vérification faite (sur le numéro 1), non, les .pdf de marxists.org ne sont pas des fac-similés, mais incluent la reconnaissance des caractères (OCR).

Quelques tentatives d'explications :

Les .pdf peuvent être de simples images scannées, comme des photocopies (ex. les scans des vieux numéros de VO et LO https://journal.lutte-ouvriere.org/journal/archives). Dans ce cas, ils peuvent être lus sur ordi ou sur tablette, mais on ne peut pas y faire des recherches de mots ou d'expressions, ou les transformer en ebooks lisibles aisément sur une liseuse.

Ou alors les .pdf issus d'un scan peuvent, bien qu'ayant le même aspect de photocopies, inclure une reconnaissance caractère par caractère [OCR]. Dans ce cas (ex : https://www.marxists.org/francais/clt/index.htm) on pourra lancer des recherches, faire des copier-coller et en faire aisément - avec le logiciel calibre - des ebooks, lisibles sur liseuse.

Les .pdf obtenus à partir d'un logiciel de traitement de texte (comme word), incluent évidemment la reconnaissance caractère par caractère. (ex. http://cahiers-leon-trotsky.eu/)
L’intérêt ne pense pas, il calcule. Les motifs sont ses chiffres. K. Marx, « Débats sur la loi relative au vol de bois » 1842.
Avatar de l’utilisateur
com_71
 
Message(s) : 6002
Inscription : 12 Oct 2002, 00:14

Re: .pdf, avec OCR ou pas ?

Message par Zorglub » 13 Nov 2021, 18:44

Pour être plus précis, le PDF est une sorte de conteneur qui contient image, texte, ou les deux.
Un traitement de texte permet de sortir un PDF texte (en plus d'éventuelles images), l'OCR (optical character recognition) n'entre pas en jeu ici.
Pour les PDF image, l'OCR peut se pratiquer a posteriori ou bien à la volée avec certains scanners.
Zorglub
 
Message(s) : 967
Inscription : 27 Fév 2009, 01:26

Re: .pdf, avec OCR ou pas ?

Message par Zorglub » 13 Nov 2021, 18:49

Je ne peux pas éditer mon message. Je me réponds donc. Il y a Paperwork, un logiciel libre très pratique, fonctionnant sous GNU/Linux (dispo pour Ubuntu et d'autres) et Windows. Vous mettez vos PDF, image ou texte, dans un dossier (et éventuels sous-dossiers), et Paperwork va les analyser avec OCR au besoin puis les indexer. Ainsi au lieu de trier vous faites une recherche.
Zorglub
 
Message(s) : 967
Inscription : 27 Fév 2009, 01:26


Retour vers Divers

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 13 invité(s)