Extraire le contenu d’un document PDF


Si le document PDF a été bien conçu (le texte est bien du texte et non vectoriel ou pire, une image), alors il peut éventuellement être récupéré dans un fichier texte avec pdftotext.

  pdftotext document.pdf

Cette commande produit un fichier nommé document.txt.

Vous pouvez également extraire toutes les images avec pdfimages.

  pdfimages document.pdf prefixe

Cette commande va produire autant de fichier préfixés par prefixe au format PPM, un format très basique destiné à faciliter l’inter-opérabilité.