Help:Conversions
Convertir un document depuis un format vers un autre dans Commons peut s'avérer utile
- pour produire des documents dérivés plus accessible ;
- parce que chaque format dispose de ses propres avantages ;
- si vous avez besoin de disposer d'au moins deux livres ouverts en même temps, dans différentes liseuses.
Ce peut ainsi être une bonne idée de disposer de livres dans plus d'un seul format.
Conversion de fichiers PDF
- bien que les documents PDF soient acceptés par Commons, ils peuvent malgré tout être peu accessibles.
Conversion de fichiers PDF en DJVU
Voir la page Aide:Conversion de PDF en DjVu.
Conversion de fichiers PDF en images
Voir la page Commons:Extracting_images_from_PDF#Extract_PDF_pages_as_images.
Extraction de texte à partir de fichiers PDF
Si le document PDF contient du texte sous une forme facile à extraire, vous pouvez utiliser l'un des outils suivants :
- la fonction "Save as text" de la liseuse Adobe Acrobat
- GSview et sa fonction "Edit/Text extract..."
- une fonction de STDUViewer : menu File -> Export -> to text
- les outils en ligne de commande de XPdf : pdftotext, pdftohtml.
Sinon, si le fichier PDF contient du texte sous forme d'images :
- Suivez les conseils de la section "Conversion de fichiers PDF en images" plus haut, puis suivez les conseils de la section "Conversion d'images en texte" plus loin.
Conversion de fichiers DjVu
La conversion de fichiers DjVu vers d'autres formats est utile car certains ne disposent pas de liseuses de fichiers DjVu sur leur appareil, et que d'autres formats peuvent être lus directement depuis le navigateur.
Conversion de fichiers DjVu en PDF
Voir la page Help:Converting DjVu to PDF
Conversion de fichiers DjVu en images
Utilisez les utilitaires en ligne de commande de DjVuLibre ddjvu
(décodeur DjVu decoder) ou djvups
(pour convertir vers du PostScript).
Extraction de texte à partir du format DjVu
WinDjView peut le faire, comme l'outil en ligne de commande de DjVuLibre : djvutxt
.
Conversion d'images
Conversion entre différents formats d'images
- utilisez le partagiciel (gratuit pour un usage personnel) IrfanView ou XnView (et son outil en ligne de commande NConvert), jpegcrop ou le logiciel libre ImageMagick pour des transformations plus complexes
Traitement d'images obtenues par numérisation
Les images obtenues par numérisation demandent fréquemment un peu de traitement avant de produire un fichier PDF ou DJVU à partir de celles-ci : recadrage, pivotement, découpage, réduction de la taille, conversion en TIFF, etc. L'application open source ScanTailor-Universal est conçue à cet effet. Elle peut être téléchargée depuis la page des versions publiées du projet.
Création de fichiers PDF à partir d'images
- img2pdf, un programme à source libre en mode ligne de commande ; utilisé pour convertir des images sans perte, en PDF. Il peut également initialiser des méta-données (comme le titre et l'auteur) et définir la présentation du fichier résultat dans un afficheur de fichiers PDF.
La commande suivante récupère tous les fichiers du répertoire courant et les convertit en un PDF unique appelé test.pdf
en plaçant le titre et l'auteur dans les métadonnées :
img2pdf --title "Mon premier PDF" --author "Jack Example" --output test.pdf *
Note that this assumes the current directory does not contain non-image files or sub-folders. If all your source files are of a single type, such as JPEGs, you can specify *.jpg
as the input instead. You can also specify multiple input files individually.
Exécuter img2pdf --help
pour voir tout ce que img2pdf peut faire.
img2pdf is available from the Python Package Index and is also included in the repositories of many Linux distributions. A Windows executable is also available via the project's Appveyor.
- ImageMagick et GraphicsMagick, lorsqu'ils sont installés avec GhostScript, peuvent aussi être utilisés pour convertir des images en fichiers PDF.
The following command will use ImageMagick's mogrify tool to convert all JPEG files to individual PDF files and place them in a subfolder named "pdf":
mogrify -format pdf -path pdf/ *.jpg
On some Linux distributions, the default ImageMagick security policy will block the program from handling PDF files. See this StackOverflow question for how to change the security policy.
Création de fichiers PDF à partir d'images bitonales
Bitonal images (ie. images that only contain a single shade of black and white) are a very efficient way of storing scanned documents that only contain text or other simple elements that only need two colors to be clearly represented. A high-quality bitonal text page is commonly only tens of kilobytes in size.
There are two bitonal compression methods used in PDF files, namely the CCITT Group 4 Fax compression and the JBIG2 compression. The latter is more efficient but has some perceived patent issues associated with it, resulting in JBIG2 encoding functionality often being missing or disabled in PDF creation software. However, it is sometimes possible to enable such functionality by installing the encoder yourself.
There are a number of tools for converting images to use bitonal compression. ScanTailor-Universal is an open-source tool for processing scanned pages that can output bitonal images. ImageMagick and GraphicsMagick are also able to do this with the -threshold
option.
The following ImageMagick command converts all .jpg files in a folder into bitonal TIF files using Group 4 compression and places them into a folder named "bitonal":
mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg
Essayez plusieurs valeurs de -threshold
pour voir celle qui fournira les meilleurs résultats avec votre contenu.
Conversion JBIG2
OCRmyPDF is an open-source command line program mainly designed to add an OCR text layer to scanned PDF files. One of its additional features is its ability to optimize PDF files, which includes the conversion of other bitonal image formats to JBIG2. This requires the installation of the jbig2enc encoder. Compilation and installation instructions for Linux users are available here, and a third-party Windows executable is available here. The MacOS version packaged in Homebrew already includes jbig2enc.
See here for how to install OCRmyPDF on Windows. Many Linux distributions come with an OCRmyPDF package included in the repositories, though this may be outdated. OCRmyPDF is also available on pip.
The following command uses OCRmyPDF to add an OCR text layer to a PDF and arranges the PDF in a way that allows a web browser to start displaying it before it has been fully downloaded:
ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf
OCRmyPDF by default losslessly optimizes the PDF, so bitonal images are automatically converted to JBIG2 if jbig2enc is installed.
If you want to skip the OCR process because you don't need to OCR the PDF, use --tesseract-timeout 0
to skip OCR altogether.
Voir la documentation de OCRmyPDF pour d'autres exemples d'utilisation.
Création de fichiers DjVu à partir d'images
Utilisez les outils en ligne de commande de DjVuLibre, c44, (pour les images en couleurs) et cjb2 (pour les images en deux tons) pour convertir des images en fichiers DjVu d'une seule page, puis de les fusionner avec djvm.
Exemple de ligne de commande avec c44 :
c44 [options] pnm-or-jpeg-file [djvufile]
Les options importantes sont -slice, -dpi et -mask. -Slice définit le nombre de "tranches" dans chaque "chuck" (qui est un des termes un peu spéciaux de DjVu). Le fait de fournir trois nombres signifie qu'il y aura trois "chunks", et quatre nombres produira quatre chunks. Ces nombres affectent de manière significative la qualité et la taille - faites des essais et consultez la documentation.
c44 -slice -slice 74+13+10 -dpi 150 pnm-or-jpeg-file [djvufile]
Selon l'aide de l'encodeur bitonal cjb2, très claire :
Usage: cjb2 [options] <input-pbm-or-tiff> <output-djvu> Options are: -verbose Display additional messages. -dpi <n> Specify image resolution (default 300). -clean Cleanup image by removing small flyspecks. -lossy Lossy compression (implies -clean as well) -losslevel <n> Loss factor (implies -lossy, default 100) Encoding is lossless unless a lossy options is selected.
Dans de nombreux cas, -losslevel peut sans danger être positionné à une valeur aussi basse que 50.
Pour plus de détails, voir la documentation de DjVuLibre.
Minidjvu permet de convertir des pages uniques et des groupes de pages en noir et blanc au format TIFF, BMP et PBM vers le format DjVu et réciproquement. Il dispose d'un habillage graphique simple. Sa capacité à gérer les fichiers TIFF multi-pages est un avantage notable par rapport aux outils de DjVuLibre tools.
minidjvu 0.8 - encode/decode bitonal DjVu files Usage: single page encoding/decoding: minidjvu [options] <input file> <output file> multiple pages encoding: minidjvu [options] <input file> ... <output file> Formats supported: DjVu (single-page bitonal), PBM, Windows BMP, TIFF. Options: -A, --Averaging: compute "average" representatives -a <n>, --aggression <n>: set aggression level (default 100) -c, --clean remove small black pieces -d <n> --dpi <n>: set resolution in dots per inch -e, --erosion sacrifice quality to gain in size -i, --indirect: generate an indirect multipage document -l, --lossy: use all lossy options (-s -c -m -e -A) -m, --match: match and substitute patterns -n, --no-prototypes: do not search for prototypes -p <n>, --pages-per-dict <n>: pages per dictionary (default 10) -r, --report: report multipage coding progress -s, --smooth: remove some badly looking pixels
- DjVuSolo dispose de la capacité de créer des fichiers DjVu.
- Quelques scripts avancés sont disponibles pour effectuer cette tâche.
Conversion d'images vers du texte
gImageReader
- gImageReader is an open-source application for extracting text from images and image-based PDF documents. It's able to automatically detect the layout of text and post-process the recognized text, including spell checking and removal of line breaks. It uses Tesseract for text recognition, and as such it supports any language that Tesseract does.
IrfanView
- utilisez, dans IrfanView, le menu "Option/Start OCR" (OCR est le signe en anglais pour la reconnaissance optique de caractères) afin d'extraire le texte. Au 20 février 2010, l'extension KADMOS OCR pour Irfanview était limitée à environ six pages, en fonction de la mémoire libre sur votre ordinateur (elle a besoin d'un Go pour 10 pages).
Pdf X-Change Viewer
- Utilisez la fonction de reconnaissance de caractères de PDF-XChange Viewer : Document -> OCR pages.
Moteur Tesseract
- ou utilisez le logiciel libre en open source tesseract (Linux, Mac OS X ou Windows) :
- téléchargez le logiciel "tesseract" ainsi que les jeux de traduction "tessdata" correspondant aux langues figurant dans le document numérisé, ces derniers étant à décompresser dans le même dossier ; la version pour Windows ne nécessite pas d'installation
- récupérez un document numérisé avec la meilleure résolution possible, et si nécessaire agrandissez encore l'image numérisée (en utilisant une fonction de redimensionnement rapide, les filtres de ré-échantillonnage sont à éviter) jusqu'à ce que les caractères fassent plus de 20 pixels de hauteur (faites des essais afin d'obtenir le meilleur résultat) et sauvez le tout au format TIFF non compressé (avec ImageMagick ou IrfanView) ; vous aurez besoin de beaucoup d'espace disque
- faites d'abord des essais sur de petites portions du document car la reconnaissance peut prendre plusieurs minutes par page
- tesseract peut planter si les éléments analysés représentent plus de 12 pages environ
- utilisez la commande "tesseract.exe document_source.tif résultat"
eScriptorium
- Use the free Open Source software eScriptorium with Kraken. The server component can be installed on Linux, macOS or Windows (with WSL). The client side is a web application which works in any modern web browser. It allows segmentation of text regions and lines and recognition of printed text and handwriting. Both segmentation and recognition can be trained.
Google dispose d'un outil de reconnaissance optique de caractères (OCR). Voir :
- https://tools.wmflabs.org/ws-google-ocr/
- https://wikisource.org/wiki/Wikisource:Google_OCR
- https://cloud.google.com/vision/docs/ocr
Dans tous les cas, vous aurez besoin de convertir par sections. Il vous faudra corriger manuellement le texte produit car la conversion n'est pas parfaite.
Conversion vidéo
Voir Help:Conversion vidéo.
Davantage d'aide
Vous pouvez demander de l'aide au Commons:Help desk.
Voir aussi
- Commons:Audio
- Commons:Video (en anglais)
- Help:Numérisation