Help:अंतरण

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Help:Converting and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Help:Converting and have to be approved by a translation administrator.

किसी दस्तावेज़ को एक प्रारूप से दूसरे में अंतरित करना (बदलना) काफी उपयोगी हो सकता है

  • ज़्यादा लोगों को पहुँचाए जाने योग्य व्युत्पन्न कार्य बनाने के लिए;
  • क्योंकि हर प्रारूप के अपने फायदे हैं;
  • अगर आप दो वीक्षकों में एक साथ दो या अधिक किताबें एक साथ खोलना चाहते हों।

तो किताबें एक से ज़्यादा प्रारूपों में रखना अच्छा होता है।

PDF को बदलना

  • हालाँकि PDF दस्तावेज़ कॉमन्स द्वारा स्वीकृत हैं, उनका इस्तेमाल करना फिर भी मुश्किल हो सकता है।

PDF को DJVU में बदलना

PDF को DJVU में बदलने का पृष्ठ देखें।

PDF को चित्रों में बदलना

Commons:Extracting images from PDF#Extract PDF pages as images पृष्ठ देखें।

PDF से टेक्स्ट एक्सट्रैक्ट करना

अगर PDF में, किसी आसानी से एक्सट्रैक्ट किए जाने वाले प्रारूप में टेक्स्ट मौजूद है, इनमें से किसी का इस्तेमाल करें:

वरना अगर PDF में चित्रों के रूप में टेक्स्ट है:

  • ऊपर के "PDF को चित्रों में बदलना" के अनुदेशों का पालन करें, और फिर नीचे "चित्र प्रारूपों से टेक्स्ट में बदलना (OCR)" के अनुदेशों का पालन करें।

DjVu को बदलना

DjVu को दूसरे प्रारूपों में बदलना उपयोगी है क्योंकि सभी के पास DjVu वीक्षक स्थापित न भी हो सकते हैं, और दूसरे प्रारूप आसानी से ब्राउज़र में देखे जा सकते हैं।

DjVu को PDF में बदलना

Help:Converting DjVu to PDF पृष्ठ देखें।

DjVu को चित्रों में बदलना

DjVuLibre कमांड पंक्ति उपकरण ddjvu (DjVu डीकोडर) या djvups (पोस्टस्क्रिप्ट में बदलने के लिए) का इस्तेमाल करें।

DjVu से टेक्स्ट एक्सट्रैक्ट करना

WinDjView या फिर DjVuLibre का कमांड पंक्ति उपकरण djvutxt ऐसा कर सकता है।

चित्रों को बदलना

चित्र प्रारूपों के बीच बदलना

  • (निजी उपयोग के लिए निःशुल्क) शेयरवेयर IrfanView या XnView (और इसके कमांड पंक्ति उपकरण NConvert), jpegcrop, या फिर उन्नत बदलाव करने के लिए मुक्त सॉफ़्टवेयर ImageMagick का इस्तेमाल करें।

स्कैनर से निकाले गए चित्रों को प्रोसेस करना

स्कैनर से निकाले गए चित्रों को PDF या DJVU में बदलने से पहले थोड़ा प्रोसेस करना पड़ता है: क्रॉप करना, घुमाना, काटना, आकार घटाना, TIFF में बदलना, आदि। मुक्त-स्रोत ऐप्लिकेशन ScanTailor-Universal इसी काम के लिए बना है। इसे परियोजना के प्रकाशन पृष्ठ से डाउनलोड किया जा सकता है।

चित्रों से PDF बनाना

  • img2pdf, एक मुक्त-स्रोत कमांड पंक्ति प्रोग्राम, चित्रों को लॉसलेस रूप से PDF में बदलने के लिए बनाया गया है। यह मेटाडेटा (जैसे शीर्षक और लेखक) सेट कर सकता है और यह सेट कर सकता है कि किसी PDF वीक्षण प्रोग्राम में PDF फ़ाइल किस तरह दिखाई जानी चाहिए।

निम्न कमांड वर्तमान फ़ोल्डर में सभी फ़ाइलें लेगा और उन्हें शीर्षक और लेखक के मेटाडेटा के साथ टेस्ट.pdf नामक एक PDF फ़ाइल में बदल देगा:

img2pdf --title "मेरा पहला PDF" --author "राहुल उदाहरण" --output टेस्ट.pdf *

ध्यान रखें कि यहाँ मान लिया जाएगा कि वर्तमान डिरेक्ट्री में सिर्फ चित्र फ़ाइलें ही हैं और कोई उप-फ़ोल्डर नहीं है। अगर आपकी सभी स्रोत फ़ाइलें किसी एक प्रकार के हैं, जैसे JPEG, आप इनपुट में *.jpg डाल सकते हैं। आप कई इनपुट फ़ाइलें एक-एक करके भी डाल सकते हैं।

img2pdf की सभी सुविधाओं के लिए img2pdf --help डालें।

img2pdf, Python Package Index से उपलब्ध है और यह कई लिनक्स वितरणों की रिपॉज़िटरियों में भी शामिल है। परियोजना के Appveyor से एक Windows निष्पादनीय फ़ाइल भी उपलब्ध है।

निम्न कमांड सभी JPEG फ़ाइलों को अलग-अलग PDF फ़ाइलों में बदलकर उन्हें "pdf" नामक एक उप-फ़ोल्डर में रखने के लिए ImageMagick के mogrify उपकरण का इस्तेमाल करेगा:

mogrify -format pdf -path pdf/ *.jpg

कुछ लिनक्स वितरणों पर ImageMagick की डिफ़ॉल्ट सुरक्षा नीति, प्रोग्राम को PDF फ़ाइलें हैंडल करने से रोक देगी। सुरक्षा नीति कैसे बदलना है, इसके लिए यह StackOverflow प्रश्न देखें।

दुरंगे चित्रों से PDF बनाना

दुरंगे चित्र (यानी वे चित्र जिनमें काले और सफेद के सिर्फ एक-एक शेड हैं) टेक्स्ट या दूसरे सरल तत्वों वाले स्कैन किए गए दस्तावेज़ों को रखने के लिए एक बहुत कुशल तरीका है क्योंकि उन्हें स्पष्ट प्रस्तुत करने के लिए सिर्फ दो रंगों की ज़रूरत होती है। एक उच्च गुणवत्ता का दुरंगा चित्र आम तौर पर आकार में सिर्फ दस किलोबाइट जितना होता है।

PDF फ़ाइलों में दुरंगे कंप्रेशन के दो तरीके हैं, जो हैं CCITT Group 4 Fax कंप्रेशन और JBIG2 कंप्रेशन। JBIG2 ज़्यादा कुशल है मगर इससे जुड़े पेटेंट की कुछ समस्याएँ हैं जिनकी वजह से PDF निर्माण सॉफ़्टवेयर के लिए एनकोडिंग की इसकी कार्यक्षमता को अक्सर अक्षम कर दिया जाता है। मगर कभी-कभी आप खुद एनकोडर स्थापित करके ऐसी कार्यक्षमता को सक्षम कर सकते हैं।

चित्रों को दुरंगे कंप्रेशन के इस्तेमाल में बदलने के लिए कई उपकरण हैं। ScanTailor-Universal स्कैन किए गए पृष्ठों को प्रोसेस करने के लिए एक मुक्त-स्रोत उपकरण है जो दुरंगे चित्र आउटपुट कर सकता है। ImageMagick और GraphicsMagick भी यह काम -threshold विकल्प की मदद से कर सकते हैं।

निम्न ImageMagick कमांड, Group 4 कंप्रेशन की मदद से फ़ोल्डर में सभी .jpg फ़ाइलों को दुरंगे TIF फ़ाइलों में बदलकर "दुरंगा" नामक एक फ़ोल्डर में रख देगा:

mogrify -format tif -compress Group4 -path दुरंगा/ -threshold 50% *.jpg

-threshold में अलग-अलग वैल्यू डालकर देखें कि आपकी सामग्री के लिए सबसे अच्छा परिणाम किसमें आता है।

JBIG2 कंप्रेशन

OCRmyPDF एक मुक्त-स्रोत कमांड पंक्ति प्रोग्राम है जिसे मुख्यतः स्कैन की गई PDF फ़ाइलों पर एक OCR टेक्स्ट की परत जोड़ने के लिए बनाया गया है। इसकी अतिरिक्त सुविधाओं में से एक है PDF फ़ाइलों को ऑप्टिमाइज़ करना, जिसमें दूसरे दुरंगे चित्र प्रारूपों को JBIG2 में बदल दिया जाता है। इसके लिए jbig2enc एनकोडर को स्थापित करना होता है। लिनक्स के उपयोगकर्ताओं के लिए संकलन और स्थापना के अनुदेश यहाँ पर उपलब्ध हैं, और एक तृतीय-पक्ष Windows निष्पादनीय फ़ाइल यहाँ पर उपलब्ध है। Homebrew में पैकेज किए गए MacOS संस्करण में jbig2enc पहले से ही शामिल होता है।

Windows पर OCRmyPDF स्थापित कैसे करना है, इसके लिए यहाँ पर देखें। कई लिनक्स वितरणों की रिपॉज़िटरियों में OCRmyPDF का एक पैकेज होता है, मगर वह कालग्रस्त हो सकता है। OCRmyPDF, pip पर भी उपलब्ध है।

निम्न कमांड OCRmyPDF की मदद से किसी PDF पर एक OCR टेक्स्ट की परत जोड़कर PDF को इस तरह व्यवस्थित करेगा कि इसके पूरी तरह से डाउनलोड हो जाने से पहले ही ब्राउज़र उसे दिखाना शुरू कर देगा:

ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf

OCRmyPDF डिफ़ॉल्ट से PDF को लॉसलेस रूप से ऑप्टिमाइज़ करता है, तो अगर jbig2enc स्थापित हो तो दुरंगे चित्रों को अपने आप JBIG2 में बदल दिया जाता है।

अगर आप OCR चरण को छोड़ना चाहते हैं क्योंकि आपको PDF को OCR करने की ज़रूरत नहीं, OCR को पूरी तरह से छोड़ने के लिए --tesseract-timeout 0 का इस्तेमाल करें।

उपयोग के और उदाहरणों के लिए OCRmyPDF का प्रलेख देखें।

चित्रों से DjVu बनाना

चित्रों को एक-एक पृष्ठ वाली DjVu फ़ाइलों में बदलने के लिए DjVuLibre के कमांड पंक्ति उपकरण c44 (रंगीन चित्रों के लिए) और cjb2 (दुरंगे चित्रों के लिए) का इस्तेमाल करें, और फिर djvm की मदद से उन्हें साथ जोड़ दें

c44 कमांड पंक्ति का एक उदाहरण: c44 [options] pnm-or-jpeg-file [djvufile]
महत्वपूर्ण विकल्प हैं -slice, -dpi और -mask-slice, हर "चंक" ("chunk") में "स्लाइसों" ("slices") की संख्या सेट करता है (जो DjVu से जुड़े कुछ शब्द हैं)। तीन संख्याएँ देने का मतलब है तीन "चंक्स" होंगे, और चार संख्याओं से चार चंक्स बनेंगे। ये संख्याएँ गुणवत्ता और आकार को काफी हद तक प्रभावित करते हैं - प्रयोग करें और प्रलेख देखें।
c44 -slice -slice 74+13+10 -dpi 150 pnm-or-jpeg-file [djvufile]


cjb2 दुरंगे एनकोडर के स्व-व्याख्या करने वाले सहायता से:

Usage: cjb2 [options] <input-pbm-or-tiff> <output-djvu>
Options are:
 -verbose        Display additional messages.
 -dpi <n>        Specify image resolution (default 300).
 -clean          Cleanup image by removing small flyspecks.
 -lossy          Lossy compression (implies -clean as well)
 -losslevel <n>  Loss factor (implies -lossy, default 100)
Encoding is lossless unless a lossy options is selected.

कई मामलों में -losslevel को बिना किसी नुकसान के 50 जितने कम तक सेट किया जा सकता है।

विस्तार के लिए DjVuLibre का प्रलेख देखें।

Minidjvu की मदद से काले-सफेद, एक पृष्ठ और कई पृष्ठों वाले TIFF, BMP और PBM-ओं को DjVu में और DjVu को TIFF, BMP और PBM-ओं में, बदला जा सकता है। इसका एक सरल ग्राफ़िकल शेल है। TIFF फ़ाइलों का इसका समर्थन, DjVuLibre उपकरणों की तुलना में इसका एक बड़ा फायदा है।

minidjvu 0.8 - encode/decode bitonal DjVu files
Usage:
single page encoding/decoding:
    minidjvu [options] <input file> <output file>
multiple pages encoding:
    minidjvu [options] <input file> ... <output file>
Formats supported:
    DjVu (single-page bitonal), PBM, Windows BMP, TIFF.
Options:
    -A, --Averaging:               compute "average" representatives
    -a <n>, --aggression <n>:      set aggression level (default 100)
    -c, --clean                    remove small black pieces
    -d <n> --dpi <n>:              set resolution in dots per inch
    -e, --erosion                  sacrifice quality to gain in size
    -i, --indirect:                generate an indirect multipage document
    -l, --lossy:                   use all lossy options (-s -c -m -e -A)
    -m, --match:                   match and substitute patterns
    -n, --no-prototypes:           do not search for prototypes
    -p <n>, --pages-per-dict <n>:  pages per dictionary (default 10)
    -r, --report:                  report multipage coding progress
    -s, --smooth:                  remove some badly looking pixels

चित्र प्रारूपों से टेक्स्ट में बदलना (ऑप्टिकल कैरेक्टर रिकॉग्निशन)

gImageReader

  • gImageReader, चित्रों और चित्र-आधारित PDF दस्तावेज़ों से टेक्स्ट एक्सट्रैक्ट करने के लिए एक मुक्त-स्रोत प्रोग्राम है। यह अपने आप टेक्स्ट के लेआउट का पता लगाकर पहचाने गए टेक्स्ट को पोस्ट-प्रोसेस करने के दौरान वर्तनी जाँचता है और लाइन-ब्रेक्स हटाता है। यह टेक्स्ट को पहचानने के लिए Tesseract का इस्तेमाल करता है, तो यह Tesseract द्वारा समर्थित सभी भाषाएँ समर्थित करता है।

IrfanView

  • टेक्स्ट एक्सट्रैक्ट करने के लिए IrfanView विकल्प मेन्यू "Start OCR" प्लगिन का इस्तेमाल करें (OCR का मतलब है Optical Character Recognition)। 20/02/2010 तक, Irfanview के KADMOS OCR प्लगिन का इस्तेमाल आपकी कंप्यूटर की खुली मेमरी के अनुसार सिर्फ छः पृष्ठों के लिए किया जा सकता है (10 पृष्ठों के लिए एक गिगाबाइट की ज़रूरत होती है)।

Pdf X-Change Viewer

  • PDF-XChange Viewer के फ़ंक्शन: Document -> OCR pages का इस्तेमाल करें।

Tesseract इंजन

  • निःशुल्क मुक्त-स्रोत Tesseract सॉफ़्टवेयर का इस्तेमाल करें (लिनक्स, Mac OS X या Windows):
    • "tesseract" सॉफ़्टवेयर और स्कैन किए गए दस्तावेज़ में आने वाली भाषाओं या लिपियों के लिए उचित "tessdata" भाषा पैक डाउनलोड करें और उन्हें एक ही फ़ोल्डर में अनपैक करें; Windows निष्पादनीय के लिए किसी स्थापना की ज़रूरत नहीं
    • उच्चतम रेसोल्यूशन का स्कैन प्राप्त करें, और ज़रूरत पड़े तो स्कैन चित्र को और भी बड़ा करें ("फ़ास्ट रीसाइज़" का इस्तेमाल करें, रीसैम्पल फ़िल्टर्स से दूर रहें) जब तक कैरेक्टर्स की ऊँचाई 20 पिक्सल न हो जाए (सर्वोत्तम परिणामों के लिए खुद प्रयोग करें) और उसे सहेजें (ImageMagick या IrfanView का इस्तेमाल करें)
    • कमांड tesseract IMAGEFILE OUTPUT का इस्तेमाल करें

eScriptorium

  • Kraken के साथ निःशुल्क मुक्त-स्रोत सॉफ़्टवेयर eScriptorium का इस्तेमाल करें। सर्वर अंग को लिनक्स, macOS या Windows पर (WSL की मदद से) स्थापित किया जा सकता है। क्लाइंट साइड एक वेब ऐप्लिकेशन है जो किसी भी आधुनिक वेब ब्राउज़र पर काम करता है। इससे टेक्स्ट के क्षेत्रों और पंक्तियों को विभाजित किया जा सकता है और छापे गए टेक्स्ट और हस्तलेख का पता लगाया जा सकता है। विभाजन और पहचान, दोनों को प्रशिक्षित किया जा सकता है।

Google

Google का एक OCR है। देखें:

कुछ भी हो, आपको अंतरण हिस्सों में करना पड़ सकता है। आपको जनरेट किया गया टेक्स्ट खुद जाँचना होगा क्योंकि अंतरण सटीक नहीं है।

वीडियो को बदलना

Help:Converting video देखें।

अधिक सहायता

आप Commons:Help desk पर मदद माँग सकते हैं।

ये भी देखें