Ja esat students vai jūsu darbs ir saistīts ar darbu ar daudziem attēliem un PDF failiem, jūs kādā brīdī esat sajutis vajadzību izvilkt tekstu no attēla vai dokumenta.
Par laimi, teksta izvilkšana to padara iespējamu. Un ir vairāki rīki, kurus varat izmantot, lai to izdarītu. gImageReader ir viens no daudzajiem rīkiem. To var izmantot bez maksas, un tas darbojas gan ar attēlu failiem, gan ar PDF dokumentiem.
Iedziļināsimies, lai detalizēti izpētītu programmu gImageReader un uzzinātu, kā to izmantot, lai izvilktu tekstu no attēliem un PDF failiem.
Kas ir gImageReader?
gImageReader ir lietotne, kas ļauj iegūt tekstu no attēliem un PDF failiem operētājsistēmā Linux. Tas būtībā ir GUI vai priekšgals Tesseact OCR dzinējs, an atvērtais avots Hewlett-Packard izstrādātais dzinējs, kas tiek uzskatīts par vienu no labākajiem pieejamajiem OCR dzinējiem.
Izmantojot gImageReader, jūs varat viegli un diezgan precīzi izvilkt tekstu no attēliem vai PDF dokumentiem ar dažiem vienkāršiem klikšķiem. Pēc tam varat eksportēt izvilkto tekstu teksta vai PDF failā turpmākai lietošanai.
gImageReader funkcijas
gImageReader piedāvā šādas funkcijas:
- Importējiet PDF dokumentus un attēlus no dažādiem avotiem (diska, skenēšanas ierīcēm, starpliktuves un ekrānuzņēmuma)
- Pakešapstrādājiet attēlus vai dokumentus, t.i., izņemiet tekstu no vairākiem attēliem vai dokumentiem vienlaikus
- Atpazīstiet teksta fragmentus kā vienkāršu tekstu vai hOCR dokumentus
- Iebūvēts pareizrakstības pārbaudītājs
- Automātiska teksta apgabala noteikšana
- Pamata attēlu/dokumentu rediģēšana
- Saglabājiet izvadi kā teksta failu
Kā instalēt gImageReader operētājsistēmā Linux
gImageReader ir pieejams vietnē lielākā daļa lielāko Linux distribūciju. Taču, pirms turpināt tā instalēšanu, sistēmā ir jāinstalē Tesseract OCR dzinējs.
Lai to izdarītu, atveriet Programmatūras pārvaldnieks savā sistēmā un meklējiet tesrakts. Kad tiek parādīts rezultātu saraksts, instalējiet tesserakts-okr un tesseract-ocr-eng iepakojumiem. Varat arī izmantot komandrindas pakotņu pārvaldniekus, lai instalētu pakotni, ja jums ir ērtāk strādāt ar termināli.
Pēc tam skatiet instalēšanas instrukcijas nākamajās sadaļās, lai datorā instalētu programmu gImageReader.
Ja izmantojat Debian vai Ubuntu, atveriet termināli un palaidiet tālāk norādītās komandas, lai instalētu gImageReader:
sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-gūt Atjaunināt
sudo apt uzstādīt ģimeņu lasītājs
Fedora, CentOS vai Red Hat Enterprise Linux (RHEL):
sudo dnf uzstādīt gimagereader-qt
Ieslēgts Arch Linux vai Manjaro:
sudo pacman -S gimagereader
openSUSE lietotāji var instalēt gImageReader, izmantojot:
sudo zypper uzstādīt ģimeņu lasītājs
Ja izmantojat kādu citu Linux distro, varat izveidot gImageReader no avota, izpildot norādījumus, kas sniegti vietnē gImageReader GitHub.
Kā lietot gImageReader operētājsistēmā Linux
gImageReader ir diezgan viegli lietojams un darbojas ar visu veidu attēlu failiem, kā arī PDF dokumentiem. Izpildiet tālāk sniegtos norādījumus, lai izvilktu tekstu no attēliem vai PDF failiem operētājsistēmā Linux.
Atveriet programmu izvēlni, meklējiet gImageReaderun palaidiet lietotni. Nospiediet uz Maksimizēt pogu gImageReader logā, lai to atvērtu pilnekrāna skatā.
Tagad noklikšķiniet uz Pievienojiet attēlus pogu kreisajā rūtī zem rīkjoslas un izmantojiet failu pārlūkprogrammu, lai atlasītu attēlu(s) vai PDF(-us), no kuriem vēlaties izvilkt tekstu.
Klikšķis Labi lai importētu attēlu(s) vai PDF(-us) programmā gImageReader. Vai arī, ja vēlaties izvilkt tekstu no ekrānā redzamā, noklikšķiniet uz nolaižamās izvēlnes blakus Pievienojiet attēlus pogu un atlasiet Uzņemiet ekrānuzņēmumu. gImageReader uzņems ekrāna satura ekrānuzņēmumu.
Kad esat pievienojis attēlu gImageReader, noklikšķiniet uz Pārslēgt izvades rūti pogu (viena ar piezīmju bloka ikonu), lai atvērtu izvades rūti. Šeit tiek parādīts no attēliem vai PDF failiem iegūtais teksts.
Atkarībā no tā, kā vēlaties turpināt, tagad ir iespēja automātiski vai manuāli identificēt tekstu attēlā vai PDF failā. Lai to izdarītu automātiski, noklikšķiniet uz Automātiski noteikt izkārtojumu pogu, un tas iezīmēs visus teksta blokus atlasītajā attēlā vai PDF dokumentā.
Pēc tam pieskarieties Atpazīt atlasi > Pašreizējā lapa lai sāktu teksta izvilkšanas procesu.
Vai arī, lai atlasītu tekstu manuāli, virziet kursoru virs teksta, kuru vēlaties izvilkt, un, izmantojot krustiņu, uzzīmējiet lodziņu ap apgabalu, no kura vēlaties izvilkt tekstu. Pēc tam nospiediet pogu Atpazīt atlasi pogu, lai turpinātu.
Ja tas ir PDF dokuments un vēlaties izvilkt tekstu no dažādām lapām, pieskarieties Plus (+) pogu, lai pāršķirtu lapas.
Lai atgrieztos, nospiediet Mīnuss (-) pogu. Pēc tam atlasiet tekstu, kuru vēlaties iegūt, un nospiediet pogu Atpazīt atlasi pogu, lai to izvilktu.
Lai gan tas ir reti, var būt gadījumi, kad gImageReader atgriež izvilkto tekstu valodā, kas nav angļu valoda. Kad tas notiek, vienkārši pieskarieties blakus esošajai nolaižamās izvēlnes pogai Atpazīt atlasi pogu un atlasiet vienu no angļu valodas opcijām.
Visbeidzot, lai saglabātu izvilkto tekstu, noklikšķiniet uz Saglabājiet izvadi pogu. Tas parādīs logu Saglabāt. Šeit piešķiriet failam nosaukumu un nospiediet Labi.
Ko vēl jūs varat darīt ar gImageReader?
Kā minēts iepriekš, gImageReader sniedz arī iespēju mainīt noteiktus importēto attēlu vai dokumentu aspektus, piemēram, to spilgtumu, kontrastu un izšķirtspēju. Turklāt, ja nepieciešams, varat arī apgriezt krāsas vai pagriezt attēlus vai dokumentus.
Lielākā daļa no šīm opcijām var izrādīties noderīgas, ja teksts attēlā vai dokumentā nav salasāms programmā gImageReader un tādējādi neļauj rīkam atpazīt tekstu.
Lai piekļūtu kādai no šīm rediģēšanas opcijām, noklikšķiniet uz Attēla vadīklas pogu, un zem galvenās rīkjoslas tiks parādīta mini rīkjosla. Šeit atlasiet atbilstošās pogas, lai veiktu vēlamo attēla vai dokumenta rediģēšanas darbību.
Teksta ekstrakcija operētājsistēmā Linux ir vienkārša, izmantojot programmu gImageReader
Teksta izvilkšanai bieži ir nepieciešams pareizais rīks: tāds, kurā tiek izmantots uzticams un precīzs OCR dzinējs ļauj efektīvi identificēt tekstu attēlā vai dokumentā, lai jūs varētu to efektīvi izvilkt bez jebkāda veida apgrūtinājums.
gImageReader to lieliski paveic, pateicoties Tesseract OCR dzinējam, ko tas izmanto fonā. Ņemot vērā tā lietošanas vienkāršību, gImageReader neapšaubāmi ir viens no labākajiem Linux pieejamajiem teksta ekstrakcijas rīkiem.
Alternatīvi, ja meklējat vienkāršāku risinājumu, varat pārbaudīt TextSnatcher, kas ir ātrs un diezgan viegli lietojams.