Permesilo Krea Komunaĵo

Serĉilo


Iloj por enbitiga laborado

2020-11-23

La laboro por enbitigi periodaĵojn daŭras en Biblioteko Molera. Lasta aldono estas gazeto Voĉo de kuracistoj (1909-1911). Oftas la obstakloj dum tiu ĉi laboro. Dum la skanado, la ĉefan problemon oni trovas kun gazetoj binditaj. Ju pli dika la volumo aŭ pli mallarĝaj la margenoj des pli problemoj por skani.

Kiam oni jam havas bildojn el ĉiuj paĝoj, jam estas tempo por pretigi traserĉeblajn PDF-dosierojn. Nun la programo pli uzata estas Adobe Acrobat. Ĉefa malavantaĝo de Acrobat, krom ĝia prezo: Esperanto malestas en ĝia lingvolisto por tekstorekono.

Alia programo populara tra esperantistoj estas Abbyy FineReader, kiu jam de tempo enhavas Esperanton en ĝia lingvaro.

Abbyy FineReader akceptas artefaritajn lingvojn kiel Esperanton

Abbyy FineReader akceptas artefaritajn lingvojn kiel Esperanton



Tesseract. Instalado

Tamen, estas ankaŭ senpagaj, malfermitkodaj programoj, kiuj kapablas fari preskaŭ la saman laboron ol Acrobat aŭ FineReader. Eble la plej interesa estas Tesseract. Temas pri komandlinia interfacprogramo por Linux, Windows, Mac...

Por bone signorekonadi esperantlingvajn tekstojn nepras instali la prian lingvilon. La instalmetodo jenas:

Por Mac

Malfermu Terminal kaj skribu

brew update

por certigi, ke ni havas ĉiujn lastajn versiojn bezonatajn. Kaj poste:

brew install tesseract-lang

Sen la parametro -lang, Tesseract nur instalus tri lingvojn.

Sufiĉas la komando

tesseract --list-langs

por kontroli ĉu Esperanto disponeblas por la programo. Nun ĝi estas inter la 162 lingvoj uzeblaj per Tesseract.

Por Linux

Komando

apt-get install tesseract-ocr

instalos nur la anglan. Por aldoni Esperanton nepras uzi la komandon

apt-get install tesseract-ocr-epo

apt-get install tesseract-ocr-all

por instali ĉiujn disponeblajn lingvilojn.

Por Windows

Por instali Tesseract en Windows, oni devas unue elŝuti exe-dosieron kaj simple sekvi la agordajn instrukciojn. Por uzi pli lingvoj ol la angla, nepras musklaku sur Additional language data (download) kaj elekti la deziratajn lingvojn.

Instalilo por Windows. Nepre aldonu Esperanton

Instalilo por Windows. Nepre aldonu Esperanton



Uzo de Tesseract

Por la sekvaj ekzemploj mi uzos du paĝojn el la Originala Verkaro de Zamenhof, kiuj cetere estis bitigita de Podlaska Biblioteka Cyfrowa. Ĉiuj uzataj dosieroj estas elŝuteblaj pere de la ligilo sube de tiu ĉi paĝo por pliaj komparoj.

Du paĝoj el la <em>Originala Verkaro</em> Klaku por pligrandigi Du paĝoj el la <em>Originala Verkaro</em> Klaku por pligrandigi

Du paĝoj el la Originala Verkaro. Klaku por pligrandigi

1. El bildo al PDF tekstrekonita dosiero

Por konverti nur unu bildo, la jena komando

tesseract -l epo ov64.jpg ov64 pdf

konvertas bilddosieron ov64.jpg en PDF-dosieron ov64.pdf. La lasta ero indikas la celdosiertipon, ĉi-okaze PDF. Troas aldoni ".pdf" al la celdosiero, ĉar tio rezultos en nomo ov64.pdf.pdf. La parametro -l epo petas al programo uzi la bibliotekon de la esperanta lingvo.

Kiam oni laboras kun alilingvaj gazetoj, oni devas uzi -l xxx kie xxx estas la trilitera ISO-kodo de tiu lingvo.

Eblas uzi pli ol unu rekonlingvon. Ekzemple, por la periodaĵo L'Espérantiste ni uzos la parametron

-l epo+fra

kaj la programon traserĉos la vortarojn kaj normojn de Esperanto kaj la franca.

La celdosiero ov64.pdf estas tute traserĉebla.


2. El bildo al tekstdosiero (.txt)

Kiam oni ne bezonas PDF-dosieron sed nur tekstdosieron, eblas uzi la komandon:

tesseract -l epo ov64.jpg ov64 txt

Rezultkomparo inter Tesseract, Acrobat kaj FineReader

Nun ni komparu la rezultojn inter tri tekstdosieroj de la paĝo 64 de la libro Originala Verkaro de Zamenhof havigitaj respective de Tesseract, Adobe Acrobat kaj Abbyy FineReader

Eblas elŝuti la dosierojn .txt pere de la ligiloj sube de tiu ĉi paĝo. Jen ekzemplo el la dua paragrafo:

Tesseract

Nia Regularo estis preta jam antaŭ kelkaj monatoj; sed antaŭ ol
presi ĝin, ni volis aŭdi la opinion kaj la konsilojn de ĉiuj? amikoj kaj
tial ni petis, ke oni sendu al ni diversajn projektojn, por ke ni povu
kompari ilin kun la nia kaj en okazo de bezono fari en nia Regularo
kelkajn ŝanĝojn kaj plibonigojn. Nun, traleginte la alsenditajn pro-
jektojn, ni vidas, ke ni nenion gravan ellasis en nia Regularo kaj ke
ĝi nun povas jam ricevi vivon. Tial ni prezentas nun nian Regularon
al niaj amikoj kaj ni esperas, ke ili ne malkonsentos, se ni hodiaŭ
sciigos publike, ke de la tago hodiaŭa la Ligo jam estas fondita. Ni
petas la amikojn de nia afero komenci de hodiaŭ ilian laboradon, kaj
Dio donos sian helpon al nia penado por la sankta afero.

Adobe Acrobat

Nia Regularo estis preta jam an tau kelkaj monatoj; sed an tau ol presi gin, ni volis au.di la opinion kaj la konsilojn de êiuj 2 amikoj kaj tial ni petis, ke oni sendu al ni diversajn projektojn, por ke ni povu kompari ilin kun la nia kaj en okazo de bezono fari en nia Regularo kelkajn sangojo kaj plibonigojn. Nun, traleginte la alsenditajn pro.jektojn, ni vidas, ke ni nenion gravan ellasis en nia Regularo kaj ke gi nun povas jam ricevi vivon. Tial ni prezentas nun nian Regularon al niaj amikoj kaj ni esperas, ke ili ne malkonsentos, se ni hodiau sciigos publike, ke de la tago hodiaua la Ligo jam estas fondita. Ni petas la amikojn de nia afero komenci de hodiau ilian laboradon, kaj Dio donos sian helpon al nia penado por la sankta afero.

Abbyy FineReader

Nia Regularo estis preta jam antaŭ kelkaj monatoj; sed antaŭ ol presi ĝin, ni volis afldi la opinion kaj Ia konsilojn de ĉiuj2 amikoj kaj tial ni petis, ke oni sendu al ni diversajn projektojn, por ke ni povu kompari ilin kun la nia kaj en okazo de bezono fari en nia Regularo kelkajn ŝanĝojn kaj plibonigojn. Nun, traleginte la alsenditajn pro-jektojn, ni vidas, ke ni nenion gravan ellasis en nia Regularo kaj ke ĝi nun povas jam ricevi vivon. Tial ni prezentas nun nian Regularon al niaj amikoj kaj ni esperas, ke ili ne malkonsentos, se ni hodiaŭ sciigos publike, ke de la tago hodiafla la Ligo jam estas fondita. Ni petas la amikojn de nia afero komenci de hodiaŭ ilian laboradon, kaj Dio donos sian helpon al nia penado por la sankta afero.

Inter Adobe kaj Tesseract, la rezulto estas rimarkinde pli bona por Tesseract kaj ne nur por la vortoj kun supersignitaj literoj. FineReader eĉ rekonas la notindikilon, sed videblas eraretojn sur kelkajn vortoj kun esperantaj diakritaĵoj: afldi, Ia, hodiafla

La plej elstara malagrablaĵo el Tesseract estas ĝia konfuzo inter fino de linio kaj fino de paragrafo. Aliflanke, Tesseract eĉ pli bone legas la trian paragrafon, kie aperas makulon super la vorto ‘superflue’:

Komenci disputadon pri
la apartaj flankoj de la Regularo estas laŭ nia opinio superflue, ĉar, ni ripetas:
(Tesseract)

Komenci disputadon pri la apartaj flankoj de la Regularo . estas Jau nia opinio syerflue, êar, ni ripetas: (Acrobat)

Komenci disputadon pri la apartaj flankoj de la Regularo estas laŭ nia opinio si^perflue, ĉar, ni ripetas: (FineReader)

Signorekonado tra pluraj bildosieroj

Kompreneble, per Tesseract ankaŭ eblas peti la tekstrekonadon de pluraj bilddosiero. Jen ekzemplo por teserakti ĉiujn JPG-dosierojn en dosierujo. Unue iri al tiu dosierujo, kaj poste lanĉi ĉi tiun komandon:

for i in *.jpg; do echo $i; tesseract -l epo $i $(basename $i .jpg) pdf; done

Jen la rezulto:

Abby FineReader akceptas artefaritajn lingvojn kiel Esperanton Abbyy FineReader akceptas artefaritajn lingvojn kiel Esperanton

Tekstrekonado de pluraj dosieroj



Kunigo de PDF-dosieroj

Unupaĝaj PDF-dosieroj ne estas tre utilaj. Kutime oni bezonas arigi ilin laŭ libroj, gazetoj aŭ jarkolektoj. Por tio estas utila la programo Poppler. Ankaŭ ĝi estas senpaga kaj tre facile instalebla. Ekzemple por Mac:

brew install poppler

Ankaŭ eblas uzi Poppler en Windows aŭ Linux.

Komando

pdfunite bildo01.pdf bildo02.pdf bildo03.pdf bildo04.pf tuto.pdf

kunigos la kvar unuaj dosieroj, laŭ tiu ordo, en la kvinan dosieron (ĉi tie nomata tuto.pdf)

Alia facila ebleco estas enmeti ĉiujn bildpaĝoj de la libro aŭ gazeto en dosierujo kaj uzi komandon

pdfunite *.pdf tuto.pdf

Tiu ĉi komando ordigos la paĝojn de la cel-pdf-dosiero laŭ alfabeta ordo de la bilddosieroj. Pro tio oni devas uzi nomojn kiel bild001.jpg, bild002.jpg, bild003.jpg, bild004.jpg ... bild112.jpg kaj ne bild1.jpg, bild2.jpg ... bild11.jpg, bild12.jpg ĉar en tiu lasta ekzemplo paĝo bild11.jpg, bild12.jpg antaŭiros al bild2.jpg.



Elŝutilo de ekzemplaj dosieroj

ov64.pdf

ov64abbyy.pdf

ov64acrobat.pdf

ov64.txt

ov64abby.txt

ov64acrobat.txt

ov64.jpg

ov65.jpg

ov65.pdf


Vidu ankaŭ Ekzemplo de bitigado

Serĉu en tiu ĉi retejo

© Javier Guerrero, 2009-2020