prijava O stranici čpp
1
1

Koji je najbolji nacin da izvadim sadrzaaj iz PDF-a a da ocuvam sto vise tekstualnog formata, konkretno (sortiano od najbitnijeg ka manje bitnom):

  1. Naslovi poglavlja da ostanu izdvojeni u odnosu na ostatak texta
  2. Da se ocuva blok teksta koji je monospaced sa ident-om
  3. Da se ignorise tekst iz header-a i footer-a

pitano Sep 22 '10 at 11:00

Luka's gravatar image

Luka
1614910


nisam se bavio s tim, ali krenuo bih sa http://calibre-ebook.com/ . on ti fino konvertira u ePub koji je HTML. a dalje iz HTML-a ne bi smjelo biti teško. u mom slučaju http://codespeak.net/lxml/

koliko vidim calibre koristi lxml za pdf konverziju.

također calibre ima command line interface: http://calibre-ebook.com/user_manual/cli/cli-index.html#cli a i nešto što će tebe još više obradovati: http://calibre-ebook.com/user_manual/cli/ebook-convert.html ;)

UPDATE: našao sam još jedan projekt koji za sebe kaže da je "easy calibre" ;) http://aranduka.googlecode.com/ ... od zanimljivih stvari aranduka radi rss2epub.. eto...

odgovoreno Sep 22 '10 at 19:19

marcell's gravatar image

marcell ♦
2111310

uređeno Sep 27 '10 at 16:20

Sjajno, ovako nesto mi je trebalo, ali PDF->HTML mi nije vratilo nista smisleno, pa reko da spustim kriterijume.

(Sep 23 '10 at 10:14) Luka

Plugin za OpenOffice ti ne paše?

odgovoreno Sep 30 '10 at 14:26

igustin's gravatar image

igustin
663410

Ne, zapravo plaintext mi pase vise od toga. Ovako importovan pdf vise lici na vektorsku grafiku nego na tekst.

(Sep 30 '10 at 22:41) Luka

Za vađenje suhog teksta iz PDF-a ja definitivno najradije koristim "pdftotext". Međutim (ne znam koliko si upoznat s PDF formatom), imaj u vidu da tekst u PDF-u uopće ne mora biti čitljiv ovakvim sirovim vađenjem sadržaja. Naime, "pametni" PDF generatori optimiraju PDF zapis tako da koriste premapirani font subset, ili u još gorem slučaju - vektorski zapis slova umjesto kodova. U tim slučajevima je vađenje teksta iz PDF-a gotovo nemoguće ičim drugim osim OCR-om (za što također ima Linux CLI utilityja koji PDF pretvore u bitmapu, i onda se radi OCR). Ili, naravno, ako je to moguće, generirati predmetni PDF na drugi (prizemniji) način, bez optimizacija koje otežavaju ekstrahiranje.

(Oct 01 '10 at 11:15) igustin

to sam skontao bakcajuci se svime time :) u principu ne ocekujem cuda, samo makar malo semantike oko teksta (recimo naslovi)

(Oct 01 '10 at 16:18) Luka
Vaš odgovor
toggle preview

Follow this question

By Email:

Once you sign in you will be able to subscribe for any updates here

By RSS:

Odgovora

Answers and Comments

Oznake pitanja:

×1
×1

question asked: Sep 22 '10 at 11:00

question was seen: 2,642 times

last updated: Oct 01 '10 at 16:18

Povezana pitanja

powered by OSQA