|
Koji je najbolji nacin da izvadim sadrzaaj iz PDF-a a da ocuvam sto vise tekstualnog formata, konkretno (sortiano od najbitnijeg ka manje bitnom):
|
|
nisam se bavio s tim, ali krenuo bih sa http://calibre-ebook.com/ . on ti fino konvertira u ePub koji je HTML. a dalje iz HTML-a ne bi smjelo biti teško. u mom slučaju http://codespeak.net/lxml/ koliko vidim calibre koristi lxml za pdf konverziju. također calibre ima command line interface: http://calibre-ebook.com/user_manual/cli/cli-index.html#cli a i nešto što će tebe još više obradovati: http://calibre-ebook.com/user_manual/cli/ebook-convert.html ;) UPDATE: našao sam još jedan projekt koji za sebe kaže da je "easy calibre" ;) http://aranduka.googlecode.com/ ... od zanimljivih stvari aranduka radi rss2epub.. eto... Sjajno, ovako nesto mi je trebalo, ali PDF->HTML mi nije vratilo nista smisleno, pa reko da spustim kriterijume.
(Sep 23 '10 at 10:14)
Luka
|
|
Plugin za OpenOffice ti ne paše? Ne, zapravo plaintext mi pase vise od toga. Ovako importovan pdf vise lici na vektorsku grafiku nego na tekst.
(Sep 30 '10 at 22:41)
Luka
Za vađenje suhog teksta iz PDF-a ja definitivno najradije koristim "pdftotext". Međutim (ne znam koliko si upoznat s PDF formatom), imaj u vidu da tekst u PDF-u uopće ne mora biti čitljiv ovakvim sirovim vađenjem sadržaja. Naime, "pametni" PDF generatori optimiraju PDF zapis tako da koriste premapirani font subset, ili u još gorem slučaju - vektorski zapis slova umjesto kodova. U tim slučajevima je vađenje teksta iz PDF-a gotovo nemoguće ičim drugim osim OCR-om (za što također ima Linux CLI utilityja koji PDF pretvore u bitmapu, i onda se radi OCR). Ili, naravno, ako je to moguće, generirati predmetni PDF na drugi (prizemniji) način, bez optimizacija koje otežavaju ekstrahiranje.
(Oct 01 '10 at 11:15)
igustin
to sam skontao bakcajuci se svime time :) u principu ne ocekujem cuda, samo makar malo semantike oko teksta (recimo naslovi)
(Oct 01 '10 at 16:18)
Luka
|