Digitalizálás DjVu-val magyarul

HAJNAL-WARD Judit
jhajnal@rci.rutgers.edu

Bevezetés

A könyvtári állomány fejlesztése és megőrzése és felhasználóbarát alkalmazás, amely kisebb időigényes és jelentős anyagi forrásokat emészt könyvtárak számára is elérhető. fel. A konzerválás célja minden esetben az eredeti anyag szellemi tartalmának megtartása Konzerválás és digitális könyvtár ugyanazon vagy más formában. A konzerválás módjának megválasztását a legtöbb eset-A konzerválás része a könyvtárak mindennapi ben az anyagi források, eszköz-és személyi feladatának, és egy egész sor tevékenységet feltételek határozzák meg. A digitalizálás mint foglal magában. A szellemi tartalom megőrzése konzerválási módszer egyre könnyebben meg-technikai szempontból a forma megváltoztatását valósítható és elérhető. A DjVu költségkímélő is jelentheti, mint például a mikrofilmre történő írás, vagy a digitalizálás. Az elektronikus formában történő konzerválás széles körben alkalmazható a levéltárakban is, ily módon a málló-foszladozó régi dokumentumok fennmaradhatnak. A digitalizálás mellett szól az is, hogy a könyvtári és levéltári anyagok szélesebb kör számára válnak elérhetővé, sőt a digitális változat által az eredeti dokumentum felértékelődhet, amennyiben ez utóbbi keresési opcióval bővül (Johnson, 2004).

Egyelőre nem létezik általánosan elfogadott szabvány, ami alapján a színes képeket is tartalmazó dokumentumokat tárolni, előkeresni és továbbítani lehetne (Haffner, Bottou, Howard, Simard, Bengio, LeCun, 1998). A dokumentum eredeti formájától függően a könyvtáraknak számos nehézséggel kell szembenézniük a digitalizálás során. A szövegekkel viszonylag kevés a gond, egyszerűen újra kell gépelni őket és át kell alakítani HTML vagy PDF formátummá. Ez meglehetősen nehézkes és költséges eljárás lehet, főleg, ha optikai karakterfelismerő rendszer (OCR) segítségével növeljük a dokumentum kereshetőségét. A képek és rajzok vizuális minősége nagyban károsodik még akkor is, ha szkennelt formában illesztjük be ezeket a dokumentumba. A vizuális részletek meghatározóak lehetnek például egy kézírásos szövegben, matematikai vagy kémiai képletben. A betűtípusok, a papír színe és anyaga egy történelmi dokumentum esetében szintén lényeges. Az eredeti dokumentum beszkennelése, majd JPEG vagy GIF formátumban való tárolása meglehetősen nagyméretű fájlokat eredményez, ha az olvashatóságot is meg akarjuk őrizni. Például egy magazin oldal 100 dpi minőségben szkennelve körülbelül 100– 200 Kbyte, ám alig olvasható. A jó minőségű és olvasható szöveghez 300 dpi-vel kell szkennelni, ami kb. 500 Kbyte méretet eredményez. Emellett, a képernyőn mindössze a teljes szöveg töredéke látható csak egyszerre, és a szokásos progresszív tömörítő technikával először a szöveg továbbítódik és jelenik meg. A DjVu dokumentum képtömörítő technika mindezekre a problémákra megoldást jelent.

Mi az a DjVu?

A DjVu (ejtése mint a „déja vu” kifejezésé) egy új képtömörítő technika, amely a színes dokumentumok szkennelt nagyfelbontású, jó minőségű képeinek feldolgozását tekinti fő feladatának. Az eljárás azon az elven alapul, hogy elválasztja szöveget a háttértől és más-más tömörítő eljárást alkalmaz (Haffner et al. 1998, Haffner, Bottou, Howard, és LeCun, 1999a, Haffner, LeCun, Bottou, Howard, Vincent, és Riemers, 1999b, Wu, Chiu, és Chen, 2004). A dokumentumokat bitmap részekre osztja (általában fekete-fehér szöveg- és színes képelemekre), majd ezekre eltérő kódolási eljárást alkalmaz, aminek eredményeként a fájl kisebb és gyorsabban letölthető lesz.”. (Roberts-Witt, 2001, p. 16.)

Az elektronikus dokumentumok aztán az interneten keresztül hatékony, ún. raszterizált formátumban (mint pl. a DjVu) továbbíthatók, amelyben a rétegek előtérre (foreground) és háttérre (background)oszlanak, az előtér a szövegeket és grafikus elemeket, a háttér a képeket tartalmaz-za(Bottou, Haffner, Howard, Bengio, és LeCun, 1998). A DjVu eljárást részletesen leírja Bottou et al. (1998) és Haffner et al. (1998).

A DjVu technika lényegesen kisebb képfájlokat eredményez és nemcsak megőrzi az eredeti kép minőségét, hanem javít is rajta. A DjVu fájlok megtekintéséhez a LizardTech cég ingyenes browser plugint bocsát rendelkezésre Windows és Mac OS X operációs rendszerekhez, a Linux nyílt forráskódú (open source) verziója pedig a DjVu Libre (LizardTech website: http://www.lizardtech.com).

A DjVu viszonylag új formátum, az első változat 1996-ban készült. A Business Week cikke 1999-ben hívta fel rá a figyelmet (Gross, 1999), de az igazi áttörést 2000 márciusa hozta, amikor a LizardTech a Microsoft és a Xerox ellenében megnyerte a tendert és megvette az AT&T társaság DjVu képtömörítő technikáját(Roberts-Witt, 2001).

A DJVU előnyei

A DjVu formátum előnyei a következők (Savic, 2003):

  • Kisebb fájlméret;
  • Gyorsabb letöltés;
  • Gyorsabb megjelenítés;
  • Jobb képminőség;

Egy DjVu fájl méretében töredéke az ugyanarról a dokumentumról bármilyen más technikával készített fájlnak (Digitising…, 2000). Jelenleg a DjVu eljárás eredményezi a legjobb minőséget szkennelt vagy elektronikus képek esetében a legkisebb fájlméretben, emiatt potenciálisan bármilyen PDF, PS, TIFF, JPEG vagy GIF fájl helyett alkalmazható egy- vagy többoldalas dokumentumokban is. (Xin, Fleury és Downton, 2003).

A DjVu dokumentum képtömörítő eljárással egy 300 dpi szkennelt színes kép 30–60 Kbyte méretre tömöríthető egy magazin-méretű oldalról, ami azt jelenti, hogy a jó minőségű szkennelt oldal mérete nem haladja meg egy átlagos HTMLoldal méretét, és az oldalakat a plugin segítségével teljes méretben láthatjuk, akár nagyítva is (Haffner et al, 1998). A kisebb fájlméret természetesen jelentős költségmegtakarítást jelent az elektronikus tárolás és a sávhasználat terén, mivel ezek a fájlok kevesebb helyet foglalnak, gyorsabban töltődnek le. Egy szemléletes példa a fájlok méretbeli különbségeire a LizardTech web oldalán található a DjVu-alkalmazásokról írt tanulmányok listája két különböző letölthető változatban (PDF és DjVu), a fájlok mellett szereplő méret magáért beszél. (Ld. http://www.lizardtech.com/products/doc/ techinfo.php)

A DjVu alkalmazása könyvtárakban

A digitális könyvtárak képek formájában tárolják és továbbítják a dokumentumokat. A dokumentumképeket olyan eljárással kell tömöríteni, ami jó minőségű képet alacsony sebességű kapcsolaton keresztül képes továbbítani néhány másodperc alatt. A legtöbb kereskedelmi forgalomban lévő dokumentumkép-kezelő rendszer bitonális (fekete-fehér) képekre korlátozott, ami a könyvtárak számára nem elegendő (Haffner et al, 1998).

A DjVu plugin a két leggyakrabban használt browser, az Internet Explorer és a Netscape Navigator számára készült. A DjVu dokumentum minden egyes oldala külön URL. A plugin a háttérben elvégzi az információ tárolását és megosztását, ami a digitális könyvtártervező számára lehetővé teszi, hogy jól ismert webes eszközöket (HTML, Java, JavaScript) alkalmazva hozza létre oldalát. A hyperlinkek a DjVu dokumentumokban is működnek (Haffner et al, 1999a.)

Számos könyvtár és digitalizálási projekt használja már sikerrel a DjVu technikát, kezdve az Internet Archive óriási méretű Million Book projektjével, amelyben a DjVu az elsődleges digitális formátum a webes megjelenésben, és a digitalizálás több országot érint (Lesk, 2003). A Georgia Egyetem könyvtára saját digitalizálási rendszert alakított ki, amelyben diákok szkennelik be a könyvek százait a speciálisan erre a célra kialakított munkakörnyezetben.(Kobres, 2003). A KLUEDO Universitätsbibliothek Kaiserslautern gyűjteményében PhD- és Master- diszszertációk, jelentések és publikációk találhatók. A Cseh Nemzeti Könyvtár arab kéziratokat digitalizált. A Rutgers Egyetem Humán Elektronikus Szövegek Központja latin és görög auktorokat digitalizált egyebek között DjVu formátumban, és két DjVu konferenciának is otthont adott 2003-ban és 2005-ben. A könyvtári alkalmazásokról sokkal teljesebb és aktuálisabb lista található a LizardTech weboldalán vagy a Planet- DjVu oldalon, amely a világ DjVu közösségét szolgálja.

A Rutgers Egyetemen tartott második DjVu konferencián Jeffery Triggs (2005) foglalta össze az okokat, amelyek gátolják a DjVu szélesebb körű elterjedését az egyetemi könyvtárakban. Egyik ok a potenciális felhasználók közömbössége a technikai újdonságok iránt, vagy az újtól való félelem. Mások nem akarnak megválni a régóta használt eljárásoktól és egy újra áttérni. Mindezek ellenére a DjVu mégis sikeres lehet az egyetemi közegben, hiszen sok könyvtár próbálkozik digitalizálással, a legtöbben mindenféle alap vagy előítélet nélkül fognak hozzá és teremtik meg saját digitális könyvtárukat saját anyagaikból. A DjVu eljárás minden téren alkalmasabb a nagy színes képek digitalizálására, mint például a fényképek, történelmi térképek, kéziratok, levelek, és nagy bitonális színes képek, régebbi folyóiratok, stb. (Triggs, 2005). A DjVu eljárással történő digitalizálás tehát megfelelőnek látszik a nagy könyvtárak és projktek számára, ahol a szkennelést és egyéb lépéseket automatizálhatják, ugyanakkor kisebb könyvtárak számítástechnikailag kevésbé felkészült dolgozói ugyancsak használhatják a digitális állomány fejlesztésére és konzerválásra. A következő példa ezt kívánja bemutatni.

Az Amerikai Magyar Alapítvány Könyvtára digitalizálás előtt

Az ötven éve alapított Amerikai Magyar Alapítvány Könyvtára és Levéltára magyar és amerikai magyar dokumentumok egyedi gyűj-teményének ad otthont a New Jersey államban található New Brunswickban. Ez a környék hagyományosan nagy magyar népességgel rendelkezik. A Levéltárban található a páratlan értékű Bethlen Gyűjtemény az elmúlt két évszázad magyar dokumentumainak sajátos gyűjteménye, amelyet a Fullbright-ösztöndíjnak köszönhetően nemrégiben katalogizált Kovács Ilona, az Országos Széchényi Könyvtár Hungarika Dokumentációs Osztályának nyugalmazott vezetője. A Levéltár változatos formátumú és állapotú anyagának konzerválására a DjVu alkalmasnak látszik, ez a formátum egyúttal azt is lehetővé teszi, hogy a dokumentumok a világ magyarsága számára is elérhetővé váljanak az interneten keresztül.

A nagyobb lélegzetű konzerválási terv kialakításához a mintadokumentumokat a követ-kező lépésekben digitalizáltuk. Az anyagokat az alapítvány könyvtárosa, Margaret Pápai válogatta gondosan össze. A cél az volt, hogy különféle típusú, formátumú és állagú dokumentumok kerüljenek a dobozba. A dokumentumok között volt Kossuth kézzel írott levele az 1850-es évekből, Kodály Zoltánnal kapcsolatos fényképek és dokumentumok a 20. század közepéről, köztük a New York Times-ban megjelent róla szóló cikk gépelt kézirata 1962-ből, egy igen rossz állapotban lévő 1921-ből, továbbá Kodály gyászjelentése és korabeli újságkivágások.

A dokumentumokat egyik változatban először TIFF formátumban beszkenneltük AgfaScan software segítségével, és ez a fájl egyben a master copy szerepét is betöltötte (1.ábra). A TIFF fájl mérete 13,890 KByte, ugyanaz a dokumentum DjVu formátumban mindössze 22 Kbyte.

1. ábra
Kossuth kézzel írt levele TIFF formátumban. A TIFF fájl mérete 13,890 Kbyte, ugyanaz a dokumentum DjVu formátumban 22 Kbyte.

A DjVu formátum legjobb minőségéhez 300 dpi képfelbontást használtunk. A TIFF formátumból ezután DjVu fájlt készítettünk a LizardTech cég Document Express nevű szoftverjével, aminek próbaváltozatát a LizardTech web oldaláról töltöttük le. Egy másik módszerrel a dokumentumokat egyből a szoftverbe szkenneltük 300 dpi felbontással. Bármelyik megoldás alkalmazható bármilyen típusú dokumentummal (2. ábra). A képeket és fényképeket fotó formátumban mentettük el (3. ábra).

2. ábra
Közvetlenül a Document Express szoftverbe szkennelt dokumentum.

3. ábra
Kodály Zoltán és Serly Tibor fényképe a 60-as évekből

A kézzel és géppel írott dokumentumokat és a régi újságkivágásokat bitonális formában érdemes elmenteni. A 4. ábra ugyanazt a dokumentumot mutatja bitonális és normál formában.

4.ábra
Kodály gyászjelentése kortárs magyar forrásból 1967-ből. A jobboldali kép bitonális formátumú.

 

A TIFF fájl minden esetben óriási méretűre sikeredett (12–18 Mbyte). A DjVu fájl jelentősen kisebb, de a szöveges és képfájlok minősége egyaránt jobb lett DjVu formátumban, akkor is, amikor a kép egyes részeit négyszázszorosra nagyítottuk. A szöveges fájlokat ezután a Document Express optikai karakterfelismerő részével tettük kereshetővé. A szoftver minden probléma nélkül felismerte a gépelt szöveg magyar ékezetes betűit is. Az 5. ábra egy DjVu dokumentumban végzett keresést mutat.

5.ábra
A “Kodaly” szó keresése a DjVu fájlban az OCR után

A kézzel írt szövegeket ugyanilyen módon kereshetővé tehetjük, ha még egy rétegben hozzáadjuk a gépelt szöveget is. A kézírás olvashatóságát nagyban elősegíti a DjVu formátum. A példa Kossuth aláírását mutatja eredeti méretben (6. ábra), valamint 300%-os és 500%-os nagyságban (7. és 8. ábrák).

6. ábra
Kossuth aláírása, eredeti méret

7. ábra
Kossuth aláírása, 300%

8. ábra
Kossuth aláírása 500%

Egy 1921-ből származó töredezett kotta lapjait is digitalizáltuk. A 9. és a 10. ábra azt mutatja, hogy a könyv rossz állapota ellenére a tartalmat megőrzi a DjVu formátum.

9.sz. ábra
A Kodály-anyagból származó kotta címoldala 1921-ből, szemmel látható a rossz állapot a jobb oldalon lent

10.ábra
A kotta első oldalai, a hangjegyeket tökéletesen megőrzi a DjVu formátum

Utolsó lépésként az összes fájlt egy bemutató sorozatba rendeztük, ún. indirekt formában, hogy egyenként is megtalálhatóak legyenek.

A DjVu formátum egyszerű és költségkímélő megoldás, amelyet csak ajánlani tudunk digitális állományfejlesztésre és konzerválásra. A munkafolyamat egyszerűségének és alacsony költségvonzatának bizonyítására egyetlen példa: Oroszországban diákok DjVu segítségével mentik meg a szovjet korszakban kiadott és azóta hozzáférhetetlen matematikai és mérnöki szakkönyveket (Bottou, 2005.).

Egy szkenner már nem elérhetetlen egyetlen könyvtár számára sem, a Document Express szoftver is megfizethető, illetve az ingyenes átalakító oldal mindenki számára hozzáférhető. Érdemes kiszámítani az adott könyvtár befektetési költségeit, beleértve a tanulásra, kísérletezésre és a digitalizálásra szánt időt az eszközigény mellett. A nyereség mindannyiunké: a világ min-den tájáról hozzáférhető magyar gyűjtemények összessége.

A DjVu-val kapcsolatos legfontosabb weboldalak

  • http://www.lizardtech.com (a cég oldala www.djvu.com néven is ismeretes)
  • http://www.djvuzone.org (DjVu Portál, a DjVu közösség oldala)
  • http://any2djvu.djvuzone.org/ (ingyenes DjVu konvertálási lehetőség, a következő formátumokat tudja átalakítani: PDF, PostScript, TIFF, JPEG)
  • http://www.planetdjvu.com (fórum, képek, hírek, linkek)
  • http://sourceforge.net/ (open source szoftver)
  • http://javadjvu.sourceforge.net/ (JavaDjVu)

Felhasznált irodalom

BOTTOU, L. (2005). The Russians are coming. Paper presented at the Second DjVu Summit Conference and Panel Discussion, Rutgers University, New Brunswick, NJ.

BOTTOU, L., LECUN, Y., RIEMERS, B., TRIGGS, J. (2003). DjVuLibre and Any2DjVu. Paper presented at the First DjVu Summit Conference and Panel Discussion, Rutgers University, New Brunswick, NJ.

BOTTOU, L.. HAFFNER, P., HOWARD, P.G., BENGIO, Y, LECUN, Y. (1998). High quality document image compression with DjVu. Journal of Electronic Imaging, 7(3), 410-425.

BOTTOU, L., HAFFNER, P., LECUN, Y. (2001). Efficient conversion of digital documents to multilayer raster formats Document Analysis and Recognition, 2001 Proceedings ICDAR'01, International Conference on Document Analysis and Recognition, Seattle, WA, September 2001. pp. 444-448. Retrieved from IEEE on June 11, 2005.

Digitising large files: DjVu – you have never seen it before. Data compression software for image files from LizardTech. (2002). Library Association Record, 102(12), p. 665.

EVANS, G. E. (2000). Developing Libraries and Information Center Collections. 4th ed. Englewood, Colorado: Libraries Unlimited.

GROSS, N. (1999). Deja vu worth a second look. Business Week, 05/10/ 99 Issue 3628, p. 68.

HAFFNER, P., BOTTOU, L.,HOWARD, P.G., SIMARD, P., BENGIO, Y., LECUN, Y. (1998) Browsing through high quality document images with DjVu. Research and Technology Advances in Digital Libraries, ADL 98. Proceedings. IEEE International Forum on 22-24 Apr 1998. pp. 309318.

HAFFNER, P., BOTTOU, L., HOWARD, P.G., LECUN, Y. (1999a) DjVu: Analyzing and compressing scanned documents for Internet distribution., ICDAR '99. Proceedings of the Fifth International Conference on Document Analysis and Recognition 20-22 Sep 1999. pp. 625-628. Retrieved from IEEE on June 11, 2005.

HAFFNER, P., LECUN, Y., BOTTOU, L., HOWARD, P., VINCENT, P., RIEMERS, B. (1999b). Color documents on the Web with DjVu. International Conference on Image Processing, 1999. ICIP 99. Proceedings. 1999 Volume: 1, pp. 239-243.

Internet Archive to host Open-Access Text Archive, Advanced Technology Libraries; 34 (1) Jan 2005, pp.2 Retrieved on 06/10/2005 from http:// site.ebrary.com/pub/atl/Top?channelName=atl--pub&docID=1007737 1&page=1

JOHNSON, P. (2004). Fundamentals of Collection Development & Management. Chicago: American Library Association.

KOBRES, B. (2003). The University of Georgia Libraries in DjVu format. . DjVu Summit Conference and Panel Discussion on DVD, December 3, 2003, PlanetDjVu.com, 2004

LESK, M.(2003). Million Book ProjectatArchive.org. DjVu SummitConference and Panel Discussion on DVD, December 3, 2003, PlanetDjVu.com, 2004.

LizardTech Inc. (2001). DjVu Offers Alternative to Adobe PDF, JPEG, and GIF Files. Information Today; 18,( 3), 41.

ROBERTS-WITT, S. L. (2001). LizardTech. Internet World; 02/01/2001, Vol. 7 Issue 3, p16, 1p.

SAVIC, D. (2003). Share your DjVu. New image compression technology and its use in Web-based document distribution. International Council on

Archives, Section of International Organizations, May 12-16, 2003, Geneve, Switzerland. PowerPoint presentation. Retrieved on June 11, 2005 from http://www.icao.int/djvu/pr/index.html

TRIGGS, J. (2005, May). DjVu in Academe? Paper presented at the Second DjVu Summit Conference and Panel Discussion, Rutgers University, New Brunswick, NJ.

YIN, X.W., FLEURY, M., DOWNTON, A.C. (2003). Archive image communication with improved compression. Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR 03) Retrieved from IEEE on June 11, 2005.

WU, B.F., CHIU, C.C., CHEN,Y.,-L. (2004). Algorithms for compressing compound document images with large text/background overlap. Vision, Image and Signal Processing, IEE Proceedings. 151, (6). 453 - 459 .

:: Vissza az oldal tetejére | Vissza a tartalomjegyzékhez ::