Országos Hirlap
ISMERTETŐ

Bevezetés
Rövid leírás
Szolgáltatás
Technikai megjegyzések
Online keresési lehetőségek

Mikszáth Kálmán: Mindég jó a katona


Bevezetés

Az Országos Hirlap digitalizálása és szolgáltatásra való előkészítése az Informatikai és Hírközlési Minisztérium IHM-ITP-8 (24. óra - 24. óra - Kulturális kincseink digitalizálása) pályázat keretében történt 2004-ben.

A Mikszáth Kálmán szerkesztette ORSZÁGOS HIRLAP című periodika, mely 1897, 1898, 1899-ben jelent meg mint társadalmi, gazdasági, és politikai napilap. Korszakos kiemelkedő érdekessége s egyben értéke a Mikszáth által készített országgyülési tudósitások című rovat, melynek legszebb tárcái külön kiadásban, majd összegyűjtött kötetben is megjelentek a szerző gondozásában. Ezen kívül a XIX. század végi Magyarország hétköznapi életéről nyújt kiváló áttekintést (apró hirdetések, időjárás, tőzsdei hírek, színházi élet stb.).

Évfolyam Év Szám
I. 1897 41
II. 1898 360
III. 1899 26

Összesen 427 szám + különszámok

A 427 szám összesen közel 8000 nyomtatott újságoldalt tartalmaz oldalanként átlagosan 10.000 karakterrel, vagyis az összes feldolgozott karakterek száma 80.000.000 körül mozog.

Rövid leírás

Megjelent: 1897. nov. 20. - 1899. jan. 26.
Tulajdonos: Mikszáth Kálmán (1847-1910)
Kiadja: Mikszáth Kálmán (1847-1910)
Főszerkesztő: Mikszáth Kálmán (1847-1910)
Felelős szerkesztő: Lipcsey Ádám
Az eredeti példány lelőhelye: Országos Széchényi Könyvtár - Jelzet: h 442

Szolgáltatás

Az ORSZÁGOS HIRLAP kétféle formában kerül szolgáltatásra. Egyrész az EPA szolgáltatásai között, másrészt DVD-n. Az online szolgáltatásban a képek erősen tömörítettek 200 dpi felbontással. A DVD-n található képek felbontása 300 dpi.

Technikai megjegyzések

Az ORSZÁGOS HIRLAP digitalizálása az Országos Széchényi Könyvtár állományvédelmi szabályainek megfelelően a napilap mikrofimrevételével kezdődött. A digitalizálás a mikrofilmről történt. Ezek után következett a digitalis képek technikai feldolgozása (vágás, forgatás, retus stb.). Az így nyert képeket OCR programmal felismertettük, majd a nagytömegű történeti sajtóanyag digitalizálásánál általánosan elfogadott "dirty OCR" elvet alkalmazva javítottuk a szöveg meghatározott részeit.

A karakterfelismertetés (OCR) nehézségei és megoldások

A külföldi és hazai tapasztalatok, továbbá saját eddigi tapasztalataink alapján a legnehezebben megoldható feladat az eredeti szöveghű/betűhű változatának költséghatékony és a projekt időtartama által korlátozott idejű előállítása. A különböző periodika típusok más-más probléma elé állítják az OCR programokat és a velük dolgozókat. Másként kell feldolgozni egy sokféle rovattal (fejléc, vezércikk, apróhirdetés, reklám, táblázatok, képek stb.) rendelkező napilapot, mint egy művészeti vagy tudományos folyóiratot. A következőkben az Országos Hirlap feldolgozási problémáit vázoljuk.

Az eredeti állapota - Sok oldalon kisebb-nagyobb sérülések, szennyeződések, pecsétek nehezítik a karakterfelismerést.


Pecsét az Országos Hirlap egyik oldalán

Sokféle betűtipus és méret. - Az Országos Hirlap jellegéből adódóan sokféle betűtípust és méretet használ. A rendkívül apró (gyöngy = 5 pont, nonpareille = 6 pont, petit = 8 pont) betűméret felismertetés nem problémamentes, a felismerési hibaszázalék növekszik. A változó tipusok és méretek sokszor együtt szerepelnek egyéb grafikai elemekkel, ami szintén rontja a felismerést.


Hirdetés többféle betűtípussal és betűmérettel

Helyesírás - A történeti sajtóanyag helyesírása nagyban eltér a mai helyesírásunktól. Az alábbi képen világosan láthatjuk, hogy az alsó képrészleten található eredeti szöveg helyesírását, hogyan "modernizálja" az OCR program helyesírás ellenőrzője. Természetesen másfajta helyesírási eltérésekből adódó nehézségek is felmerülnek. Sajnos a helyesírás ellenőrzés kikapcsolása és/vagy egyéni szótár kialakítása sem vezet egyértelműen a probléma egyértelműen elégséges megoldásához.


Helyesírási problémák az OCR folyamatban

Táblázatok

A táblázatok esetében halmozottan jelentkeznek a nehezen megoldható OCR feladatok. A táblázatokat általában rendkívül apró betűmérettel (perl, nonpareille stb.) szedték és nagyon sok esetben már az eredeti sem mutat tiszta szerkezetet és betűképet.


Összetett táblázat

Az eddigiekben felsoroltakkal csak bizonyítani szerettük volna, hogy a történeti sajtótermékek esetében az eredeti betűhű visszaadása nem, vagy csak rendkívül nagy munkaidő igényű korrektúrával lehetséges.

A szöveghűség/betűhűség problémája az egyik kulcskérdése a szövegdigitalizálási projekteknek. Az előbb említett okok miatt az OCR programok egyike sem képes tökéletesen felismerni és visszaadni az eredeti szöveget. Ezért csak optimális kompromisszumra törekedhetünk. A szöveg tökéletes másolatának visszaadása a kritikai kiadások feladata, a képi fakszimile pedig csak a tipográfiai hűségre törekszik. Az OCR programokkal felismertetett szövegek textológiai értelemben külön szövegkiadási kategóriát képviselnek. Céljuk a relatíve nagy tömegű szöveg minél jobb kereshetőségének biztosítása. A tökéletes" másolat látszata túlzottan sok időráfordítással és költséggel jár, ezért a szövegjavítási munkát elfogadható határok között kell tartanunk vállalva annak kockázatát, hogy néhány apróhirdetés vagy apró betűs táblázat néhány számadata nem lesz szövegszerűen kereshető.

OCR javítás

A javítást több vállalkozó végezte egyeztetett elvek alapján. Alapvető szempont volt, hogy a javítást úgy végezzük, hogy minél jobban őrizzük meg az eredeti tipográfiai sajátosságait és helyesírását. Szinte megoldhatatlan problémának bizonyult az ö és ő és az ü és ű megkülönböztetése, mivel részben az eredeti nyomtatványban is nagyon következetlen volt a használatuk, részben pedig az eredeti kopott betűi miatt rendkívül sok esetben alig lehet elkülöníteni a rövid és hosszú ékezetet. Az Í és í hiányzott a nyomda készletéből. Ezeket és a keresés lehetőségeit figyelembe véve úgy döntöttünk, hogy az Ő, Ű, Í, ő, ű, í karaktereket rövid megfelelőjükkel helyettesítjük. Ez megkönnyíti a keresést, és kevesebb esetlegességet enged meg. Felismertettük, de nem javítottuk a sok grafikus elemet tartalmazó apróhirdetési és reklám oldalakat. Mivel a karakterfelismerő program lehetővé teszi, hogy a nyelvi ellenőrző modul lexikai elemeinek bővítését ezért ideiglenesen létrehoztuk az Országos Hirlap közös OCR szotárát (kb. 50000 lexikai elem).

Online keresési lehetőségek

Az ORSZÁGOS HIRLAP esetében is az EPA általános keresési lehetőségeit használhatjuk:

  1. Böngészhetünk évfolyamok szerint.
  2. Böngészhetünk egy adott évfolyam számai között.
  3. Kereshetünk az Országos Hirlap teljes szövegében (kb. 80 millió karakter)
  4. Egy adott számon belül a PDF állomány és az Acrobat Reader keresési lehetőségeit használhatjuk.
  5. A keresés közben tartsuk szem előtt, hogy a szövegben nincs Ő, Ű, Í, ő, ű, í karakter, hanem ezek rövid változataival kell keresnünk (Ö, Ü, I, ö, ü, i)


Mindég jó a katona.

Mit mondana a király, ha egy katona kopogna az ajtóján azzal a szándékkal, hegy szolgálni akarja? Mondaná-e a király: Eh, nincsen most háború! Nem, ezt a király nem mondaná. Mindég jó a katona. Hisszük, nekünk is azt mondja a nemzet, ha megismer: Mindég jó a katona. Pedig csakugyan nincs most háború, se pennaháború, se parlamenti. Egy csendes, szelíd napon jelenünk meg a szabadelvűség zászlajával, azzal a becsületes fogadalommal, hogy soha el nem hagyjuk, jó időben, rossz időben, szárazon és vizen szolgáljuk, el nem ejtjük - csak ha a kezünket vágják le előbb, amely fogja. Csakhogy mindez nem elég, - eszébe juthatna valakinek igy szólani: mi hasznodat vesszük most? Egygyel több fecske nem csinál nyarat, kivált mikor valamennyi fecske nélkül is nyár van. A nap süt, fényes pompájában haladva a három halom országa fölött. A szabadelvűség homlokán glória ragyog. Mit szoritod hát olyan erősen a zászlónyelet, hiszen senki sem akarja kicsavarni? Nézd az árboczokat és házormokat. Köröskörül mindenütt ez a szín leng; a többi színek begöngyölgetve sápadtan húzódnak meg a háttérben. Rosszkor kezded a szolgálatot tisztelt jövevény! Mit akarsz védelmezni ? Ki bánt itt valamit? Kivel akarsz most verekedni és hol? A gyep, melyen a viaskodás szokott lenni, tele van a szeretet és boldogság javában nyíló rózsáival, a miket nem szabad letaposni. Te sem akarhatod, mert örömed telik bennök, az ellenfelek se bántják; a jók közülök sajnáljak eltiporni, a rosszak nem merik. Minden mosolyog. A közvélemény szundikál és édes álmokat lát, az országgyűlés ritka egyetértéssel egy óra alatt intéz el egy hétre való munkát, a szabadelvű párt a Lloyd klubban vidáman sütkérezik a Bánffy sikereiben. A delegáczió, mely máskor legalább aggodalmas képeket szokott vágni a sztereotyp békekijelentésekhez, és a nyomban következö hadi emelésekhez, most riadó éljenekkel (melyekre itthonról visszhang kél) fogad minden kijelentést; a teher se teher neki s öröm a nem öröm is. Iszen természetes. Ki is ne örülne annak, hogy Bosznia és Herczegovina a saját költségén kormányoztatik? És itthon ezalatt az ellenzék becsülettudón, lábhoz eresztett fegyverekkel nézi a szabadelvű kormányzat sikereit és lapjaiban nem ritkaságok a Bánffyt dícsérő czikkelyek. Lásd meg tehát ebből fiatal lap, hogy rossz idöben toppantál be a szabadelvűség szolgálátára.

*

Nem látom. Nem ugy van. A látszat csakugyan olyan, hogy a szabadelvűség sohasem állott jobban, mint ma. De ez csak látszat. Az utolsó idők eseményei kétségtelenül erősítették a szabadelvű alapba vetett hitet, bebizonyult, hogy a szabadelvű politika, melyet a nemzet többsége vall, különböző felfogásokkal ugyan, de mégis vall, nem alkalmatlan a nemzet jövőjének fejlesztésére, úgy bent mint künn és a Hofburgban, de ez nem elég - nekünk, azt kell bizonyítani és abban erősiteni meg minden jó magyart, hogy csak is ez az alkalmas alap. A helyzet, melyet az imént színeztünk, nem kizárólag a mi erőnkből formálódott a természet örök törvényeinél fogva, hogy az erő okvetetlenül létrehoz valamit, és amig ez az erő erő marad, az a valami is szükségképen következik. - A mai helyzet nem csupán az öntudatos, átgondolt nemzeti politika vívmánya, tehát nem könyvelhető el pusztán ami status bölcseségünk lapjára és nem becsülendő túl nagyra. Három dolog kellett hozzá még: Egy jó király aki minket szeret és akit mi szeretünk. Egy jó szituáczió, mely lendületet adott törekvéseinknek. És végül ügyes kormány, mely a király szivét hajlítsa a mienkhez (a mienk nem is hajlik, de olvad) és mely a kedvező viszonyokat felhasználja. De hát ezek mind nem örök dolgok; se a jó szituáczió, se az ügyes kormány.