|
ISMERTETŐ |
Bevezetés
Rövid leírás
Szolgáltatás
Technikai megjegyzések
Online keresési lehetőségek
Mikszáth Kálmán: Mindég jó a katona
Az Országos Hirlap digitalizálása és szolgáltatásra való előkészítése az Informatikai és Hírközlési Minisztérium IHM-ITP-8 (24. óra - 24. óra - Kulturális kincseink digitalizálása) pályázat keretében történt 2004-ben.

A Mikszáth Kálmán szerkesztette ORSZÁGOS HIRLAP című periodika, mely 1897, 1898, 1899-ben jelent meg mint társadalmi, gazdasági, és politikai napilap. Korszakos kiemelkedő érdekessége s egyben értéke a Mikszáth által készített országgyülési tudósitások című rovat, melynek legszebb tárcái külön kiadásban, majd összegyűjtött kötetben is megjelentek a szerző gondozásában. Ezen kívül a XIX. század végi Magyarország hétköznapi életéről nyújt kiváló áttekintést (apró hirdetések, időjárás, tőzsdei hírek, színházi élet stb.).
| Évfolyam | Év | Szám |
| I. | 1897 | 41 |
| II. | 1898 | 360 |
| III. | 1899 | 26 |
Összesen 427 szám + különszámok
A 427 szám összesen közel 8000 nyomtatott újságoldalt tartalmaz oldalanként átlagosan 10.000 karakterrel, vagyis az összes feldolgozott karakterek száma 80.000.000 körül mozog.
Megjelent: 1897. nov. 20. - 1899. jan. 26.
Tulajdonos: Mikszáth Kálmán (1847-1910)
Kiadja: Mikszáth Kálmán (1847-1910)
Főszerkesztő: Mikszáth Kálmán (1847-1910)
Felelős szerkesztő: Lipcsey Ádám
Az eredeti példány lelőhelye: Országos Széchényi Könyvtár - Jelzet: h 442
Az ORSZÁGOS HIRLAP kétféle formában kerül szolgáltatásra. Egyrész az EPA szolgáltatásai között, másrészt DVD-n. Az online szolgáltatásban a képek erősen tömörítettek 200 dpi felbontással. A DVD-n található képek felbontása 300 dpi.
Az ORSZÁGOS HIRLAP digitalizálása az Országos Széchényi Könyvtár állományvédelmi szabályainek megfelelően a napilap mikrofimrevételével kezdődött. A digitalizálás a mikrofilmről történt. Ezek után következett a digitalis képek technikai feldolgozása (vágás, forgatás, retus stb.). Az így nyert képeket OCR programmal felismertettük, majd a nagytömegű történeti sajtóanyag digitalizálásánál általánosan elfogadott "dirty OCR" elvet alkalmazva javítottuk a szöveg meghatározott részeit.
A karakterfelismertetés (OCR) nehézségei és megoldások
A külföldi és hazai tapasztalatok, továbbá saját eddigi tapasztalataink alapján a legnehezebben megoldható feladat az eredeti szöveghű/betűhű változatának költséghatékony és a projekt időtartama által korlátozott idejű előállítása. A különböző periodika típusok más-más probléma elé állítják az OCR programokat és a velük dolgozókat. Másként kell feldolgozni egy sokféle rovattal (fejléc, vezércikk, apróhirdetés, reklám, táblázatok, képek stb.) rendelkező napilapot, mint egy művészeti vagy tudományos folyóiratot. A következőkben az Országos Hirlap feldolgozási problémáit vázoljuk.
Az eredeti állapota - Sok oldalon kisebb-nagyobb sérülések, szennyeződések, pecsétek nehezítik a karakterfelismerést.

Pecsét az Országos Hirlap egyik oldalán
Sokféle betűtipus és méret. - Az Országos Hirlap jellegéből adódóan sokféle betűtípust és méretet használ. A rendkívül apró (gyöngy = 5 pont, nonpareille = 6 pont, petit = 8 pont) betűméret felismertetés nem problémamentes, a felismerési hibaszázalék növekszik. A változó tipusok és méretek sokszor együtt szerepelnek egyéb grafikai elemekkel, ami szintén rontja a felismerést.

Hirdetés többféle betűtípussal és betűmérettel
Helyesírás - A történeti sajtóanyag helyesírása nagyban eltér a mai helyesírásunktól. Az alábbi képen világosan láthatjuk, hogy az alsó képrészleten található eredeti szöveg helyesírását, hogyan "modernizálja" az OCR program helyesírás ellenőrzője. Természetesen másfajta helyesírási eltérésekből adódó nehézségek is felmerülnek. Sajnos a helyesírás ellenőrzés kikapcsolása és/vagy egyéni szótár kialakítása sem vezet egyértelműen a probléma egyértelműen elégséges megoldásához.

Helyesírási problémák az OCR folyamatban
Táblázatok
A táblázatok esetében halmozottan jelentkeznek a nehezen megoldható OCR feladatok. A táblázatokat általában rendkívül apró betűmérettel (perl, nonpareille stb.) szedték és nagyon sok esetben már az eredeti sem mutat tiszta szerkezetet és betűképet.
Az eddigiekben felsoroltakkal csak bizonyítani szerettük volna, hogy a történeti sajtótermékek esetében az eredeti betűhű visszaadása nem, vagy csak rendkívül nagy munkaidő igényű korrektúrával lehetséges.
A szöveghűség/betűhűség problémája az egyik kulcskérdése a szövegdigitalizálási projekteknek. Az előbb említett okok miatt az OCR programok egyike sem képes tökéletesen felismerni és visszaadni az eredeti szöveget. Ezért csak optimális kompromisszumra törekedhetünk. A szöveg tökéletes másolatának visszaadása a kritikai kiadások feladata, a képi fakszimile pedig csak a tipográfiai hűségre törekszik. Az OCR programokkal felismertetett szövegek textológiai értelemben külön szövegkiadási kategóriát képviselnek. Céljuk a relatíve nagy tömegű szöveg minél jobb kereshetőségének biztosítása. A tökéletes" másolat látszata túlzottan sok időráfordítással és költséggel jár, ezért a szövegjavítási munkát elfogadható határok között kell tartanunk vállalva annak kockázatát, hogy néhány apróhirdetés vagy apró betűs táblázat néhány számadata nem lesz szövegszerűen kereshető.
OCR javítás
A javítást több vállalkozó végezte egyeztetett elvek alapján. Alapvető szempont volt, hogy a javítást úgy végezzük, hogy minél jobban őrizzük meg az eredeti tipográfiai sajátosságait és helyesírását. Szinte megoldhatatlan problémának bizonyult az ö és ő és az ü és ű megkülönböztetése, mivel részben az eredeti nyomtatványban is nagyon következetlen volt a használatuk, részben pedig az eredeti kopott betűi miatt rendkívül sok esetben alig lehet elkülöníteni a rövid és hosszú ékezetet. Az Í és í hiányzott a nyomda készletéből. Ezeket és a keresés lehetőségeit figyelembe véve úgy döntöttünk, hogy az Ő, Ű, Í, ő, ű, í karaktereket rövid megfelelőjükkel helyettesítjük. Ez megkönnyíti a keresést, és kevesebb esetlegességet enged meg. Felismertettük, de nem javítottuk a sok grafikus elemet tartalmazó apróhirdetési és reklám oldalakat. Mivel a karakterfelismerő program lehetővé teszi, hogy a nyelvi ellenőrző modul lexikai elemeinek bővítését ezért ideiglenesen létrehoztuk az Országos Hirlap közös OCR szotárát (kb. 50000 lexikai elem).
Online keresési lehetőségek
Az ORSZÁGOS HIRLAP esetében is az EPA általános keresési lehetőségeit használhatjuk:
