ORSZÁGOS HIRLAP
1897-1899
Az Országos Hirlap digitalizálása az Informatikai és Hírközlési Minisztérium 24. óra - Kulturális kincseink digitalizálása" (IHM-ITP-8) pályázatának keretében valósult meg.
A Mikszáth Kálmán szerkesztette ORSZÁGOS HIRLAP című periodika, mely 1897, 1898, 1899-ben jelent meg mint társadalmi, gazdasági, és politikai napilap. Korszakos kiemelkedő érdekessége s egyben értéke a Mikszáth által készített országgyülési tudósitások című rovat, melynek legszebb tárcái külön kiadásban, majd összegyűjtött kötetben is megjelentek a szerző gondozásában. Ezen kívül a XIX. század végi Magyarország hétköznapi életéről nyújt kiváló áttekintést (apró hirdetések, időjárás, tőzsdei hírek, színházi élet stb.).
Évfolyam | Év | Szám |
I. | 1897 | 41 |
II. | 1898 | 360 |
III. | 1899 | 26 |
Összesen 427 szám + különszámok
A 427 szám összesen közel 8000 nyomtatott újságoldalt tartalmaz oldalanként átlagosan 10.000 karakterrel. Vagyis az összes feldolgozott karakterek száma 80.000.000 körül mozog.
A kiválasztás elsődleges szempontja az anyag veszélyeztetettsége és fontossága volt. A veszélyeztetettség miatt a történeti sajtóanyagra esett a választás. Mivel célul tűztük ki, hogy a történeti sajtóanyagot a kép alapú feldolgozás mellett szöveges adathalmazként is kezeljük további szempont volt, hogy lehetőség szerint olyan újságot válasszunk, ami, egyrészt elég jelentős adatmennyiséget tartalmaz, másrészt teljességében fel tudjuk dolgozni a pályázat adta lehetőségek között.
Rövid leírás
Megjelent: 1897. nov. 20. - 1899. jan. 26.
Tulajdonos: Mikszáth Kálmán (1847-1910)
Kiadja: Mikszáth Kálmán (1847-1910)
Főszerkesztő: Mikszáth Kálmán (1847-1910)
Felelős szerkesztő: Lipcsey Ádám
Az eredeti példány lelőhelye: Országos Széchényi Könyvtár
Jelzet: h 442
Szolgáltatás:
DVD (Országos Széchényi Könyvtár) - PDF, 300 dpi
Érdeklődni: Káldos János
tel.: 4878886
A karakterfelismertetés (OCR) nehézségei és megoldások
A külföldi és hazai tapasztalatok, továbbá saját eddigi tapasztalataink alapján a legnehezebben megoldható feladat az eredeti szöveghű/betűhű változatának költséghatékony és a projekt időtartama által korlátozott idejű előállítása. A különböző periodika típusok más-más probléma elé állítják az OCR programokat és a velük dolgozókat. Másként kell feldolgozni egy sokféle rovattal (fejléc, vezércikk, apróhirdetés, reklám, táblázatok, képek stb.) rendelkező napilapot, mint egy művészeti vagy tudományos folyóiratot. A nemzetközi digitalizációs szakirodalomban is elfogadott és általánosan használt fogalom a dirty OCR", amivel a nagytömegű szöveg OCR programmal történő reprodukálását jelölik. A következőkben az Országos Hirlap feldolgozási problémáit vázoljuk.
Az eredeti állapota - Sok oldalon kisebb-nagyobb sérülések, szennyeződések, pecsétek nehezítik a karakterfelismerést.
Pecsét az Országos Hirlap egyik oldalán
Sokféle betűtipus és méret. - Az Országos Hirlap jellegéből adódóan sokféle betűtípust és méretet használ. A rendkívül apró (gyöngy = 5 pont, nonpareille = 6 pont, petit = 8 pont) betűméret felismertetés nem problémamentes, a felismerési hibaszázalék növekszik. A változó tipusok és méretek sokszor együtt szerepelnek egyéb grafikai elemekkel, ami szintén rontja a felismerést.
Hirdetés többféle betűtípussal és betűmérettel
Helyesírás - A történeti sajtóanyag helyesírása nagyban eltér a mai helyesírásunktól. Az alábbi képen világosan láthatjuk, hogy az alsó képrészleten található eredeti szöveg helyesírását, hogyan modernizálja" az OCR program helyesírás ellenőrzője. Természetesen másfajta helyesírási "eltérésekből" adódó nehézségek is felmerülnek. Sajnos a helyesírás ellenőrzés kikapcsolása és/vagy egyéni szótár kialakítása sem vezet egyértelműen a probléma egyértelműen elégséges megoldásához.
Helyesírási problémák az OCR folyamatban
Táblázatok - A táblázatok esetében halmozottan jelentkeznek a nehezen megoldható OCR feladatok. A táblázatokat általában rendkívül apró betűmérettel (perl, nonpareille stb.) szedték és nagyon sok esetben már az eredeti sem mutat tiszta szerkezetet és betűképet.
Összetett táblázat
Az eddigiekben felsoroltakkal csak bizonyítani szerettük volna, hogy a történeti sajtótermékek esetében az eredeti betűhű visszaadása nem, vagy csak rendkívül nagy munkaidő igényű korrektúrával lehetséges.
A szöveghűség/betűhűség problémája az egyik kulcskérdése a szövegdigitalizálási projekteknek. Az előbb említett okok miatt az OCR programok egyike sem képes tökéletesen felismerni és visszaadni az eredeti szöveget. Ezért csak optimális kompromisszumra törekedhetünk. A szöveg tökéletes másolatának visszaadása a kritikai kiadások feladata, a képi fakszimile pedig csak a tipográfiai hűségre törekszik. Az OCR programokkal felismertetett szövegek textológiai értelemben külön szövegkiadási kategóriát képviselnek. Céljuk a relatíve nagy tömegű szöveg minél jobb kereshetőségének biztosítása. A "tökéletes" másolat látszata túlzottan sok időráfordítással és költséggel jár, ezért a szövegjavítási munkát elfogadható határok között kell tartanunk vállalva annak kockázatát, hogy néhány apróhirdetés vagy apró betűs táblázat néhány számadata nem lesz szövegszerűen kereshető.
OCR javítás
A javítást több vállalkozó végezte egyeztetett elvek alapján. Alapvető szempont volt, hogy a javítást úgy végezzük, hogy minél jobban őrizzük meg az eredeti tipográfiai sajátosságait és helyesírását. Szinte megoldhatatlan problémának bizonyult az ö és ő és az ü és ű megkülönböztetése, mivel részben az eredeti nyomtatványban is nagyon következetlen volt a használatuk, részben pedig az eredeti kopott betűi miatt rendkívül sok esetben alig lehet elkülöníteni a rövid és hosszú ékezetet. Az Í és í hiányzott a nyomda készletéből. Ezeket és a keresés lehetőségeit figyelembe véve úgy döntöttünk, hogy az Ő, Ű, Í, ő, ű, í karaktereket rövid megfelelőjükkel helyettesítjük. Ez megkönnyíti a keresést, és kevesebb esetlegességet enged meg. Felismertettük, de nem javítottuk a sok grafikus elemet tartalmazó apróhirdetési és reklám oldalakat. Mivel a karakterfelismerő program lehetővé teszi, hogy a nyelvi ellenőrző modul lexikai elemeinek bővítését ezért ideiglenesen létrehoztuk az Országos Hirlap közös OCR szotárát (kb. 50000 lexikai elem).