24 februari 2008

Flink ftinken de finkdieren

In Gent versnijden ze al jaren hun boeken bij het inscannen. Dat staat in de NRC van dit weekend. ' Met de oude boeken doen we dat natuurlijk niet, maar met moderne boeken doen we dat al jaren, hier beneden in de kelder, op onze eigen scanners. Eerst lossnijden, en zonodig weer inbinden. We schreeuwen dit alleen niet van de daken', aldus directeur dr. Sylvia van Peteghem.
Is het erg, het versnijden van boeken? Ik ben vooral tekeer gegaan tegen het versnijden van boeken voor ca. 1900. Vooral in de negentiende eeuw zijn veel boekuitgaven heel uniek. Ik heb hier eerder het voorbeeld aangehaald van Junghuhns Java, waarvan bij de eerste druk geen exemplaar hetzelfde is.
Ewoud Sanders gebruikt zijn artikel weer om van leer te trekken tegen de aanpak van Google en daarnaast weer stelling te nemen in de overtuiging dat de boeken versneden moeten worden voor het inscannen. Hetzelfde doet hij in de Onze taal van deze maand, waar hij vertelt dat hij zijn eigen bibliotheek aan het versnijden is. De opbrengst: 1,5 miljoen pagina's en hij groeit maandelijks met 50.000 pagina's.
Ik vind dat het initiatief van Google zeker niet negatief benaderd moet worden. De bibliotheek van Gent stelt haar oude collectie boeken beschikbaar. Gent levert 300.000 boeken, van de zestiende eeuw tot 1867. Ze is de eerste bibliotheek in het Nederlands taalgebied, maar ik begrijp dat diverse bibliotheken al in gesprek zijn met Google. Dat hiermee het Nederlandstalige aandeel van boeken via Google books enorm toeneemt, verdient niets anders dan lof. Bovendien is de dienst van Google gratis. Een bibliotheek zou dergelijke initiatieven alleen maar moeten toejuichen. Natuurlijk wel met het recht om zelf de teksten ook naar believen in te scannen en te gebruiken. Google mag geen alleenheerser worden op het web. Dat Google nog veel moeite heeft met het lezen van de boeken, is een ander verhaal.
Mijn afstudeerscriptie bestond uit een heruitgave van Junghuhns Terugreis van Java naar Europa. Een boek uit 1851. Ton Harmsen scande het boek destijds voor mij in en liet het door een Engelstalige OCR (Optical Chartacter Recognition) overzetten. Een lovenswaardig karwei, waar ik hem nog altijd erg dankbaar voor ben. De moeilijkheid waar hij mij ook op wees, was het vertalen van de enigszins onduidelijke en verwarrende leestekens uit de negentiende eeuw. Ik ploos de tekst op letterniveau na, zoals een aap zijn soortgenoot haar voor haar uitvlooit.
Ik weet dat Google een goed programma ontwikkeld heeft om de gotische drukletters uit Duitse uitgaven om te zetten. Nu zal een goed programma moeten komen dat zonder al teveel problemen de Nederlandse drukletters ontrafeld en omzet naar een digitaal goed leesbaar schrift. Vooral met de 's' heeft Google het zwaar en steevast vertaalt de programmatuur de 's' voor een 'f' (zie hier bijvoorbeeld).
Het is voor Ewoud Sanders genoeg ergernis om Google af te kraken: 'Het ftinkdier flaapt' grapt hij in de kop van zijn artikel. Twee maanden is Google nu bezig en volgens de officiële cijfers zou de Amerikaanse zoeker al 20.000 titels moeten hebben verwerkt. Zonder kapotknippen en met respect voor de boeken.
Ik denk dat de fouten die de programmatuur maakt, goed zijn op te lossen. Het vraagt om een corpus van teksten van waaruit de machine ontwikkeld kan worden. Het is net zoiets als het verhaal van Mathias de Vries waarmee Sanders zijn artikel in de Onze taal begint. Voordat je een woordenboek hebt, heb je een corpus nodig. Voordat je een goede OCR hebt, moet je eerst duizenden pagina's hebben ingescant. Verknipt of met de rug er nog aan. Dat maakt niet uit.

Geen opmerkingen: