<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1d1 20130915//EN" "http://jats.nlm.nih.gov/publishing/1.1d1/JATS-journalpublishing1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" article-type="review-article" xml:lang="en">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">JCLR</journal-id>
<journal-title-group>
<journal-title>Barnboken &#x2013; tidskrift f&#x00F6;r barnlitteraturforskning/Barnboken &#x2013; Journal of Children&#x2019;s Literature Research</journal-title>
</journal-title-group>
<issn pub-type="epub">2000-4389</issn>
<publisher>
<publisher-name>Barnboken &#x2013; Journal of Children&#x2019;s Literature Research</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="publisher-id">202511</article-id>
<article-id pub-id-type="doi">10.14811/clr.v48.985</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Review/Recension</subject>
</subj-group>
</article-categories>
<title-group>
<article-title>DOCUMENT IMAGE PROCESSING FOR HANDWRITTEN TEXT RECOGNITION</article-title>
<subtitle>Deep Learning-based Transliteration of Astrid Lindgren&#x2019;s Stenographic Manuscripts</subtitle>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname>Orrje</surname>
<given-names>Jacob</given-names>
</name>
</contrib>
<aff>Docent i id&#x00E9;historia Uppsala universitet</aff>
</contrib-group>
<pub-date pub-type="epub">
<day>27</day>
<month>06</month>
<year>2025</year>
</pub-date>
<pub-date pub-type="collection">
<year>2025</year>
</pub-date>
<volume>48</volume>
<elocation-id content-type="doi">10.14811/clr.v48.985</elocation-id>
<permissions>
<copyright-statement>&#x00A9;2025 Jacob Orrje.</copyright-statement>
<copyright-year>2025</copyright-year>
<license license-type="open-access" xlink:href="https://creativecommons.org/licenses/by/4.0/">
<license-p>This is an open access article distributed under the terms of the Creative Commons CC BY 4.0 License, permitting all use, distribution, and reproduction in any medium, provided the original work is properly cited. Any included images may be published under different terms. Please see image captions for copyright details.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<sec>
<title></title>
<fig id="UF0001">
<graphic xmlns:xlink="http://www.w3.org/1999/xlink" xlink:href="JCLR-48-202511-g001.jpg"/>
</fig>
<p>RAPHAELA HEIL</p>
<p>Uppsala universitet, 2023. Skrifter utgivna av Svenska barnboksinstitutet nr 166 (87 + 75 s.)</p>
<p>Raphaela Heils avhandling <italic>Document Image Processing for Handwritten Text Recognition. Deep Learning-based Transliteration of Astrid Lindgren&#x2019;s Stenographic Manuscripts</italic> (2023) n&#x00E4;rmar sig Astrid Lindgrens f&#x00F6;rfattarskap fr&#x00E5;n ett perspektiv ur vilket det kanske aldrig tidigare har betraktats. Avhandlingen &#x00E4;r skriven vid Institutionen f&#x00F6;r informationsteknologi vid Uppsala universitet, men arbetet har ocks&#x00E5; till stora delar varit knutet till projektet <italic>Astrid Lindgren-koden</italic>. Detta projekt har dragit samman litteraturvetenskaplig forskning, datavetare och professionella stenografer som tillsammans tolkat Lindgrens stenogram med hj&#x00E4;lp av digitala metoder. Det &#x00E4;r just denna tv&#x00E4;rvetenskapliga och digitala milj&#x00F6; som Heils datavetenskapliga avhandling vuxit fram inom.</p>
<p>Ut&#x00F6;ver det uppenbara litteraturvetenskapliga och historiska v&#x00E4;rdet av att tillg&#x00E4;ngligg&#x00F6;ra en central k&#x00E4;lla och f&#x00F6;rst&#x00E5; ett viktigt f&#x00F6;rfattarskap, finns det ocks&#x00E5; mer datavetenskapliga anledningar att ta sig an just denna uppgift. Det senaste decenniet har det skett en h&#x00E4;pnadsv&#x00E4;ckande utveckling av metoder f&#x00F6;r datorbaserad tolkning av handskriven text, <italic>Handwritten Text Recognition</italic> (HTR). Fr&#x00E5;n att tidigare endast ha varit ett omr&#x00E5;de f&#x00F6;r informationsteknologisk grundforskning har denna teknik p&#x00E5; senare &#x00E5;r blivit en del b&#x00E5;de av humanistisk forskning och kulturarvsinstitutioners insatser f&#x00F6;r digitalt bevarande och tillg&#x00E4;ngligg&#x00F6;rande av historiskt material. Teknikens framv&#x00E4;xt &#x00E4;r t&#x00E4;tt knuten till 2000-talets revolution inom maskininl&#x00E4;rning och kanske mer specifikt djupinl&#x00E4;rning (p&#x00E5; engelska <italic>Deep Learning</italic>) &#x2013; det vill s&#x00E4;ga algoritmer som anv&#x00E4;nder sig av s&#x00E5; kallade neurala n&#x00E4;tverk med flera lager f&#x00F6;r att l&#x00E4;ra datorer att generalisera m&#x00F6;nster i stora datam&#x00E4;ngder. S&#x00E5;dana algoritmer, som mer f&#x00F6;ruts&#x00E4;ttningsl&#x00F6;st etablerar samband genom att tr&#x00E4;na p&#x00E5; s&#x00E5; kallade dataset (i detta fall exempelvis matchade par av &#x00E5; ena sidan bilder av ord och &#x00E5; andra sidan transkriberad text av samma ord) har p&#x00E5; senare &#x00E5;r i m&#x00E5;nga fall ersatt tidigare regelbaserade system (det vill s&#x00E4;ga program d&#x00E4;r m&#x00E4;nniskor p&#x00E5; f&#x00F6;rhand via programkod i detalj har beskrivit exempelvis hur en viss bokstav ser ut). Inom textigenk&#x00E4;nning har dessa datadrivna metoder m&#x00F6;jliggjort en exceptionell breddning av m&#x00E4;ngden till&#x00E4;mpningar. D&#x00E4;r det f&#x00F6;r drygt ett decennium sedan enbart fanns programvaror f&#x00F6;r breda kommersiellt g&#x00E5;ngbara uppgifter (exempelvis transkribering av modern tryckt text), &#x00E4;r det idag m&#x00F6;jligt att hitta system f&#x00F6;r att, mer eller mindre tr&#x00E4;ffs&#x00E4;kert, transkribera bland annat frakturtryck, historisk handskrift och icke-v&#x00E4;sterl&#x00E4;ndska skriftsystem.</p>
<p>Man kan s&#x00E4;ga att Heils avhandling befinner sig i fronten av arbetet med att f&#x00F6;rb&#x00E4;ttra datorers f&#x00F6;rm&#x00E5;ga att tolka ovanligare historisk skrift. Lindgrens stenogram &#x00E4;r i detta sammanhang av flera sk&#x00E4;l en s&#x00E4;rskilt sv&#x00E5;r uppgift och avhandlingen syftar huvudsakligen till att utveckla l&#x00F6;sningar f&#x00F6;r denna utmaning. F&#x00F6;r det f&#x00F6;rsta inneh&#x00E5;ller manuskripten en m&#x00E4;ngd redigeringar i form av &#x00F6;verstrykningar, &#x00E4;ndringar och inskjutningar. Detta problem, att tolka f&#x00F6;r&#x00E4;ndrade manuskript d&#x00E4;r text delvis &#x00E4;r dold, har inte utforskats i n&#x00E5;gon st&#x00F6;rre utstr&#x00E4;ckning av tidigare forskning inom HTR. F&#x00F6;r det andra utg&#x00F6;r sj&#x00E4;lva det stenografiska skriftsystemet &#x2013; i Lindgrens fall Melins system, det mest k&#x00E4;nda svenska systemet f&#x00F6;r stenografi &#x2013; en utmaning f&#x00F6;r HTR-tekniken. Innan projektet <italic>Astrid Lindgren-koden</italic> fanns det en utbredd uppfattning att Lindgrens manuskript var n&#x00E4;stan om&#x00F6;jliga att avkoda. Sv&#x00E5;righeten f&#x00F6;r otr&#x00E4;nade l&#x00E4;sare att tillgodog&#x00F6;ra sig texten kommer fr&#x00E5;n det faktum att stenografin &#x00E4;r baserad p&#x00E5; en st&#x00F6;rre m&#x00E4;ngd tecken &#x00E4;n vanlig skrivstil samt att skriften &#x00E4;r mer kompakt d&#x00E4;r mindre skillnader i pennf&#x00F6;ringen kan vara betydelseb&#x00E4;rande. Dessa sv&#x00E5;righeter skapar &#x00E4;ven tekniska utmaningar och ett andra sp&#x00E5;r i avhandlingen, ut&#x00F6;ver att hantera redigeringar i form av &#x00F6;verstrykningar, &#x00E4;r att utveckla l&#x00F6;sningar f&#x00F6;r att l&#x00E4;ra datorer att l&#x00E4;sa Melins system. Som Heil p&#x00E5;pekar &#x00E4;r hennes uppgift mer komplicerad &#x00E4;n att enbart utveckla metoder f&#x00F6;r att transkribera manuskripten. Hennes m&#x00E5;l &#x00E4;r n&#x00E4;mligen en digital metod f&#x00F6;r att translitterera materialet, det vill s&#x00E4;ga en l&#x00F6;sning f&#x00F6;r att tolka de stenografiska tecknen och &#x00F6;vers&#x00E4;tta dem till vanlig text.</p>
<p>Nu &#x00E4;r det h&#x00E4;r en teknisk avhandling och det ing&#x00E5;r mer eller mindre i genren att texten bitvis &#x00E4;r skriven p&#x00E5; ett s&#x00E4;tt som kanske inte tilltalar gemene man eller den mer humanistiskt skolade forskaren. Detaljerade matematiska formler, redog&#x00F6;relser f&#x00F6;r olika lager av neurala n&#x00E4;tverk och avancerade tekniska redog&#x00F6;relser talar snarare in&#x00E5;t mot det datavetenskapliga f&#x00E4;ltet &#x00E4;n till en bredare publik eller tv&#x00E4;rvetenskaplig l&#x00E4;sekrets. &#x00C4;ven om det begr&#x00E4;nsar m&#x00F6;jligheten att tillgodog&#x00F6;ra sig forskningen bland forskare och kulturarvsinstitutioner som arbetar med dessa fr&#x00E5;gor &#x00E4;r denna tekniska stil knappast n&#x00E5;got som g&#x00E5;r att inv&#x00E4;nda mot &#x2013; denna typ av inomvetenskapliga tilltal &#x00E4;r ett resultat av de krav som alla akademiska &#x00E4;mnen st&#x00E4;ller p&#x00E5; sina respektive doktorander. Samtidigt &#x00E4;r texten &#x00E4;nd&#x00E5; ofta skriven p&#x00E5; ett relativt pedagogiskt s&#x00E4;tt, som g&#x00F6;r det m&#x00F6;jligt att f&#x00F6;lja f&#x00F6;rfattaren allteftersom hon n&#x00E4;rmar sig och sedermera l&#x00F6;ser problem. Bakgrunden (kapitel 2) inneh&#x00E5;ller f&#x00F6;red&#x00F6;mligt tydliga begreppsdefinitioner inte bara av tekniska termer utan av sj&#x00E4;lva studieobjektet. Exempelvis: hur kan vi kategorisera olika delar av ett ord p&#x00E5; en sida, vad &#x00E4;r stenografi, vad skiljer en translitteration fr&#x00E5;n en transkription, vad &#x00E4;r en diplomatisk transkription och hur &#x00E4;r Melins stenografiska system uppbyggt? P&#x00E5; samma s&#x00E4;tt diskuteras centrala tekniska begrepp inom bildanalys (s&#x00E5; som digitala bilder, binarisering och morfologiska operationer) samt inom maskininl&#x00E4;rning och djupinl&#x00E4;rning p&#x00E5; s&#x00E4;tt som &#x00E4;ven ger n&#x00E5;got mindre datavetenskapligt skolade l&#x00E4;sare en m&#x00F6;jlighet att h&#x00E4;nga med.</p>
<p>De f&#x00F6;ljande tv&#x00E5; kapitlen presenterar de vetenskapliga papers som avhandlingen bygger p&#x00E5;. Kapitel 3 fokuserar p&#x00E5; de olika &#x00F6;verstrykningar som kan d&#x00F6;lja ord i manuskript &#x2013; exempelvis enkla och dubbla linjer, enkla och dubbla diagonala linjer, v&#x00E5;giga linjer eller kludd d&#x00E4;r linjer g&#x00E5;r fram och tillbaka horisontellt &#x00F6;ver ett ord flera g&#x00E5;nger. F&#x00F6;r att med hj&#x00E4;lp av maskininl&#x00E4;rningsmetoder kunna l&#x00E4;ra datorer att identifiera och ta bort dessa typer av &#x00F6;verstrykningar skapar Heil ett antal dataset med parvisa matchande ordbilder &#x2013; det vill s&#x00E4;ga par av identiska ordbilder men d&#x00E4;r den ena bilden inneh&#x00E5;ller en &#x00F6;verstrykning och den andra saknar s&#x00E5;dan. En fr&#x00E5;ga som diskuteras i kapitlet &#x00E4;r hur ett s&#x00E5;dant dataset kan byggas upp. &#x00C5; ena sidan kan man manuellt skanna sidor utan &#x00F6;verstrykningar, f&#x00F6;r att sedan stryka &#x00F6;ver ord p&#x00E5; sidorna och skanna dem igen. P&#x00E5; s&#x00E5; s&#x00E4;tt f&#x00E5;r du digitala bilder av verkliga &#x00F6;verstrykningar, vilket kan m&#x00F6;jligg&#x00F6;ra tr&#x00E4;ning p&#x00E5; data som mer direkt liknar framtida till&#x00E4;mpningar. Samtidigt r&#x00E4;cker det inte f&#x00F6;r djupinl&#x00E4;rningsalgoritmerna att du har skannat samma sida, utan bildparen m&#x00E5;ste passas mot varandra s&#x00E5; att pixlarna av orden matchar mot varandra (annars riskerar datorn att l&#x00E4;ra sig fel saker om skillnaderna mellan bilderna n&#x00E4;r den &#x00F6;var p&#x00E5; dem). Att i efterhand matcha bilderna s&#x00E5; att sj&#x00E4;lva orden ligger identiskt p&#x00E5; pixelniv&#x00E5; kr&#x00E4;ver mycket manuellt arbete och g&#x00F6;r det allts&#x00E5; sv&#x00E5;rt att sammanst&#x00E4;lla de stora datam&#x00E4;ngderna som kr&#x00E4;vs. Ett alternativt tillv&#x00E4;gag&#x00E5;ngss&#x00E4;tt som avhandlingen utforskar &#x00E4;r att skapa syntetiska &#x00F6;verstrykningar &#x2013; som allts&#x00E5; l&#x00E4;ggs till av datorn efter att ordet &#x00E4;r skannat. F&#x00F6;r att kunna g&#x00F6;ra s&#x00E5;dana datorgenererade annoteringar studerar Heil d&#x00E4;rf&#x00F6;r hur materialet ser ut i detalj: hur l&#x00E5;nga &#x00E4;r &#x00F6;verstrykningarna i manuskripten, hur breda &#x00E4;r de, var i h&#x00F6;jdled p&#x00E5; orden f&#x00F6;rekommer de, vilken textur har de och vilken f&#x00E4;rgton? Utifr&#x00E5;n denna analys bygger hon en teknisk l&#x00F6;sning som skapar syntetiska &#x00F6;verstrykningar som liknar verkliga s&#x00E5; mycket som m&#x00F6;jligt. Denna automatiska l&#x00F6;sning &#x00E4;r s&#x00E5;klart mer arbetseffektiv, men Heil p&#x00E5;pekar samtidigt hur den riskerar att g&#x00F6;ra s&#x00E5; att datorn tr&#x00E4;nar p&#x00E5; data som inte &#x00E4;r lika verklighetsn&#x00E4;ra. N&#x00E4;r problemet och m&#x00F6;jliga l&#x00F6;sningar v&#x00E4;l &#x00E4;r definierade f&#x00E5;r vi f&#x00F6;lja med f&#x00F6;rfattaren n&#x00E4;r hon l&#x00E5;ter olika djupinl&#x00E4;rningsalgoritmer tr&#x00E4;na p&#x00E5; data skapad p&#x00E5; dessa olika s&#x00E4;tt, f&#x00F6;r att slutligen utv&#x00E4;rdera resultatet.</p>
<p>P&#x00E5; samma s&#x00E4;tt diskuterar kapitel 4 hur HTR-teknik kan anv&#x00E4;ndas f&#x00F6;r att tolka stenografi. H&#x00E4;r presenteras LION-datasetet som inneh&#x00E5;ller delar av Lindgrens manuskript skrivna i Melins system &#x2013; huvudsakligen &#x201D;Br&#x00F6;derna Lejonhj&#x00E4;rta&#x201D; men ocks&#x00E5; utdrag ur &#x201D;Emil i L&#x00F6;nneberga&#x201D; och delar av exempelvis biografiska och sj&#x00E4;lvbiografiska texter. Kapitlets data bygger p&#x00E5; den crowdsourcing som genomf&#x00F6;rts inom ramen f&#x00F6;r projektet <italic>Astrid Lindgren-koden</italic>, d&#x00E4;r kunniga stenografer har translittererat delar av Lindgrens manuskript (sammanlagt 198 sidor och 2900 linjer). Kapitlet visar att denna stenografiska text &#x00E4;r mer sv&#x00E5;rarbetad f&#x00F6;r dagens HTR-teknologi &#x00E4;n dataset med vanlig handstil av motsvarande storlek, men att s&#x00E5;dan teknik &#x00E4;nd&#x00E5; kan tolka handskriven stenografi till viss del. Vi ser ocks&#x00E5; att tr&#x00E4;ffs&#x00E4;kerheten kan f&#x00F6;rb&#x00E4;ttras genom en kombination av tekniska l&#x00F6;sningar (f&#x00F6;rtr&#x00E4;ning) och att koda tr&#x00E4;ningsdata p&#x00E5; ett s&#x00E4;tt som tar h&#x00E4;nsyn till de speciella stenografiska tecken som finns i Melins system (s&#x00E5; som f&#x00F6;rkortningar samt speciella tecken f&#x00F6;r inledningar och avslutningar av ord). P&#x00E5; ett liknande s&#x00E4;tt som i det f&#x00F6;reg&#x00E5;ende kapitlet visar Heil h&#x00E4;r igen prov p&#x00E5; en god f&#x00F6;rm&#x00E5;ga att kombinera tekniskt kunnande med detaljkunskap om det skriftsystem som ska bearbetas &#x2013; h&#x00E4;r allts&#x00E5; stenografisystemets specifika karakt&#x00E4;r. Kanske ser vi h&#x00E4;r en effekt av att Heil verkat inom ett projekt som inte bara m&#x00F6;jliggjort tv&#x00E4;rvetenskaplig samverkan mellan forskare med litteraturvetenskaplig och datavetenskaplig kompetens utan som ocks&#x00E5; dragit till sig personer utan koppling till universitetsv&#x00E4;rlden med djup praktisk sakkunskap. Det &#x00E4;r intressant att se att denna typ av kunskapsm&#x00E4;ssig korsbefruktning, som blir allt vanligare inom s&#x00E5; kallad digital humaniora, ocks&#x00E5; ser ut att gynna datavetenskaplig forskning.</p>
<p>Heil n&#x00E4;mner i avhandlingen att det varit sv&#x00E5;rt att f&#x00E5; tillr&#x00E4;ckligt m&#x00E5;nga volont&#x00E4;rer genom crowdsourcing f&#x00F6;r att skapa ett st&#x00F6;rre annoterat dataset, huvudsakligen p&#x00E5; grund av hon genomf&#x00F6;rt sitt avhandlingsprojekt under Covid-pandemin. Detta knyter an till det kanske enda st&#x00F6;rre fr&#x00E5;getecken som d&#x00F6;k upp under min l&#x00E4;sning av avhandlingen. J&#x00E4;mf&#x00F6;rt med m&#x00E5;nga andra dataset f&#x00F6;r HTR-tolkning som byggts upp de senaste &#x00E5;ren, exempelvis de med historisk handskrift (d&#x00E4;r det dataset som ligger till grund f&#x00F6;r Riksarkivets snarlikt d&#x00F6;pta modell &#x201D;The Swedish Lion&#x201D; i ett svenskt sammanhang &#x00E4;r det st&#x00F6;rsta p&#x00E5; omkring 16 miljoner ord), &#x00E4;r storleken p&#x00E5; den data som avhandlingen analyserar relativt liten. Eftersom kvaliteten p&#x00E5; utfallet av just den typen av djupinl&#x00E4;rningsmetoder som diskuteras i avhandlingens fj&#x00E4;rde kapitel &#x00E4;r starkt beroende av st&#x00F6;rre m&#x00E4;ngder data, g&#x00E5;r det allts&#x00E5; att anta att tolkningen av stenografin hade kunnat f&#x00F6;rb&#x00E4;ttras p&#x00E5;tagligt bara genom att ut&#x00F6;ka m&#x00E4;ngden av data som algoritmerna f&#x00E5;tt tr&#x00E4;na p&#x00E5;. H&#x00E4;r hade det varit intressant med en mer ing&#x00E5;ende analys och uppskattning av hur tr&#x00E4;ffs&#x00E4;kerheten hos de automatiska translitterationerna berodde p&#x00E5; den underliggande tekniska arkitekturen och hur mycket som helt enkelt snarare skulle kunna avhj&#x00E4;lpas med mer data. Hur stort problem hade exempelvis &#x00F6;verstrykningar varit vid en st&#x00F6;rre m&#x00E4;ngd tr&#x00E4;ningsdata? Hade det varit n&#x00F6;dv&#x00E4;ndigt att anpassa kodningen av data till Melins system om vi hade haft tr&#x00E4;ningsdata p&#x00E5; s&#x00E4;g 1000 sidor i st&#x00E4;llet?</p>
<p>Samtidigt &#x00E4;r det &#x00E5; andra sidan kanske just detta fokus, p&#x00E5; att g&#x00F6;ra det mesta utifr&#x00E5;n ett mindre dataset genom att verkligen f&#x00F6;rst&#x00E5; detaljerna i de stenogram som ing&#x00E5;r i det, som i mina &#x00F6;gon &#x00E4;r avhandlingsarbetets stora styrka. Denna tv&#x00E4;rvetenskapliga ansats som kombinerar datavetenskaplig expertis med ett genuint intresse f&#x00F6;r materialet, &#x00E4;r en styrka och skapar en intressantare inblick i materialet &#x00E4;n vi hade f&#x00E5;tt exempelvis av utv&#x00E4;rderingar av tr&#x00E4;ffs&#x00E4;kerheten i modeller tr&#x00E4;nade p&#x00E5; olika stora m&#x00E4;ngder data. Denna tv&#x00E4;rvetenskapliga ansats g&#x00F6;r &#x00E4;ven att l&#x00E4;sare utan expertis inom det direkta datavetenskapliga f&#x00E4;lt inom vilket avhandlingen &#x00E4;r skriven kan l&#x00E4;sa den med beh&#x00E5;llning: b&#x00E5;de f&#x00F6;r att f&#x00E5; en inblick i hur transformerande teknologier s&#x00E5; som maskin- och djupinl&#x00E4;rning fungerar i praktiken, men ocks&#x00E5; f&#x00F6;r att f&#x00E5; inspiration f&#x00F6;r hur de kan anv&#x00E4;ndas i exempelvis ett historiskt eller litteraturvetenskapligt sammanhang.</p>
</sec>
<sig-block>
<sig><italic>Jacob Orrje</italic><break/><italic>Docent i id&#x00E9;historia</italic><break/><italic>Uppsala universitet</italic></sig>
</sig-block>
</body>
</article>