Startsida           Ordböcker           Typografi           Kontakt

Sven Lange & Lars Törnqvist

Thesaurus Lex: En ny svensk elektroniskt länkad thesaurus

 


 

Abstract

En allt större del av Sveriges befolkning ägnar sig åt skrivande i arbetet och på fritiden. Detta medför ett större behov av skrivhjälpmedel. Ett viktigt hjälpmedel saknas för dagens svenska, nämligen en begreppsordbok för aktivt bruk. Syftet med en sådan ordbok är att hjälpa skribenten att hitta lämpliga uttryck för sina tankar, och den är därför systematiskt uppställd med ord inom samma betydelsefält intill varandra. Begreppsordböcker är omtyckta hjälpmedel i många länder, bland annat i England där Roget's Thesaurus har utkommit i ständigt nya upplagor sedan 1850-talet. En svensk motsvarighet till Roget utgavs 1930, Svenskt ordförråd ordnat i begreppsklasser, sammanställd av Sven Casper Bring. Ordförrådets utveckling under de senaste 70 åren har gjort denna ordbok föråldrad. En modern svensk begrepps­ordbok skulle därför vara ett mycket angeläget tillskott till den svenska ordboksfloran.

Datortekniken ger oss möjligheter att vidareutveckla ordböckerna till avancerade lexikografiska produkter. Den komplicerade åtkomststrukturen i en tryckt begrepps­ordbok kan enkelt ersättas av databassökning, navigering i synliga trädstrukturer och hyper­länkning. Den sistnämnda funktionen ger också möjlighet att i nästa utvecklingssteg koppla samman begreppsordboken med definitionsordböcker, översätt­nings­ordböcker och uppslagsverk. Ett sådant hyperlexikon är ett kraftfullt hjälp­medel både vid skrivande och språkinlärning. Eftersom hyperlexikonet även inne­håller tvåspråkiga ordböcker kan det användas både för svenska och främmande språk.

Vi tror att mycket av det praktiska lexikografiarbetet i framtiden kommer att gå ut på länkning. Vår tids informationsteknologiska framsteg har gjort det möjligt att göra våra associationer full rättvisa. Alla ordböcker som görs kan ses som detaljer och pusselbitar i det framtida hyperlexikonet. Alla ordböcker kommer i princip att kunna länkas till vår stomme av begreppsklassade ord. Stommen kan diskuteras men den bästa kandidaten tycker vi än så länge finns i Rogets Thesaurus. Rogets system har framgångsrikt kunnat hävda sig i 150 år. Det tror vi beror just på att det inte är skapat av lingvister. En lingvist skulle börja med en strängt logisk semantisk klassi­ficering och därmed förmodligen aldrig bli klar, och slutprodukten skulle sannolikt också bli praktiskt oanvändbar för gemene man.

Vi avser att utarbeta vår länkade thesaurus i två faser. Den första fasen omfattar utarbetandet av en modern svensk begreppsordbok i maskinläsbar form, strukturerad enligt Roget och med ett ordförråd på cirka 80 000 uppslagsord. I möjligaste mån kommer befintliga ordböcker och lexikala databaser att utnyttjas vid samman­ställningen. Resultatet av den första fasen kan användas både som underlag för framställning av en tryckt begreppsordbok och som stomme i ett hyperlexikon.

Den andra fasen omfattar utarbetandet av själva hyperlexikonet. Hyperlexikonet kommer att bestå av flera sammanlänkade ordböcker i databasform med ett gemen­samt söksystem. Till skillnad från de samsökningssystem som finns på marknaden i dag, vilka är baserade på matchning av teckensträngar, kommer hyperlexikonet att ge möjlighet till innehållsmässig matchning och länkning.

 

Kort beskrivning av en thesaurus

En thesarus utgår från de lexikala enheternas innehållssida. Den vanliga alfabetiska ordboken däremot utgår från uttryckssidan. Thesaurusen är en skapelse av renässansen, perioden för de stora gränslösa idéerna. Ordbokstypen blev emellertid inte känd på allvar förrän Roget publicerade sin thesaurus år 1852. Inom språkvetenskapen har thesaurusen varit omdiskuterad. Bland dess kritiker märks bl.a. Hjelmslev (Marello 1991). Icke desto mindre har ett otal semantiskt inriktade lingvister använt sig av thesaurusar som en utgångspunkt för semantiska studier.

I början på 2000-talet – i den frambrytande elektroniska eran, kan vi förmärka ett förnyat intresse för thesaurusen. Inom lexikografin suddas gränserna ut mellan språkligt och encyklopediskt: Inom kognitiv psy­kologi presenteras nätverksmodeller för minnet. Inom databaserade verksamheter som begreppsmodellering (concept modeling), syste­matik, informationssökning (information retrieval) i databanker används idag thesaurusar. Systemet i en thesaurus tillåter länkning och har därmed stora likheter med informationssöknings­system. En thesaurus kan också ses som ett nätverk av relationer. Idag spelar thesaurusar en vik­tig roll för standardisering av terminologi där indexeringen ofta sker på tesaurisk grund. Även inom språkvetenskapen har intresset ökat. Ett tydligt bevis för det ökade intresset ser vi i att International Jour­nal of lexicography ägnar nästan hela decembernumret 2000 (vol 13) åt thesaurusbaserad lexikografi.

Thesaurusens megastruktur består av två delar, en systematisk (d.v.s. icke-alfabetisk) del samt ett alfabetiskt ord­nat lemmaregister. Makrostrukturen består av de numrerade begreppsklas­serna Hos Bring – liksom i Rogets originalversion – är dessa 1000 stycken.

Mikrostrukturen i Bring består av ett lemma som samtidigt är begreppsklassens namn (exempelvis 127 Ungdom, 128 Ålderdom, 129 Barn­dom) samt ickealfabetiska listor av ord under ordklassbeteckningarna s (= substantiv), v (= verb) och a (= i huvudsak adjektiv). S.k. "keywords" i kursiv stil som ofta finns i Rogetutgåvorna saknas i Bring. Däremot iakttar Bring, om icke exakt, förlagans styckeindelning ("paragraph") med avslutande semikolon. Inom varje sådan enhet är orden mer besläktade än över denna gräns.

Ordförrådet i Bring (liksom hos Roget) representerar allmänspråket. Begreppen är därmed att be­trakta som allmänbegrepp. Fackspråkliga termer är inte representerade. Systemet är 1) hierarkiskt, 2) öppet, vilket innebär att det kan ta emot nya ord, och 3) aktivt, vilket innebär att dess egentliga syfte är att förlösa tanken vid språklig produktion. Utöver detta kan vi tillägga att thesaurusen har en viss encyklopedisk karaktär.

Thesaurusen förtecknar synonymer. Den spränger emellertid gränserna för en vanlig synonymordbok. Vi återfinner t.ex. ett ord som grymtning i samma begreppsklass och paragraf som svin, gris, galt, orne, nasse, sugga, so och vildsvin. Ordet står inte i en logisk relation till svin o.s.v. utan i en ontologisk relation. Vi kan också uttrycka saken så att ordet inte står i ett paradigmatiskt utan i ett syntagmatiskt förhållande visavi de övriga. När det gäller de logiska relatonerna står thesaurusens "vetenskaplighet" står på ungefär samma grund som vanliga synonymordböcker. I fråga om de ontologiska relationerna (baserade på omvärldskunskap) däremot är den vetenskapliga grunden naturligtvis betydligt skakigare och av tillfälligare natur. Här uppvisar thesaurusen en ganska brokig uppsättning av associativa länkar mellan betydelserna, vilket dock samtidigt är en illustration av dess öppna karaktär: grymtning är ett exempel på vad som kan läggas in i "grisparagrafen". Användaren kan fylla på med egna ord. Detta sammanhänger naturligtvis med thesaurusens egentliga syfte: att vara behjälplig och förlösande vid språkproduktion.

Efter ett antal metodiska bearbetningar i den första fasen föreligger en ny svensk olänkad thesaurus enligt Roget's system innehållande i stort sett samma ordförråd som Svensk Ordbok, d.v.s. den moderna svenskans ordförråd i form av en databas där varje ord har åsatts ett eller flera be­greppsklassnummer och den systematiska delen paragrafstrukturerats. Denna bildar stommen i vårt hyperlexikon. Hyperlexikonet är således tänkt att bestå av ett system av sammanlänkade lexikala databaser med den uppdaterade thesaurusen som semantisk ryggrad. De ingående databaserna kan vara befintliga ordböcker i elektronisk form eller helt nya lexikala produkter. Exempel på lexikala produkter som kan ingå i systemet är:

 

·      svensk definitionsordbok

·      engelsk definitionsordbok

·      tvåspråkiga svenska ordböcker

·      Roget's Thesaurus

·      Encyklopedi

 

Varje artikel i de ingående ordböckerna länkas till en eller flera betydelseklasser i thesaurusen, om möjligt direkt mellan beskrivningar av betydelsenyanser och motsvarande betydelseklasser. Genom detta skapas betydelsemässiga kopplingar mellan ord i olika ordböcker, både direkt mellan dessa och indirekt via thesaurusen. På så vis skapas möjligheter att söka sig fram längs olika vägar i det samlade lexikala materialet.

Hyperlexikonet kopplar samman olika typer av lexikala data på ett semantiskt meningsfullt sätt, vilket öppnar nya möjligheter för användaren. För skribenten finns här en intelligent synonymordbok med noggranna betydelsebeskrivningar och sökvägar till ord med olika grad av begreppsmässigt släktskap. För översättaren finns både länkar direkt mellan ekvivalenter – med definitioner – och möjligheter att söka vidare efter semantiskt besläktade ord. För inläraren finns beskrivningar av ordens betydelse och användning, sammanlänkade både med översikter över ordförrådet inom det aktuella semantiska fältet och med encyklopedisk information. Och genom tillägg av fler typer av lexikala produkter öppnas möjligheter för ytterligare användningsområden.

 

 

En praktisk demonstration

För att ge en uppfattning om hur den länkade thesaurusen fungerar vid praktisk användning förflyttar vi oss nu några år in i framtiden och öppnar Thesaurus Lex i ett fönster på vår persondator (figur 1).

 

Figur 1. Thesaurus Lex startsida.

 

Thesaurus Lex är ett verktyg för kreativ verksamhet. Olika användare har olika strategier för att söka efter ord, och därför skall verktyget kunna användas på flera olika sätt. Systemet har två huvudingångar. Antingen klickar man på Hyperlexikon för att leta sig fram begreppsmässigt till ett ord, eller också klickar man på Ordbok för att söka efter information om ett givet ord. Den sistnämnda ingången fungerar på samma sätt som de elektroniska ordböcker som finns på marknaden redan i dag, där man kan söka efter teckensträngar i en eller flera valda ordböcker – definitionsordböcker, översättningsordböcker, synonymordböcker eller vad man nu har valt.

Datorsökning efter givna ord i en lexikal databas är ett kraftfullt verktyg för den passive ordboksanvändaren, men det har begränsade kreativa möjligheter. Resultatet av sökningen kan nämligen inte bli något annat än vad ordboksförfattarna har tänkt sig. Om man däremot går in via Hyperlexikon-ingången öppnas nya möjligheter. Här är det användarens fantasi som sätter gränserna, inte ordboksförfattarnas.

När man har klickat på Hyperlexikon får man upp ett fönster med tre rutor (figur 2). I den översta rutan väljer man söksätt och skriver in söksträngar. Resultatet av sökningen visas i de nedre rutorna. Hur det går till skall vi visa i ett praktiskt exempel.

 

Figur 2. Arbetsgången vid registersökning.

 

Anta att vi håller på att skriva en artikel om herrmodets historia, med tyngdpunkten på byxornas utveckling. För att orientera oss i området börjar vi med att söka efter ord för olika slags byxor. Vi börjar med konventionell högertrunkerad registersökning. Det tillgår så att man skriver in söksträngen byx i sökfältet och klickar på sökknappen Register. Resultatet visas i nedre vänstra rutan (figur 3).

 

byxbak       228 Klädnad
byxben       
228 Klädnad
byxdress     
228 Klädnad
byxdräkt     
228 Klädnad
byxficka     
228 Klädnad
byxholk      
228 Klädnad
byxhälla     
228 Klädnad
byxis        
854 Rädsla
byxkjol      
228 Klädnad
byxklämma    
 47 Sammanhållande
byxor        228 Klädnad
byxångest    
854 Rädsla

 

Figur 3. Träfflista vid högertrunkerad sökning på teckensträngen byx.

 

Träfflistan visar alla uppslagsord i hyperlexikonet som börjar med byx. Högerkolumen anger vilken av de 998 begreppsklasserna som respektive ord tillhör. Här finner vi inte bara ordet byxor, utan även en mängd ord för byxdetaljer (bland annat byxben och byxficka) och byxtillbehör (byxklämma). Dessutom finns några ord som hör hemma inom helt andra semantiska fält, exempelvis byxångest. Uppgifterna om begreppsklass gör att vi lätt kan avgöra om respektive träff är relevant för sammanhanget.

Från träfflistan går vi vidare till thesaurusen genom att klicka på önskat ord. När vi klickar på byxor får vi upp begreppsklass 228 Klädnad i nedre högra rutan. Där hittar vi en grupperad lista över ord som har att göra med kläder. En av grupperna har nyckelordet byxor och innehåller ord som på ett eller annat sätt har att göra med byxor. Här finner man inte bara ord som innehåller ordleden byxor, utan även ord som jeans, bermudashorts och långkalsonger. Dessa ord hade man inte hittat genom enkel teckensträngssökning.

 

228 Klädnad                          Dahlgren     Roget     Wehrle 

Substantiv                                   Verb    Adjektiv    Adverb 

 +  klädedräkt

 +  plagg

 -  byxor

      byxor                Def    Eng    Ty    Fakta    Bild 
      benkläder            Def    Eng    Ty 
      byxa                 Def 

 

      byxhängsle           Def    Eng  
      hängselstropp               Eng    Ty 
      hängsle              Def    Eng    Ty 
      stropp               Def    Eng 

 

      gylf                 Def    Eng    Ty 

      kalsonger            Def    Eng    Ty 
      långkalsonger        Def    Eng 

 

      knäbyxor             Def    Eng    Ty    Fakta 
      golfbyxor            
Def    Eng    Ty             Bild 
      knickers             
Def    Eng    Ty 
      äppelknyckarbyxor           Eng 

 

      kortbyxor            Def    Eng    Ty 
      shorts               Def    Eng    Ty             Bild 
      bermudashorts        Def    Eng    Ty 
      bermudas                                 Fakta    Bild 

 

      långbyxor            Def    Eng    Ty 
      jeans                Def    Eng    Ty    Fakta 
      pantalonger          Def 
      slacks               Def    Eng    Ty 

 

...

 

Figur 4. Del av begreppsklassen 228 Klädnad med öppnad lista under nyckelordet byxor.

 

Den avancerade användaren arbetar snabbare genom att gå direkt till begreppssystematiken. Man skriver in en söksträng på samma sätt som vid registersökning, men man klickar på System-knappen i stället. Då visas det hierarkiska systemet i nedre vänstra rutan, öppnat ned till den gren i begreppsträdet där man får träff, i det här fallet nyckelordet byxor i begreppsklassen 228 Klädnad. Den här typen av sökning är lämplig när man vill leta ord inom ett större semantiskt fält. Den som vill skapa nya fräscha metaforer har här fått ett vassare verktyg än den vanliga synonymordboken.

 

Begreppsklasser

 +  I Abstrakta relationer

 +  II Rum

     +  1 Rum i allmänhet

     -  2 Dimensioner

         +  (a) Allmänt

         +  (b) Linjärt

         -  (c) Centriskt (allmänt)

             +  223 Utvändighet
             +  224 Invändighet
             +  225 Centralitet

             +  226 Ytterhölje
             +  227 Innerbeklädnad

             -  228 Klädnad
                (substantiv)
                klädedräkt
                plagg
                byxor
           kjol
           höftkläde
           ...

             +  229 Avklädnad

             +  230 Omgivning
             +  231 Mellanbelägenhet
             +  232 Omringande

             +  233 Kontur

             +  234 Kant

             +  235 Inneslutande

             +  236 Gräns

         +  (d) Centriskt (speciellt)

     +  3 Form

     +  4 Rörelse

 +  III Materia

 -  IV Intellekt

 +  V Vilja

 +  VI Känsla, religion och moral

 

Figur 5. Thesaurusens hierarkiska uppbyggnad.

 

Så här långt är systemet i stort sett en elektronisk motsvarighet till en svensk version av Roget's Thesaurus. Söksättet System motsvarar den systematiska ordningen av begreppsklasserna i Roget, och söksättet Register motsvarar det alfabetiska registret. Den största skillnaden mot den tryckta boken är att man klickar med musen i stället för att bläddra.

 

Hyperlexikon

Nu kommer vi till det nya i systemet, det som gör thesaurusen till ett hyperlexikon. I begreppsklassrutan finns ett antal klickbara länkar som leder användaren vidare till andra ordböcker eller uppslagsverk – eller till vilken informationskälla som helst – som ger ytterligare information om ordet eller om det som ordet står för. På det viset får vi ett system av samverkande ordböcker som man obehindrat kan hoppa mellan.

Vi fortsätter med vårt exempel. Vi har nu kommit fram på ett eller annat sätt till begreppsklassen 228 Klädnad (figur 4). Högst upp intill klassrubriken finns länkar till andra thesaurusar. Det kan vara en thesaurus på ett annat språk, som den engelska Roget's eller den tyska Wehrle, men det kan också vara en svensk thesaurus över föråldrat språk (exempelvis en systematisk version av Dahlgrens ordlista) eller någon helt annan typ av systematisk ordsamling. Dessa thesaurusar kan ha helt olika uppbyggnad och helt andra underindelningar av begreppsklasserna, men det finns i varje fall en motsvarighet till den aktuella begreppsklassen.

Om vi klickar på Dahlgren får vi fram en lista över ålderdomliga benämningar för klädesplagg, bland annat bracka, brok, buntbyxor och uttågsbyxor. För den som skriver om historiska förhållanden är sådana ord ytterst värdefulla, och de är svåra att hitta på annat sätt.

Under klassrubriken och thesauruslänkarna i begreppsklassrutan finns en nyckelordslista (figur 4). Nyckelorden kan öppnas och stängas genom att man klickar på plus- respektive minustecken. Vi klickar på plustecknet vid byxor och får då upp en lista över ord för byxtyper och byxdetaljer. (Det fungerar dock inte längre ned i begreppsträdet; man kan sålunda inte öppna gylf.) De ord som har närbesläktad betydelse står listade tillsammans.

Anta att vi är speciellt intresserade av en typ av byxor som var vanlig bland skolpojkar under 1900-talets första hälft – en sorts vida, knälånga byxor som spändes fast nedanför knäna, alltså sådana som seriefiguren Tintin brukar ha. Vi letar oss fram i listan tills vi hittar ett stycke som innehåller fyra ord som verkar intressanta (figur 6).

 

      knäbyxor             Def    Eng    Ty    Fakta 
      golfbyxor            
Def    Eng    Ty             Bild 
      knickers             
Def    Eng    Ty 
      äppelknyckarbyxor           Eng 

 

Figur 6. Paragraf med ord för knälånga byxor.

 

Vid knäbyxor finns en länk till faktainformation, i det här fallet till en artikel i Nationalencyklopedin (figur 7).

 

knäbyxor

byxor som når ner till eller strax nedanför knäna, har tillhört mannens modedräkt sedan 1500-talet. För äldre modeller, se byxor och culotte; för yngre, se bermudas, golfbyxor och knickerbockers.

 

Figur 7. Länkad artikel ur Nationalencyklopedin.

 

Vi förefaller vara på rätt spår. Efter en enkel klickning konstaterar vi att bermudas inte är det vi söker, så vi fortsätter med golfbyxor. Theaurusens länk till definitions­ordboken för oss direkt till rätt artikel i Svensk ordbok (figur 8). Vi ser direkt att golfbyxor är det ord vi har letat efter. För säkerhets skull kollar vi dock synonymen knickers – det är bara att klicka på länken (figur 9). Definitionen visar att även ordet knickers går att använda, men det är mindre precist än golfbyxor.

 

golfbyxor subst., plur.

vida knäbyxor som i nederkanten sluter åt omkring benet förr vanl. på skolpojkar
<SYN.: knickers>
han var klädd i ~, pullover med polokrage och keps 

 

Figur 8. Länkad artikel golfbyxor ur Svensk ordbok.

 

knickers subst., plur. Uttal 1   Uttal 2

kortform för knickerbockers
knäbyxor som sitter åt vid knäna <eng.>

 

Figur 9. Länkad artikel knickers ur Svensk ordbok.

 

Artikeln knickers innehåller ytterligare en funktion som vi kan testa. Vi frågar oss hur ordet knickers egentligen skall uttalas – med eller utan hörbart "k" i början. Vi klickar på den första uttalsknappen och hör en röst säga "knickers", och när vi klickar på den andra knappen säger rösten "nickers". Ordet kan alltså uttalas på båda sätten.

Från artiklarna i definitionsordboken kan man klicka vidare direkt till olika översättningsordböcker – svensk-engelsk, svensk-tysk, svensk-färöisk eller vad man nu har valt att installera. Man kan också klicka vidare till den aktuella begreppsklassen i thesaurusen. På det viset kan man komma in bakvägen till thesaurusen även om man började i den andra huvudingången, ordbokssökning. Här finns alltså möjligheter att på ett enkelt sätt leta sig fram till rätt ord på de mest slingriga vägar.

 

Fördelar med en elektronisk länkad thesaurus

Utöver det obestridligt stora värdet att få den moderna svenskan be­grepps­klassi­fi­cerad ser vi också följande fördelar med den färdiga pro­dukten:

·      Den elektroniska thesaurusen är bättre än befintliga produkter vid textproduktion.

·      Thesaurusen underlättar skrivande av alla slag, såväl originaltext som översatta texter, genom att den ger synonymer, associationer, ämnesrelevanta ord och ency­kopediska uppgifter.

·      Thesaurusen underlättar översättning från och till andra språk eftersom den innehåller länkningar till rätt betydelse inom ett begreppsområde. Länkningen mellan begrepp och ord inom olika begreppsområden gör att översätta­ren lättare kan undvika s.k. översättningssvenska.

·      Thesaurusen är precisare än en vanlig synonymordbok eftersom den omfattar olika grader av sy­nonymi och innehåller definitioner.

Det finns också möjligheter att utveckla systemet vidare från ordbokssystem till generellt informationssökningssystem. Länkarna till encyklopediska artiklar är ett steg i den riktningen.

 

Litteratur

Bring, Sven Casper, 1930, Svenskt ordförråd ordnat i begreppsklasser. Stockholm.

Dahlgren, F.A., 1914–16: Glossarium öfver föråldrade eller ovanliga ord och talesätt från och med 1500-talets andra årtionde. Lund. (I begreppsklassad och elektronisk version se Lange 1992.)

Lange, S., 1992, En databaserad begreppsordbok för den äldre svenskan. I: Nordiske studier i leksikografi. Oslo.

Nationalencyklopedin, 1989–1996. Höganäs: Bra Böcker.

Marello, C., 1991: The thesaurus. I: Handbücher zur Sprach- und Kom­munikationswissenschaft (=HSK) 5:1083-1094.

Roget's Thesaurus, 1999. London: Penguin Books.

Svensk ordbok, 1986. Stockholm: Esselte Studium.

Wehrle, H. & Eggers, H., 1967: Deutscher Wortschatz. Stuttgart.

 


Ur Nordiske studier i leksikografi 6: Rapport fra Konference om leksikografi i Norden Tórshavn 21.-25. august 2001. Tórshavn 2003.


 


© 2003–2024 Sven Lange & Lars Törnqvist. Uppdaterad 2024-01-03.