Heim
 
Nettverk
 
Korpus/Database
 
Aktivitetar
Prosjekt (pl)
DanDiaSyn
IceDiaSyn
NorDiaSyn
SweDiaSyn
ScanLex
Stormøte 2010
Stormøte 2009
Stormøte 2008
Stormøte 2007
Stormøte 2006
Stormøte 2005
Oslo PhD Course
Arbeidsgrupper
 
NORMS
 
N'CLAV
 
Media
 
Bibliografi
 
Ressursar
 
Blogg

Engelsk flagg2
Norsk flagg
 
[ Logg inn ]
Printer friendly

ScanLex – Et internordisk leksikon

1. Kortfattet faktaorientert beskrivelse av prosjektet
Hovedmålet med prosjektet er å utarbeide et elektronisk internordisk leksikon (ordbok) for alle de fem nordiske språkene (dansk, færøysk, islandsk, norsk bokmål og nynorsk, og svensk). Prosjektet står på egne ben, men vil også utgjøre en del av forsknings- og dokumentasjonsprosjektet Nordisk dialektsyntaks (ScanDiaSyn).

Det finnes få allment tilgjengelige ordbøker og internettordlister for nordiske språk, og til tross for at disse enten kun dekker ett nordisk språk eller et svært begrenset ordforråd i noen av språkene, blir de flittig brukt og verdsettes høyt av brukerne. Det er derfor rimelig å anta at et mer omfattende leksikon vil bli godt mottatt hos den jevne nordiske språkbruker.

Det internordiske leksikonet kommer til å utgjøre et uvurderlig verktøy i den databasen som skal opprettes innenfor ScanDiaSyn siden det vil muliggjøre søk på tvers av de ulike språkene. For øvrig kommer leksikonet til å ha stor nytteverdi også ut over dette forskningsprosjektet.

2. Innledning og bakgrunn
2.1 Hva er ScanLex?
Det internordiske leksikonet ScanLex vil bli en elektronisk ordbok for de fem nordiske språkene dansk, færøysk, islandsk, norsk (bokmål og nynorsk) og svensk i tillegg til engelsk. Leksikonet skal legges ut på Internett og dermed gjøres allment tilgjengelig. Det betyr at leksikonet ikke bare blir til nytte for fremtidig forskning i de nordiske språkene, men også at allmennheten i Norden vil få nytte av prosjektet. ScanLex vil videre vekke interesse utenfor det nordiske språkområdet siden også engelsk er en integrert del av leksikonet.

Arbeidet med ScanLex kommer til å foregå i to faser som hver for seg fokuserer på forskjellige deler av ordforrådet. I den første fasen av prosjektet vil det legges vekt på de lukkete ordklassene, dvs. pronomen, artikler, hjelpeverb, modalverb, adverb, preposisjoner og konjunksjoner. I den andre fasen av prosjektet rettes fokus mot de åpne ordklassene, dvs. substantiver, verb, adjektiver, osv.

ScanLex er et selvstendig prosjekt, men det vil også spille en svært viktig rolle i den databasen av dialektmateriale som skal opprettes innenfor ScanDiaSyn. En nærmere beskrivelse av ScanDiaSyn følger i avsnitt 5. Det skal utvikles et grensesnitt mot Internett som vil muliggjøre søk i databasen, og disse søkene skal kunne utføres ved at man skriver søkestrenger i et hvilket som helst av de nordiske (dvs. “nordgermanske”) språkene eller engelsk, og at man så kan få tilslag også i det materialet som faller inn under de andre språkene. Uten et internordisk leksikon som ScanLex ville det bare vært mulig å definere søk på ett språk. Siden ScanDiaSyn retter seg mot det internasjonale forskningsmiljøet, ville det naturligste da ha vært å velge engelsk som det språket som søkene i databasen skulle ha vært formulert på, hvis ikke ScanLex eksisterte. Fordi vi ønsker å styrke de nordiske språks stilling innenfor og utenfor Norden, er det viktig at alle de nordiske språkene blir likestilt med engelsk. Dette kan bare gjøres hvis ScanLex blir virkelighet.

Som elektronisk ordbok vil ScanLex bli lagt ut på Internett og gjort tilgengelig for alle. Leksikonet vil bestå av flere forskjellige deler:
• Leksikonet vil inneholde ordlister for dansk, færøysk, islandsk, norsk (bokmål og nynorsk), svensk og engelsk (senere forestiller vi oss at de ikke-germanske nordiske språkene finsk, samisk og grønlandsk også skal kunne inkluderes i leksikonet).
• I ordlistene vil hvert enkelt ord være koblet til det tilsvarende ordet i de andre språkene (se eksempel nedenfor).
• Leksikonet vil være søkbart gjennom et grensesnitt som byr på forskjellige søkefunksjoner. For eksempel skal være mulig å søke etter et færøysk ord og få resultater på de øvrige språkene, enten alle eller hver for seg.
• Det skal ikke bare være mulig å søke etter fullstendige ord, det skal også være mulig å søke på morfemer og enkeltdeler av ordet. Et søkekriterium som f.eks. %ing skal gi alle ord hvor stammen ender på -ing (da også inklusive islandske og færøyske ord på -ingur hvor -ur er nominantivsendelsen osv.).

ScanLex vil kunne brukes som en vanlig elektronisk ordbok (som f.eks. Bokmålsordboka og Nynorskordboka og Svenska Akademiens ordbok): Den blir enkelt å bruke, og den vil gi raske tilslag på søking. En av fordelene ved ScanLex er at dette leksikonet ikke bare vil dekke to eller tre nordiske språk på én gang, men alle, i tillegg til engelsk. En annen fordel er at ScanLex vil inneholde betydelig flere ord enn de eksisterende flernordiske elektroniske ordbøkene/-listene, som bare har et fåtall tusen ord. Søker man for eksempel på det norske ordet vindu, skal man få følgende resultat hvis søkekriteriet er definert for alle språkene i leksikonet:

No. (bok): vindu (n)
No. (ny): vindauge (n), glugge (m)
Da.: vindue (n)
Fa.: gluggi (m)
Is.: gluggi (m), vindauga (n)
Se.: fönster (n)
En.: window

Vil man bare finne det svenske ordet for vindu, vil man kunne definere det i søkekriteriet i en meny på grensesnittet. Hvis man for eksempel vil vite hva det islandske ordet tölva heter på norsk, vil man få følgende tilslag:

Is.: tölva (f)
No. (bok): datamaskin (m)
No. (ny): datamaskin (m,f)

Vi understreker at ScanLex ikke vil inneholde definisjoner, men utelukkende korrespondanser mellom ord i de ulike språkene. Grunnen til det er at vi tror det ville vært umulig å få tillatelse til bruk av definisjoner fra forlagene, samt at det ikke er nødvendig for ScanDiaSyn-prosjektet. Det ville for øvrig kreve langt større ressurser enn to årsverk.

2.2 Hva finnes fra før?
I øyeblikket finnes det ikke noen samlet internordisk ordbok. Det finnes noen få, små Internettordlister for noen av de enkelte språkene, f.eks. Skandinavisk ordbok, som inneholder 3000 ord fra dansk, norsk og svensk, Færøsk-dansk amatørordbok, som inneholder ca. 2200 ord, og Nordterm, som er en samling av terminologiske ordlister fra forskjellige nordiske språk (inklusive finsk, samisk og grønlandsk). Dessuten finnes det en svensk-dansk-svensk elektronisk ordbok som inneholder 3500 ord og den dansk-svenske Øresundsordlisten, som er en ordliste for danske og svenske foreninger i Øresundsregionen (se referanseliste for nettadresser).

Ved Seksjon for leksikografi og målføregranskning ved Universitetet i Oslo arbeides det med å utvide det internasjonale semantiske leksikonet Simple for norsk. I øyeblikket inneholder dette leksikonet ca. 10 000 danske og 7-8 000 norske ord. Målet med Simple-prosjektet er å muliggjøre semantisk analyse av leksemer.

I tillegg til de allment tilgjengelige elektroniske ordbøkene finnes det også et Mac-program (Word Translator X, utviklet av islendingen Halldór Gu_mundsson) som kan lastes ned fra Internett mot betaling av lisens. Det er ikke mulig å søke mellom de enkelte nordiske ordlistene i dette programmet (dvs. mellom dansk, islandsk norsk og svensk), men hvert enkelt av språkene er koblet til engelsk. De nordiske ordlistene i programmet dekker midlertidig bare bokstavene a-f.

Mens det kanskje ikke er så overraskende at det ikke finnes noen elektronisk ordbok av internordisk type, er det kanskje mer overraskende at det også står dårlig til med utvalget av vanlige trykte ordbøker. For eksempel finnes det bare én islandsk-norsk ordbok (Orgland og Raastad, 1992). Denne ordboken som ble utgitt for første gang i 1985 inneholder 15 000 ord. Den tilsvarende islandsk-danske ordboken (Widding et al., 1976) inneholder 63 000 hovedord og 114 000 definisjoner. Det finnes to norsk-islandske ordbøker - Einarsson, 1995 og Orgland og Raastad, 1992 - den siste inneholder 17 000 ord. Direktør i Norsk Språkråd, Sylfest Lomheim, er blitt sitert i Dagbladet (9. juli 2004, se referanse sist i denne beskrivelsen) om at han ”kjenner ikke til at det finnes noen dansk-norsk ordbok på markedet”. Han sier videre: ”Noen bør kjenne sin besøkelsestid”.

3. Nytteverdien til ScanLex
3.1 Den allmenne nytteverdien til ScanLex
For å kunne relatere språkene i ScanDiaSyn-databasen på den måten som er nevnt ovenfor, er et internordisk leksikon nødvendig. Men leksikonet vil ikke bare være til nytte ved opprettelsen av databasen. Dersom leksikonet blir gjort tilgjengelig for alle på Internett, vil det også være til nytte for allmennheten i Norden, for eksempel for forretningsfolk som samarbeider mye med nordiske kolleger og for skoleelever og studenter. Leksikonet vil også vekke interesse og være til nytte for mennesker utenfor det nordiske språkområdet siden engelsk blir inkludert i leksikonet.

Utover bruken av ScanLex i ScanDiaSyn-prosjektet bør en versjon av ScanLex være tilgjengelig til bruk i andre forsknings- og utviklingsprosjekter. Et leksikon som dette er svært nyttig i mange slags søkesystemer, ikke bare lingvistiske korpus som den nordiske dialektsyntaksdatabasen, men mer generelt for informasjonsgjenfinning.

3.2 ScanLex i forskningsprosjekter
ScanLex vil uten tvil kunne spille en viktig rolle for fremtidig språkforskning. Rent konkret vil ScanLex bidra betydelig i ScanDiaSyn.

3.3 ScanLex i automatisk oversettelse
ScanLex vil også kunne spille en stor rolle for utviklingen av programmer for automatisk oversettelse mellom de nordiske språkene. Det nordiske markedsområdet er ikke stort, men behovet for oversettelse mellom de nordiske språkene kan være større enn vi forestiller oss. Det blir f.eks. ikke oversatt mye fra færøysk til norsk, svensk eller islandsk, men hvis man har et verktøy som kan brukes til utviklingen av automatisk oversettelse, blir dette en realistisk mulighet.

Et av de viktigste formålene med det språkteknologiprosjektet som ble lansert av den islandske regjering i 2000 (se referanselisten), har vært å sette opp et stort tospråklig leksikon for islandsk som skal være allment tilgjengelig på Internett. En av målsetningene har vært å lage et leksikon som ikke bare kan brukes til automatisk oversettelse, men også til andre forskningsmål innenfor språkteknologi, f.eks. grammatikkontroll.


Referanser
Einarsson, Hróbjartur. 1995. Norsk-islandsk ordbok. Oslo: Universitetsforlaget.
Orgland, Ivar og Frederik Raastad. 1992. Íslensk-norsk orðabók. Reykjavík: Mál og menning.
Orgland, Ivar og Frederik Raastad. 1997. Norsk-islandsk ordbok. Oslo: NKS.
Widding, Ole, Haraldur Magnússon og Preben Meulengracht Sørensen: Íslenzk-dönsk orðabók. 1976. Reykjavík: Ísafoldarprentsmiðja.

Relevante Internettsider
Hjemmesiden til ScanDiaSyn
Bokmålsordboka og Nynorskordboka på Internett
Svenska akademiens ordbok
Færøsk-dansk amatørordbog
Nordterm
Skandinavisk ordbok
Svensk-dansk ordbok
Dansk-svensk ordbok
Øresundsordlisten
Simple
Artikkel i Dagbladet (09.07.2004)
Det islandske språkteknologiprosjektet
Word Translator X


Det humanistiske fakultet, Universitetet i Tromsø, 9037 Tromsø TLF: 776 44240
Oppdatert av forskar Øystein A. Vangsnes den 27.10.2005 19:21
Ansvarlig redaktør: fakultetsdirektør Jørgen Fossland


Read this page in: Bokmål