Hvordan skape en Âpen og demokratisk nasjonal kunnskapsbase?


RÂdgiver og tidligere redakt¯r for CAPLEX, PÂl Steigan, og daglig leder Steve Pepper i informasjonsstrukturerings-firmaet Ontopia presenterer her et detaljert forslag til hvordan en brukervennlig kunnskapsbase kan organiseres. Artikkelen finnes i en kortere versjon som kronikk i Aftenposten.
Presentasjon

Da Denis DidÈrot og Jean d'Alembert skapte Den store encycklopedien i Frankrike p 1700-tallet hadde de som mÂl  samle all sin tids kunnskap i dette verket. Deres erklÊrte hensikt var  bryte elitenes kunnskapsmonopol og bringe kunnskapen til folkeflertallet, slik at det kunne bane vei for et folkestyre.

I vÂr innb¯d Kulturdepartementet til en anbudskonkurranse om  skape en nasjonal kunnskapsbase, et nasjonalt l¯ft i de franske encyclopedistenes Ând. To grupperinger kom til finalen, Kunnskapsforlaget og en gruppering rundt Cappelens forlag, og stor var overraskelsen og skuffelsen da undervisningsminister Kristin Clemet erklÊrte at hun hadde forkastet begge anbudene. Men kanskje det er von i hangande sn¯re. 19. november sa Clemet at hun "oppfordrer bÂde eksisterende og nye akt¯rer til  tenke fritt og uavhengig av dagens teknologi og kommersielle begrensninger." Undertegnede, en tidligere leksikonredakt¯r og en kunnskapsarkitekt, tar i mot utfordringen.

De ulike partene i dette lille dramaet har gode argumenter p hver sin mÂte. Kunnskapsforlaget har helt rett i at det ville vÊre en tragedie om det store innholdet og den kompetansen som Stor Norske Leksikon representerer skulle g tapt. Cappelen-gruppa har rett i at det ville vÊre galt om bare ett forlag skulle bidra til en nasjonal kunnskapsbase og Clemet har rett i at staten ikke b¯r bli et forlagsmonopol.

Men ingen har egentlig svart p hvordan man s skal kunne skape en nasjonal kunnskapsbase. En nasjonal kunnskapsbase m vÊre noe mer enn en nasjonalencyklopedi, det m vÊre noe mer enn et stort statsfinansiert leksikon. For det f¯rste, og det er utrolig viktig, finnes det mange milj¯er som bearbeider informasjon og utvikler kunnskap. Tenk p forskningsmilj¯ene, tenk p biblioteker, museer, arkiver, tenk p statlige nettsatsninger som norge.no, kulturnett, osv., tenk p sm og store forlag eller for den del ressurspersoner og fagmilj¯er ellers. For det andre, for  sitere den store amerikanske tenkeren Frank Zappa: "informasjon er ikke kunnskap og kunnskap er ikke visdom." Et leksikon bygger p kunnskap, men er f¯rst og fremst en informasjonsbase. Det de to anbyderne har gjort er  legge fram interessante forslag til oppbygging av store informasjonsbaser med to ulike leksikonbaser som kjerne.

Det som trengs er  stille enda mer ambisi¯se mÂl,  gjenta DidÈrots og d'Alemberts bedrift med det 21. Ârhundres teknologi og forutsetninger.

Tenk deg:

  • En kunnskapsbase som er like lett  finne frem i som en bok med et godt stikkordregister, og som kan brukes enten man snakker norsk, samisk, urdu eller et annet sprÂk

  • En kunnskapsbase som tilpasser seg din profil - aldersgruppe, kulturell bakgrunn, interesser, osv. - og hjelper deg luke ut den informasjonen du ikke er interessert i.

  • En kunnskapsbase som du kan sl opp i via en WAP-telefon for  avgj¯re en livlig pubdiskusjon om hvem som scoret mÂlene i den ber¯mte kampen mellom Norge og England - og hvilket Âr det skjedde. Eller nÂr og hvor operÊn Tosca f¯rst ble oppf¯rt; eller for den saks skyld, hvem det var som skrev librettoen, og hvilke andre libretti han sto bak.

  • En kunnskapsbase som har plass til innhold fra bÂde Kunnskapsforlaget og Cappelen, og fra mange andre akt¯rer i tillegg, fra de store offentlige og kommersielle organisasjoner, som NRK, Schibsted, ForskningsrÂdet og Nasjonalbiblioteket, til universiteter og skoler, interesseorganisasjoner, minoritetsgrupper - ja, endog enkeltpersoner.

  • En kunnskapsbase skrevet av bÂde profesjonelle leksikografer og andre fagfolk - men ogs av den norske befolkning.

  • En kunnskapsbase som inneholder mange ulike syn p Èn og samme sak, ikke bare Èn halvoffisiell, "objektiv" sannhet; en kunnskapsbase som gj¯r det mulig for utilsl¯rt subjektive meninger om EU, gasskraft og krigen i Afghanistan  komme til uttrykk, men som samtidig tillater brukeren  skille mellom disse, vite hvem som stÂr for hvilke uttalelser, og velge hvem hun vil stole pÂ.

  • En kunnskapsbase som gj¯r det mulig for Thea og de andre i 5A p Marienlyst  lage sin egen lille "kunnskapsparsell" - f.eks. om milj¯effekten av hamburgerindustriens rovdrift i Amazonas - og hekte den p Nasjonal Kunnskapsbase (med hilsen fra 5A), slik at venninen Nina i Trondheim og fetteren Tom i England kan se den (p hhv. norsk og engelsk), gjenbruke den, og f¯ye til sine egne tanker og koblinger.

  • En kunnskapsbase som blir s verdifull at den kan lisensieres til de som har rÂd til det - ogs utenfor Norge, og samtidig s kostnadseffektiv  vedlikeholde at Norge har rÂd til  gi den bort som u-hjelp.

Slik er visjonen. Vi tror at det er en dr¯m som kan realiseres, og dÈt innenfor en forholdsvis kort tidsrom og akseptabel prisramme. Grunnen til vÂr optimisme er en ny kunnskapsteknologi som synes  ha vÊrt ukjent for de som skrev KUFs tilbudsdokument. Denne teknologien Âpner for helt andre muligheter enn de som er beskrevet i anbudene fra Kunnskapsforlaget og Cappelen. Teknologien gÂr under det engelske navnet "Topic Maps". Noen etablert terminologi finnes forel¯pig ikke p norsk, s vi foreslÂr og vil bruke begrepet "emnekart". Emnekart er beskrevet i en internasjonal standard (ISO 13250) og ble utviklet av den samme komitÈen som sto for idÈene bak XML (Extensible Markup Language). Norge har spilt en sentral rolle i utviklingen av emnekart-standarden gjennom Norsk teknologistandardisering og dens deltakelse i ISO-komitÈen SC34. Noen av verdens fremste ekspertise p omrÂdet sitter her til lands.

Hva gÂr s teknologien ut pÂ? Kort beskrevet er emnekart en form for kunnskapsrepresentasjon med sÊrlig anvendelse innen informasjonshÂndtering. Et emnekart kan sees p som en uhyre raffinert og svÊrt kraftig stikkordregister, som gj¯r det meget enkelt  navigere og finne frem i store informasjonsmengder, men det er ogs mye mer enn det. Emnekart har en rekke egenskaper som gj¯r at de er i stand til  realisere visjonene ovenfor, men deres grunnleggende prinsipper er likevel svÊrt enkle.

I emnekartmodellen opererer man med to lag. I det nederste laget ligger informasjonsressurser. De kan vÊre hva som helst: tekstdokumenter, websider, bilder, lyd, video, til og med verdier i en database eller regneark.

Opp dette laget, og adskilt fra informasjonsressursene, ligger et annet "abstrakt" lag, som bestÂr av emner ("topics") og assosiasjoner ("associations"). Typiske emner ville vÊre Henrik Ibsen, Edvard Grieg, skuespillet Peer Gynt, Griegs scenemusikk til Peer Gynt, skikkelsene Peer og ‰se, osv. Et emne kan ha mange navn (synonymer), f.eks. p ulike sprÂk, og det er mulig  skilne mellom emner som har det samme navn (homonymer).

Assosiasjonene angir koblinger mellom de ulike emner, som f.eks. "Peer Gynt er skrevet av Henrik Ibsen", "Ibsen var f¯dt i Skien", "Griegs scenemusikk er basert p skuespillet Peer Gynt", osv.

Emner og assosiasjoner utgj¯r et indekseringslag, eller kunnskapsvev om man vil, som avspeiler den assosiative mÂten vi mennesker tenker p og er derfor meget lett  navigere i. Laget inneholder ogs lenker som peker til informasjonsressurser (i laget under) som er forekomster ("occurrences") av de enkelte emner. Et emne kan ha mange forekomster, og en ressurs kan vÊre en forekomst av mange emner.

Kunnskapsnett. Indekseringslaget av emner og assosiasjoner er en form for semantisk nett, eller kunnskapsnettverk. Semantiske nett er blitt brukt i flere tiÂr av forskere innen kunstig intelligens nettopp for  representere kunnskap i en form som er tilgjengelig for maskiner. Lenkene fra emner til informasjonsressurser (altsÂ, forekomstene) utgj¯r en slags bro mellom kunnskap og informasjon. Det er dette som i f¯rste rekke rettferdiggj¯r vÂr pÂstand om at emnekart - topic maps - kan og b¯r danne grunnlaget for en virkelig nasjonal kunnskapsbase.

Modellen som vi har beskrevet s langt er allerede svÊrt anvendelig, men emnekart har flere egenskaper som gj¯r dem i stand til  realisere visjonene vÂre.

Fletting. For det f¯rste er det mulig  flette sammen to eller flere emnekart som kommer fra ulike kilder. Dette skjer p grunnlag av en mekanisme som heter emneidentitet, eller "subject identity".

Emneidentitet har noe til felles med URN-mekanismen som er foreslÂtt brukt i Cappelens anbud, men er betydelig mer fleksibelt. Den gj¯r det mulig  vite at vi snakker om Èn og samme ting, selv om vi kaller det "Norge" i et emnekart, "Noreg" i et annet, eller "Norway", "Norga" (samisk) for den saks skyld.

Evnen til  flette sammen emnekart er helt avgj¯rende for en distribuert kunnskapsbase der ogs andre akt¯rer har mulighet til  komme med sine bidrag.

Perspektiver. En annen vesentlig og revolusjonerende egenskap ved emnekart er deres evne til  romme ulike verdensanskuelser og perspektiver. Dette gj¯res ved hjelp av en fasilitet som heter perspektiv ("scope"). Et emnekart bestÂr av en rekke pÂstander ("assertions"); enhver tilegnelse av et navn, en assosiasjon, eller en forekomst til et emne er en pÂstand som ansees  ha gyldighet innenfor et bestemt perspektiv. Perspektiv uttrykkes som et sett av emner; hvis ikke en pÂstands perspektiv er spesifisert, ansees pÂstanden  vÊre almengyldig innenfor dette emnekart. SÂledes brukes perspektiv til  angi at "Norga" er et gyldig navn for emnet Norge innenfor perspektivet Samisk; at en bestemt forekomst (informasjonsressurs) er gyldig i perspektivet VG1 (videregÂende, 1. trinn); og at assosiasjonen mellom emnene Dinosaur og Robot gir mening i perspektivet til en 10-Âr gammel gutt!

Standard. Det er ikke tvil om at emnekart er anvendelige nok til  kunne realisere vÂr visjon. Det faktum at det dreier seg om en internasjonal ISO-standard b¯r ogs veie tungt; det betyr at vÂr kunnskapsbase vil kunne nyttes av et stort og variert utvalg av programvare, og ikke vÊre lÂst til Èn proprietÊr teknologi. Det betyr ogs at kunnskapsbasen er sikret for fremtiden, idet ISO-standarder varer mye lengre enn andre formater, potensielt i all evighet.

La dette seg gjennomf¯re? Vil det ikke vÊre for kostbart?

Verkt¯y. Til det er  si: Ja, verkt¯yene finnes, til tross for at standarden kun er ett Âr gammel. Noe av programvaren er gratis, og mye av det er til og med norsk. Demonstrasjoner av noen sider ved denne teknologien kan sees p Ontopias hjemmesider, http://www.ontopia.net/omnigator.

Dessuten er jobben med  skape emnekart absolutt overkommelig. Store Norske Leksikon gir allerede et meget godt utgangspunkt. Vi kan begynne der og la kartet vokse innover og utover. NÂr vi har skapt et ryggrad av emner og assosiasjoner vil andre kunne komme med sine bidrag, for eksempel vil Ibsen-instituttet kunne fylle ut bildet av Ibsen som allerede stÂr i SNL. Erfaring viser at emnekart har en egen evne til  vokse organisk (gjennom bidrag fra enkeltpersoner) og kvantitativt gjennom sammenslÂing med emnekart som stammer fra eksisterende baser (f.eks. hos Statistisk SentralbyrÂ). Det betyr blant annet at vi ikke beh¯ver  l¯se hele oppgaven i ett jafs.

FremgangsmÂte. Hvordan b¯r vi gÂr frem? VÂrt forslag er f¯lgende:

1. Staten b¯r umiddelbart kj¯pe rettighetene til SNL og sikre dens fortsatte vedlikehold langs de nÂvÊrende linjer i to Âr. En rettferdig pris vil bero p en vurdering av hva det ville koste  gjenskape det samme innholdet fra grunnen.

2. Samtidig b¯r det dannes en egen stiftelse, uavhengig av alle forlag og mediainstitusjoner, med midler fra staten og andre interesserte parter (Fritt Ord, nÊringslivet, velgj¯rere).

3. Under ledelse av et styre av folk med kompetanse innen leksikografi, media og teknologi b¯r det dannes en redaksjon bestÂende av leksikografer, ontologer, pedagoger, jurister, lingvister og informasjonsarkitekter, hvis oppgave er  skape den initielle "kunnskapsryggrad" av emner og assosiasjoner med utgangspunkt i SNL. Til dette hektes artikkel- og billedstoff fra SNL.

4. Samtidig utvikles det retningslinjer for hÂndtering av bidrag fra andre, som dekker bÂde tekniske, juridiske og ¯konomiske aspekter.

5. NÂr ryggraden er p plass, Âpnes det for bidrag utenfor, under kontrollerte former. Det er ikke mulig  forutsi idag n¯yaktig hva slags form denne kontrollen vil ha, eller hvor omfattende det m vÊre. MÂlet m vÊre st¯rst mulig Âpenhet innenfor loven, men her m veien bli til mens vi gÂr.

Det er fullt mulig  ha f¯rsteversjonen av basen i pr¯vedrift innen neste sommer, forutsett klarsignal i Ârets budsjett. I mellomtiden b¯r nettversjonen av SNL opprettholdes. Etter ett Âr kan man vÊre klar til  ta imot bidrag fra andre, bÂde i form av nye forekomster av eksisterende emner (f.eks. innhold fra et urdu leksikon, kj¯pt inn med midler fra innvandrerorganisasjoner og den pakistanske regjering), og i form av andre emnekart (fra ITU, NFR, SSB, osv.) som flettes inn.

I l¯pet av denne tiden vil forhÂpentligvis andre akt¯rer, som aviser, fjernsyn og forlag, ha fÂtt tilstrekkelig orden p sitt materiale til ogs  kunne bidra med innhold. Det blir opp til de enkelte; ingen blir forfordelt. Her vil Cappelen kunne bidra p like linje med Kunnskapsforlaget, men ogs Samlaget, Pax, TV2 eller Norsk filateliforening.

Finansiering. Hva s med prisen?

Vi vÂger pÂstanden at emnekart-teknologien gj¯r det mulig  oppn langt mer enn de foreliggende l¯sningsforslag uten  bruke flere statlige midler. Kostnadene kan spres p flere akt¯rer og resultatet kan gjenbrukes p en rekke mÂter. P forholdsvis kort sikt vil basen kunne gi inntekter som gÂr ut over hva et nettleksikon vil kunne forvente.

  • Indekseringslaget av emner og assosiasjoner vil ha verdi i seg selv, selv l¯srevet fra de norske forekomstene. Det vil kunne lisensieres til andre (ogs i andre land), som dermed slipper  bygge sitt eget "kunnskapsryggrad".

  • Det samme indekseringslaget, med forekomster p urdu, arabisk og andre sprÂk, opprinnelig utviklet for  betjene innvandrere i Norge, vil kunne selges til rike land - og gis bort til fattige land.

  • Deler av basen, med svÊrt spesialisert innhold, vil kunne gj¯res gjenstand for abonnementsordninger.

  • Andre deler av basen, sÊrlig emne/assosiasjonslaget, vil kunne distribueres via WAP eller andre telefonbaserte tjenester, og betales via mikrobetalinger administrert av telefoniselskapene.

***

Med dette kan vi bÊre arven fra Diderot og d'Alembert inn i et nytt Ârhundre og tilpasset vÂr tids samfunnsforhold og teknologi.

Norge har de fleste forutsetninger for  lykkes: et utmerket utgangspunkt i SNL; toppmoderne infrastruktur; ekspertise i verdensklasse nÂr det gjelder den aktuelle teknologien; en tradisjon med nasjonal dugnad som svarer godt til behovet for en distribuert l¯sning bygget p samarbeid mellom mange akt¯rer; et lynne som gj¯r at vi kan godta den disiplinen som er n¯dvendig for  lykkes; og en ¯konomi som gj¯r at vi sannelig har rÂd til  ta de initielle investeringer.

En av grunnen til at Diderot og d'Alembert lyktes i sitt prosjekt var st¯tten de fikk fra Russlands eneveldige, men samtidig opplyste hersker, Katarina den Store. Dagens enevoldsherskere er tvilsomme kandidater til denne rollen. Men kanskje kan Kristin Clemet fylle den?

VÂrt forslag tar vare p de store verdiene som ligger i SNL, det tar vare p innvendingene fra Cappelen og det tar vare p betenkelighetene som Kristin Clemet har reist. S da er det bare for ministeren  vise det vidsyn og inititiv som stunden kreverÖ.

PÂl Steigan  Steve Pepper