Op zoek naar een zoekmachine die verbanden kan leggen

Auteur: Sybe Rispens | 28-03-2007 | Reacties: 3 | Share/Bookmark Mail dit artikel

V Van een zoekmachine die trefwoorden echt begrijpt kon lange tijd alleen maar gedroomd worden. Maar langzaamaan komt nu een 'semantisch web' van de grond.



Het internet staat bol van informatie waar computers niets van begrijpen. Tik 'Van Gogh' in en Google levert in 0,07 seconden een lijst met meer dan zes miljoen resultaten. Van geen enkel resultaat hebben de computers bij Google ook maar enig idee waar het over gaat. Of het nu om een reclameaanbieding gaat, een tentoonstelling, een persoon, een pornofilm of poëzie: voor de computers van het internet is het allemaal een grote digitale brij.
De grondlegger van het Word-Wide Web, Tim Berners-Lee, bedacht zes jaar geleden dat het internet meer met informatie zou moeten kunnen doen. In Berners-Lee's visioen zou het internet van de toekomst moeten weten wat de gebruiker bedoelt met een zoekterm. Bij 'Van Gogh' zou een toekomstige zoekmachine moeten denken aan de werken van de schilder, maar ook aan schilderijen waarop hij is afgebeeld, namen van leermeesters en vrienden, plaatsen waar hij heeft geleefd, mensen met wie hij veel omging. Dat is voor huidige zoekmachines niet mogelijk. Ze hebben geen weet van het feit dat er tussen de lettercombinaties 'Van Gogh' en 'Auvers-sur-Oise' ­ de plaats waar Van Gogh overleed ­ een verband bestaat.
Het web, zo vond Berners-Lee, zou zelfstandig dit soort verbindingen tussen de informatie van de miljarden internetpagina's moeten kunnen leggen. Het zou daarmee een soort wereldomspannend kennisnetwerk kunnen worden, waarbij computers alle informatie op het internet inhoudelijk zouden kunnen begrijpen.
Berners-Lee formuleerde zijn plannen in een voor de tijd van de internethype karakteristiek optimisme. Zijn doelen zijn nog lang niet bereikt, maar inmiddels zijn er toch belangrijke vorderingen gemaakt. Het zijn met name ook Nederlandse onderzoekers die het 'betekenisvolle web' dichterbij brengen.

Metadata

De belangrijkste voorwaarde voor het realiseren van de droom van Berners-Lee is dat machines betekenis kunnen geven aan documenten: het web moet iets van semantiek begrijpen. Guus Schreiber, hoogleraar Intelligente Informatiesystemen aan de Vrije Universiteit in Amsterdam, demonstreerde vorig jaar tijdens een internationale conferentie in Amerika, dat het ook kan. Schreiber had met andere wetenschappers de collectie van diverse musea in Nederland digitaal bij elkaar gezet en er samenhang in aangebracht. Dit project 'E-Culture' was zo succesvol, dat het project op het Amerikaanse congres tot beste aanzet voor het semantisch web werd bestempeld.
De zoekmachine van E-Culture kan dingen waar Google alleen nog maar van kan dromen. Wie 'Picasso' intikt, krijgt niet alleen vijf treffers van kunstenaars met die achternaam, maar ook de namen van vrienden en collega's. Dan nog schilderijen en sculpturen die door Picasso zijn gemaakt, maar ook werken van anderen, die door Picasso zijn beïnvloed, of die in dezelfde kunststroming liggen.
Schreiber: 'Eigenlijk was dit project een voorbeeld van een standaardapplicatie. Binnen het vakgebied was er al jaren over gesproken, maar nog nooit had iemand de moeite genomen om het werkelijk op zo'n grote schaal in de praktijk te brengen.' De belangrijkste verdienste van E-Culture is het bijeenbrengen in één zoeksysteem van allerlei verschillende soorten informatie die musea door de jaren heen hebben verzameld. 'De omvang van het project is daarbij een grote technische uitdaging: het gaat om tienduizenden objecten en honderden miljoenen beschrijvingen daarvan', zegt Schreiber.
De computer moet al die beschrijvingen 'begrijpen'. Dat gebeurt in E-Culture door de informatie te voorzien van speciale annotaties, ook wel metadata genoemd. De annotaties zijn onderling hiërarchisch geordend en door mensen zijn zinvolle verbanden ertussen aangegeven. Zo valt 'Picasso' in de categorie 'schilder'. En 'schilderen' en 'beeldhouwen' zijn twee 'eigenschappen' van Picasso.
Uit dit soort annotaties en hun onderlinge verhoudingen kan de computer bepaalde logische redenaties afleiden. Het systeem kan zo verbanden herkennen, ook als die niet vooraf expliciet door een mens zijn ingevoerd. Als in de formele beschrijving staat dat 'schilderen' een eigenschap van Picasso is, en dat 'schilderen' ook een eigenschap van Van Gogh is, dan kan het systeem zelf een verband leggen tussen beide schilders.
E-Culture heeft laten zien dat het aan elkaar knopen van dit soort beschrijvingen goed kan werken. Dat succes kent wel twee fundamentele beperkingen: bij kunst gaat het maar om een beperkt kennisdomein en bovendien is het een kennisdomein waarin feiten en gegevens niet zo snel veranderen.

Tegenstrijdigheden

Dat er voor zo'n toekomstig systeem met miljarden gegevens gerekend moet worden, zien de meeste onderzoekers als het geringste probleem. Computers verdubbelen nu eenmaal elke 18 maanden hun rekencapaciteit. Maar hoe zit het met de andere uitdagingen van het semantische web?
De tweede horde voor systemen als E-Culture is: wat te doen met tegenstrijdige informatie? Zelfs als niemand kwade wil in de zin heeft, ontstaan er in de 'thesaurus' (geordende begrippenstructuur) die de ontwikkelaars van een semantisch web vastleggen, logische tegenspraken.
Zo zou men in een thesaurus de volgende vier regels kunnen aantreffen: 'koeien zijn dieren', 'schapen zijn dieren', 'koeien en schapen zijn vegetariërs' en 'vegetariërs eten nooit andere dieren of delen van andere dieren'. Vervolgens verschijnt er op een dag een bericht op het web dat sommige koeien hersenen van schapen gegeten hebben en vervolgens ziek werden. Deze koeien worden 'gekke koeien' genoemd. De bestaande thesaurus kan nu alleen consistent blijven als tenminste een van de regels eruit wordt geschrapt. Welke van de regels moet er nu aan geloven?
Frank van Harmelen , hoogleraar kennisrepresentatie en redenering aan de afdeling kunstmatige intelligentie aan de Vrije Universiteit van Amsterdam, is desondanks optimistisch over het vinden van oplossingen voor dit soort problemen: 'We moeten hier voorbij de klassieke logica ­ waarbij iets of waar of onwaar is. Het is helemaal niet nodig om dit soort tegenspraken honderd procent goed op te lossen. Ook als je systeem het maar een beetje goed doet, heb je toch al een enorme winst gemaakt.'

Grote open vraag

Voor een wereldomspannend semantisch web is het noodzakelijk dat er gestandaardiseerde manieren ontwikkeld worden om kennis vast te leggen en tussen computers uit te wisselen. Voor het laatste is niet de techniek, maar de mens doorslaggevend omdat er goede internationale afspraken gemaakt moeten worden. In allerlei toepassingsgebieden schieten er op dit moment thesauri en begrippenlijsten uit de grond voor de biotechnologie, de informatica, de financiële sector, enzovoort. 'Voor mij is de grote open vraag: zullen we er in slagen al die begrippenlijsten op een zinvolle manier met elkaar te verbinden?', zegt Van Harmelen.
Of het dus ooit zover komt dat in een semantisch web, zoals Berners-Lee droomde, 'computers in staat zullen zijn om alle data op het internet te analyseren ­ de inhoud, onderlinge samenhang en de interactie tussen mensen en machines', is nog steeds de grote vraag. Maar het semantisch web heeft voor beperkte kennisgebieden duidelijke doorbraken bereikt. Schreiber: 'Mijn droom is dat we over vijf jaar op deze manier alle musea in Nederland met elkaar kunnen verbinden. Dan ontstaat een soort cultureel kenniseiland. Dat eiland zou je daarna kunnen uitbreiden op Europese schaal, en misschien valt uiteindelijk te denken aan het digitale erfgoed van de hele wereld.'
Meer artikelen in de rubriek
'Weekblad archief'

Reageer, print of deel dit artikel

  • Reageer (3)
  • Print
  • Share/Bookmark Mail dit artikel
Reacties op dit artikel:
Robert | 29 maart 2007 (21:45)

Slecht voorbeeld, "van Gogh". Wat als je nou eens níet Vincent van Gogh de schilder bedoelt? Met andere woorden: de semantiek geeft een beetje handige zoeker op internet zèlf aan d.m.v. zijn zoekopdracht (zie 'Geavanceerd zoeken' bij Google). Daarmee voorkomt hij dus ook dat de zoekmachine voor hem gaat beslissen wat hij wil, en het misschien mis heeft.

De toegevoegde semantische verbanden worden pas handig als eerst door de zoekmachine op een of andere manier is vastgesteld dat de zoeker inderdaad de schilder bedoelt. Bijvoorbeeld door het presenteren van meerdere zoekresultaten die ieder een verschillende ingang vormen voor verdere semantische associaties.

Robert | 29 maart 2007 (21:57)

In vervolg...

Een belangrijk punt is verder dat het aanleggen van die verbanden vraagt dat ofwel de aanbieders van informatie dat op een heel gestructureerde manier doen ofwel dat in willekurige teksten automatisch die structuur gevonden kan worden.

Met andere woorden: in het eerste geval is even een tekst het web op pleuren er niet meer bij, men moet bijvoorbeeld in iets XML-achtigs gaan schrijven. Lekker leesbaar is het dan misschien niet meer. In het tweede geval komen we terecht op nog slimmere en nog omvangrijkere systemen dan de indexeersystemen die we nu al kennen.

Guus Schreiber | 2 april 2007 (1:52)

Als antwoord op de reactie van Robert: het aangeven om welke "van Gogh" het gaat is juist iets dat wij wel kunnen. Als je "van Gogh" intypt, gaan we kijken naar welke soorten "van Gogh" we hebben (en evt. gerelateerde begrippen) en groeperen de zoekresultaten dienovereenkomstig.

We zouden ook de zoekinterface de term eerst kunnen laten disambigueren (welke "van Gogh" of "Picasso" bedoel je?), maar in de praktijk blijkt dat mensen toch liever het simpele Google-achtige zoeken (alle plaatjesbibliotheken maken melding van dit feit), vandaar dat wij gebruikers zelf dit laten doen op basis van de groepering van de resultaten.

Overigens, onze testverzameling bevatte geen objecten van, bijv., Theo van Gogh.

Het kan enige tijd duren voordat je reactie geplaatst wordt.

Het is de redactie van Intermediair toegestaan om de inhoud van de reactie met naam en toenaam te hergebruiken in de print uitgave van Intermediair.

Reacties worden niet direct op de site geplaatst. De redactie controleert vooraf of de reactie aan een aantal voorwaarden voldoet. Deze voorwaarden zijn:

  • Reacties dienen betrekking te hebben op de inhoud van het betreffende artikel of onderwerp.
  • Reacties mogen geen beledigingen, bedreigingen, al dan niet fictief, aan het adres van de andere sitebezoekers of aan prominente personen bevatten.
  • Uitingen van geweld, racisme, anti-semitisme, het zwartmaken van individuen, groepen of organisaties worden niet getolereerd.
  • De reactie moet kort en bondig zijn (maximaal 1.000 karakters), te lange reacties worden niet geplaatst.
  • Het plaatsen van persoonsgegevens zoals telefoonnummers en adressen in de tekst van de reacties is niet toegestaan.
  • Links naar websites en reclame voor producten en/of diensten worden niet geplaatst.
  • Reacties die volledig in hoofdletters zijn getypt en/of vol staan met uitroeptekens en vraagtekens worden niet geplaatst.
  • Reacties die vol staan met taalfouten worden niet geplaatst.

De redactie behoudt zich het recht voor om reacties aan te passen, in te korten of te verwijderen. De redactie gaat niet in discussie over geplaatste of verwijderde reacties.


Ik ga akkoord met de voorwaarden

Zoek in vacatures voor hoogopgeleiden: