Gå til hovedindhold

Sociale medier kræver nye sprogdata

Sprogforskerne savner bedre værktøjer til at håndtere data fra sociale medier.
Af
24/04/2015 09:04

Brugerne på sociale medier skriver et sprog, der er meget anderledes end det, som de fleste digitale sprogværktøjer er bygget til at analysere. Derfor har forskerne brug for at indsamle aktuelle eksempler på, hvordan vi skriver på nettet.

”På sociale medier taler millioner af mennesker samtidig. Derfor er det oplagt, at vi må automatisere nogle af opgaverne med at analysere kommunikationen. Men generelt er vores værktøjer dårlige til at håndtere data fra sociale medier,” sagde professor Anders Søgaard, Center for Sprogteknologi ved Københavns Universitet.

Han talte på seminaret Digital humaniora den 20. april 2015, som DeiC havde arrangeret sammen med Københavns Universitet og DigHumLab.

Værktøjerne kan for eksempel analysere en tekst og klassificere ordklasser. Det kan de, fordi nogle sprogforskere har indtastet data om tekster, der fungerer som eksempler. Men eksemplerne er gerne tekster, der blev indhentet for 10-20 år siden, og som indeholder standardsprog.

”Algoritmerne henter data fra manuelt annoterede tekstsamlinger fra for eksempel Wall Street Journal og Jyllands-Posten – velskrevne tekster med styr på grammatikken. Derfor er værktøjerne bedst til at analysere tekster, der ligner tekster fra de kilder. Det gør den typiske Twitter-opdatering ikke,” sagde Anders Søgaard.

Som eksempel nævnte han, at sprogbrugerne på Twitter ofte undlader artikler: De skriver ”Undersøgelse viser” i stedet for ”En undersøgelse viser”. De forkorter også mange ord på uortodokse måder.

Anders Søgaard fra Center for Sprogteknologi:
Sociale medier er spændende, men de er også svære at håndtere for forskerne. En ting er at indsamle data, en anden er at blive klogere.

Vi har annoteret de forkerte data

”Vores problem er, at vi har annoteret de mindst interessante data. Der er ikke særlig mange, der skriver lige som Wall Street Journal. Derfor vil vi gerne opbygge nye ressourcer med samlinger af data fra sociale medier,” fortalte han.

Målet er at indsamle og annotere 10.000 sætninger med tre annotationer pr. sætning.

Når værktøjerne er på plads, mener han, at de kan få stor værdi for forskningen – ikke kun inden for sprogteknologi:

”Her kan humaniora indføre en interessant videnskabelig dagsorden. Sociale medier indeholder mange data, som kan danne grundlag for forskning. Psykologi og socialvidenskab kan for eksempel analysere indholdet. Det introducerer til gengæld nye metodiske udfordringer, som statistikere og folk fra DTU må møde humanisterne for at løse,” sagde han.