October 05, 2017
Babelfisken

Til Googles nye Pixel 2 telefon kan man få et snedigt headset som bl.a. er i stand til at oversætte for dig on the fly. På et tidspunkt når vi alle har dem ude i fremtiden vil vi have et nyt besynderligt lingua franca - som er ejet af Google, og ikke er et kulturelt produkt.

Universel oversættelse er en af de allerældste drømme vi har. Meget længe var græsk et universelt skriftsprog rundt om middelhavet. Der var boglærde overalt fra Ægypten til Italien, der kunne sproget.
Siden overtog latin - først som magtens sprog fra Rom, og siden gennem kirken, som bærer af boglærdom - latin overlevede helt indtil 1800-tallet som universalsprog. Så sent som i 1820 kommunikerede H.C. Ørsted opdagelsen af elektromagnetismen i en artikel på latin som gik rundt til de videnskabelige centre i Europa og skabte sensation.
I vores egen tid er engelsk naturligvis sproget alle mener at kunne, men vi ved også at det er en sandhed med to alvorlige modifikationer

  • Der tales i virkeligheden en gigantisk sky af forskellige engelsk pidgins - ikke bare ét engelsk. For nylig er BBC endda begyndt at lave nyheder på pidgin i erkendelse af at der er langt fra det engelsk der tales i Nigeria og omegn til The Queens English. BBCs pidgin tjeneste er en virkelig øjenåbner. Man er ikke i tvivl om at det er engelsk, der skrives på - men man er heller ikke rigtig i tvivl om at det er det så ikke alligevel.
  • Hvis man har rejst nogen steder hen - eller forsøgt at arbejde sammen med folk fra andre sprogkulturer end den engelske - ved man også hvor meget der går tabt i oversættelsen. Hvis man vil sælge noget til tyskere må man hellere sørge for at kunne tysk, f.eks.
En af de vanskeligheder BBC er stødt på i etableringen af deres nye pidgin-nyheder er, at pidgin indtil videre stort set udelukkende er et talesprog. Der findes ikke nogen standard for at oversætte det til bogstaver. Sproget er endnu ikke kodet til at blive sendt gennem skriftlige medier. Det problem har alle vores gamle sprog også været igennem, bare for lang tid siden. De første ordbøger dukkede op i 1600-tallet, og det var ikke før omkring 1800-tallet, at ordbøger eksisterede der var gode nok, og almindelige nok, til at vinde hævd som standarden for hvordan vi skriver.

For ikke alt for længe siden annoncerede Google at de nu var nået til det punkt at de kunne lave oversættelse mellem sprog de ikke havde oversættelseseksempler for. Tidligere var teknologien mere banal: Giv maskinen en masse eksempler på oversættelse fra sprog A til sprog B og lad den lære mappingen. Men der er mange sprog - tusindvis - og hvis de alle skal kombineres med hinanden står man pludselig med millioner af oversættelsesproblemer.
Den nyeste udvikling var at man i stedet så at sige kunne lære de enkelte sprog og så bare plugge to af dem sammen for at bygge en oversætter. Nede i Googles maskinoversættelser ligger der derfor i dag et mærkeligt 'ikke rigtigt et sprog, men så alligevel' som ikke på nogen måde er kodet på en måde, så vi kan lære det. Det er alene en kodning af betydninger, der muliggør at man kan tage ord fra ét sprog på den ene side - konvertere det til betydninger - og så siden på den anden side af betydningen generere lyden af et andet sprog, som en oversættelse
Det er det næste engelsk - men det er ikke et sprog vi taler, det gør de neurale net i Googles computerfarm.

Der er en lang filosofisk tradition for at mene noget om hvorvidt neurale net, der bare regner 'mest sandsynlige fortolkning' af et udsagn ud, egentlig forstår det sprog de kan oversætte - og for ikke at sætte skøre rygter i gang vil jeg skynde mig at melde mig på samme side som Googles PR-afdeling nok gør, og som John Searle gjorde med sit berømte 'kinesiske rum' tankeeksperiment - vi har ikke bygget intelligente computere, der kan forstå os. Maskinen danner ikke nogen meninger om det sagte. Den ved ikke det den er blevet fortalt efter oversættelsen er lavet. Den har ikke behov for at glemme det igen - for den har intet husket.

Men den sidder der jo alligevel - mellem person A og person B, der taler hver deres sprog. Nu får vi for måske første gang - måske - en medieret sprogvirkelighed også for det talte sprog. Pludselig skal du til at overveje hvordan du skal formulere dig, for at få maskinoversætteren i øret til at sige det rigtige. Ligesom ordbøgerne gjorde det med skriftligt dansk, engelsk, tysk og fransk, og ligesom BBC er ved at gøre det med pidgin, skaber maskinoversættelsen sit helt eget sprog. Det er beslægtet med det sprog man talte i forvejen - men det er ikke det samme. Der er sætninger maskinoversætteren ikke lykkes med - dem holder man sig så fra, for hvorfor sige noget, der ikke kan oversættes. Og så er der selvfølgelig alle de ting der simpelthen ikke kan siges.

For første gang nogensinde skal vi til at overveje censur i en helt almindelig samtale mellem to mennesker. Laget af teknologi mellem den der taler og den der lytter muliggør en hel serie af mareridtsscenarier. Ikke bare det at nogen lytter med og evt gemmer samtalen, sådan at fortroligheden går fløjten, men også simpelthen forvanskninger. Man kunne forestille sig at generiske ord for ting, f.eks. produkter, erstattes med varemærker - som en slags lydlige affiliatelinks. Vi kan forestille os forbudte ord. Pludselig får Kinas berømte store firewall mulighed for også at nå ned mellem to der taler - måske kan man simpelthen ikke sige 'Tiananmen-massakren' med Google's Pixel på kinesisk på et eller andet tidspunkt ude i fremtiden.

Vi har hele tiden fået vores sprog kodet - sproget er en kodning - det er sådan noget man kan læse en hel masse om hos George Lakoff. Der hvor der muligvis sker noget nyt er, at vi ikke selv bestemmer kodningen - og at den ikke er umiddelbart synlig for os.

Når man overvejer konsekvenser af det, så kan man med fordel kigge bare på søgemaskinen Google som den fungerer i dag. Her i Trump-æraen kæmpes kampen om betydninger fra hus til hus - det er blevet decideret vanskeligt at bruge internettet som nyhedskilde uden at blive eksponeret for fuldstændig crazy konspirationer eller falske nyheder. I timerne efter skudmassakren i Las Vegas lykkedes det for absurde konspirationsudlægninger af hændelsen at flyde til toppen af søgeresultaterne. Det er ikke meget bedre hvis man kigger på autocomplete.
Det er her hvor Searles kinesiske rum pludselig skifter fra at være en akademisk tankeeksperiment til at være vigtigt for os - for hvad nu hvis søgerobotten forstod hvad konspirationerne sagde og kunne lave en virkelighedstest, i stedet for bare at rapportere til os en populær udlægning af en begivenhed under udvikling? Det gør den tydeligvis ikke - den forstår kun at "mange synes at" - og på samme måde forstår oversætteren bare gængse fortolkninger.

Det er ikke svært - baseret på nogen af de "ups, det virkede ikke" historier med bots vi har set de senere år, at forestille os Googles lingua franca udvikle sig i en politisk betændt retning - eller simpelthen blive gamet af subkulturer med et mål, et kommercielt, eller racistisk, eller hadefuldt, eller bare i det hele taget et eller andet mål vi andre ville opfatte som sekterisk i den ene eller anden retning.

Ville vi overhovedet opdage det hvis sproget algoritmisk begyndte at se meget værre ud for særlige befolkningsgrupper? Ville vi overhovedet vide hvordan sådan en påvirkning ser ud?

Posted by Claus at October 05, 2017 11:22 PM | TrackBack (0)
Comments (post your own)
Help the campaign to stomp out Warnock's Dilemma. Post a comment.
Name:


Email Address:


URL:



Type the characters you see in the picture above.

(note to spammers: Comments are audited as well. Your spam will never make it onto my weblog, no need to automate against this form)

Comments:


Remember info?