WELT

Forscher haben eine Software entwickelt, die Wahres von Falschem unterscheiden kann

27.06.2015 [20:53]
Druck
A⁺ A^-

Baku, 27. Juni AZERTAC

Wem kann man heutzutage noch trauen? Auf Facebook machen Videos die Runde, die womöglich gefälscht sind. Im Onlinelexikon Wikipedia kann jeder Artikel manipuliert sein. Und wer will schon glauben, was in E-Mail-Kettenbriefen steht?

Das Überprüfen von Aussagen, im Englischen Fact-checking genannt, ist mitunter sehr aufwendig. Große Zeitungen und Magazine haben eigene Abteilungen, die sich allein um die Prüfung von Fakten kümmern.

Wissenschaftler der University of Indiana in Bloomington haben jetzt eine Software entwickelt, die den Wahrheitsgehalt einfacher Aussagen berechnet. Giovanni Ciampaglia und seine Kollegen nutzen dabei ein Wissensnetzwerk, auch Knowledge Graph genannt.

Die Forscher fütterten ihre Software mit dem Inhalt von Infoboxen aus Wikipedia, die wichtige Fakten über Personen oder Dinge enthalten. Beispiel: Im Kasten von Barack Obama, den es nur in der englischen Artikelversion gibt, finden sich sein Geburtstag, Details zur Ausbildung und zu den Karrierestationen.

Ist Sokrates ein Mensch? - Aus solchen Infoboxen extrahierten die Wissenschaftler drei Millionen Begriffe, die durch 23 Millionen Links miteinander verbunden waren. Beispiele für solche Verbindungen sind „Sokrates ist ein Philosoph“ und „Paris ist die Hauptstadt von Frankreich“.

Eine Aussage ist wahr, wenn Subjekt und Objekt miteinander verbunden sind, wie „Sokrates“ und „Mensch“. Zwischen „Sokrates“ und „Tier“ hingegen dürfte keine Verbindung existieren. Es gibt im Knowledge Graphen auch Verknüpfungen, die über mehrere Stationen laufen. Beispiel: „Sokrates“ und „Mensch“. „Sokrates“ und „Philosoph“ sind miteinander verbunden - und „Philosoph“ und „Mensch“ auch. Daraus folgert die Software, dass Sokrates ein Mensch ist. Die Verbindung kann auch über mehr als zwei Stationen laufen, also länger sein.

Ihren Fact-checking-Algorithmus testeten die Forscher mit Aussagen wie "Barack Obama ist Präsident der USA". Um es der Software nicht zu einfach zu machen, entfernten die Wissenschaftler vor der Abfrage den direkten Link zwischen Obama und US-Präsident aus dessen Wikipedia-Infobox. Die Software musste dann nach indirekten Verbindungen fahnden - und aus den Treffern den Wahrheitsscore berechnen, der zwischen Null und Eins liegt.

Substanzlose Gerüchte und Verschwörungstheorien - Der Aussage "Obama ist Präsident" ordnete die Software einen hohen Score zu, dem Satz „Obama ist Muslim“ hingegen nicht, schreiben die Forscher im Fachblatt „PLOS ONE“. Tatsächlich wahre Aussagen hätten einen höheren Wahrheitsscore erhalten als falsche.

Für die Bestimmung des Wahrheitsgehalts von Aussagen seien indirekte Verbindungen offenbar entscheidend, sagte Giovanni Ciampaglia. Erst wenn der Algorithmus auch längere Wege zwischen zwei Begriffen nehmen durfte, habe er gute Ergebnisse geliefert.

„Die Ergebnisse sind ermutigend und spannend“, sagte der Forscher. „Wir leben im Zeitalter des Informationsüberflusses.“ Es kursierten falsche Informationen, substanzlose Gerüchte und Verschwörungstheorien. Das Ausmaß dieser Falschaussagen bedrohe den Journalismus und die Öffentlichkeit gleichermaßen. Die Studie zeige, dass man Fact-checking in ein Netzwerk-Problem überführen könne, das sich leicht mit Computern lösen lasse.

Computer gewinnt Spielshow - In den vergangenen Jahren haben Informatiker große Fortschritte in der maschinellen Verarbeitung von Texten gemacht. Dabei nutzen sie ganz unterschiedliche Ansätze. Google setzt beim automatischen Übersetzen von Webseiten beispielsweise ganz auf die Macht der Statistik. Der Algorithmus greift auf Tausende korrekte Übersetzungen zurück, um jene Übersetzung zu berechnen, die wahrscheinlich die richtige ist. Ein inhaltliches Verständnis des Textes braucht der Algorithmus dafür nicht.

IBM hat mit Watson eine Software entwickelt, die in natürlicher Sprache gestellte Fragen beantworten kann. 2011 besiegte Watson sogar zwei Menschen in der TV-Quizshow „Jeopardy“, die dort zuvor hohe Gewinne erzielt hatten. Die Software analysiert eingegebene Sätze unter anderem linguistisch, um deren logische Struktur zu erkennen. Watson nutzt aber wie auch Googles Übersetzungsprogramm umfangreiche Textbestände.

Der Tag, an dem eine Software automatisch alle inhaltlichen Fehler in einem Text findet, liegt sicher noch weit weg. Vor allem, wenn die dafür nötigen Informationen nirgends auf der Welt digital verfügbar sind, kann der Algorithmus letztlich nur raten. Ein kritisch denkender Mensch würde in einem solchen Fall wohl anfangen zu recherchieren. Aber wer weiß - irgendwann beherrschen Computer womöglich auch das.