Wenn künstliche Intelligenz von den Lippen lesen kann

Der erste Schritt ist gemacht. Wissenschaftler basteln an künstlicher Intelligenz, die von den Lippen lesen kann. Dabei gibt es ein Problem: wir machen beim Sprechen mit den Lippen gewisse Bewegungen. Das sind die sogenannten Viseme, und es gibt ca. 10-14 von ihnen, die jeder von uns benutzt. Beim Sprechen benutzen wir aber ca. 50 Phoneme (die Laute, die wir dabei machen).
Somit ergibt sich eine gewisse Interpretationsvielfalt, da wir beim Lippenlesen nur 10-14 Viseme erkennen können, es aber um die 50 Phoneme gibt. Einige sind also mehrfach deutbar, und deswegen spielt der Kontext eine Rolle. Das ist das Schwierige beim Lippenlesen.
Dass künstliche Intelligenz sich manchmal schwer tun kann mit der korrekten Deutung des Kontextes, ist klar und eins der Probleme, wenn KIs von den Lippen lesen soll (ein weiteres ist, dass man mit einer Kamera selten ganz genau alle Viseme erfassen kann, weil sich der Kopf des Sprechers bewegt).
In G.A.S. Die Trilogie der Stadtwerke von Matt Ruff ist so ein Fall beschrieben: eine KI liest von den Lippen und kommt zu zwei möglichen Deutungen. Die eine Deutung ist die, dass die beiden Menschen, die da sprechen, gerade Essen bestellen. Die andere Deutung ist die, dass einer der Menschen, der Schöpfer der besagten KI, seiner KI einen verschlüsselten Auftrag gibt, die Erde zu beherrschen. Die KI muss über den Kontext entscheiden, um zu verstehen, welche Bedeutung gemeint ist. Zwar sitzen die beiden in einem Restaurant, aber die KI findet das zu langweilig und ist der Meinung, dass die andere Deutung die passende sei. Daraus entsteht dann die Handlung von GAS - Die Stadtwerke-Trilogie.
Und anscheinend haben das besagte Wissenschaftler nicht gelesen, denn die wollen gerade KIs sowas beibringen. Hoffen wir, dass sie ihnen, was die Kontextanalyse angeht, gewisse Regeln auferlegen.