Alibaba Cloud 24.08.2021, 13:55 Uhr

Maschine übertrifft Menschen im Verstehen von Bildern

Alibaba Cloud hat den ersten Platz in der jüngsten globalen VQA-Rangliste (Visual Question Answering) erreicht und übertrifft damit die Leistung eines Menschen im gleichen Kontext.
Alibabas Modell "AliceMind" belegte den ersten Platz bei der globalen VQA Challenge 2021
(Quelle: Alibaba Cloud)
Laut Alibaba ist es das erste Mal, dass eine Maschine Vorteile gegenüber dem Menschen im Verstehen von Bildern für die Beantwortung von Textfragen hat. Der Alibaba-Algorithmus erzielte eine Trefferquote von 81,26 Prozent bei der Beantwortung von Fragen zu Bildern, verglichen mit der Leistung des Menschen von 80,83 Prozent (im Teststandardteil).
 
Der Wettbewerb, der seit 2015 jährlich organisiert wird, zieht globale Akteure wie Facebook, Microsoft und die Stanford University an. Bei der Bewertung werden ein Bild und eine dazugehörige Frage in natürlicher Sprache präsentiert, auf die Teilnehmer eine präzise Antwort in natürlicher Sprache geben sollen. In diesem Jahr umfasste der Wettbewerb mehr als 250000 Bilder und 1,1 Millionen Fragen.
 
Der Durchbruch der maschinellen Intelligenz bei der Beantwortung bildbezogener Fragen wurde dank des innovativen Algorithmusdesigns der Alibaba DAMO Academy, der globalen Forschungs- und Entwicklungsinitiative der Alibaba Group, möglich gemacht. Durch den Einsatz der firmeneigenen Technologien – einschließlich verschiedener visueller Darstellungen, multimodaler vortrainierter Sprachmodelle, adaptiver crossmodaler semantischer Fusion und Alignment-Technologie – konnte das Alibaba-Team nicht nur erhebliche Fortschritte bei der Analyse der Bilder und dem Verständnis der Frageintention erzielen, sondern auch bei der Beantwortung der Fragen mit einer angemessenen Argumentation, die sich in einem authentischen Gesprächsstil ausdrückt.
 
Die VQA-Technologie wurde bereits in großem Umfang im gesamten Ökosystem von Alibaba eingesetzt. So wurde sie beispielsweise in Alibabas intelligentem Chatbot AlimeShop Assistant implementiert, der von zehntausenden Händlern auf Alibabas Einzelhandelsplattformen genutzt wird.
 
 
VQA kann kann beispielsweise bei der Suche nach Produkten auf E-Commerce-Websites, zur Unterstützung der Analyse medizinischer Bilder für die Erstdiagnose von Krankheiten sowie beim intelligenten Fahren eingesetzt werden, da der KI-Assistent grundlegende Analysen von Fotos, die von der Fahrzeugkamera aufgenommen wurden, anbieten kann.


Das könnte Sie auch interessieren