Ein offenes Ohr für Mensch und Maschine
In der fünften Folge der Serie zum Einsatz von künstlicher Intelligenz im Handwerk lernen Sie, was unser Digitaler Assistent KaI mit Stimmen und Geräuschen anfangen kann.
Im vorangegangenen Beitrag haben wir uns mit der Kompetenz von KaI im Bereich der Bildverarbeitung beschäftigt. Von den Augen wechseln wir heute zu den Ohren – KaI kann hören. Im Alltag kennen wir die sogenannte KI-gestützte Audio-Erkennung von Alexa oder Siri, oder Apps zur Erkennung von Musiktiteln. Die Interaktion findet über Sprache beziehungsweise Geräusche statt. Werfen wir noch mal einen Blick in das KI-Periodensystem, welches wir im Artikel "Der kleine KI-Baukasten" vorgestellt haben. Dort lesen wir, dass KaI
- gesprochene Sprache und/oder Gefühlszustände allgemein
- bestimmte Arten von Geräuschen (Alarme, Automotor)
- eine individuelle Stimme
- Audiosignaturen (bestimmter Automotor)
erkennen kann. Das heißt, bei der KI-gestützten Audio-Erkennung werden Audiodaten von KaI erkannt, analysiert und ausgewertet. Die Auswertung kann in einer schriftlichen oder verbalen Antwort oder in der Umsetzung eines Befehls erfolgen.
Echtzeit-Übersetzung auf der Baustelle
Für die Spracherkennung muss KaI verschiedene Sprachen, aber auch Dialekte und Akzente lernen, so kann KaI als Simultan-Übersetzer fungieren. Dies ist nicht nur bei Fremdsprachen hilfreich – auch innerhalb von Deutschland haben wir doch so manches Mal Probleme mit den unterschiedlichen Dialekten. Für die Echtzeit-Übersetzung auf der Baustelle können kleine Geräte genutzt werden, aber auch Apps für das Mobiltelefon, falls dies nicht im Telefon integriert ist. Die App übersetzt nicht nur im direkten Gespräch, sondern auch bei einem Anruf. So kann KaI Missverständnisse in Teams mit unterschiedlichen Muttersprachen vermeiden helfen. Hierbei handelt es sich um eine Sprachein- und Sprachausgabe.
Die Ausgabe kann auch schriftlich erfolgen, das Ergebnis wird als Transkription bezeichnet. Das heißt der gesprochene Inhalt zum Beispiel einer Besprechung wird von KaI als Protokoll niedergeschrieben. Diese Funktion ist bei Besprechungstools oft integriert, es gibt aber auch Applikationen. Bei Protokollen ist von Bedeutung, dass die individuelle Stimme erkannt wird, denn nur so kann das Gesprochene eindeutig einer Person zugeordnet werden. Aber auch im Schriftverkehr oder bei der Dokumentation kann viel Zeit gespart werden, wenn die Inhalte nicht getippt, sondern diktiert werden. Dazu wird das Diktiermenü in der Textverarbeitung geöffnet, das Mikrophon angeschaltet und los geht es. Softwarelösungen bieten die Spracherkennung nicht nur für die Erfassung von Texten an, sondern auch um Fragen zur Nutzung der Software schnell und effizient zu beantworten.
KI-Serie und Anwendungsbeispiele Im ersten Teil unserer Serie über Künstliche Intelligenz im Handwerk – "Eine Assistenz namens KaI" – haben wir Ihnen KaI vorgestellt. Im zweiten Teil "Was KaI kann" haben Sie erfahren, wie KI Ihnen konkret im Arbeitsalltag helfen kann. Im dritten Teil "Der kleine KI-Baukasten" wurde erklärt, nach welchem Muster KI arbeitet. In der vierten Folge "Ein scharfes Auge für Material und Gesichter" haben wir gelernt, was KaI in puncto Bildverarbeitung zu bieten hat. In der sechsten Folge der KI-Serie werden wir sehen, wie kreativ unser digitaler Assistent ist. Darüber hinaus gibt es auf handwerksblatt.de weitere Beiträge über KI, beispielsweise die Online-Artikel "Eine mächtig schlaue Art zu kommunizieren" über die Voicemail-App mit KI-Chatbot des Start-ups "meiti", "KI – so profitieren Handwerker im Betriebsalltag" oder "ChatGPT: Mit KI Zeit und Geld sparen" aus dem Themen-Special "Digitales Handwerk".
Maschinen mit Sprachbefehlen bedienen
Die Umsetzung von Sprachbefehlen erleben wir täglich im Auto. Die Aussage "Fahre zu Familie Müller" sorgt dafür, dass die Adresse von Familie Müller in das Navigationssystem übertragen wird. Dass das Auto dahin allein steuert, liegt noch in der Zukunft. Nicht aber die Bedienung von Geräten oder Maschinen über Sprachbefehle. So können wir die Heizung steuern, in dem wir sagen: "Mir ist kalt". Aber auch wenn wir KaI bitten, ein Bild auf Basis einer Textbeschreibung zu generieren.
Bei allen Tools, insbesondere wenn diese auf Baustellen aktiv sind, muss KaI unterschiedlichen Geräusche und Stimmen trennen können, damit der Fokus auf die richtige Eingabe gelegt wird. Bisher haben wir uns nur mit Stimmen beschäftigt, KaI kann aber auch Geräusche erkennen, klassifizieren und bewerten. Im Rahmen der Überwachung könnte KaI die Umgebungsgeräusche auf ungewöhnliche oder verdächtige Muster wie Glasbruch prüfen und ersetzt so das Wachpersonal. Oder identifiziert akustische Anomalien, sodass Verschleiß oder Fehlfunktionen an einer Maschine frühzeitig erkannt werden. Über die Geräuscherkennung können Maschinen überwacht und die Sicherheit erhöht werden. Durch die Stimmanalyse kann aus der Tonalität der Gefühlszustand einer Person erkannt werden und auch dies kann der Sicherheit dienen.
Die KI-gestützte Audioverarbeitung ist ein Bereich der künstlichen Intelligenz, die sich mit der Analyse und Interpretation von Stimmen und Geräuschen beschäftigt. KaI kann
- Sprache verstehen und diese übersetzen
- gesprochenes in Text transkribieren
- Sprachbefehle erkennen und ausführen
- unterschiedliche Klänge und/oder Stimmen voneinander trennen und vergleichen
- eine audiobasierte Stimmungs- oder Geräuschanalyse durchführen.
Denken Sie daran: KaI ist nur eine Assistenz, nutzen Sie diese als Copilot und nicht als Autopilot!
Die Autorin ist Mitarbeiterin des vom Bundeswirtschaftsministerium geförderten Mittelstand-Digital Zentrums Handwerk. Es unterstützt Handwerksbetriebe und Handwerksorganisationen seit 2016 dabei, die Chancen digitaler Technologien, Prozesse und Geschäftsmodelle zu nutzen – kostenfrei, anbieterneutral und deutschlandweit. Seit 2024 liegt ein besonderer Fokus auf künstlicher Intelligenz.
handwerkdigital.de
DHB jetzt auch digital!Einfach hier klicken und für das digitale Deutsche Handwerksblatt (DHB) registrieren!
Text:
Dr.-Ing. Martina Schneller /
handwerksblatt.de
Kommentar schreiben