Was ist Computer Vision? Wie KI „sieht", prüft und Defekte erkennt
Autor: Michael Jan Rogocki (AI Engineer & Data Scientist) · Zuletzt aktualisiert:
Ein Kratzer auf einer Oberfläche, ein Riss in einer Schweißnaht, ein fehlendes Teil — Defekte, die die Qualitätskontrolle auffangen sollte. Und sie fängt sie auch auf — aber nach einigen Stunden und Hunderten geprüfter Einheiten setzen Ermüdung und Routine ein, und die Konzentration sinkt mit ihnen. Und dann geht eine fehlerhafte Einheit durch — und dahinter eine Reklamation, eine Rücksendung und Kosten, die sich hätten vermeiden lassen.
Computer Vision — eine Technologie aus dem Bereich der KI — erlaubt es, diese Prüfung auf eine Maschine zu verlagern, die nicht müde wird und die tausendste Einheit so sorgfältig prüft wie die erste. Aber Qualitätskontrolle ist nur eine der Anwendungen. Computer Vision unterstützt die medizinische Diagnostik, erkennt Fahrzeugschäden, überwacht die Sicherheit auf Baustellen, lässt autonome Autos die Straße „sehen" — kurz gesagt, es bewährt sich überall dort, wo etwas anhand eines Bildes beurteilt werden muss.
Im Folgenden erklären wir, was Computer Vision ist, wie es sich von OCR unterscheidet, wo Unternehmen es einsetzen — und wo man beginnt, wenn man eine Einführung erwägt.
1. Was ist Computer Vision und wie funktioniert es?
⚡ In einem Satz
Computer Vision ist ein Teilgebiet der KI, in dem Algorithmen Bilder oder Videos analysieren — sie erkennen Objekte, entdecken Defekte und klassifizieren sie.
💡 Einfach erklärt
Ein Qualitätsprüfer betrachtet ein Produkt und vergleicht es mit einem Modell, das er im Kopf hat: Er weiß, wie eine gute Einheit aussehen sollte, und sucht nach Abweichungen. Computer Vision funktioniert nach einem ähnlichen Prinzip — nur ist das Modell nicht Erfahrung, sondern Tausende beschrifteter Bilder. Eine Kamera erfasst das Bild des Produkts, und der Algorithmus vergleicht es mit diesen Bildern und klassifiziert es: ein korrektes oder ein fehlerhaftes Produkt.
Der Effekt: jede Einheit in Sekundenbruchteilen geprüft — die erste genauso wie die tausendste.
Aber Achtung — Computer Vision „denkt" nicht wie ein Mensch. Es „versteht" nicht, was ein Kratzer ist. Es hat „gelernt", dass ein bestimmtes Pixelmuster in einem Bild einen Defekt bedeutet, weil ihm das jemand zuvor anhand Hunderter Beispiele gezeigt hat. Erscheint ein Defekt, der nicht in den Trainingsdaten war — kann es sein, dass das System ihn nicht auffängt. Deshalb hängt die Wirksamkeit von Computer Vision von der Qualität und Vielfalt dieser Daten ab (mehr in Abschnitt 4).
🔧 Zum Vertiefen
Computer Vision als Forschungsfeld existiert seit den 1960er Jahren — die ersten Experimente betrafen Versuche, einfache geometrische Formen zu erkennen. Über Jahrzehnte war der Fortschritt langsam, weil von Hand entworfene Algorithmen (sogenanntes Feature Engineering — z. B. Sobel-Kantenfilter, SIFT- und HOG-Deskriptoren) mit der natürlichen Variabilität von Bildern nicht zurechtkamen: unterschiedliche Beleuchtung, Winkel, Hintergrund — und der Algorithmus hörte auf zu funktionieren.
Der Durchbruch kam 2012, als das neuronale Netz AlexNet die ImageNet Large Scale Visual Recognition Challenge mit einem Ergebnis gewann, das deutlich besser war als klassische Methoden. Von diesem Moment an dominierte Deep Learning (vgl. Was ist Künstliche Intelligenz?) Computer Vision.
Die Schlüsselarchitektur ist das CNN — Convolutional Neural Network (faltendes neuronales Netz). Es arbeitet nach dem Prinzip von Filterschichten, die über das Bild gleiten und Merkmale extrahieren — von den einfachsten (Kanten, Farbverläufe) in den ersten Schichten bis zu komplexen (Formen, Texturen, Objekte) in den tieferen. Das Netz erfordert keine von Hand definierten Merkmale — es wird auf Daten trainiert und extrahiert sie selbst.
Die wichtigsten Aufgabentypen in Computer Vision:
- Bildklassifizierung — „was ist in diesem Bild?" (z. B. ein OK-Produkt vs. ein fehlerhaftes Produkt)
- Objekterkennung — „wo im Bild sind die Objekte und was sind sie?" (z. B. alle Kratzer auf einer Oberfläche finden und mit einem Rahmen markieren)
- Segmentierung — „welches Pixel gehört zu welchem Objekt?" (z. B. die Kontur eines Defekts präzise umreißen oder seine Fläche messen)
In industriellen Anwendungen (visuelle Inspektion) werden am häufigsten Objekterkennung und Klassifizierung eingesetzt: Eine Kamera erfasst das Bild, ein CNN-Modell klassifiziert es als „OK" oder „Defekt" und — im Fall eines Defekts — markiert seine Lage im Bild.
2. Wie unterscheidet sich Computer Vision von OCR?
⚡ In einem Satz
OCR erkennt Text in einem Bild und wandelt ihn in bearbeitbare Zeichen um. Computer Vision erkennt Objekte, Defekte, Szenen — alles, was kein Text ist.
💡 Einfach erklärt
OCR und Computer Vision sind zwei verschiedene Antworten auf dieselbe Frage: „was ist in diesem Bild?".
OCR antwortet: „in diesem Bild steht Text — hier ist, was geschrieben steht". Es extrahiert Buchstaben, Ziffern, Wörter. Im Ergebnis wird der Scan einer Rechnung zu einer Datei, in der man Text suchen und kopieren kann (vgl. Was sind OCR, NLP und wie liest KI Dokumente?).
Computer Vision antwortet anders: „in diesem Bild ist ein Produkt — und es hat einen Kratzer an der linken Kante". Oder: „auf diesem Foto eines Parkplatzes sind 47 Autos". Oder: „dieses Teil ist um 3 Grad schief montiert".
Eine einfache Regel: Wenn Sie Text aus einem Dokument extrahieren wollen — brauchen Sie OCR. Wenn Sie wollen, dass das System ein Bild analysiert und auf dieser Basis etwas klassifiziert — brauchen Sie Computer Vision.
In der Praxis können sich die beiden Technologien ergänzen — z. B. prüft Computer Vision an einer Verpackungslinie, ob das Etikett an der richtigen Stelle ist, und OCR liest, was darauf steht (Haltbarkeitsdatum, Chargennummer). Es sind zwei Werkzeuge, keine Konkurrenten.
🔧 Zum Vertiefen
Technisch kann OCR als eine enge Anwendung von Computer Vision betrachtet werden — schließlich ist das Erkennen von Buchstaben in einem Bild auch „Computer Vision". Aber in der Branchenpraxis leben diese Begriffe getrennt, weil sie verschiedene Probleme lösen und verschiedene Trainingsdaten erfordern.
OCR operiert auf alphanumerischen Zeichen — das Modell wird auf Millionen von Beispielen von Buchstaben und Ziffern in verschiedenen Schriftarten, Größen und Qualitäten trainiert. Die Ausgabe ist strukturierter Text.
Computer Vision in industriellen Anwendungen operiert auf visuellen Merkmalen, die für ein bestimmtes Produkt oder einen Prozess spezifisch sind. Das Modell wird auf Bildern konkreter Produkte trainiert — z. B. Keramikfliesen, Metallteile, Verpackungen — mit markierten Defekten. Die Ausgabe ist eine Klassifizierung (OK/Defekt), eine Lage (ein Rahmen um den Defekt) oder eine Messung (Abweichung von der Norm in Millimetern).
Moderne multimodale Modelle (z. B. der Klasse Vision-Language Models) verwischen diese Grenze — sie können gleichzeitig Text „lesen" und visuellen Kontext „verstehen". Aber in Anwendungen, die Wiederholbarkeit und Zertifizierbarkeit erfordern (wie die Qualitätsinspektion), dominieren spezialisierte CV-Modelle, trainiert auf Daten aus einem konkreten Prozess.
3. Wo setzen Unternehmen Computer Vision ein?
⚡ In einem Satz
Unternehmen setzen Computer Vision in der Qualitätskontrolle, der Logistik, der Sicherheit und im Bauwesen ein — überall dort, wo eine Entscheidung davon abhängt, was auf einem Bild zu sehen ist.
💡 Einfach erklärt
Computer Vision im Geschäft ist keine abstrakte Technologie aus dem Labor. Es ist ein Werkzeug, das Unternehmen einführen, weil es reale, messbare Probleme löst.
Qualitätskontrolle in der Produktion — das ist die ausgereifteste Anwendung. BMW nutzt das System AIQX (Artificial Intelligence Quality Next) in seinen Werken in Deutschland. Entlang des Fließbands platzierte Kameras erfassen jedes Fahrzeug und prüfen, ob die Teile korrekt montiert sind — von der Wischerabdeckung bis zum Warndreieck im Kofferraum. Frühere Kamerasysteme signalisierten fälschlich ein Problem, wenn z. B. Staub oder eine Ölspur auf einem Teil war. Das auf Deep Learning basierende System unterscheidet einen echten Defekt von Verschmutzung. Der Effekt: schnellere Inspektion und weniger unnötige Bandstopps.
Volvo Cars nutzt seit 2020 das System Atlas (entwickelt von UVeye) in seinem Werk in Torslanda, Schweden. Kameras führen am Ende des Fließbands einen 360-Grad-Scan jedes montierten Fahrzeugs durch und erkennen kosmetische Defekte — Kratzer, Dellen — bis hinunter zu 0,5 Millimetern Größe. Das Ergebnis erscheint sofort auf dem Bildschirm des Bedieners, mit Angabe der genauen Lage.
Logistik und Lagerhaltung — Computer Vision identifiziert Pakete, prüft Lagerbestände anhand von Regalfotos und verifiziert die Vollständigkeit von Sendungen. Wo man gleichzeitig die Position eines Etiketts prüfen und seinen Inhalt lesen muss, arbeitet CV mit OCR zusammen (vgl. Was sind OCR, NLP und wie liest KI Dokumente?).
Sicherheit und Arbeitsschutz — CV-Systeme überwachen, ob Mitarbeiter die erforderliche Schutzausrüstung tragen (Helm, Weste, Schutzbrille). BMW nutzt ein solches System in seinem Werk in Dingolfing.
Bau- und Infrastrukturinspektion — mit Kameras und CV ausgestattete Drohnen analysieren den Fortschritt von Bauarbeiten, indem sie Fotos mit dem Plan vergleichen. Komatsu, der japanische Hersteller von Baumaschinen, führte in Zusammenarbeit mit NVIDIA ein CV-System ein, um die Bewegung von Arbeitern und Maschinen auf einer Baustelle zu überwachen. Drohnen mit CV ersetzen zunehmend auch die manuelle Inspektion schwer zugänglicher Strukturen — Windturbinen, Stromleitungen, Brücken, Gebäudefassaden — und verkürzen die Inspektionszeit von Tagen auf Stunden.
🔧 Zum Vertiefen
Das BMW-AIQX-System basiert auf neuronalen Netzen, die für jedes geprüfte Merkmal Zugang zu etwa 100 Referenzbildern haben — Bilder eines korrekten Teils, Bilder mit Staub, mit Öl, mit einem tatsächlichen Defekt. Das erlaubt dem Netz, sogenannte Pseudo-Defekte (Verschmutzung, die wie ein Defekt aussieht) von echten Problemen zu unterscheiden. Es ist eine Lösung, die frühere Kamerasysteme — auf starren Regeln beruhend, nicht auf Lernen — weitaus schlechter bewältigten. BMW nutzt diese Systeme seit 2018 und rollt sie auf weitere Werke aus.
Es lohnt sich, den Unterschied zwischen CV unter kontrollierten Bedingungen (eine Fabrik: konstante Beleuchtung, konstanter Kamerawinkel, ein wiederholbares Produkt) und CV in einer offenen Umgebung (eine Baustelle, eine Straße, ein Feld) zu beachten. Unter kontrollierten Bedingungen erreichen CV-Modelle sehr hohe Genauigkeit — vorausgesetzt, die Trainingsdaten decken die tatsächliche Variabilität der Produktion ab (verschiedene Chargen, verschiedene Materialien, verschiedene Defektquellen). In einer offenen Umgebung ist die Variabilität weitaus größer und die Modelle erfordern häufigeres Nachtraining.
Eine CV-Einführung liefert jedoch mehr als nur die Automatisierung der Inspektion. Jedes vom System verarbeitete Bild ist Information: der Defekttyp, seine Häufigkeit, seine Lage am Produkt, die Schicht (welche Schicht hat mehr Defekte?), die Linie (welche Linie erzeugt mehr Abweichungen?). Diese Daten speisen Dashboards und Analytik und erlauben es, den gesamten Prozess zu verbessern — nicht nur auf einzelne Defekte zu reagieren (vgl. Was ist Prozessoptimierung? — der Abschnitt zu KPIs).
4. Wie Computer Vision funktioniert — Daten, Training, Genauigkeit
⚡ In einem Satz
Computer Vision funktioniert nach dem Prinzip, ein neues Bild mit Mustern zu vergleichen, die aus Tausenden beschrifteter Trainingsbilder extrahiert wurden.
💡 Einfach erklärt
Damit ein CV-System einen Kratzer als Defekt klassifiziert, muss es zuvor an passenden Beispielen trainiert werden. Es genügt nicht, eine Regel „suche nach Kratzern" zu definieren. Man muss beschriftete Bilder von Produkten bereitstellen — manche mit Defekten, manche ohne — und jedes markieren: „hier ist ein Kratzer", „hier ist alles in Ordnung". Im Fall von BMW AIQX genügten etwa 100 Bilder pro geprüftem Merkmal. Die genaue Zahl hängt von der Komplexität des Problems ab und davon, ob das Modell von Grund auf trainiert oder auf einem bestehenden feinabgestimmt wird (Transfer Learning — mehr im Abschnitt 🔧).
Dieser Prozess wird Labeling genannt. Eine Person prüft die Bilder und markiert die interessierenden Merkmale darauf — umrandet Defekte mit einem Rahmen, markiert Regionen, ordnet Kategorien zu. Es ist mühsame Arbeit, aber von ihr hängt die Qualität des gesamten Systems ab.
Wenn das Modell genug beschriftete Beispiele hat, wird es trainiert — der Algorithmus extrahiert die Muster, die ein gutes Produkt von einem fehlerhaften unterscheiden. Nach dem Training erhält es ein neues Bild (eines, das nicht im Trainingssatz war) und klassifiziert es auf dieser Basis: OK oder Defekt.
Was die Qualität des Modells beeinflusst:
- Repräsentativität der Daten — je seltener der Defekt, desto schwieriger ist es, genug Beispiele zu sammeln. Tritt ein Defekt einmal pro tausend Einheiten auf, kann das Sammeln des Trainingsmaterials Wochen dauern.
- Bildqualität — Auflösung, Beleuchtung, Kamerawinkel. Ein auf Bildern mit idealer Beleuchtung trainiertes System kann ungenaue Ergebnisse liefern, wenn sich die Bedingungen an der Linie ändern.
- Vielfalt — die Bilder müssen die natürliche Variabilität abdecken: verschiedene Produktchargen, verschiedene Farben, verschiedene Defekttypen. Ein nur auf Kratzern trainiertes Modell erkennt keinen Riss.
- Qualität der Beschriftung — verwechselt die Person, die die Bilder beschriftet, einen Defekt mit einer akzeptablen Produktionsmarke, wird das Modell diesen Fehler in seinen Ergebnissen reproduzieren.
Die Schlussfolgerung ist einfach: Man muss wissen, wonach man sucht, und die richtigen Bilder für das Training haben. Ohne ein klar definiertes visuelles Problem und ohne Trainingsdaten — hilft keine Kamera und kein Algorithmus.
🔧 Zum Vertiefen
In der Praxis werden Modelle selten von Grund auf trainiert. Standard ist Transfer Learning — die Nutzung eines Modells, das zuvor auf einem großen Datensatz trainiert wurde (z. B. ImageNet — Millionen von Bildern, Tausende von Kategorien), und dann auf einem kleineren, für die gegebene Anwendung spezifischen Datensatz feinabgestimmt wird.
Dank Transfer Learning hat das Modell bereits grundlegende visuelle Merkmale trainiert (Kanten, Texturen, Formen) und braucht weitaus weniger Daten, um auf das Erkennen eines bestimmten Defekttyps feinabgestimmt zu werden. Das bedeutet, dass eine CV-Pilot-Einführung mit lediglich einigen Dutzend beschrifteter Bilder pro Merkmal beginnen kann, statt mit Tausenden.
Beliebte Architekturen in der industriellen Inspektion sind Modellfamilien: ResNet, EfficientNet (Klassifizierung), YOLO, Faster R-CNN (Objekterkennung), U-Net, Mask R-CNN (Segmentierung). Die Wahl der Architektur hängt von der Aufgabe ab: ob eine „OK/Defekt"-Antwort genügt (Klassifizierung), ob der Defekt im Bild lokalisiert werden muss (Erkennung) oder ob ein präziser Umriss nötig ist (Segmentierung).
Eine wesentliche Einschränkung: Klassenungleichgewicht (class imbalance). Sind im Trainingssatz 99 % der Bilder korrekte Produkte und nur 1 % fehlerhaft, klassifiziert ein auf die Gesamtgenauigkeit optimiertes Modell alles als „OK" — erreicht 99 % richtige Antworten, übersieht aber alle Defekte. Standardtechniken zum Umgang mit diesem Problem sind Data Augmentation (das künstliche Vergrößern des Satzes fehlerhafter Bilder durch Rotationen, Spiegelungen, Helligkeitsänderungen), Oversampling der Minderheitsklasse und die Wahl einer geeigneten Verlustfunktion, die das Modell für das Übersehen eines Defekts stärker bestraft als für einen Fehlalarm.
5. Wo beginnt man mit einer Computer-Vision-Einführung im Unternehmen?
⚡ In einem Satz
Beginnen Sie mit einem einzigen, klar definierten visuellen Problem — einem Defekttyp, einem Produkt, einer Linie — und sammeln Sie Bilder, bevor Sie nach Technologie zu suchen beginnen.
💡 Einfach erklärt
Unternehmen, die Computer Vision erwägen, beginnen meist mit der Frage: „wie viel kostet das?". Aber die richtige erste Frage lautet: "was genau wollen Sie erkennen?" Denn Computer Vision ist kein fertiges Produkt, das man kauft und einsteckt — es ist eine für ein klar definiertes Problem gebaute Lösung (vgl. Was ist Automatisierung?).
Wie man die Einführung Schritt für Schritt angeht:
- Definieren Sie das visuelle Problem. Präzision ist entscheidend: „Erkennung von Kratzern auf der Oberfläche von Teil X nach dem Schleifen" oder „Verifizierung der Vollständigkeit eines Pakets vor dem Versand" — nicht allgemein „Qualitätskontrolle". Je enger, desto besser.
- Sammeln Sie Bilder. Bevor Sie einen Cent für einen Algorithmus ausgeben, prüfen Sie, welche Daten Sie bereits haben. Bilder positiver und negativer Beispiele, von angemessener Qualität und verschiedene Varianten abdeckend — das ist das Fundament, von dem die Wirksamkeit des Modells abhängt.
- Ein Pilot, keine Einführung. Ein Proof of Concept: Liefert ein auf den gesammelten Bildern trainiertes Modell hinreichend genaue Ergebnisse? Ein Pilot erlaubt es, die Machbarkeit zu beurteilen, bevor Sie in Infrastruktur und Integration mit dem Prozess investieren.
- Beurteilen Sie die Ergebnisse ehrlich. 95 % Genauigkeit klingt gut — aber fragen Sie nicht nach dem Prozentsatz, sondern nach den Konsequenzen: wie viele Fälle das System übersehen und wie viele korrekte es fälschlich markieren wird.
- Skalieren Sie. Wenn der Pilot die Machbarkeit bestätigt — führen Sie in der Zielumgebung ein: die richtige Hardware, Integration mit dem bestehenden Prozess, Monitoring des Modellbetriebs über die Zeit. Das Modell erfordert periodische Aktualisierungen, weil sich die Bedingungen ändern.
Erwägen Sie eine Computer-Vision-Einführung? Wir helfen Unternehmen in Polen, Deutschland und in der gesamten EU einzuschätzen, ob ihr visuelles Problem für die Automatisierung geeignet ist — von der Analyse der verfügbaren Daten über die Wahl der Modellarchitektur bis zur Integration mit dem bestehenden Prozess.
— Die Perspektive von cm-opti
🔧 Zum Vertiefen
Eine CV-Einführung in einem Unternehmen ist eine Investition in die Dateninfrastruktur, nicht nur in Technologie. Die Kosten hängen von drei Faktoren ab:
- Trainingsdaten — das Sammeln und Beschriften von Bildern ist oft der größte Kostenpunkt, besonders wenn es Branchenexpertise erfordert (z. B. weiß nur ein erfahrener Spezialist, was in einem Bild ein Defekt und was eine akzeptable Norm ist).
- Infrastruktur — Kameras, Beleuchtung (im Fall stationärer Systeme), Drohnen (im Fall der Infrastrukturinspektion), ein Inferenzserver oder eine Edge-Computing-Lösung.
- Integration mit dem Prozess — das CV-System muss einen konfigurierten Auslöser haben (wann ein Foto gemacht wird) und einen Kanal zur Übermittlung des Ergebnisses (z. B. eine Warnung für den Bediener, ein Signal zur automatischen Aussortierung oder ein Bericht in einem Management-Dashboard).
Der Return on Investment (ROI) hängt von den Kosten ab, die das Unternehmen heute wegen des Problems trägt, das CV lösen soll — Reklamationen, Rücksendungen, Stillstände, manuelle Inspektion. Sind diese Kosten quantifizierbar, lässt sich der ROI bereits vor dem Piloten abschätzen.
Einige technische Aspekte sind ebenfalls bedenkenswert:
Edge vs. Cloud. Die Inferenz (die Verarbeitung des Bildes durch das Modell) kann auf einem Server in der Cloud oder direkt auf einem Gerät vor Ort (Edge Computing) erfolgen. Edge gibt geringere Latenz (Millisekunden statt Sekunden) und funktioniert ohne Internetverbindung — was in einer industriellen Umgebung oder auf einer Baustelle manchmal erforderlich ist. Die Cloud gibt größere Flexibilität beim Skalieren und Aktualisieren von Modellen.
MLOps und Monitoring. Ein CV-Modell ist kein „einführen und vergessen". Die Bedingungen ändern sich — neue Produkte, neue Lieferanten, andere Beleuchtung, Saisonalität. Die Genauigkeit des Modells kann mit der Zeit sinken (sogenannter Data Drift). Es wird ein Prozess zum Monitoring der Ergebnisse und zum Nachtrainieren des Modells auf neuen Daten benötigt. Das ist Teil von MLOps — der Operationalisierung von Machine-Learning-Modellen (vgl. Glossar).
Vorschriften und Dokumentation. In regulierten Branchen (Automobil, Medizin, Luftfahrt) kann ein CV-System eine Zertifizierung und vollständige Dokumentation erfordern: welche Trainingsdaten, welche Modellarchitektur, welche Genauigkeit auf dem Testsatz, welches Verfahren im Fall einer Nichtkonformität. Der EU AI Act klassifiziert einige CV-Anwendungen (z. B. in der Medizin) als Hochrisikosysteme — was zusätzliche Anforderungen an Transparenz und Dokumentation bedeutet. Bei einer großen Menge regulatorischer Dokumentation können RAG-Systeme hilfreich sein, da sie es erlauben, die relevante Bestimmung schnell zu finden.
Integration mit dem Prozess (cf. Was ist Systemintegration?). Ein CV-System ist keine eigenständige Insel — es muss mit dem Rest der Infrastruktur kommunizieren: dem Produktionssteuerungssystem (PLC), dem Lagersystem (WMS) oder dem Qualitätsmanagementsystem. Die Konnektoren sind APIs und Kommunikationsprotokolle — in einer industriellen Umgebung am häufigsten OPC UA oder MQTT, im Rest die REST API.
Häufig gestellte Fragen (FAQ)
Was ist Computer Vision einfach erklärt?
Computer Vision ist eine Technologie, die es einem Computer erlaubt, Bilder zu analysieren — Objekte zu erkennen, Defekte zu identifizieren, Elemente auf einem Foto zu zählen. Es funktioniert nach dem Prinzip des Trainings an Beispielen: Das System erhält Hunderte von Bildern mit markierten Elementen und klassifiziert auf dieser Basis neue Bilder.
Wird Computer Vision den Qualitätsprüfer ersetzen?
Das hängt vom Prozess ab. Für wiederkehrende, klar definierte Prüfungen — ja, Computer Vision kann diese Arbeit vollständig übernehmen. Für Beurteilungen, die Erfahrung und Urteilsvermögen erfordern — z. B. Grenzfälle, neue Defekttypen, Freigabeentscheidungen — wird ein Mensch gebraucht. In der Praxis reduzieren viele Unternehmen die Zahl der Prüfer an der Linie und überlassen es Experten, den Prozess zu beaufsichtigen und zu verbessern.
Wie viele Bilder werden für eine Computer-Vision-Einführung benötigt?
Das hängt von der Komplexität des Problems ab. Dank Transfer Learning (Nutzung eines auf großen Datensätzen vortrainierten Modells) kann ein Pilot mit lediglich einigen Dutzend beschrifteter Bilder pro Merkmal beginnen. Eine vollständige Einführung erfordert mehr Daten, die verschiedene Defekttypen und wechselnde Bedingungen abdecken.
Was sind die geschäftlichen Anwendungen von Computer Vision?
Qualitätskontrolle an der Produktionslinie (Defekterkennung), Logistik (Paketidentifizierung, Bestandsprüfungen), Sicherheit und Arbeitsschutz (Überwachung der Schutzausrüstung), Bau- und Infrastrukturinspektion (Drohnenanalyse). Die Einführung beginnt mit einem einzigen, klar definierten visuellen Problem.
Kann sich ein kleines Unternehmen Computer Vision leisten?
Eine Computer-Vision-Pilot-Einführung erfordert kein Konzernbudget. Die Kosten hängen von der Komplexität des Problems, der Qualität vorhandener Bilder und der erforderlichen Integration mit dem Prozess ab. Der erste Schritt ist einzuschätzen, ob das Problem für Computer Vision geeignet ist — das lässt sich ohne Investition in Infrastruktur tun.
Erwägen Sie eine Computer-Vision-Einführung in Ihrem Unternehmen? Let's talk — wir helfen Ihnen einzuschätzen, ob Ihr visuelles Problem für die Automatisierung geeignet ist und wo es sich zu beginnen lohnt.
Verwandte Artikel in der cm-opti Wissensdatenbank
- Was ist Künstliche Intelligenz?
- Was ist Prozessoptimierung?
- Was ist Automatisierung?
- Was sind OCR, NLP und wie liest KI Dokumente?
- Was ist RAG und ein KI-Agent?
- Was ist Systemintegration?
- Was ist Datenanalyse und BI?
Concepts explained in this article → Glossar
Computer Vision, CNN (Convolutional Neural Network), Transfer Learning, Labeling, Bildklassifizierung, Objekterkennung, Segmentierung, Edge Computing, Data Drift, Klassenungleichgewicht, Data Augmentation, Feature Engineering
Quellen und Referenzen
- AIQX-System (BMW) — offizielle Pressemitteilung der BMW Group, 2019.
- Atlas-System / UVeye (Volvo Cars) — Assembly Magazine, 2021.
- AlexNet — Krizhevsky, Sutskever, Hinton, NeurIPS 2012.