Machine Learning (ML), ofwel machinaal leren, is een tak van kunstmatige intelligentie (AI). ML is een onderzoeksgebied waarmee computers zichzelf kunnen verbeteren op basis van trainingsdata of ervaring (wat ze hebben geleerd). Machine Learning kan automatisch voorspellingen doen of beslissingen nemen zonder expliciet geprogrammeerd te zijn.
Machine Learning-problemen worden vaak in twee categorieën verdeeld: voorspelling (prediction) en classificatie (classification). Voorbeelden van voorspellingsproblemen zijn het voorspellen van huisprijzen, autoprijzen, enz.; classificatieproblemen omvatten handschriftherkenning, objectherkenning, enz.
Voorbeeld van een Machine Learning toepassing
De workflow van Machine Learning
De workflow van Machine Learning omvat de volgende stappen:
- Dataverzameling: Om een computer te laten leren, is een dataset nodig. Je kunt zelf data verzamelen of gebruikmaken van openbaar beschikbare datasets. De data moet accuraat en betrouwbaar zijn om effectief leren mogelijk te maken.
- Voorbewerking: In deze stap worden de data gestandaardiseerd, onnodige attributen verwijderd, data gelabeld, bepaalde kenmerken gecodeerd, kenmerken geëxtraheerd en data gereduceerd zonder de resultaten te beïnvloeden. Deze stap kost vaak de meeste tijd, evenredig met de hoeveelheid data.
- Modeltraining: Dit is de stap waarin het model wordt getraind, waarbij het leert van de data die in de eerste twee stappen is verzameld en verwerkt.
- Modelevaluatie: Na de training moet het model worden geëvalueerd met behulp van verschillende metrics. Een model met een nauwkeurigheid van meer dan 80% wordt als goed beschouwd.
- Verbetering: Als het model de gewenste nauwkeurigheid niet haalt, moet het opnieuw worden getraind, waarbij stap 3 wordt herhaald totdat de gewenste nauwkeurigheid is bereikt.
Classificatie van Machine Learning
Machine Learning wordt vaak in twee hoofdtypen ingedeeld:
- Supervised Learning (gesuperviseerd leren): De computer leert van gelabelde data. Voor elke input Xi is er een corresponderend label Yi.
- Unsupervised Learning (ongesuperviseerd leren): De computer leert van ongelabelde data. Machine Learning-algoritmen ontdekken correlaties in de data, modelleren de data, helpen de computer de data te begrijpen en classificeren de data in vergelijkbare groepen of clusters (clustering) of verminderen de dimensionaliteit van de data (dimensiereductie).
Enkele basisbegrippen in Machine Learning
- Dataset: Een verzameling ruwe, onbewerkte data. Een dataset bestaat uit meerdere datapunten.
- Datapunt: Een gegevenspunt dat een observatie vertegenwoordigt. Elk datapunt heeft meerdere kenmerken of attributen, die in twee typen worden verdeeld: numerieke data en niet-numerieke/categorische data.
- Trainingsdata en testdata: Een dataset wordt meestal in deze twee sets verdeeld. Trainingsdata wordt gebruikt om het model te trainen, testdata wordt gebruikt om resultaten te voorspellen en het model te evalueren.
- Kenmerkenvector: Een vector die een datapunt in de dataset vertegenwoordigt. Elke vector heeft n dimensies die de kenmerken van het datapunt vertegenwoordigen, waarbij elk kenmerk een dimensie is en numerieke data moet zijn.
- Model: Een model wordt gebruikt om te trainen op trainingsdata volgens het algoritme van dat model. Vervolgens kan het model voorspellingen doen of beslissingen nemen op basis van wat het heeft geleerd.
Toepassingen van Machine Learning
Machine Learning wordt breed toegepast in verschillende sectoren: finance, biologie, landbouw, informatie opzoeken en extraheren, automatisering, robotica, chemie, computernetwerken, ruimtewetenschap, reclame, natuurlijke taalverwerking, computervisie, enz.
Een voorbeeld is weersvoorspelling, waarbij Machine Learning wordt toegepast om computers te laten leren van waarnemingen uit het verleden, waardoor het weer in de toekomst nauwkeuriger kan worden voorspeld dan door mensen. De effectiviteit van Machine Learning maakt het belangrijk om erover te leren in het tijdperk van Industrie 4.0.