Machine Learning là gì?

Tháng 2 10, 2025

Machine Learning (ML) hay máy học là một nhánh của trí tuệ nhân tạo (AI). ML là lĩnh vực nghiên cứu cho phép máy tính tự cải thiện dựa trên dữ liệu mẫu (training data) hoặc kinh nghiệm (những gì đã được học). Machine Learning có thể tự động dự đoán hoặc đưa ra quyết định mà không cần được lập trình cụ thể.

Bài toán Machine Learning thường được chia làm hai loại: dự đoán (prediction) và phân loại (classification). Ví dụ bài toán dự đoán giá nhà, giá xe…; bài toán phân loại như nhận diện chữ viết tay, nhận diện đồ vật…

Quy trình tạo CV online trên TopDevQuy trình tạo CV online trên TopDev

Quy trình làm việc với Machine Learning (Machine Learning Workflow)

Quy trình làm việc với Machine Learning bao gồm các bước sau:

  1. Thu thập dữ liệu (Data Collection): Để máy tính có thể học, cần có một bộ dữ liệu (dataset). Bạn có thể tự thu thập hoặc sử dụng các bộ dữ liệu đã được công bố. Dữ liệu cần chính xác và từ nguồn đáng tin cậy để đảm bảo hiệu quả học tập của máy.

  2. Tiền xử lý (Preprocessing): Bước này chuẩn hóa dữ liệu, loại bỏ thuộc tính không cần thiết, gán nhãn dữ liệu, mã hóa một số đặc trưng, trích xuất đặc trưng, rút gọn dữ liệu nhưng vẫn đảm bảo kết quả. Bước này thường tốn nhiều thời gian nhất, tỷ lệ thuận với số lượng dữ liệu.

  3. Huấn luyện mô hình (Training Model): Đây là bước huấn luyện cho mô hình, cho nó học trên dữ liệu đã thu thập và xử lý ở hai bước đầu.

  4. Đánh giá mô hình (Evaluating Model): Sau khi huấn luyện, cần dùng các độ đo để đánh giá mô hình. Độ chính xác của mô hình đạt trên 80% được coi là tốt.

  5. Cải thiện (Improve): Nếu mô hình chưa đạt độ chính xác mong muốn, cần huấn luyện lại, lặp lại từ bước 3 cho đến khi đạt độ chính xác như kỳ vọng.

Phân loại Machine Learning

Machine Learning thường được phân thành hai loại chính:

  • Học có giám sát (Supervised Learning): Máy tính học trên dữ liệu đã được gán nhãn (label). Với mỗi đầu vào Xi, sẽ có nhãn Yi tương ứng.

  • Học không giám sát (Unsupervised Learning): Máy tính học trên dữ liệu không được gán nhãn. Các thuật toán Machine Learning sẽ tìm ra sự tương quan dữ liệu, mô hình hóa dữ liệu, giúp máy tính hiểu dữ liệu và phân loại dữ liệu thành các nhóm, lớp (clustering) giống nhau hoặc giảm số chiều dữ liệu (dimension reduction).

Một số khái niệm cơ bản trong Machine Learning

  • Dataset: Tập dữ liệu ở dạng nguyên thủy chưa qua xử lý. Một dataset bao gồm nhiều data point.

  • Data Point: Điểm dữ liệu, biểu diễn cho một quan sát. Mỗi data point có nhiều đặc trưng hay thuộc tính, được chia làm hai loại: dữ liệu số (numerical) và dữ liệu không phải số (non-numerical/categorical).

  • Training data và Test data: Dataset thường được chia làm hai tập này. Training data dùng để huấn luyện mô hình, test data dùng để dự đoán kết quả và đánh giá mô hình.

  • Features vector: Vector đặc trưng, biểu diễn cho một điểm dữ liệu trong dataset. Mỗi vector có n chiều biểu diễn các đặc trưng của điểm dữ liệu, mỗi đặc trưng là một chiều và phải là dữ liệu số.

  • Model: Mô hình được dùng để training trên training data theo thuật toán của mô hình đó. Sau đó mô hình có thể dự đoán hoặc đưa ra các quyết định dựa trên những gì chúng đã được học.

Ứng dụng của Machine Learning

Machine Learning được ứng dụng rộng rãi trong nhiều lĩnh vực: tài chính – ngân hàng, sinh học, nông nghiệp, tìm kiếm – trích xuất thông tin, tự động hóa, Robotics, hóa học, mạng máy tính, khoa học vũ trụ, quảng cáo, xử lý ngôn ngữ tự nhiên, thị giác máy tính…

Ví dụ như dự báo thời tiết, việc áp dụng Machine Learning để máy tính học các quan sát được ghi nhận trong quá khứ giúp dự đoán thời tiết trong tương lai với độ chính xác cao hơn so với con người. Sự hiệu quả của Machine Learning khiến việc tìm hiểu và học về nó trở nên quan trọng trong thời đại công nghệ 4.0.

Leave A Comment

Create your account