Machine Learning là một chủ đề được nhiều người nhắc đến trong nhiều năm trở lại đây bên cạnh khái niệm trí tuệ nhân tạo AI. Machine Learning hiện được sử dụng trong đa dạng các lĩnh vực của đời sống hiện nay. Tìm hiểu thêm về khái niệm Machinen Learning!

Tổng quan về Machine Learning

Hiện nay, trên Internet có rất nhiều định nghĩa liên quan đến Machine Learning, tuy nhiên về cơ bản thì nó được hiểu như sau: 

Machine Learning (ML) hay học máy là một phần của trí tuệ nhân tạo AI, đây là lĩnh vực nghiên cứu cho phép máy tính có thể cải thiện bản thân của chúng dựa trên các dữ liệu mẫu là training data hay dựa vào kinh nghiệm là những gì đã được học trước đó. Machine Learning cũng có thể tự dự đoán cũng như đưa ra quyết định mà không cần lập trình hướng đi cụ thể, chi tiết.

Machine Learning là gì?
Machine Learning là gì?

Trong học máy, 2 bài toàn phổ biến đó là dự đoán (Prediction) và bài toán phân loại (Classification). Machine Learning đang có những bước phát triển vững chắc để trở thành lĩnh vực tiềm năng có thể khai thác mạnh mẽ trong tương lai.

Các bước cơ bản trong Machine Learning

Các bước cơ bản trong Machine Learning là gì? Đó là các phần cơ bản trong một Machine Learning Workflow gồm 5 bước cơ bản:

Machine Learning Workflow
Machine Learning Workflow

Thu thập dữ liệu 

Để máy tính có thể học và đưa ra các dự đoán, phân tích, lập trình viên cần cung cấp một bộ dữ liệu gọi là Dataset cho máy. Thông thường, bạn có thể thu thập các dữ liệu này hoặc sử dụng các Dataset có sẵn trên các nền tảng hỗ trợ học lập trình học máy.

Cần lưu ý lựa chọn những bộ dữ liệu từ những nguồn chính thống, như vậy máy tính mới có thể học được một cách chính xác và đưa ra những kết quả đúng đắn, có tỷ lệ hiệu quả cao hơn.

Tiền xử lý

Bước tiền xử lý trong Machine Learning dùng để chuẩn hóa các dữ liệu vừa thu thập được, giúp loại bỏ các thuộc tính không cần thiết, những dữ liệu bị hỏng, thiếu. Đồng thời bước này sẽ tiến hành gán nhãn, mã hóa các đặc trưng, trích xuất những đặc trưng và rút gọn bộ dữ liệu mà vẫn đảm bảo kết quả đầu ra.

Bước Preprocessing chiếm thời gian nhất trong toàn bộ workflow, tỷ lệ thuận với độ lớn, khối lượng dữ liệu mà bạn cung cấp. Từ đó, tổng thời gian thực hiện hai bước 1 và 2 chiếm tổng thời gian khoảng 70% toàn quá trình.

Huấn luyện mô hình

Bước huấn luyện mô hình này sử dụng để cho máy học trên dữ liệu mà bạn cung cấp và tiến hành xử lý ở hai bước đầu tiên.

Đánh giá mô hình 

Sau khi đã tiến hành huấn luyện mô hình, bước tiếp theo trong Machine Learning đó là đánh giá mô hình vừa tạo ra. Tùy thuộc vào từng các loại độ đo khác nhau mà mô hình vừa huấn luyện được đánh giá là tốt hay không tốt khác nhau. Về cơ bản, độ chính xác của mô hình vừa huấn luyện đạt trên 80% được cho là đảm bảo hiệu quả.

Cải thiện 

Trong bước cải thiện này, những mô hình sau khi đã được đánh giá nếu không đạt chuẩn thì sẽ được tiến hành lại bước thứ 3 cho đến khi độ chính xác đạt đúng kỳ vọng cần thiết. Ba bước cuối của Machine Learning Workflow là khoảng 30% tổng quá trình.

Các loại Machine Learning

Vậy các loại Machine Learning là gì? Cụ thể, hiện nay có rất nhiều cách để tiến hành học máy, tuy nhiên thông thường sẽ được chia làm hai loại sau:

  • Supervised learning – Học có giám sát 
  • Unsupervised learning – Học không có giám sát 

Bên cạnh đó, còn có một vài loại học máy khác như:

  • Semi-supervised learning – Học bán giám sát 
  • Deep learning – Học sâu 
  • Reinforce learning – Học tăng cường

Học có giám sát trong Machine Learning là gì?

Học có giám sát hay Supervised learning là việc để cho máy tiến hành học trên dữ liệu đã được gán nhãn (label) trước đó, nói đơn giản đó là mỗi đầu vào A1 sẽ có đầu ra tương ứng là B1.

Học có giám sát
Học có giám sát

Học không giám sát trong Machine Learning là gì?

Học không có giám sát hay Unsupervised learning là việc cho máy tiến hành học trên những dữ liệu cung cấp chưa được gán nhãn (label). Những thuật toán sử dụng trong Machine Learning sẽ tìm ra điểm tương quan dữ liệu, thực hiện mô hình hóa dữ liệu, nói cách khác là làm cho máy có kiến thức về dữ liệu. Từ đó, máy sẽ phân loại được dữ liệu thành các nhóm tương đồng nhau, trong đó chúng đã được học hay giảm số chiều của dữ liệu.

Học không giám sát 
Học không giám sát

Các khái niệm mà bạn cần biết trong Machine Learning

Cùng tìm hiểu những khái niệm cơ bản trong Machine Learning là gì?

  • Dataset (bộ dữ liệu): Đây là tập dữ liệu ở dạng nguyên thủy, chưa được xử lý mà lập trình viên thu thập được ở bước đầu tiên (Data collection).
  • Data point (điểm dữ liệu): Đây là một phần của Dataset, dùng biểu thị cho một quan sát. Từng data point có nhiều thuộc tính hoặc đặc trưng khác nhau, được chia làm dữ liệu số và dữ liệu không phải số. Data point được biểu diễn thành từng dòng, mỗi dòng có thể có 1 hay nhiều đặc trưng dữ liệu.
  • Training data (dữ liệu học) và Test data (dữ liệu kiểm tra): Training data sử dụng để cho máy huấn luyện mô hình, test data dùng để dự đoán các kết quả đồng thời cũng đánh giá mô hình. Tỷ lệ giữa hai loại dữ liệu này thường là 8/2 (train/ test).
  • Model (mô hình): Là những mô hình dùng để train trên một training data dựa theo thuật toán mà mô hình đó đang sử dụng. Từ đó, mô hình sẽ đưa ra kết quả, quyết định dựa trên những kiến thức đã được học. 

Ứng dụng thực tế của Machine Learning 

Machine Learning được ứng dụng khá phổ biến trong các lĩnh vực khác nhau như:

Xử lý ảnh

Bài toán xử lý ảnh hay image processing sử dụng để giải quyết những vấn đề liên quan đến hình ảnh hay thực hiện các phép biến đổi trên dữ liệu dạng ảnh, ví dụ như:

  • Image Tagging (gắn thẻ ảnh): Tương tự như Facebook, thuật toán có thể tự động phát hiện khuôn mặt người dùng, từ đó gắn thẻ những người dùng mà bạn kết bạn có trong hình ảnh. Thực chất, thuật toán này được triển khai từ những bức ảnh bạn tự gắn thẻ bản thân trước đó.
  • Optical Character Recognition (Nhận dạng ký tự): Thuật toán sử dụng chuyển đổi dữ liệu dạng văn bản trên giấy tờ thành dữ liệu số.
Machine Learning được ứng dụng trong xử lý ảnh
Machine Learning được ứng dụng trong xử lý ảnh

Phân tích văn bản

Phân tích văn bản hay Text analysis sử dụng trong việc trích xuất, phân loại những thông tin từ văn bản (có thể là bài đăng Facebook, thư điện tử, tài liệu,…) với các ứng dụng:

  • Lọc tin nhắn rác (Spam filtering): Đây là ứng dụng phổ biến nhất của Machine Learning trong phân tích văn bản. Bộ lọc sẽ tiến hành phân loại xem thư điện tử, tin nhắn có ohair là spam không dự trên nội dung mà tin nhắn gửi đến.
  • Khai thác thông tin(Information Extraction): Từ một văn bản, máy có thể phân tích để trích xuất ra những thông tin quan trọng, cần thiết như tên người, các keyword,…

Khai phá dữ liệu

Khai phá dữ liệu hay Data mining là quá trình tìm ra những thông tin, dữ liệu có giá trị, có ích hoặc tiến hành đưa ra những dự đoán thông qua dữ liệu được cung cấp. Từ một bảng dữ liệu lớn gồm nhiều bản ghi với mỗi bản ghi là một đối tượng mà máy cần thực hiện học, tương ứng mỗi đặc trưng là một cột. Máy có thể dự đoán giá trị của bản ghi mới dựa vào nội dung bản ghi trước đó đã được học. Một vài ứng dụng phổ biến của Machine Learning trong khai phá như:

  • Anomaly detection (Phát hiện những bất thường): Sử dụng để tìm ra những ngoại lệ (có thể là phát hiện gian lận khi sử dụng thẻ tín dụng).
  • Grouping (Phân cụm)
  • Prediction (Dự đoán): Dự đoán giá nhà, giá xe,… thông qua việc điền những dữ liệu cần vào các bản ghi để từ đó máy tiến hành dự đoán sau khi đã học những dữ liệu cơ bản trước đó.
Data mining sử dụng thuật toán Machine Learning
Data mining sử dụng thuật toán Machine Learning

Có thể thấy, Machine Learning có rất nhiều các ứng dụng nổi bật trong đa dạng các lĩnh vực của đời sống. Mong rằng những chia sẻ này đã giúp bạn hiểu Machine Learning là gì cũng như những cách thức mà nó hoạt động và những triển khai thực tế của nó trong trí tuệ nhân tạo nói chung.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

0981578920
icons8-exercise-96