Sự khác nhau giữa học có giám sát và không giám sát

Quy Nguyen Apr 1 2021-04-01T14:32:00+08:00

Apr 3 2021-04-03T16:56:27+08:00 5 min

Có rất nhiều loại thuật toán về Machine Learning, thông thường chúng được phân ra làm các loại với tiêu chí như sau:

  • Quá trình huấn luyện có cần sự giám sát của con người hay không?: Supervised (có giám sát), unsupervised (không giám sát), semisupervised (nửa giám sát), và Reinforcement Learning (học tăng cường)
  • So sánh các điểm dữ liệu mới với các điểm dữ liệu cũ để đưa ra kết luận hoặc xây dựng các mẫu quy tắc cho dữ liệu huấn luyện rồi xây dựng các model để dự đoán giống như các scientist vẫn hay làm (instance-based và model-based learning)

Supervised/Unsupervised Learning

Thuật toán này thường được dùng trong các bài toán phân cụm/gán nhãn cho dữ liệu.

Supervised Learning

Dữ liệu đầu vào để đưa vào huấn luyện thuật toán gồm dữ liệu và nhãn (label) của dữ liệu

Ví dụ về Supervised learning

Một loại thuật toán của supervised learning là việc gán nhãn dữ liệu. Bộ lọc email là 1 ví dụ cho thuật toán này. Model được huấn luyện với rất nhiều mẫu email và mỗi email được gán nhãn (spam hoặc không spam). Và thuật toán cần phải học được cách phân loại khi cần xác định 1 email mới có phải là spam hay không. Một loại nữa đó là dự đoán giá trị số đầu ra (output), ví dụ như giá xe ô tô với đầu vào (input) là các thuộc tính của chiếc xe đó(tuổi đời, số km đã chạy, thương hiệu…). Loại thuật toán này được gọi là Hồi quy (regression). Để huấn luyện chúng ta phải đưa đầu vào là rất nhiều thông tin về những chiếc xe với các thông số kèm theo giá của chúng) Một số thuật toán hồi quy cũng có thể được sử dụng để phân loại và ngược lại. Ví dụ: Hồi quy logistic thường được sử dụng để phân loại, vì nó có thể xuất ra một giá trị tương ứng với xác suất thuộc về một lớp nhất định (ví dụ: 20% khả năng là spam).

Sau đây là 1 số thuật toán học giám sát mà mình sẽ đề cập dần trong blog:

  • k-Nearest Neighbors
  • Linear Regression
  • Logistic Regression
  • Support Vector Machines (SVMs)
  • Decision Trees and Random Forests
  • Neural networks

Unsupervised learning

Trong thuật toán học không giám sát, dữ liệu huấn luyện không được gán nhãn. Hệ thống sẽ học mà không cần ai dạy.
Sau đây là một vài thuật toán học không giám sát quan trọng nhất mà mình sẽ đề cập trong các phần tới:

Phân cụm

  • k-Means
  • Hierarchical Cluster Analysis (HCA)
  • Expectation Maximization

Biểu diễn và giảm số chiều

  • Principal Component Analysis (PCA)
  • Kernel PCA— Locally-Linear Embedding (LLE)
  • t-distributed Stochastic Neighbor Embedding (t-SNE)

Học từ luật kết hợp

Ví dụ: giả sử bạn có rất nhiều dữ liệu về khách truy cập blog của bạn. Bạn có thể muốn chạy một thuật toán phân cụm để cố gắng phát hiện các nhóm khách truy cập. Bạn không bao giờ biết khách truy cập thuộc về nhóm nào nhưng thuật toán học không giám sát sẽ tự động phân nhóm các khách truy cập. Có thể nhận thấy rằng 40% khách truy cập của bạn là nam và thích công nghệ, thường đọc blog của bạn vào buổi tối, trong khi 20% là những người yêu thích , thường đọc vào cuối tuần, v.v. Nếu bạn sử dụng thuật toán phân cụm theo phân cấp, nó cũng có thể chia mỗi nhóm thành các nhóm nhỏ hơn. Điều này có thể giúp bạn nhắm mục tiêu bài viết của bạn.

Semi-Supervised Learning (Học bán giám sát)

Các bài toán khi chúng ta có một lượng lớn dữ liệu nhưng chỉ một phần trong chúng được gán nhãn được gọi là Semi-Supervised Learning. Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên. Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet. Thực tế cho thấy rất nhiều các bài toán Machine Learning thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao. Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn). Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet.

Khác với học có giám sát, trong học tăng cường không có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh. Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện có). Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán multi-armed bandit.

Tóm lại

Có nhiều thuật toán học khác nhau và được phân loại dựa theo các tiêu chí khác nhau, các bạn có thể tự đưa ra một tiêu chí và phân loại theo cách của mình cũng không vấn đề gì :)) Mình chỉ tổng hợp lại 1 số cách phân loại mà mọi người hay dùng. Hi vọng qua bài viết này mọi người sẽ hiểu thêm về các loại thuật toán trong ML.

Học tập có giám sát như tên gọi cho biết sự hiện diện của người giám sát như một giáo viên. Về cơ bản, học có giám sát là cách học mà chúng ta dạy hoặc đào tạo máy bằng cách sử dụng dữ liệu được gắn nhãn tốt, nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời đúng. Sau đó, máy được cung cấp một bộ ví dụ (dữ liệu) mới để thuật toán học có giám sát phân tích dữ liệu đào tạo (bộ ví dụ đào tạo) và tạo ra kết quả chính xác từ dữ liệu được gắn nhãn.

Ví dụ, giả sử bạn được tặng một giỏ chứa đầy các loại trái cây khác nhau. Bây giờ, bước đầu tiên là đào tạo chiếc máy với tất cả các loại trái cây khác nhau như sau:

Nếu hình dạng của đối tượng được làm tròn và phần lõm ở trên cùng có màu Đỏ thì nó sẽ được gắn nhãn là –Apple.

Nếu hình dạng của vật thể là hình trụ uốn cong dài có màu Xanh lục-Vàng thì vật thể đó sẽ được gắn nhãn là –Banana.

Bây giờ, giả sử sau khi huấn luyện dữ liệu, bạn đã đưa ra một loại trái cây riêng biệt mới nói là Chuối từ giỏ và yêu cầu xác định nó.

Vì máy đã học được những thứ từ dữ liệu trước và lần này phải sử dụng nó một cách khôn ngoan. Đầu tiên nó sẽ phân loại trái cây với hình dạng và màu sắc của nó và xác nhận tên trái cây là CHUỐI và xếp nó vào loại Chuối. Do đó ML những thứ từ dữ liệu đào tạo (giỏ chứa trái cây) và sau đó áp dụng kiến ​​thức để kiểm tra dữ liệu (trái cây mới).

Học tập có giám sát được phân loại thành hai loại thuật toán:

  • Phân loại: Vấn đề phân loại là khi biến đầu ra là một danh mục, chẳng hạn như “Đỏ” hoặc “xanh” hoặc “bệnh” và “không bệnh”.
  • Hồi quy: Một vấn đề hồi quy là khi biến đầu ra là một giá trị thực, chẳng hạn như “đô la” hoặc “trọng lượng”.

Việc học có giám sát giải quyết hoặc học với dữ liệu “được gắn nhãn”. Điều này ngụ ý rằng một số dữ liệu đã được gắn thẻ với câu trả lời đúng.

Các loại: –

  • hồi quy
  • Hồi quy logistic
  • Phân loại
  • Naïve Bayes phân loại
  • Cây quyết định
  • Hỗ trợ bộ máy vector

Ưu điểm:

  • Học tập có giám sát cho phép thu thập dữ liệu và tạo ra dữ liệu đầu ra từ những kinh nghiệm trước đó.
  • Giúp tối ưu hóa các tiêu chí hiệu suất với sự trợ giúp của kinh nghiệm.
  • ML có giám sát giúp giải quyết nhiều loại vấn đề tính toán trong thế giới thực.

Nhược điểm:

  • Phân loại dữ liệu lớn có thể là một thách thức.
  • Đào tạo cho việc học có giám sát cần rất nhiều thời gian tính toán, vì vậy, nó đòi hỏi rất nhiều thời gian.

1. Học tập không giám sát

Học không giám sát là việc đào tạo máy sử dụng thông tin không được phân loại cũng như không được gắn nhãn và cho phép thuật toán hoạt động trên thông tin đó mà không cần hướng dẫn. Ở đây, nhiệm vụ của máy là nhóm các thông tin chưa được sắp xếp theo những điểm tương đồng, kiểu mẫu và sự khác biệt mà không cần đào tạo trước dữ liệu.

Không giống như học tập có giám sát, không có giáo viên nào được cung cấp có nghĩa là máy sẽ không được đào tạo. Do đó, máy bị hạn chế tự tìm kiếm cấu trúc ẩn trong dữ liệu không được gắn nhãn.

Ví dụ, giả sử nó được đưa ra một hình ảnh có cả chó và mèo chưa từng thấy.

Do đó, máy không có ý tưởng về các đặc điểm của chó và mèo nên chúng ta không thể phân loại chúng ở chó và mèo. Nhưng nó có thể phân loại chúng theo những điểm tương đồng, kiểu mẫu và khác biệt, tức là chúng ta có thể dễ dàng phân loại bức tranh trên thành hai phần. Phần đầu tiên có thể chứa tất cả các bức ảnh có chó trong đó và phần thứ hai có thể chứa tất cả các bức ảnh có mèo trong đó. Ở đây bạn chưa học bất cứ điều gì trước đây, có nghĩa là không có dữ liệu hoặc ví dụ đào tạo.

Nó cho phép mô hình tự hoạt động để phát hiện ra các mẫu và thông tin mà trước đó không bị phát hiện. Nó chủ yếu xử lý dữ liệu không có nhãn.

Học không giám sát được phân loại thành hai loại thuật toán:

  • Phân cụm: Vấn đề phân cụm là nơi bạn muốn khám phá các nhóm vốn có trong dữ liệu, chẳng hạn như nhóm khách hàng theo hành vi mua hàng.
  • Liên kết: Một vấn đề học tập quy tắc liên kết là nơi bạn muốn khám phá các quy tắc mô tả phần lớn dữ liệu của bạn, chẳng hạn như những người mua X cũng có xu hướng mua Y.

2. Các kiểu học không giám sát: –

  • Phân cụm
  • Độc quyền (phân vùng)
  • Tổng hợp
  • Qua nối chồng
  • Xác suất

Các loại phân cụm: 

  • Phân cụm theo thứ bậc
  • K-có nghĩa là phân cụm
  • K-NN (k hàng xóm gần nhất)
  • Phân tích thành phần chính
  • Phân rã giá trị đơn lẻ
  • Phân tích thành phần độc lập

3. Học máy không giám sát và không giám sát

Tham số Học máy được giám sát Học máy không giám sát
Các thuật toán dữ liệu đầu vàođược đào tạo bằng cách sử dụng dữ liệu có nhãn.Các thuật toán được sử dụng để chống lại dữ liệu không được gắn nhãn
Phương phápđơn giảntính toán phức tạp
Độ chính xácchính xác CaoKém chính xác

Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.

Nguồn và Tài liệu tiếng anh tham khảo:

  • w3school
  • python.org
  • geeksforgeeks

Tài liệu từ cafedev:

Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:

  • Group Facebook
  • Fanpage
  • Youtube
  • Instagram
  • Twitter
  • Linkedin
  • Pinterest
  • Trang chủ

Chào thân ái và quyết thắng!

Video liên quan

Chủ đề