Tiên xử lý dữ liệu sử dụng ki thuạt binning

Discretization data cập đến một phương pháp chuyển đổi một số lượng lớn các giá trị dữ liệu thành các giá trị nhỏ hơn để việc đánh giá và quản lý dữ liệu trở nên dễ dàng. Nói cách khác, Discretization data là một phương pháp chuyển đổi các giá trị thuộc tính của dữ liệu liên tục thành một tập hợp các khoảng hữu hạn với mức mất dữ liệu tối thiểu. Có hai hình thức data discretization đầu tiên là supervised discretization và thứ hai là unsupervised discretization.

Các bài viết liên quan:

  • Các bước tiến hành Data Mining( khai phá dữ liệu)
  • Hướng dẫn Data mining- kiến thức về data mining
  • 5 công cụ data mining hàng đầu 2022
  • Kiến trúc của hệ thống data mining
  • Data mining so với machine learning

Sự supervised discretization đề cập đến một phương pháp mà dữ liệu lớp được sử dụng. Unsupervised discretization đề cập đến một phương pháp tùy thuộc vào cách thức hoạt động tiến hành. Nó có nghĩa là nó hoạt động trên chiến lược chia tách từ trên xuống và chiến lược hợp nhất từ ​​dưới lên.

Bây giờ, chúng ta có thể hiểu khái niệm này với sự trợ giúp của một ví dụ

Giả sử chúng ta có một thuộc tính Age với các giá trị đã cho

Tiên xử lý dữ liệu sử dụng ki thuạt binning

Bảng trước khi tiết lộ

Tiên xử lý dữ liệu sử dụng ki thuạt binning

Một ví dụ khác là phân tích, nơi chúng tôi thu thập dữ liệu tĩnh của khách truy cập trang web. Ví dụ: tất cả khách truy cập vào trang web có địa chỉ IP của Ấn Độ đều được hiển thị ở cấp độ quốc gia.

Tóm tắt nội dung

Một số kỹ thuật nổi tiếng về Discretization

  1. Histogram analysis

Biểu đồ đề cập đến một biểu đồ được sử dụng để biểu thị phân phối tần số cơ bản của một tập dữ liệu liên tục. Biểu đồ hỗ trợ việc kiểm tra dữ liệu để phân phối dữ liệu. Ví dụ, các giá trị ngoại lai, biểu diễn độ lệch, biểu diễn phân phối chuẩn, v.v.

  1. Binning

Binning đề cập đến một kỹ thuật làm mịn dữ liệu giúp nhóm một số lượng lớn các giá trị liên tục thành các giá trị nhỏ hơn. Để tùy chỉnh dữ liệu và phát triển hệ thống phân cấp ý tưởng, kỹ thuật này cũng có thể được sử dụng.

  1. Phân tích cluster

Phân tích cụm là một hình thức độc lập hóa dữ liệu. Một thuật toán phân cụm được thực hiện bằng cách chia các giá trị của số x thành các cụm để cô lập một đặc điểm tính toán của x.

  1. Data discretization bằng cách sử dụng phân tích cây quyết định

Sự riêng biệt hóa dữ liệu đề cập đến phân tích cây quyết định, trong đó kỹ thuật cắt từ trên xuống được sử dụng. Nó được thực hiện thông qua một thủ tục có giám sát. Trong tùy chỉnh thuộc tính số, trước tiên, bạn cần chọn thuộc tính có ít entropy nhất, sau đó bạn cần chạy nó với sự trợ giúp của quy trình đệ quy. Quá trình đệ quy chia nó thành các khoảng rời rạc khác nhau, từ trên xuống dưới, sử dụng cùng một tiêu chí tách.

  1. Data discretization bằng cách sử dụng phân tích tương quan

Tiết kiệm dữ liệu bằng kỹ thuật hồi quy tuyến tính, bạn có thể nhận được khoảng lân cận tốt nhất và sau đó các khoảng lớn được kết hợp để phát triển sự chồng chéo lớn hơn để tạo thành 20 khoảng chồng chéo cuối cùng. Đó là một thủ tục được giám sát.

Data discretization và tạo hệ thống phân cấp khái niệm

Thuật ngữ phân cấp đại diện cho một cơ cấu tổ chức hoặc bản đồ trong đó các mục được xếp hạng theo mức độ quan trọng của chúng. Nói cách khác, chúng ta có thể nói rằng khái niệm phân cấp dùng để chỉ một chuỗi các ánh xạ với một tập hợp các khái niệm tổng quát hơn đến các khái niệm phức tạp. Nó có nghĩa là ánh xạ được thực hiện từ các khái niệm cấp thấp đến các khái niệm cấp cao. Ví dụ, trong khoa học máy tính, có nhiều loại hệ thống phân cấp khác nhau. Một tài liệu được đặt trong một thư mục trong cửa sổ tại một vị trí cụ thể trong cấu trúc cây là ví dụ tốt nhất về mô hình cây phân cấp máy tính. Có hai loại phân cấp: ánh xạ từ trên xuống và loại thứ hai là ánh xạ từ dưới lên.

Hãy hiểu sơ đồ phân cấp khái niệm này cho vị trí thứ nguyên với sự trợ giúp của một ví dụ.

Một thành phố cụ thể có thể lập bản đồ với quốc gia thuộc về. Ví dụ: New Delhi có thể được ánh xạ tới Ấn Độ và Ấn Độ có thể được ánh xạ tới châu Á.

  1. Top-down mapping

Top-down mapping thường bắt đầu với phần trên cùng với một số thông tin chung và kết thúc với phần dưới với thông tin chuyên ngành.

  1. Bottom-up mapping

Ánh xạ từ dưới lên thường bắt đầu với phần dưới cùng với một số thông tin chuyên biệt và kết thúc với phần trên cùng với thông tin tổng quát.

Tiên xử lý dữ liệu sử dụng ki thuạt binning

Data discretization và mã hóa nhị phân trong khai thác dữ liệu

Discretization data là phương pháp chuyển đổi các giá trị thuộc tính của dữ liệu liên tục thành một tập hợp các khoảng hữu hạn với mức mất dữ liệu tối thiểu. Ngược lại, mã hóa dữ liệu được sử dụng để biến đổi các thuộc tính liên tục và rời rạc thành các thuộc tính nhị phân.

Tại sao Discretization lại quan trọng?

Như chúng ta đã biết, một bài toán toán học vô hạn bậc tự do đặt ra với dữ liệu liên tục. Đối với nhiều mục đích, các nhà khoa học dữ liệu cần thực hiện sự tùy tiện. Nó cũng được sử dụng để cải thiện tỷ lệ nhiễu tín hiệu.