Nội dung bài giảng Bài 6: Bảng mã Unicode và bộ gõ tiếng Việt sau đây sẽ giúp các bạn tìm hiểu về giới thiệu về Bảng mã Unicode, bộ gõ Unikey, bộ gõ Vietkey. Mời các bạn cùng tham khảo! Show ADSENSE YOMEDIA
Tóm tắt lý thuyết1. Giới thiệu về Bảng mã Unicode
Tuy nhiên, hầu hết các máy tính hiện nay vẫn còn sử dụng bộ mã ASCII. Chúng chỉ có khả năng nhận ra các mã nhỏ hơn 256 và phần lớn các phần mềm hiện nay chỉ hỗ trợ các dữ liệu 8 bit, nên người ta đã phải dề ra nhiều cơ chế dùng Unicode. Tuỳ thuộc vào khả năng lưu trữ, sự tương thích với các chương trình nguồn, sự tương tác với các hệ thống khác, và sự hỗ trợ của hệ thống máy tính mà mỗi người có thể chọn một cơ chế sử dụng bộ mã Unicode phù hợp. Cơ chế ở đây là định dạng chuyển đổi Unicode (UTF-Unicode Transformation Format), và các cơ chế chuyển đổi phổ biến là: UTF-8, UTF-18, UTF-32.
Để soạn thảo các kí tự trong máy tính, bên cạnh việc chọn bộ mã, người sử dựng cũng cần phải lựa chọn loại font chữ thích hợp để hiển thị kí tự theo dịnh dạng mong muốn. Font chữ là một tập hợp hoàn chỉnh các chữ cái, các dấu câu, các con số, các kí tự đặc biệt,... theo một kiểu định dạng, hình dạng, kích cỡ phù hợp và có thể phân biệt nhau. Font Unicode: cung cấp các cấu hình cùa các kí tự trong bảng mã Unicode, số lượng font Unicode khá nhiều; một số font Unicode được cài đặt sẵn vào các hệ điều hành. Người sử dụng cũng có thể’tải về các font Unicode (đa số là miễn phí) trên các website và cài đặt thêm vào máy tính. Đe soạn thảo văn bản tiếng Việt, có thể sừ dụng rất nhiều bàng mã khác nhau, trong đó có ba bảng mã phổ biến nhất là: Unicode, TCVN3 và VNI. TCVN3 là bảng mã theo tiêu chuẩn cũ của Việt Nam, các font chữ trong bảng mã này có tên bắt đầu bàng chữ .Vn. Ví dụ .VnTime. VNI là bảng mã do công ty VNI (Việt Nam International) sở hữu bản quyền, các , font chữ trong bảng mã VNI có tên bắt đầu bằng VNI, ví dụ, VNI-Times. Các font chừ TCVN3 và VNI có bộ kí tự hạn chế, chỉ phù hợp cho sử dụng để soạn thảo văn bản tiếng Việt. Hạn chế của việc soạn thảo bằng font TCVN3 hoặc VNI là khi gửi văn bản sang một máy tính không cài các font này thì không thể đọc được văn bản dó. Các văn bản hiện nay thường được soạn thào băng cách sử dụng font Unicode đê khăc phục hạn chế này, do đó nhiều font chữ Unicode đã được cài đặt sẵn trong các hệ điều hành ở các máy tính. Để soạn thảo văn bản tiếng Việt, cần phải sử dụng bộ gõ tiếng Việt. Bộ gõ tiếng Việt là một loại phần mềm hỗ trợ soạn thảo văn bản tiếng Việt trên máy tính, thường cần có các font chữ cho phép soạn thảo tiếng Việt cài đặt sẵn trong máy tính. Một số bộ gõ tiếng Việt phổ biến như Vietkey, Unikey, WINVNKEY, MVIET, VietUNI,.... Có nhiều cách gõ dấu thanh trên máy tính khác nhau, có 3 kiểu phổ biến nhất là VIQR, VNI và TELEX. Bảng 1.2. Phân biệt các kiểu gõ dấu tiếng Việt trong các bộ gõ tiếng Việt KiểuDấu sắcDấu huyềnDấu hỏiDấu ngãDấu nặngDấu mũChữ ưChữ ơDấu ăChứ đVIQR'`?~.^++(đVNI123456778d9TELEXsfrxjaa, ee, oouw, w, [ow, ]awdd
Trong các kiểu gõ trên thì TELEX là kiểu gõ phổ biến với người Việt Nam, thậm chí người ta mặc định kiểu gõ tiếng Việt trên máy tính là TELEX. Trong các bộ gõ tiếng Việt, ta cũng thường bắt gặp hai khái niệm Unicode tô hợp và Unicode dựng sẵn. Đây là hai dạng khác nhau của một chuẩn chung do tổ chức Unicode quv định. Hai dạng này hoàn toàn tương thích với nhau, có thể dùng lẫn lộn. Thông thường, người Việt Nam hay dùng Unicode dựng sẵn hơn là Unicode tổ hợp. Trong Unikey, Unicode dựng sẵn được viết gọn là Unicode, Unicode tổ hợp được viết là Composed Unicode. 2. Bộ gõ UnikeyBộ gõ Unikey do Phạm Kim Long, Đại học Kĩ thuật Praha sáng chế. Unikey là phần mềm miễn phí, mã nguồn mở, có thể download tại địa chỉ http://unikey.com.vn. Unikey có kích thước nhỏ gọn, dề dùng, dỗ cài đặt, không yêu cầu thêm bất cứ thư viện nào khác, và có thể chạy mà không cần cài đặt. Unikey hỗ trợ:
Tất cả các phiên bản của Window 32 bit: WINDOWS 9X/ME, WINDOWS 2000, WINDOWS XP, WINDOWS NT, Windows Server 2003, Windows Server 2008, WindowsVista. Hướng dẫn sử dụng bộ gõ Unikey Phần mềm unikey không cần cài đặt. Thực hiện tải bộ cài unikey từ trang web unikey.com.vn, sau đó sao chép vào một thu mục của máy tính, giải nén tệp tải về, sẽ thấy có tệp UnikeyNT.exe (hoặc unikey.exe với một số phiên bản của Unikey cho Windows). Người sử dụng kích hoạt vào tệp UnikeyNT.exe (Unikey.exe) này để mở phần mềm. Để tiện cho việc sử dụng, có thể tạo một shortcut của file UnikeyNT.exe ra ngoài Desktop. Sau khi khởi động chưong trình Unikey sẽ thấy xuất hiện biểu tượng (icon) chữ V (hay E) màu đỏ ở bên phải của thanh công cụ taskbar. Hình 1.28 Biểu tượng v à menu popup của phần mềm Unikey Tác dụng của biểu tưọng
Unikey trang bị hai ngôn ngữ giao diện là tiếng Anh và tiếng Việt. Hộp thoại của ưnikey có hai chế độ. Chế độ mở rộng cho phép thiết đặt tất cả các thông số hoạt động của unikey, chế độ thu hẹp cho phép cài đặt các thông số hay sử dụng nhất. Hình 1.29. Chế độ mở rộng và thu hẹp của giao diện phần mềm Unikey 3. Bộ gõ VietkeyBộ gõ Vietkey do Đặng Minh Tuấn sáng chế. Các thông tin chính thức về Vietkey được công bố trên trang web chính thức http://www.vietkeysoft.com hoặc http://www.vietkey.net. Vietkey là bộ gõ được ra đời từ rất sớm, phiên bản 1.0 phát hành năm 1993. Đây là một trong những bộ gõ tiếng Việt 32-Bit đầu tiên và được hồ trợ Unicode. Vietkey có nhiều tính năng ưu việt như:
Hướng dẫn sử dụng Vietkey: Bộ cài phần mềm Vietkey được download dễ dàng tại http://www.vietkeysoft.com/. Việc cài đặt phần mềm rất đơn giản, chỉ cần bật file cài đặt và chọn nút cài đặt, chương trình sẽ tự động dược cài đặt chỉ trong vài giây. Hình 1.30. Giao diện cài đặt chương trình Vietkey Sau khi cài đặt, file chạy của phần mềm Vietkey sẽ xuất hiện trên màn hình nền desktop . Chương trình Vietkey sau khi khởi động sẽ có biểu tượng ở góc phải của thanh công cụ với hai trạng thái là cho phép gõ tiếng Việt, là đặt chế độ gõ tiếng Anh.Các chế dộ lựa chọn thao tác cơ bản của Vietkey cũng tương tự Ưnikey như: sử dụng biểu tượng rút gọn, chọn ngôn ngữ hiển thị (tiếng Anh, tiếng Việt), chọn kiểu gõ (TELEX, VNI, VIQR,...), chọn bảng mã Unicode,... Bộ mã Unicode có thể mã hoá được bao nhiêu ký tự?Bộ mã Unicode (16 bit) có thể mã hóa 65536 ký tự khác nhau, cho phép thể hiện trong máy tính văn bản của tất cả các ngôn ngữ trên thế giới.
UTFBiểu diễn ký tự ASCII (1 byte)
Đầu tiên, UTF-8 kiểm tra xem ký tự cần biểu diễn có thuộc bảng mã ASCII không (các ký tự tiêu chuẩn dựa trên chữ cái Latin). Nếu là ký tự ASCII, UTF-8 sẽ được biểu diễn bằng 1 byte duy nhất, có giá trị từ 0 đến 127.
Bảng mã ASCII có khả năng mã hoá tối đa bao nhiêu ký tự?Hiện nay, bảng mã ASCII có tổng cộng 256 ký tự, gồm 128 ký tự của bảng mã ASCII chuẩn và 128 ký tự của bảng mã ASCII mở rộng. Bảng mã ASCII mã hóa được bao nhiêu ký tự? Trước kia, bảng mã ASCII chuẩn chỉ có 128 ký tự (hệ thập phân từ 0 đến 127) được biểu diễn ở dạng nhị phân với 7 ký tự (7 bits).
Font chữ Unicode là gì?Font Unicode là bộ font chuẩn quốc tế, được thiết kế dùng làm bộ mã duy nhất cho tất cả các ngôn ngữ khác nhau trên thế giới, kể cả những ngôn ngữ sử dụng ký tự tượng hình phức tạp như tiếng Trung, tiếng Thái... Vì thế, Unicode đang từng bước thay thế các bộ mã truyền thống.
|