Khi dùng máy tính, có những file bạn phải xác định được cú pháp mã hóa thì con người và máy móc mới có thể hiểu được. File XML sẽ giúp bạn thực hiện điều trên nhờ vào việc tự điều chỉnh để miêu tả cấu trúc và các tính năng liên quan của tài liệu. Cùng đón đọc bài viết dưới đây để biết được file XML là gì và những ưu nhược điểm của nó nhé! 

File XML là gì?

Từ eXtensible Markup Language được viết tắt là XML, được định nghĩa là ngôn ngữ đánh dấu mở rộng. XML có khả năng truyền dữ liệu cùng với việc mô tả các loại dữ liệu khác nhau. Chức năng chính của XML chính là làm việc chia sẻ dữ liệu trong các nền tảng trở nên đơn giản hóa và các hệ thống liên quan được kết nối nhờ vào mạng Internet.

Khái niệm file XML là gì?

XML dùng để lưu trữ, cấu trúc và trao đổi dữ liệu ở giữa các ứng dụng. Chẳng hạn như khi bạn thiết kế một phần mềm bằng PHP và một phần mềm khác bằng Java thì hai ngôn ngữ này khó có thể hiểu nhau. Vì thế, bạn sẽ dùng XML để trao đổi các dữ liệu. Thế nên XML có vai trò rất lớn trong việc trao đổi cũng như là chia sẻ dữ liệu giữa các hệ thống.

Có thể bạn quan tâm:

Ưu điểm và nhược điểm của file XML

Ưu điểm

Ưu điểm nổi bật nhất và được nhiều người dùng yêu thích nhất của XML chính là sự độc lập. Chúng ta thường dùng XML để mô tả dữ liệu dưới dạng văn bản nên hầu hết các chương trình hay ứng dụng bình thường đều có thể đọc hiểu được.

File XML có khả năng đọc và phân tích dữ liệu nhanh chóng nên nó thường được dùng với vai trò chủ yếu là trao đổi dữ liệu giữa các hệ thống và chương trình khác nhau. Remote Procedure Calls dùng XML để phục vụ những dịch vụ của trang web.

Nhược điểm

Tỷ lệ sai sót khi dùng file XML để truyền các dữ liệu là khoảng 5 – 7%. Con số này không quá cao nhưng người dùng vẫn thường cân nhắc kỹ trước khi dùng nó để trao đổi các thông tin quan trọng.

So sánh XML và HTML 

Vậy XML là gì? HTML là gì? Cả 2 đều là các thẻ (tag).

Bạn có thể dùng XML để tạo các biểu tượng được đánh dấu riêng để miêu tả nội dung, tạo các biểu tượng không có giới hạn và có thể tự định nghĩa được. Nó được thiết kế để chuyển tải – lưu trữ dữ liệu. Còn HTML thì được định nghĩa trước, bắt buộc người dùng phải tuân thủ theo. HTML được thiết kế để hiển thị dữ liệu.

Tuy nhiên thì XML không phải là điều thay thế cho HTML. XML thường được dùng để làm cơ sở cho việc định dạng tài liệu khác. Bạn có thể tham khảo một số định dạng như:

  • RSS
  • Microsft.NET dùng XML cho các file cấu hình của nó.
  • Sitemap.

Cách để mở file

  • Dùng Notepad: Nháy chuột vào file XML mà bạn đang muốn mở, chọn Open With rồi chọn NotePad. Lúc này, XML đã được mở nhưng nó hầu hết đã bị mất hết định dạng gốc, bạn sẽ không xem được định dạng chuẩn của các dữ liệu ở trong XML.
  • Dùng trình duyệt web: Bạn nhấn chuột phải vào XML muốn mở, chọn vào Open with rồi chọn trình duyệt mà bạn muốn mở. Lúc này, bạn sẽ thấy dữ liệu được cấu trúc rất gọn gàng.
  • Dùng trình chỉnh sửa trực tuyến: Bạn có thể dùng CodeBeautify. Trang này gồm 3 phần là: file XML đang làm việc ở bên trái, một số tùy chọn ở giữa và kết quả thực hiện thay đổi ở bên phải. Nút Treeview sẽ hiển thị dữ liệu của bạn ở trong cấu trúc cây và được định dạng độc đáo ở trong ngăn kết quả. Beautify sẽ hiển thị dữ liệu của người dùng với các dòng gọn gàng, thuận tiện trong việc đọc ở trong ngăn kết quả.

Cú pháp sử dụng

Cú pháp của XML có 2 loại thông tin:

  • Thông tin để đánh dấu <contact-info>.
  • Text hoặc dữ liệu là ký tự, ví dụ như TopDev và (084) 557-4489.

Sơ đồ minh họa các quy tắc cú pháp trong tài liệu XML

Bây giờ, chúng ta cùng bắt đầu phân tích chi tiết cho mỗi phần:

Khai báo file XML

Tài liệu XML có thể tùy ý để có được một phần khai báo, được viết cụ thể là: <?xml version=”1.0″ encoding=”UTF-8″?>. Trong cú pháp này, phiên bản XML chính là version và encoding dùng để xác định mã hóa ký tự được dùng ở trong các tài liệu.

Các quy tắc để khai báo

  • Khai bào XML là phân biệt kiểu chữ và bắt đầu bởi “<?xml>”. Tại đây “xml” phải được viết bằng dạng chữ thường thì mới đúng.
  • Nếu như tài liệu chứa các khai bao XML thì các khai báo này phải nằm ở lệnh đầu tiên trong tài liệu XML.
  • Một HTTP Protocol có khả năng ghi đè giá trị của encoding mà bạn đã đặt ở trong khai báo XML.

Thẻ tags và elements 

Mỗi file này được cấu thành từ các phần tử XML (elements), hay còn gọi là XML-note hoặc là XML-tags. Tên của các phần tử XML sẽ được bao trong các dấu < > là <element>.

Quy tắc cú pháp cho các phần tử và các thẻ 

  • Cú pháp phần tử: Từng phần tử XML cần được bao ở trong hoặc là với phần tử kết thúc hoặc phần tử bắt đầu, chằng hạn như: <element>….</element>.
  • Lồng các phần tử: Mỗi phần tử XML có thể chứa đựng nhiều phần tử XML khác. Bạn có thể tưởng tượng các phần tử đó giống như là các con của nó, nhưng các phần tử con này lại không bị đè vào nhau. Chẳng hạn như một thẻ mở của một phần tử thì phải có tên giống như thẻ đóng đã kết nối trước đó với nó.
  • Phần tử gốc: Chỉ có một phần tử gốc ở trong một tài liệu XML, còn được gọi là Root Element.
  • Phân biệt kiểu chữ: Tên của các phần tử file chính là phân biệt kiểu chữ. Điều này có nghĩa là tên của các thẻ đóng và các thẻ mở phải giống nhau. Chẳng hạn như  <contact-info> là khác so với <Contact-Info>.

Thuộc tính của phần tử 

Attributes xác định thuộc tính cho phần tử, dùng một cặp tên hoặc là cặp giá trị. Mỗi một file này có thể có một hoặc là nhiều hơn một thuộc tính. Chẳng hạn như <a href=”https://topdev.vn/”>TopDev</a>. Ở đây thì href là tên của thuộc tính và giá trị của thuộc tính là https://topdev.vn/.

Quy tắc cú pháp cho các thuộc tính ở trong XML 

  • Phân biệt kiểu chữ là tên thuộc tính ở trong XML (khác với HTML). Điều này có nghĩa là href và HREF là hai thuộc tính khác nhau hoàn toàn ở trong XML.
  • Khi cùng một thuộc tính thì không thể có 2 giá trị ở trong cùng một cú pháp. Ví dụ này là sai cú pháp do b được xác định những 2 lần:  <a b=”x” c=”y” b=”z”>….</a>.
  • Tên của thuộc tính sẽ được định nghĩa mà không có sự trích dẫn, trong khi đó thì giá trị của thuộc tính phải luôn nằm ở trong các dấu trích dẫn. Chẳng hạn như sau đây là ví dụ sai cú pháp: <a b=x>….</a>.

Cần nắm vững các quy tắc thuộc tính ở trong XML

Tham chiếu ở trong file XML 

Tham chiếu cho phép người dùng thêm hoặc bao phần text hoặc có thể đánh dấu bổ sung ở trong tài liệu XML. Các tham chiếu luôn luôn được bắt đầu với biểu tượng “&” và kết thúc với ký tự “;”. XML có 2 kiểu tham chiếu, đó là:

  • Tham chiếu thực thể: Một tham chiếu thực thể có chứa tên ở giữa dấu tách đóng và dấu tách mở. Chẳng hạn như &amp; thì có amp là tên. Tên tham chiếu đến một chuỗi các văn bản hoặc là đánh dấu đã được định nghĩa từ trước.
  • Tham chiếu ký tự: Chứa các tham chiếu, chẳng hạn như A có chứa một dấu băm (#) được theo sau với 1 số. Số này luôn tham chiếu đến mã hóa Unicode của ký tự.

Text ở trong XML 

  • Tên của các phần tử trong XML và thuộc tính của XML là phân biệt kiểu chữ. Có nghĩa là tên của phần tử đóng và phần tử mở phải được viết cùng kiểu.
  • Để tránh được các vấn đề về mã hóa ký tự thì tất cả file này nên được lưu trữ ở dạng Unicode UTF-8 hoặc là UTF-16.
  • Các ký tự whitespace như tab, khoảng trắng, ngắt dòng,… ở giữa các phần tử XML và các thuộc tính XML thì sẽ bị bỏ qua.
  • Có một số ký tự được dành riêng ở trong cú pháp file XML. Vì vậy, bạn không thể sử dụng chúng một cách trực tiếp mà phải thay thế bằng các thực thể.

Bài viết này đã cung cấp cho bạn những hiểu biết về file XML là gì, các ưu nhược điểm cũng như cách hoạt động của nó. Hy vọng những thông tin này hữu ích cho công việc và cuộc sống của bạn nhé!

FPT Aptech trực thuộc Tổ chức Giáo dục FPT có hơn 25 năm kinh nghiệm đào tạo lập trình viên quốc tế tại Việt Nam, và luôn là sự lựa chọn ưu tiên của các sinh viên và nhà tuyển dụng.
0981578920
icons8-exercise-96