| Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu trên mực in |
|
|
|
Để cảm nhận được vấn đề, chúng ta có thể xem qua biểu đồ dưới đây:
Biểu đồ trên mô tả mối liên hệ giữa hai biến số (thể hiện qua trục hoành và trục tung). Nhìn qua thì cũng không có vấn đề gì nghiêm trọng, nhưng nếu nhìn kĩ chúng ta dễ dàng thấy biểu đồ quá nghèo nàn. Tất cả biểu đồ thật ra chỉ có 2 số liệu. Nhưng những “thông số” của biểu đồ thì rất nhiều. Màu nền là màu xám, tốn rất nhiều mực. Biểu đồ có 8 lằn ngang, 13 chữ số cho trục tung và trục hoành. Nếu tính diện tích mực in của biểu đồ thì chắc cũng phải 60 cm^2! Ấy thế mà chỉ có 2 số liệu trên ngần ấy diện tích. Biểu đồ này có vấn đề. Một nguyên tắc quan trọng trong thiết kế biểu đồ là sử dụng mực in để trình bày dữ liệu chứ không phải để trang trí cho biểu đồ. Do đó, Tufte đề nghị dùng tỉ số mực in dành cho dữ liệu trên tổng số lượng mực in để đánh giá một biểu đồ. Nói cách khác, gọi DIR (data-ink ratio) là tỉ số dữ liệu và mực in, DIR được định nghĩa như sau: DIR = (số mực dùng cho dữ liệu) / (tổng số mực dùng trong biểu đồ) Tỉ số này cũng có thể hiểu như là tỉ số của tín hiệu trên nhiễu (signal over noise ratio). Tỉ số này cũng nên gần bằng 1. Theo đó, nên xoá bỏ những mực in không dùng cho dữ liệu hay thừa thải. Để minh hoạ cho khái niệm DIR, chúng ta có thể xem qua biểu đồ dưới đây:
Hình 7: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên Trong biểu đồ trên, chúng ta dễ dàng thấy có quá nhiều mực dành cho trang trí. Thứ nhất là màu nền (màu xám nhạt) là không cần thiết. Tại sao cần màu nền? Thứ hai là legend, “Time (min)”, cũng không cần thiết. Thứ ba là những đường ngang cũng không cần thiết. Ngay cả cách viết “Group A”, “Group B”, v.v. lặp lại chữ “Group” đến 4 lần! Biểu đồ trên có thể thiết kế lại như sau, bằng cách bỏ màu nền:
Hình 8: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên (vẽ lại) Thật ra, cách chọn biểu đồ thanh cũng có thể phải thảo luận thêm, bởi vì biểu đồ này không phản ảnh đầy đủ dữ liệu. Biểu đồ thanh trên đây chỉ phản ảnh có thể là số trung vị hay trung bình, và 4 chữ số này có thể mô tả bằng chữ chứ không cần đến biểu đồ. Tuy nhiên, nếu chọn biểu đồ, chúng ta cần phải chọn biểu đồ khác để thể hiện dữ liệu. Tôi nghĩ biểu đồ hộp sẽ thích hợp hơn. Với biểu đồ hộp, chúng ta có thể trình bày số trung bình, trung vị, cự li, độ lệch chuẩn, v.v. Do đó, ngay cả cách thiết kế trên cũng chưa tối ưu. Dưới đây là một ví dụ về biểu đồ có quá nhiều mực cho trang trí:
Hình 9: Mối tương quan giữa hai biến số
Hình 10: Mối tương quan giữa hai biến số (biên tập lần 1) Thật ra, nếu mục tiêu là chỉ ra mối tương quan thì những đường ngang đó cũng không cần thiết, và biểu đồ có thể đơn giản hơn nữa:
Hình 11: Mối tương quan giữa hai biến số (biên tập lần 2) Ngay cả những đường enclosed cũng không cần. Do đó, biểu đồ có thể cải tiến thành:
Hình 12: Mối tương quan giữa hai biến số (biên tập lần 3) Nói tóm lại, khi thiết kế biểu đồ, ngoài việc tối thiểu hoá chỉ số dối, tác giả cần phải tối đa hoá chỉ số dữ liệu trên lượng mực in. Để tối đa hoá chỉ số này, tác giả phải đặt câu hỏi “nếu tôi xoá bỏ những vết mực này, lượng thông tin có giảm không?” Nếu câu trả lời là không, thì tác giả có thể thẳng tay xoá bỏ những chỗ không cần thiết. Nên nhớ rằng dữ liệu là tín hiệu, và lượng mực không dùng cho dữ liệu là nhiễu; do đó, thiết kế biểu đồ chúng ta cần tối đa hoá lượng tín hiệu và tối thiểu hoá độ nhiễu. (Còn tiếp …) |
Google
Facebook
Twitter
del.icio.us
Blogger
Rain Concert 








