Thông tin và xử lư thông tin

Gs. Lê Anh Tuấn

 
  1. THÔNG TIN.

    1. Khái niệm về thông tin, phân loại thông tin.

    2. Đơn vị đo thông tin.

    3. Mă hóa thông tin rời rạc.

  2. XỬ LƯ THÔNG TIN.

    1. Sơ đồ tổng quát của một quá tŕnh xử lư thông tin.

    2. Xử lư thông tin bằng máy tính điện tử. 

  3. TIN HỌC.

    1. Các lĩnh vực nghiên cứu của tin học.

    2. Ứng dụng của tin học.

    3. Máy tính điện tử và lịch sử phát triển.

 

I. THÔNG TIN

1. Khái niệm về thông tin, phân loại thông tin

Dữ liệu (data) là các sự kiện không có cấu trúc, không có ư nghĩa rơ ràng, cho đến khi chúng được tổ chức theo một tiến tŕnh tính toán nào đó.

Thông tin (Information) là một khái niệm trừu tượng được thể hiện qua các thông báo, các biểu hiện ... đem lại một nhận thức chủ quan cho một đối tượng nhận tin. Thông tin là dữ liệu đă được xử lư xong, mang ư nghĩa rơ ràng. Thông tin cũng có thể bị diễn đạt sai lệch, xuyên tạc do tác động cố ư hay vô ư của con người hay sinh vật khác.

Một hệ thống thông tin (information system) là một tiến tŕnh ghi nhận dữ liệu, xử lư nó và cung cấp tạo nên dữ liệu mới có ư nghĩa thông tin, liên quan một phần đến một tổ chức, để trợ giúp các hoạt động liên quan đến tổ chức.  

2. Đơn vị đo thông tin

Đơn vị dùng để đo thông tin gọi là bit. Một bit tương ứng với một chỉ thị hoặc một thông báo nào đó về 1 sự kiện có trong 2 trạng thái có số đo khả năng xuất hiện động thời là Tắt(Off) / Mở(On) hay Đúng(True) / Sai(False).

Ví dụ 1. Một mạch đèn có 2 trạng thái là:

- Tắt (Off) khi mạch điện qua công tắc là hở

- Mở (On) khi mạch điện qua công tắc là đóng

Số học nhị phân (sẽ giới thiệu ở chương 3) sử dụng hai số hạng 0 và 1. V́ khả năng sử dụng hai số 0 và 1 là như nhau nên một chỉ thị chỉ gồm 1 chữ số nhị phân có thể xem như là chứa đơn vị thông tin nhỏ nhất.

Bit là chữ viết tắt của BInary digiT. Trong tin học, người ta thường sử dụng các đơn vị đo thông tin lớn hơn sau:

Bảng 1. Bảng đơn vị đo thông tin

Tên gọi

Kư hiệu

Giá trị

Byte

KiloByte

MegaByte

GigaByte

TetraByte

B

KB

MB

GB

TB

8 bit

210 B = 1024 Bytes

220 B

230 B

240 B

  Năm 1948, nhà bác học Shannon đă đưa ra công thức sau để tính lượng thông tin, bằng cách đo khả năng xuất hiện các sự kiện trong một thông báo, kư hiệu là H và gọi là Entropi :  

trong đó :

                n là số sự kiện lớn nhất có khả năng xuất hiện

Ví dụ 2. Gieo ngẫu nhiên 1 đồng xu, có thể xảy ra 1 trong 2 sự kiện trong mỗi lần gieo là khả năng xuất hiện mặt sấp hoặc mặt ngữa. V́ đồng xu xem như đồng chất, nên xác suất xuất hiện của mỗi sự kiện là p = 1/2 . Vậy lượng tin sẽ là :

Ví dụ 3. Tương tự như trên nếu ta gieo 1 con súc sắc, th́ n = 6 và p = 1/6

Lượng tin H sẽ là : 0

Ví dụ 4. Một trạm khí tượng X bằng việc phân tích nhiều số liệu khác nhau đă đưa ra dự đoán khả năng có mưa rơi một vùng nào đó vào ngày mai là 75%.

Suy ra khả năng không có mưa sẽ là 100% - 75% = 25%. Như vậy thông báo trên có lượng tin theo Shannon là :

So sánh 3 ví dụ trên, ta thấy xác suất xuất hiện một tin càng thấp th́ lượng tin càng cao v́ mức độ bất ngờ của nó càng lớn và ngược lại. Tuy nhiên, không phải lúc nào ta cũng xác định được xác suất xuất hiện sự kiện nên việc áp dụng công thức Shannon bị hạn chế.

3. Mă hóa thông tin rời rạc :

Tất cả các thông tin ở dạng văn bản (text), chữ (character), số (number), kư hiệu (symbol), đồ họa (graphic), h́nh ảnh (image) hoặc âm thanh (sound) ... đều được gọi là các tín hiệu (signals). Tín hiệu có thể là liên tục hay rời rạc. Máy tính tương tự (Analog Computer) là máy tính chuyên dụng xử lư môt số các tín hiệu liên tục như tín hiệu điện, âm thanh... Trong khi đó, hầu hết các dữ liệu mà chúng ta có được thường ở dạng các tín hiệu rời rạc để diễn tả các tín hiệu liên tục qua các số đo hữu hạn. Khi đưa các tín hiệu này vào máy tính, chúng được mă hóa theo các tín hiệu số (digital signal) nhằm giúp máy tính có thể hiểu được thông tin đưa vào. Đây là cơ sở thực tiễn của nguyên lư mă hoá thông tin rời rạc. Nguyên lư này tập trung các điểm chủ yếu sau :

            - Tín hiệu liên tục có thể xem như một chuỗi xấp xỉ các tín hiệu rời rạc với chu kỳ lấy mẫu nhỏ ở mức độ chấp nhận được (H́nh 1.).

            - Tín hiệu rời rạc có thể được đặc trưng qua các bộ kư hiệu hữu hạn (chữ cái, chữ số, dấu, ...) gọi là phép mă hóa (encode) (H́nh 2.). Mọi phép mă hóa đều có thể xây dựng trên bộ kư hiệu các chữ số, đặc biệt chỉ cần bộ kư hiệu gồm 2 chữ số là 0 và 1. Ngược với phép mă hoá gọi là phép giải mă (decode).  

Tín hiệu rời rạc là tín hiệu có trục thời gian bị rời rạc hoá với chu kỳ lấy mẫu là Ts = 1/Fs , với Fs là tần số lấy mẫu. Tiếng nói con người thường có tần số Fs = 10 kHz. Một ví dụ về thông tin rời rạc là h́nh trên phim khi được chiếu lên màn ảnh là các ảnh rời rạc xuất hiện với tốc độ 25 ảnh/giây. Mắt người không phân biệt sự rời rạc này nên có cảm tưởng h́nh ảnh là liên tục.

Mă hoá thông tin rời rạc là một khái niệm rất căn bản trong kỹ thuật máy tính.

II. XỬ LƯ THÔNG TIN

1. Sơ đồ tổng quát của một quá tŕnh xử lư thông tin

Mọi quá tŕnh xử lư thông tin bằng máy tính hay bằng con người đều được thực hiện theo một qui tŕnh sau :

Dữ liệu (data) được nhập ở đầu vào (input). Máy tính hay con người sẽ thực hiện quá tŕnh xử lư nào đó để nhận được thông tin ở đầu ra (output). Quá tŕnh nhập dữ liệu, xử lư và xuất thông tin đều có thể được lưu trữ (H́nh 3.).  

H́nh 1.3 Mô h́nh tổng quát quá tŕnh xử lư thông tin

2. Xử lư thông tin bằng máy tính điện tử

Thông tin là kết quả bao gồm nhiều quá tŕnh xử lư các dữ liệu và thông tin có thể trở thành dữ liệu mới để theo một quá tŕnh xử lư khác tạo ra thông tin mới hơn theo ư đồ của con người.

Con người có nhiều cách để có dữ liệu và thông tin. Người ta có thể lưu trữ thông tin qua tranh vẽ, giấy, sách báo, h́nh ảnh trong phim, băng từ, ... Trong thời đại hiện nay, khi lượng thông tin đến với chúng ta càng lúc càng nhiều th́ con người có thể dùng một công cụ hỗ trợ cho việc lưu trữ, chọn lọc và xử lư lại thông tin gọi là máy tính điện tử (computer). Máy tính điện tử giúp con người tiết kiệm rất nhiều thời gian, công sức và tăng độ chính xác cao trong việc tự động hoá một phần hay toàn phần của quá tŕnh xử lư dữ liệu hay thông tin.

III. TIN HỌC

1. Các lĩnh vực nghiên cứu của tin học

Tin học (Informatics) được định nghĩa là ngành khoa học nghiên cứu các phương pháp, công nghệ và kỹ thuật xử lư thông tin tự động. Công cụ chủ yếu của tin học là máy tính điện tử và các thiết bị truyền tin khác. Việc nghiên cứu chính của tin học nhắm vào 2 kỹ thuật phát triển song song :

- Kỹ thuật phần cứng (hardware engineering): nghiên cứu chế tạo các thiết bị, linh kiện điện tử, công nghệ vật liệu mớ1... hỗ trợ cho máy tính và mạng máy tính đẩy mạnh khả năng xử lư toán học và truyền thông thông tin.

- Kỹ thuật phần mềm (software engineering): nghiên cứu phát triển các hệ điều hành, ngôn ngữ lập tŕnh cho các bài toán khoa học kỹ thuật, mô phỏng, điều khiển tự động, tổ chức dữ liệu và quản lư hệ thống thông tin.

2. Ứng dụng của tin học

Tin học hiện đang được ứng dụng rộng răi trong tất cả các ngành nghề khác nhau của xă hội từ khoa học kỹ thuật, y học, kinh tế, công nghệ sản xuất đến khoa học xă hội, nghệ thuật,... như:

- Tự động hóa văn pḥng - Quản trị kinh doanh

- Thống kê - An ninh, quốc pḥng

- Công nghệ thiết kế - Giáo dục

- Y học - Công nghệ in

- Nông nghiệp - Nghệ thuật, giải trí, v.v....

3. Máy tính điện tử và lịch sử phát triển

Do nhu cầu cần tăng độ chính xác và giảm thời gian tính toán, con người đă quan tâm chế tạo các công cụ tính toán từ xưa: bàn tính tay của người Trung quốc, máy cộng cơ học của nhà toán học Pháp Blaise Pascal (1623 - 1662), máy tính cơ học có thể cộng trừ nhân chia của nhà toán học Đức Gottfried Wilhelmvon Leibniz (1646 - 1716), máy sai phân để tính các đa thức toán học, máy phân giải điều khiển bằng phiếu đục lỗ của Charles Babbage (1792 - 1871) ...

Tuy nhiên, máy tính điện tử thực sự h́nh thành bắt đầu vào thập niên 1950 và đến nay đă trải qua 5 thế hệ được phân loại theo sự tiến bộ về công nghệ điện tử và vi điện tử cũng như các cải tiến về nguyên lư, tính năng và loại h́nh của nó.

* Thế hệ 1 (1950 - 1958): máy tính sử dụng các bóng đèn điện tử chân không, mạch riêng rẽ, vào số liệu bằng phiếu đục lỗ, điều khiển bằng tay. Máy có kích thước rất lớn, tiêu thụ năng lượng nhiều, tốc độ tính chậm khoảng 300 - 3.000 phép tính mỗi giây. Loại máy tính điển h́nh thế hệ 1 như EDVAC (Mỹ) hay BESM (Liên xô cũ), ...

* Thế hệ 2 (1958 - 1964): máy tính dùng bộ xử lư bằng đèn bán dẫn, mạch in. Máy đă có chương tŕnh dịch như Cobol, Fortran và hệ điều hành đơn giản. Kích thước máy c̣n lớn, tốc độ tính khoảng 10.000 đến 100.000 phép/s. Điển h́nh như loại IBM-1070 (Mỹ) hay MINSK (Liên xô cũ), ...

* Thế hệ 3 (1965 - 1974): máy tính được gắn các bộ xử lư bằng vi mạch điện tử cỡ nhỏ có thể có được tốc độ tính khoảng 100.000 đến 1 triệu phép/s. Máy đă có các hệ điều hành đa chương tŕnh, nhiều người dùng đồng thời hoặc theo kiểu chia thời gian. Kết quả từ máy tính có thể in ra trực tiếp ở máy in. Điển h́nh như loại IBM 360 (Mỹ) hay EC (Liên Xô cũ), ...

* Thế hệ 4 (1974 đến nay): máy tính bắt đầu có các vi mạch đa xử lư có tốc độ tính hàng chục triệu đến hàng tỷ phép/giây. Giai đoạn này h́nh thành 2 loại máy tính chính : máy tính cá nhân để bàn (Personal Computer - PC) hoặc xách tay (Laptop hoặc Notebook computer) và các loại máy tính chuyên nghiệp thực hiện đa chương tŕnh, đa vi xử lư ... h́nh thành các hệ thống mạng máy tính (Computer Networks), và các ứng dụng phong phú đa phương tiện.

* Thế hệ 5 (1990 - nay): bắt đầu có các nghiên cứu tạo ra các máy tính mô phỏng các hoạt động của năo bộ và hành vi con người, có trí khôn nhân tạo với khả năng tự suy diễn phát triển các t́nh huống nhận được và những hệ quản lư kiến thức cơ sở để giải quyết các bài toán đa dạng.