Сайт учителя
Тинькова Е.Н.

Подходы к измерению информации

1) Клод Шеннон, разрабатывая теорию связи, предложил характеризовать информативность сообщения содержащейся в нём полезной информацией, т. е. той частью сообщения, которая снимает полностью или уменьшает существующую до её получения неопределённость какой-либо ситуации.

Клод Элвуд Шеннон (1916-2001) — американский инженер и математик. Является основателем теории информации, нашедшей применение в современных высокотехнологических системах связи. В 1948 году предложил использовать слово «бит» для обозначения наименьшей единицы информации.

Информация — это снятая неопределенность. Величина неопределённое™ некоторого события — это количество возможных результатов (исходов) данного события.

Сообщение, уменьшающее неопределённость знания в 2 раза, несёт 1 бит информации. Такой подход к измерению информации называют содержательным.

2) 1 байт = 8 бит = 2³ бит.

1 Кбайт (килобайт) = 1024 байта = 2¹⁰ байт = 2¹³ бит.

1 Мбайт (мегабайт) = 1024 Кбайт = 2¹⁰ Кбайт = 2²⁰ байт = = 2²³ бит.

1 Гбайт (гигабайт) = 1024 Мбайт.

1 Тбайт (терабайт) = 1024 Гбайт.

1 Пбайт (петабайт) = 1024 Тбайт.

Представьте себе, что вы много раз бросаете монету и записываете результат очередного броска как 1 (если монета упала гербом) или 0 (если она упала «решкой»). В результате получится некоторое сообщение — цепочка нулей и единиц: 0101001101001110. Вы наверняка поняли, что здесь используется двоичное кодирование — это сообщение написано на языке, алфавит которого состоит из двух символов (знаков): 0 и 1. Как вы знаете, каждая двоичная цифра несёт 1 бит информации, поэтому полная информация в сообщении 0101001101001110 равна 16 бит.

Теперь представим себе, что нужно закодировать программу для Робота, который умеет выполнять команды «вперёд», «назад», «влево» и «вправо». Для этого можно использовать алфавит, состоящий из 4 символов: ↓↑→←. Сколько информации содержится в сообщении ↑←↑↑→↓↓↓↓→← ? Каждый полученный символ может быть любым из 4 символов алфавита, а для кодирования одного из 4 вариантов требуется уже 2 бита. Поэтому полное сообщение из 11 символов содержит 11 • 2 = 22 бита информации.

Алфавитный подход к оценке количества информации состоит в следующем:

1) определяем мощность алфавита М (количество символов в алфавите);

2) по таблице степеней числа 2 определяем минимальное количество бит информации i, приходящихся на каждый символ сообщения, так чтобы выполнилось условие 2ⁱ > М:

3) умножаем i на число символов в сообщении L, это и есть полное количество информации:

I = L • i.

Обратим внимание на две важные особенности алфавитного подхода.

При использовании алфавитного подхода не учитывается, что некоторые символы могут встречаться в сообщении чаще других. Считается, что каждый символ несёт одинаковое количество информации.

Алфавитный подход не учитывает также частоты появления сочетаний символов (например, после гласных букв никогда не встречается мягкий знак).

Кроме того, никак не учитывается смысл сообщения, оно представляет собой просто набор знаков, которые приёмник, возможно, даже не понимает.

При использовании алфавитного подхода смысл сообщения не учитывается. Количество информации определяется только длиной сообщения и мощностью алфавита.

Во многих задачах такой подход очень удобен. Например, для устройств, передающих информацию по сети, её содержание не имеет никакого значения, важен только объём. Почтальону всё равно, что написано в письмах, важно только их количество, которое влияет на вес сумки. Для компьютера все данные — это последовательности нулей и единиц, их смысла он не понимает.

Для вычисления информационного объёма текста чаще всего применяют именно алфавитный подход.

Block title
разное другое

Вход на сайт

Поиск

Календарь

Статистика
Онлайн всего: 1 Гостей: 1 Пользователей: 0

Сайт учителя

Подходы к измерению информации

Block title

Вход на сайт

Поиск

Календарь

Статистика

Архив записей