- Урок 5 Измерение информации (алфавитный подход). Единицы измерения информации
- §4. Измерение информации
- Алфавитный подход к измерению информации
- Алфавит. Мощность алфавита
- Информационный вес символа
- Информационный объем текста. Единицы информации
- Коротко о главном
- Вопросы и задания
- Электронное приложение к уроку
- § 3. Измерение информации. Алфавитный подход
- Измерение информации Алфавитный подход
Урок 5
Измерение информации (алфавитный подход). Единицы измерения информации
§4. Измерение информации
Основные темы параграфа:
— алфавитный подход к измерению информации;
— алфавит, мощность алфавита;
— информационный вес символа;
— информационный объем текста;
— единицы информации.
Изучаемые вопросы:
— Алфавит, мощность алфавита.
— 1 бит – информационный вес символа двоичного алфавита.
— N=2b – формула для определения информационного веса символа.
— Информационный объём текста
— Единицы измерения информации: байт, килобайт, мегабайт, гигабайт.
Материал для углубленного изучения темы «Измерение информации»
Изучаемые вопросы:
— Содержательный подход к измерению информации
— Неопределенность знаний
— Формула Хартли
Алфавитный подход к измерению информации
А теперь обсудим вопрос о том, как можно измерять информацию. Существует несколько подходов к измерению информации. Здесь мы рассмотрим только один, который называется алфавитным подходом * .
Алфавитный подход позволяет измерять информационный объем текста на некотором языке (естественном или формальном), не связанный с содержанием этого текста.
Вам хорошо известно, что существуют единицы измерения таких величин, как, например, расстояние, масса, время. Для расстояния — это метр, для массы — грамм, для времени — секунда. Измерение происходит путем сопоставления измеряемой величины с единицей измерения.
——————————
* О другом подходе к измерению информации см. в разделе 1.1 материала для углубленного изучения «Дополнение к главе I».
Сколько раз единица измерения укладывается в измеряемой величине, таков и результат измерения. Следовательно, и для измерения информации должна быть введена своя единица измерения.
Алфавит. Мощность алфавита
Под алфавитом некоторого языка мы будем понимать набор букв, знаков препинания, цифр, скобок и других символов, используемых в тексте. В алфавит также следует включить и пробел, т. е. пропуск между словами.
Полное число символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54: 33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.
Информационный вес символа
При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес. Информационный вес символа зависит от мощности алфавита. А каким может быть наименьшее число символов в алфавите? Оно равно двум! Скоро вы узнаете, что такой алфавит используется в компьютере. Он содержит всего 2 символа, которые обозначаются цифрами 0 и 1. Его называют двоичным алфавитом. Изучая устройство и работу компьютера, вы узнаете, как с помощью всего двух символов можно представить любую информацию.
Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит.
С увеличением мощности алфавита увеличивается информационный вес символов этого алфавита. Так один символ из четырехсимвольного алфавита (N = 4) «весит» 2 бита. Объяснение этому можно дать следующее: все символы такого алфавита можно закодировать всеми возможными комбинациями из двух цифр двоичного алфавита. Комбинацию из нескольких (двух, трех и т. д.) знаков двоичного алфавита назовем двоичным кодом.
Используя три двоичные цифры, можно составить 8 различных комбинаций.
Следовательно, если мощность алфавита равна 8, то информационный вес одного символа равен 3 битам.
Четырехзначными двоичными кодами могут быть закодированы все символы 16-символьного алфавита, и т. д.
Найдем зависимость между мощностью алфавита (N) и количеством знаков в коде (b) — разрядностью двоичного кода.
Заметим, что 2 = 2 1 , 4 = 2 2 , 8 = 2 3 , 16 = 2 4 .
В общем виде это записывается следующим образом:
N = 2b.
Разрядность двоичного кода — это и есть информационный вес символа.
Если число N не равно целой степени двойки, то для определения информационного веса символа поступают следующим образом: берется ближайшее к N, большее N значение М, равное двойке в целой степени: N b . Получаемое отсюда значение b принимается за информационный вес символа. Например, если N = 12, то М = 16 = 2 4 . Отсюда информационный вес символа из алфавита мощностью 12 равен 4 битам. Иначе говоря, 12 символов алфавита кодируются 4-разрядными двоичными кодами.
Информационный объем текста. Единицы информации
Информационный объем текста складывается из информационных весов составляющих его символов. Например, следующий текст, записанный с помощью двоичного алфавита:
1101001011000101110010101101000111010010
содержит 40 символов, следовательно, его информационный объем равен 40 битам.
Сегодня для подготовки текстовых документов чаще всего применяются компьютеры. Алфавит, из которого составляется такой «компьютерный текст», содержит 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания и пр.
Поскольку 256 = 2 8 , то один символ компьютерного алфавита «весит» 8 битов. Величина, равная восьми битам, называется байтом.
1 байт = 8 битов.
Легко подсчитать информационный объем текста, если известно, что информационный вес одного символа равен 1 байту. Надо просто сосчитать число символов в тексте. Полученное значение и будет информационным объемом текста, выраженным в байтах.
Например, небольшая книжка, подготовленная с помощью компьютера, содержит 150 страниц. На каждой странице 40 строк, в каждой строке 60 символов (включая пробелы между словами). Значит, страница содержит 40 х 60 = 2400 байтов информации. Для вычисления информационного объема всей книги нужно полученную величину умножить на число страниц:
2400 байтов * 150 = 360 000 байтов.
Уже на таком примере видно, что байт — «мелкая» единица. А представьте, что нужно, например, измерить информационный объем целой библиотеки. В байтах это окажется громадным числом!
Для измерения больших информационных объемов используются более крупные единицы:
1 килобайт = 1 Кб = 2 10 байтов = 1024 байта
1 мегабайт = 1 Мб = 2 10 Кб = 1024 Кб
1 гигабайт = 1 Гб = 2 10 Мб = 1024 Мб
1 терабайт = 1 Тб = 2 10 Гб = 1024 Гб
Следовательно, информационный объем вышеупомянутой книги равен приблизительно 360 килобайтам. А если посчитать точнее, то получится:
360 000 : 1024 = 351,5625 Кб.
351,5625 : 1024 = 0,34332275 Мб.
В заключение еще раз обратим внимание на важное свойство рассмотренного здесь алфавитного подхода. При его использовании содержательная сторона текста в учет не берется. Текст, состоящий из бессмысленного сочетания символов, будет иметь ненулевой информационный объем.
Коротко о главном
Алфавитный подход — это способ измерения информационного объема текста, не связанного с его содержанием.
Алфавит — это вся совокупность символов, используемых в некотором языке для представления информации. Мощность алфавита — это число символов в нем.
1 бит — информационный вес одного символа двухсимвольного алфавита (N = 2).
Информационный вес символа (разрядность двоичного кода) (b) и мощность алфавита (N) связаны формулой: N = 2 b .
Если N не равно двойке в целой степени, то находится большее N, ближайшее к N целое число М = 2 b (b — целое), и из этого равенства определяется b — информационный вес символа.
Информационный объем текста равен сумме информационных весов всех символов, составляющих текст.
1 байт — информационный вес символа из алфавита мощностью 2 8 = 256 символов. 1 байт = 8 битов.
Байт, килобайт, мегабайт, гигабайт, терабайт — единицы измерения информации. Каждая следующая единица больше предыдущей в 1024 (2 10 ) раза.
Вопросы и задания
1. Что такое алфавит?
2. Что такое мощность алфавита?
3. Как определяется информационный объем текста при использовании алфавитного подхода?
4. Текст составлен с использованием алфавита мощностью 64 символа и содержит 100 символов. Каков информационный объем текста?
5. Что такое байт, килобайт, мегабайт, гигабайт, терабайт?
6. Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?
7. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 32 символа, второй — мощностью 64 символа. Во сколько раз различаются информационные объемы этих текстов?
Электронное приложение к уроку
Вернуться к материалам урока | ||
Презентации, плакаты, текстовые файлы | Ресурсы ЕК ЦОР | |
Видео к уроку |
Cкачать материалы урока
Источник
§ 3. Измерение информации. Алфавитный подход
Вопрос об измерении количества информации является очень важным как для науки, так и для практики. В самом деле, если информация является предметом нашей деятельности, мы ее храним, передаем, принимаем, обрабатываем. Поэтому важно договориться о способе ее измерения, позволяющем, например, ответить на вопросы: достаточно ли места на носителе, чтобы разместить нужную нам информацию, или сколько времени потребуется, чтобы передать ее по имеющемуся каналу связи. Величина, которая нас в этих ситуациях интересует, называется объемом информации. В таком случае говорят об алфавитном, или объемном, подходе к измерению информации.
Алфавитный подход к измерению информации применяется в цифровых (компьютерных) системах хранения и передачи информации. В этих системах используется двоичный способ кодирования информации. При алфавитном подходе для определения количества информации имеет значение лишь размер (объем) хранимого и передаваемого кода. Алфавитный подход еще называют объемным подходом. Из курса информатики 7-9 классов вы знаете, что если с помощью i-разрядного двоичного кода можно закодировать алфавит, состоящий из N символов (где N — целая степень двойки), то эти величины связаны между собой по формуле:
Число N называется мощностью алфавита.
Если, например, i = 2, то можно построить 4 двухразрядные комбинации из нулей и единиц, т. е. закодировать 4 символа. При i = 3 существует 8 трехразрядных комбинаций нулей и единиц (кодируется 8 символов):
Английский алфавит содержит 26 букв. Для записи текста нужны еще как минимум шесть символов: пробел, точка, запятая, вопросительный знак, восклицательный знак, тире. В сумме получается расширенный алфавит мощностью в 32 символа.
Поскольку 32 = 2 5 , все символы можно закодировать всевозможными пятиразрядными двоичными кодами от 00000 до 11111. Именно пятиразрядный код использовался в телеграфных аппаратах, появившихся еще в XIX веке. Телеграфный аппарат при вводе переводил английский текст в двоичный код, длина которого в 5 раз больше, чем длина исходного текста.
В двоичном коде каждая двоичная цифра несет одну единицу информации, которая называется 1 бит.
Бит является основной единицей измерения информации.
Длина двоичного кода, с помощью которого кодируется символ алфавита, называется информационным весом символа. В рассмотренном выше примере информационный вес символа расширенного английского алфавита оказался равным 5 битам.
Информационный объем текста складывается из информационных весов всех составляющих текст символов. Например, английский текст из 1000 символов в телеграфном сообщении будет иметь информационный объем 5000 битов.
Алфавит русского языка включает 33 буквы. Если к нему добавить еще пробел и пять знаков препинания, то получится набор из 39 символов. Для двоичного кодирования символов такого алфавита пятиразрядного кода уже недостаточно. Нужен как минимум 6-разрядный код. Поскольку 2 6 = 64, остается еще резерв для 25 символов (64 — 39 = 25). Его можно использовать для кодирования цифр, всевозможных скобок, знаков математических операций и других символов, встречающихся в русском тексте. Следовательно, информационный вес символа в расширенном русском алфавите будет равен 6 битам. А текст из 1000 символов будет иметь объем 6000 битов.
Итак, если i — информационный вес символа алфавита, а К — количество символов в тексте, записанном с помощью этого алфавита, то информационный объем I текста выражается формулой:
Идея измерения количества информации в сообщении через длину двоичного кода этого сообщения принадлежит выдающемуся российскому математику Андрею Николаевичу Колмогорову (1903-1987). Согласно Колмогорову, количество информации, содержащееся в тексте, определяется минимально возможной длиной двоичного кода, необходимого для представления этого текста.
Для определения информационного веса символа полезно знать ряд целых степеней двойки. Вот как он выглядит в диапазоне от 2 1 до 2 10 :
Поскольку мощность N алфавита может не являться целой степенью двойки, информационный вес символа алфавита мощности N определяется следующим образом. Находится ближайшее к N значение во второй строке таблицы, не меньшее чем N. Соответствующее значение i в первой строке будет равно информационному весу символа.
Пример. Определим информационный вес символа алфавита, включающего в себя все строчные и прописные русские буквы (66); цифры (10); знаки препинания, скобки, кавычки (10). Всего получается 86 символов.
Поскольку 2 6 7 , информационный вес символов данного алфавита равен 7 битам. Это означает, что все 86 символов можно закодировать семиразрядными двоичными кодами.
Для двоичного представления текстов в компьютере чаще всего применяется восьмиразрядный код. С помощью восьмиразрядного кода можно закодировать алфавит из 256 символов, поскольку 256 = 2 8 . В стандартную кодовую таблицу (например, используемую в ОС Windows таблицу ANSI) помещаются все необходимые символы: английские и русские буквы — прописные и строчные, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.
Более крупной, чем бит, единицей измерения информации является байт: 1 байт = 8 битов.
Информационный объем текста в памяти компьютера измеряется в байтах. Он равен количеству символов в записи текста.
Одна страница текста на листе формата А4 кегля 12 с одинарным интервалом между строками в компьютерном представлении будет иметь объем 4000 байтов, так как на ней помещается примерно 4000 знаков.
Помимо бита и байта, для измерения информации используются и более крупные единицы:
1 Кб (килобайт) = 2 10 байтов = 1024 байта;
1 Мб (мегабайт) = 2 10 Кб = 1024 Кб;
1 Гб (гигабайт) = 2 10 Мб = 1024 Мб;
1 Тб (терабайт) = 2 10 Гб = 1024 Гб.
Объем той же страницы текста будет равен приблизительно 3,9 Кб. А книга из 500 таких страниц займет в памяти компьютера примерно 1,9 Мб.
В компьютере любые виды информации: тексты, числа, изображения, звуки — представляются в форме двоичного кода.
Источник
Измерение информации
Алфавитный подход
Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста, который пропорционален размеру текста — количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.
Каждый символ текста несет определенное количество информации. Его называют информационным весом символа. Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.
Здесь предполагается, что текст — это последовательная цепочка пронумерованных символов. В формуле (1) i1 обозначает информационный вес первого символа текста, i2 — информационный вес второго символа текста и т.д.; K — размер текста, т.е. полное число символов в тексте.
Все множество различных символов, используемых для записи текстов, называется алфавитом. Размер алфавита — целое число, которое называется мощностью алфавита. Следует иметь в виду, что в алфавит входят не только буквы определенного языка, но все другие символы, которые могут использоваться в тексте: цифры, знаки препинания, различные скобки, пробел и пр.
Определение информационных весов символов может происходить в двух приближениях:
1) в предположении равной вероятности (одинаковой частоты встречаемости) любого символа в тексте;
2) с учетом разной вероятности (разной частоты встречаемости) различных символов в тексте.
Приближение равной вероятности символов в тексте
Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информационный вес всех символов будет одинаковым. Пусть N — мощность алфавита. Тогда доля любого символа в тексте составляет 1/N-ю часть текста. По определению вероятности (см. “Измерение информации. Содержательный подход” ) эта величина равна вероятности появления символа в каждой позиции текста:
Согласно формуле К.Шеннона (см. “Измерение информации. Содержательный подход” ), количество информации, которое несет символ, вычисляется следующим образом:
Следовательно, информационный вес символа (i) и мощность алфавита (N) связаны между собой по формуле Хартли (см. “Измерение информации. Содержательный подход” )
Зная информационный вес одного символа (i) и размер текста, выраженный количеством символов (K), можно вычислить информационный объем текста по формуле:
Эта формула есть частный вариант формулы (1), в случае, когда все символы имеют одинаковый информационный вес.
Из формулы (2) следует, что при N = 2 (двоичный алфавит) информационный вес одного символа равен 1 биту.
С позиции алфавитного подхода к измерению информации 1 бит — это информационный вес символа из двоичного алфавита.
Более крупной единицей измерения информации является байт.
1 байт — это информационный вес символа из алфавита мощностью 256.
Поскольку 256 = 2 8 , то из формулы Хартли следует связь между битом и байтом:
Отсюда: i = 8 бит = 1 байт
Для представления текстов, хранимых и обрабатываемых в компьютере, чаще всего используется алфавит мощностью 256 символов. Следовательно,
1 символ такого текста “весит” 1 байт.
Помимо бита и байта, для измерения информации применяются и более крупные единицы:
1 Кб (килобайт) = 2 10 байт = 1024 байта,
1 Мб (мегабайт) = 2 10 Кб = 1024 Кб,
1 Гб (гигабайт) = 2 10 Мб = 1024 Мб.
Приближение разной вероятности встречаемости символов в тексте
В этом приближении учитывается, что в реальном тексте разные символы встречаются с разной частотой. Отсюда следует, что вероятности появления разных символов в определенной позиции текста различны и, следовательно, различаются их информационные веса.
Статистический анализ русских текстов показывает, что частота появления буквы “о” составляет 0,09. Это значит, что на каждые 100 символов буква “о” в среднем встречается 9 раз. Это же число обозначает вероятность появления буквы “о” в определенной позиции текста: po = 0,09. Отсюда следует, что информационный вес буквы “о” в русском тексте равен:
Самой редкой в текстах буквой является буква “ф”. Ее частота равна 0,002. Отсюда:
Отсюда следует качественный вывод: информационный вес редких букв больше, чем вес часто встречающихся букв.
Как же вычислить информационный объем текста с учетом разных информационных весов символов алфавита? Делается это по следующей формуле:
Здесь N — размер (мощность) алфавита; nj — число повторений символа номер j в тексте; ij — информационный вес символа номер j.
Методические рекомендации
Алфавитный подход в курсе информатики основой школы
В курсе информатики в основной школе знакомство учащихся с алфавитным подходом к измерению информации чаще всего происходит в контексте компьютерного представления информации. Основное утверждение звучит так:
Количество информации измеряется размером двоичного кода, с помощью которого эта информация представлена
Поскольку любые виды информации представляются в компьютерной памяти в форме двоичного кода, то это определение универсально. Оно справедливо для символьной, числовой, графической и звуковой информации.
Один знак (разряд) двоичного кода несет 1 бит информации.
При объяснении способа измерения информационного объема текста в базовом курсе информатики данный вопрос раскрывается через следующую последовательность понятий: алфавит — размер двоичного кода символа — информационный объем текста.
Логика рассуждений разворачивается от частных примеров к получению общего правила. Пусть в алфавите некоторого языка имеется всего 4 символа. Обозначим их:, , , . Эти символы можно закодировать с помощью четырех двухразрядных двоичных кодов: — 00, — 01, — 10, — 11. Здесь использованы все варианты размещений из двух символов по два, число которых равно 2 2 = 4. Отсюда делается вывод: информационный вес символа из 4-символьного алфавита равен двум битам.
Следующий частный случай — 8-символьный алфавит, каждый символ которого можно закодировать 3-разрядным двоичным кодом, поскольку число размещений из двух знаков группами по 3 равно 2 3 = 8. Следовательно, информационный вес символа из 8-символьного алфавита равен 3 битам. И т.д.
Обобщая частные примеры, получаем общее правило: с помощью b-разрядного двоичного кода можно закодировать алфавит, состоящий из N = 2 b — символов.
Пример 1. Для записи текста используются только строчные буквы русского алфавита и “пробел” для разделения слов. Какой информационный объем имеет текст, состоящий из 2000 символов (одна печатная страница)?
Решение. В русском алфавите 33 буквы. Сократив его на две буквы (например, “ё” и “й”) и введя символ пробела, получаем очень удобное число символов — 32. Используя приближение равной вероятности символов, запишем формулу Хартли:
Отсюда: i = 5 бит — информационный вес каждого символа русского алфавита. Тогда информационный объем всего текста равен:
I = 2000 · 5 = 10 000 бит
Пример 2. Вычислить информационный объем текста размером в 2000 символов, в записи которого использован алфавит компьютерного представления текстов мощностью 256.
Решение. В данном алфавите информационный вес каждого символа равен 1 байту (8 бит). Следовательно, информационный объем текста равен 2000 байт.
В практических заданиях по данной теме важно отрабатывать навыки учеников в пересчете количества информации в разные единицы: биты — байты — килобайты — мегабайты — гигабайты. Если пересчитать информационный объем текста из примера 2 в килобайты, то получим:
2000 байт = 2000/1024 1,9531 Кб
Пример 3. Объем сообщения, содержащего 2048 символов, составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?
Решение. Переведем информационный объем сообщения из мегабайтов в биты. Для этого данную величину умножим дважды на 1024 (получим байты) и один раз — на 8:
I = 1/512 · 1024 · 1024 · 8 = 16 384 бита.
Поскольку такой объем информации несут 1024 символа (К), то на один символ приходится:
Отсюда следует, что размер (мощность) использованного алфавита равен 2 16 = 65 536 символов.
Объемный подход в курсе информатики в старших классах
Изучая информатику в 10–11-х классах на базовом общеобразовательном уровне, можно оставить знания учащихся об объемном подходе к измерению информации на том же уровне, что описан выше, т.е. в контексте объема двоичного компьютерного кода.
При изучении информатики на профильном уровне объемный подход следует рассматривать с более общих математических позиций, с использованием представлений о частотности символов в тексте, о вероятностях и связи вероятностей с информационными весами символов.
Знание этих вопросов оказывается важным для более глубокого понимания различия в использовании равномерного и неравномерного двоичного кодирования (см. “Кодирование информации” ), для понимания некоторых приемов сжатия данных (см. “Сжатие данных” ) и алгоритмов криптографии (см. “Криптография” ).
Пример 4. В алфавите племени МУМУ всего 4 буквы (А, У, М, К), один знак препинания (точка) и для разделения слов используется пробел. Подсчитали, что в популярном романе “Мумука” содержится всего 10 000 знаков, из них: букв А — 4000, букв У — 1000, букв М — 2000, букв К — 1500, точек — 500, пробелов — 1000. Какой объем информации содержит книга?
Решение. Поскольку объем книги достаточно большой, то можно допустить, что вычисленная по ней частота встречаемости в тексте каждого из символов алфавита характерна для любого текста на языке МУМУ. Подсчитаем частоту встречаемости каждого символа во всем тексте книги (т.е. вероятность) и информационные веса символов
Общий объем информации в книге вычислим как сумму произведений информационного веса каждого символа на число повторений этого символа в книге:
Источник