Что такое количественное измерение информации

Что такое количественное измерение информации

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0. Обработка информации в ЭВМ основана на обмене электрическими сигналами между различными устройствами машины. В компьютере, хранящем, либо обрабатывающем информацию, рассматриваемые символы 0 и 1 могут также обозначаться по-разному: один из них — наличием в рассматриваемом элементе электрического тока, либо магнитного поля, второй — отсутствием электрического тока, либо магнитного поля.

Таким образом, в ЭВМ реализуются два устойчивых состояния. Эти два устойчивых состояния информационной системы определяют единицу измерения информации, называемую БИТОМ . Количество информации, кодируемое двоичной цифрой — 0 или 1, называется битом. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений — 00, 01, 10, 11, чем одноразрядные 0 и 1. Трехразрядная последовательность имеет также вдвое больше значений — 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Источник

Количественное измерение информации

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0. Обработка информации в ЭВМ основана на обмене электрическими сигналами между различными устройствами машины. В компьютере, хранящем, либо обрабатывающем информацию, рассматриваемые символы 0 и 1 могут также обозначаться по-разному: один из них — наличием в рассматриваемом элементе электрического тока, либо магнитного поля, второй — отсутствием электрического тока, либо магнитного поля.

Таким образом, в ЭВМ реализуются два устойчивых состояния. Эти два устойчивых состояния информационной системы определяют единицу измерения информации, называемую БИТОМ. Количество информации, кодируемое двоичной цифрой — 0 или 1, называется битом. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений — 00, 01, 10, 11, чем одноразрядные 0 и 1. Трехразрядная последовательность имеет также вдвое больше значений — 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Таблица 1. Информационная емкость чисел

Пользуясь вышеприведенной таблицей легко закодировать любое множество событий. Например, нам нужно закодировать 32 буквы русского алфавита, для этой цели достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения.

Для измерения больших объемов информации пользоваться битами неудобно. Поэтому применяются кратные биту единицы измерения информации:

Источник

Количественное измерение информации

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0. Обработка информации в ЭВМ основана на обмене электрическими сигналами между различными устройствами машины. В компьютере, хранящем, либо обрабатывающем информацию, рассматриваемые символы 0 и 1 могут также обозначаться по-разному: один из них — наличием в рассматриваемом элементе электрического тока, либо магнитного поля, второй — отсутствием электрического тока, либо магнитного поля.

Таким образом, в ЭВМ реализуются два устойчивых состояния. Эти два устойчивых состояния информационной системы определяют единицу измерения информации, называемую БИТОМ. Количество информации, кодируемое двоичной цифрой — 0 или 1, называется битом. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений — 00, 01, 10, 11, чем одноразрядные 0 и 1. Трехразрядная последовательность имеет также вдвое больше значений — 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Таблица 1. Информационная емкость чисел

Пользуясь вышеприведенной таблицей легко закодировать любое множество событий. Например, нам нужно закодировать 32 буквы русского алфавита, для этой цели достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения.

Для измерения больших объемов информации пользоваться битами неудобно. Поэтому применяются кратные биту единицы измерения информации:

Источник

4. Количественное измерение информации

Любые сообщения измеряются в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах, петабайтах и эксабайтах, а кодируются, например, в компьютере, с помощью алфавита из нулей и единиц, записываются и реализуются в ЭВМ в битах.

Приведем основные соотношения между единицами измерения сообщений:

1 бит (binary digit – двоичное число) = 0 или 1,

1 килобайт (1Кб) = 2 10 байт = 2 13 бит,

1 мегабайт (1Мб) = 2 20 байт = 2 23 бит,

1 гигабайт (1Гб) = 2 30 байт = 2 33 бит,

1 терабайт (1Тб) = 2 40 байт = 2 43 бит,

1 петабайт (1Пб) = 2 50 байт = 2 53 бит,

1 эксабайт (1Эб) = 2 60 байт = 2 63 бит.

Пример. Найти неизвестные х и у, если верны соотношения:

Выравниваем единицы измерения информации:

Подставляя в уравнения и отбрасывая размерности информации, получаем:

Отсюда получаем систему двух алгебраических уравнений:

или, решая эту систему, окончательно получаем, x = –76,5, у = –56,5.

Для измерения информации используются различные подходы и методы, например, с использованием меры информации по Р. Хартли и К. Шеннону.

Количество информации – число, адекватно характеризующее разнообразие (структурированность, определенность, выбор состояний и т.д.) в оцениваемой системе. Количество информации часто оценивается в битах, причем такая оценка может выражаться и в долях бит (так речь идет не об измерении или кодировании сообщений).

Мера информации – критерий оценки количества информации. Обычно она задана некоторой неотрицательной функцией, определенной на множестве событий и являющейся аддитивной, то есть мера конечного объединения событий (множеств) равна сумме мер каждого события.

Рассмотрим различные меры информации.

Возьмем меру Р. Хартли. Пусть известны N состояний системы S (N опытов с различными, равновозможными, последовательными состояниями системы). Если каждое состояние системы закодировать двоичными кодами, то длину кода d необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N:

.

Логарифмируя это неравенство, можно записать:

.

Наименьшее решение этого неравенства или мера разнообразия множества состояний системы задается формулой Р. Хартли:

(бит).

Пример. Чтобы определить состояние системы из четырех возможных состояний, то есть получить некоторую информацию о системе, необходимо задать 2 вопроса. Первый вопрос, например: «Номер состояния больше 2?». Узнав ответ («да», «нет»), мы увеличиваем суммарную информацию о системе на 1 бит (). Далее необходим еще один уточняющий вопрос, например, при ответе «да»: «Состояние – номер 3?». Итак, количество информации равно 2 битам ().

Если во множестве искать произвольный элемент, то для его нахождения (по Хартли) необходимо иметь не менее (единиц) информации.

Уменьшение Н говорит об уменьшении разнообразия состояний N системы.

Увеличение Н говорит об увеличении разнообразия состояний N системы.

Мера Хартли подходит лишь для идеальных, абстрактных систем, так как в реальных системах состояния системы не одинаково осуществимы (не равновероятны).

Для таких систем используют более подходящую меру К. Шеннона. Мера Шеннона оценивает информацию отвлеченно от ее смысла:

,

где n – число состояний системы; рi – вероятность (относительная частота) перехода системы в i-е состояние, а сумма всех pi должна равняться 1.

Если все состояния рассматриваемой системы равновозможны, равновероятны, то есть , то из формулы Шеннона можно получить (как частный случай) формулу Хартли:

.

Пример. Если положение точки в системе из 10 клеток известно, например, если точка находится во второй клетке, то есть рi = 0, i = 1, 3, 4, …, 10, р2 = 1. Получаем количество информации, равное нулю, т.е. .

Обозначим величину .

Тогда из формулы К. Шеннона следует, что количество информации I можно понимать как среднеарифметическое величин fi , то есть величину fi можно интерпретировать как информационное содержание символа алфавита с индексом i и величиной pi вероятности появления этого символа в любом сообщении (слове), передающем информацию.

Положительная сторона формулы Шеннона – ее отвлеченность от смысла информации. Кроме того, в отличие от формулы Хартли, она учитывает различность состояний, что делает ее пригодной для практических вычислений. Основная отрицательная сторона формулы Шеннона – она не распознает различные состояния системы с одинаковой вероятностью.

Минимально необходимое для записи целого числа 2 24 количество байт, равно

Источник

Количественное измерение информации

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако ради простоты записи были взяты цифры 1 и 0. Обработка информации в ЭВМ основана на обмене электрическими сигналами между различными устройствами машины. В компьютере, хранящем, либо обрабатывающем информацию, рассматриваемые символы 0 и 1 могут также обозначаться по-разному: один из них — наличием в рассматриваемом элементе электрического тока, либо магнитного поля, второй — отсутствием электрического тока, либо магнитного поля.

Таким образом, в ЭВМ реализуются два устойчивых состояния. Эти два устойчивых состояния информационной системы определяют единицу измерения информации, называемую БИТОМ. Количество информации, кодируемое двоичной цифрой — 0 или 1, называется битом. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений — 00, 01, 10, 11, чем одноразрядные 0 и 1. Трехразрядная последовательность имеет также вдвое больше значений — 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Таблица 1. Информационная емкость чисел

Пользуясь вышеприведенной таблицей легко закодировать любое множество событий. Например, нам нужно закодировать 32 буквы русского алфавита, для этой цели достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения.

Для измерения больших объемов информации пользоваться битами неудобно. Поэтому применяются кратные биту единицы измерения информации:

2.2. Кодирование различных типов информации

С помощью набора битов, можно представить любое число и любой знак. В информационных документах широко используются не только русские, но и латинские буквы, цифры, математические знаки и другие специальные знаки, всего их количество составляет примерно 200-250 символов. Поэтому для кодировки всех указанных символов используется восьмиразрядная последовательность цифр 0 и 1. Таким образом, текстовая информация кодируется с помощью кодовой таблицы.

Кодовая таблица – это внутреннее преставление символов в компьютере. Во всем мире в качестве стандарта принята таблица ASCII – Американский стандартный код для обмена информацией. Для хранения двоичного кода одного символа выделен 1 байт = 8 бит.

Следует отметить, что указанный способ кодирования используется тогда, когда к нему не предъявляются дополнительные требования, такие как необходимость указать на возникшую ошибку, исправление ошибки, секретность информации. При специальном кодировании коды получаются длиннее, чем в указанной таблице.

Наиболее просто кодируется числовая информация – она переводится в двоичную систему исчисления.

Для представления графической информации в двоичной форме используется так называемый поточечный способ. На первом этапе вертикальными и горизонтальными линиями делят изображение. Чем больше при этом получилось квадратов, тем точнее будет передана информация о картинке. Как известно из физики, любой цвет может быть представлен в виде суммы различной яркости зеленого, синего, красного цветов. Поэтому информация о каждой клетке должна содержать кодировку значения яркости и количеств зеленого, синего и красного компонентов. Таким образом кодируется растровое изображение – изображение, разбитое на отдельные точки. Объем растрового изображения определяется умножением количества точек на рисунке на информационный объем одной точки, который зависит от количества возможных цветов отображения (для черно-белого изображения информационный объем одной точки равен 1 биту и кодируется двумя цифрами – 0 или 1). Разные цвета и их оттенки получаются за счет наличия или отсутствия трех основных цветов – красного, синего, зеленого и их яркости. Каждая точка на экране кодируется с помощью 4 битов.

Векторное изображение кодируется разбиением рисунка на элементарные отрезки, геометрические фигуры и дуги. Положение этих элементарных объектов определяется координатами точек. Для каждой линии указывается ее тип (сплошная, пунктирная, штрих- пунктирная ), толщина и цвет. Информация о векторном изображении кодируется как обычная буквенно-цифровая и обрабатывается специальными программами.

Звуковая информация может быть представлена последовательностью элементарных звуков и пауз между ними. Вывод звуков из компьютера осуществляется синтезатором речи, который считывает из памяти хранящийся код звука. Речь человека имеет большое разнообразие оттенков, поэтому каждое произнесенное слово должно сравниваться с предварительно занесенным в память компьютера эталоном, и при их совпадении происходит его распознавание и запись.

Системы счисления

Разные народы в разные времена использовали разные системы счисления. Следы древних систем счета встречаются и сегодня в культуре многих народов. К древнему Вавилону восходит деление часа на 60 минут и угла на 360 градусов. К Древнему Риму — традиция записывать в римской записи числа I, II, III и т. д. К англосаксам — счет дюжинами: в году 12 месяцев, в футе 12 дюймов, сутки делятся на 2 периода по 12 часов.

По современным данным, развитые системы нумерации впервые появились в древнем Египте. Для записи чисел египтяне применяли иероглифы один, десять, сто, тысяча и т.д. Все остальные числа записывались с помощью этих иероглифов и операции сложения. Недостатки этой системы — невозможность записи больших чисел и громоздкость.

В конце концов, самой популярной системой счисления оказалась десятичная система. Десятичная система счисления пришла из Индии, где она появилась не позднее VI в. н. э. В ней всего 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 но информацию несет не только цифра, но также и место позиция, на которой она стоит. В числе 444 три одинаковых цифры обозначают количество и единиц, и десятков, и сотен. А вот в числе 400 первая цифра обозначает число сотен, два 0 сами по себе вклад в число не дают, а нужны лишь для указания позиции цифры 4.

Основные понятия систем счисления

Система счисления — это совокупность правил и приемов записи чисел с помощью набора цифровых знаков. Количество цифр, необходимых для записи числа в системе, называют основанием системы счисления. Основание системы записывается в справа числа в нижнем индексе: ; ; и т. д.

Различают два типа систем счисления:

o позиционные, когда значение каждой цифры числа определяется ее позицией в записи числа;

o непозиционные, когда значение цифры в числе не зависит от ее места в записи числа.

Примером непозиционной системы счисления является римская: числа IX, IV, XV и т.д. Примером позиционной системы счисления является десятичная система, используемая повседневно.

Любое целое число в позиционной системе можно записать в форме многочлена:

где S — основание системы счисления;

— цифры числа, записанного в данной системе счисления;

n — количество разрядов числа.

Пример. Число запишется в форме многочлена следующим образом:

Виды систем счисления

Римская система счисления является непозиционной системой. В ней для записи чисел используются буквы латинского алфавита. При этом буква I всегда означает единицу, буква — V пять, X — десять, L — пятьдесят, C — сто, D — пятьсот, M — тысячу и т.д. Например, число 264 записывается в виде CCLXIV. При записи чисел в римской системе счисления значением числа является алгебраическая сумма цифр, в него входящих. При этом цифры в записи числа следуют, как правило, в порядке убывания их значений, и не разрешается записывать рядом более трех одинаковых цифр. В том случае, когда за цифрой с большим значением следует цифра с меньшим, ее вклад в значение числа в целом является отрицательным. Типичные примеры, иллюстрирующие общие правила записи чисел в римской система счисления, приведены в таблице.

Таблица 2. Запись чисел в римской системе счисления

Недостатком римской системы является отсутствие формальных правил записи чисел и, соответственно, арифметических действий с многозначными числами. По причине неудобства и большой сложности в настоящее время римская система счисления используется там, где это действительно удобно: в литературе (нумерация глав), в оформлении документов (серия паспорта, ценных бумаг и др.), в декоративных целях на циферблате часов и в ряде других случаев.

Десятичня система счисления – в настоящее время наиболее известная и используемая. Изобретение десятичной системы счисления относится к главным достижениям человеческой мысли. Без нее вряд ли могла существовать, а тем более возникнуть современная техника. Причина, по которой десятичная система счисления стала общепринятой, вовсе не математическая. Люди привыкли считать в десятичной системе счисления, потому что у них по 10 пальцев на руках.

Древнее изображение десятичных цифр (рис. 1) не случайно: каждая цифра обозначает число по количеству углов в ней. Например, 0 — углов нет, 1 — один угол, 2 — два угла и т.д. Написание десятичных цифр претерпело существенные изменения. Форма, которой мы пользуемся, установилась в XVI веке.

Десятичная система впервые появилась в Индии примерно в VI веке новой эры. Индийская нумерация использовала девять числовых символов и нуль для обозначения пустой позиции. В ранних индийских рукописях, дошедших до нас, числа записывались в обратном порядке — наиболее значимая цифра ставилась справа. Но вскоре стало правилом располагать такую цифру с левой стороны. Особое значение придавалось нулевому символу, который вводился для позиционной системы обозначений. Индийская нумерация, включая нуль, дошла и до нашего времени. В Европе индусские приёмы десятичной арифметики получили распространение в начале ХIII в. благодаря работам итальянского математика Леонардо Пизанского (Фибоначчи). Европейцы заимствовали индийскую систему счисления у арабов, назвав ее арабской. Это исторически неправильное название удерживается и поныне.

Десятичная система использует десять цифр – 0, 1, 2, 3, 4, 5, 6, 7, 8 и 9, а также символы “+” и “–” для обозначения знака числа и запятую или точку для разделения целой и дробной частей числа.

В вычислительных машинах используется двоичная система счисления, её основание — число 2. Для записи чисел в этой системе используют только две цифры — 0 и 1. Вопреки распространенному заблуждению, двоичная система счисления была придумана не инженерами-конструкторами ЭВМ, а математиками и философами задолго до появления компьютеров, еще в ХVII — ХIХ веках. Первое опубликованное обсуждение двоичной системы счисления принадлежит испанскому священнику Хуану Карамюэлю Лобковицу (1670 г.). Всеобщее внимание к этой системе привлекла статья немецкого математика Готфрида Вильгельма Лейбница, опубликованная в 1703 г. В ней пояснялись двоичные операции сложения, вычитания, умножения и деления. Лейбниц не рекомендовал использовать эту систему для практических вычислений, но подчёркивал её важность для теоретических исследований. Со временем двоичная система счисления становится хорошо известной и получает развитие.

Выбор двоичной системы для применения в вычислительной технике объясняется тем, что электронные элементы — триггеры, из которых состоят микросхемы ЭВМ, могут находиться только в двух рабочих состояниях.

С помощью двоичной системы кодирования можно зафиксировать любые данные и знания. Это легко понять, если вспомнить принцип кодирования и передачи информации с помощью азбуки Морзе. Телеграфист, используя только два символа этой азбуки — точки и тире, может передать практически любой текст.

Двоичная система удобна для компьютера, но неудобна для человека: числа получаются длинными и их трудно записывать и запоминать. Конечно, можно перевести число в десятичную систему и записывать в таком виде, а потом, когда понадобится перевести обратно, но все эти переводы трудоёмки. Поэтому применяются системы счисления, родственные двоичной — восьмеричная и шестнадцатеричная. Для записи чисел в этих системах требуется соответственно 8 и 16 цифр. В 16-теричной первые 10 цифр общие, а дальше используют заглавные латинские буквы. Шестнадцатеричная цифра A соответствует десятеричному числу 10, шестнадцатеричная B – десятичному числу 11 и т. д. Использование этих систем объясняется тем, что переход к записи числа в любой из этих систем от его двоичной записи очень прост. Ниже приведена таблица соответствия чисел, записанных в разных системах.

Таблица 3. Соответствие чисел, записанных в различных системах счисления

Источник

Поделиться с друзьями
Моя стройка
Adblock
detector