Меню

Единица измерения семантической меры информации это



Электронная библиотека

Как уже отмечалось, если принять во внимание только свойство информации, связанное с ее смысловым содержанием, то при определении понятия информации можно ограничиться смысловым, или семантическим, уровнем рассмотрения этого понятия.

На семантическом уровне информация рассматривается по ее содержанию, отражающему состояние отдельного объекта или системы в целом. При этом не учитывается ее полезность для получателя информации. На данном уровне изучаются отношения между знаками, их предметными и смысловыми значениями, что позволяет осуществить выбор смысловых единиц измерения информации. Поскольку смысловое содержание информации передается с помощью сообщения, т. е. в виде совокупности знаков (символов), передаваемых с помощью сигналов от источника информации к приемнику, то широкое распространение для измерения смыслового содержания информации получил подход, основанный на использовании тезаурусной меры. При этом под тезаурусом понимается совокупность априорной информации (сведений), которой располагает приемник информации.

Данный подход предполагает, что для понимания (осмысливания) и использования полученной информации приемник (получатель) должен обладать априорной информацией (тезаурусом), т. е. определенным запасом знаков, наполненных смыслом слов, понятий, названий явлений и объектов, между которыми установлены связи на смысловом уровне. Таким образом, если принять знания о данном объекте или явлении за тезаурус, то количество информации, содержащееся в новом сообщении о данном предмете, можно оценить по изменению индивидуального тезауруса под воздействием данного сообщения. В зависимости от соотношений между смысловым содержанием сообщения и тезаурусом пользователя изменяется количество семантической информации, при этом характер такой зависимости не поддается строгому математическому описанию и сводится к рассмотрению трех основных условий, при которых тезаурус пользователя:

1) стремится к нулю, т. е. пользователь не воспринимает поступившее сообщение;

2) стремится к бесконечности, т. е. пользователь досконально знает все об объекте или явлении, и поступившее сообщение его не интересует;

3) согласован со смысловым содержанием сообщения, т. е. поступившее сообщение понятно пользователю и несет новые сведения.

Два первых предельных случая соответствуют состоянию, при котором количество семантической информации, получаемое пользователем, минимально. Третий случай связан с получением максимального количества семантической информации. Таким образом, количество семантической информации, получаемой пользователем, является величиной относительной, поскольку одно и то же сообщение может иметь смысловое содержание для компетентного и быть бессмысленным для некомпетентного пользователя.

Поэтому возникает сложность получения объективной оценки количества информации на семантическом уровне ее рассмотрения и для получения такой оценки используют различные единицы измерения количества информации: абсолютные или относительные. В качестве абсолютных единиц измерения могут использоваться символы, реквизиты, записи и т. д., а в качестве относительной – коэффициент содержательности, который определяется как отношение семантической информации к ее объему. Например, для определения на семантическом уровне количества информации, полученной студентами на занятиях, в качестве единицы измерения может быть принят исходный балл (символ), характеризующий степень усвояемости ими нового учебного материала, на основе которого можно косвенно определить количество информации, полученное каждым студентом. Это количество информации будет выражено через соответствующий оценочный балл в принятом диапазоне оценок.

При семантическом подходе к оценке количества информации и выборе единицы измерения существенным является вид получаемой информации (сообщения).

Так, данный подход к оценке количества экономической информации позволяет выявить составную единицу экономической информации, состоящую из совокупности других единиц информации, связанных между собой по смыслу. Элементарной составляющей единицей экономической информации является реквизит, т. е. информационная совокупность, которая не поддается дальнейшему делению на единицы информации на смысловом уровне. Деление реквизитов на символы приводит к потере их смыслового содержания. Каждый реквизит характеризуется именем, значением и типом. При этом под именем реквизита понимается его условное обозначение, под значением – величина, характеризующая свойства объекта или явления в определенных обстоятельствах, под типом – множество значений реквизита, объединенных определенными признаками и совокупностью допустимых преобразований.

Реквизиты принято делить на реквизиты-основания и реквизиты-признаки.

Реквизиты-основания характеризуют количественную сторону экономического объекта, процесса или явления, которые могут быть получены в результате совершения отдельных операций – вычислений, измерений, подсчета натуральных единиц и т. д. В экономических документах к ним можно отнести, например, цену товара, его количество, сумму и т. п. Реквизиты-основания чаще всего выражаются в цифрах, над которыми могут выполняться математические операции.

Реквизиты-признаки отражают качественные свойства экономического объекта, процесса или явления. С помощью реквизитов-признаков сообщения приобретают индивидуальный характер. В экономических документах к ним можно отнести, например, номер документа, имя отправителя, дату составления документа, вид операции и т. п. Реквизиты-признаки позволяют осуществлять логическую обработку единиц количества информации на семантическом уровне: поиск, выборку, группировку, сортировку и т. д.

Отдельный реквизит-основание вместе с относящимися к нему реквизитами-признаками образует следующую в иерархическом отношении составную единицу экономической информации – показатель. Показатель имеет наименование, в состав которого входят термины, обозначающие измеряемый объект: себестоимость, затраты, мощность, прибыль и т. д. Кроме того, показатель содержит формальную характеристику и дополнительные признаки. К формальной характеристике относится способ его получения (объем, сумма, прирост, процент, среднее значение и т. д.), а к дополнительным – пространственно-временные (где находится измеряемый объект, время, к которому относится данный показатель) и метрологические (единицы измерения).

Таким образом, с помощью совокупности реквизитов и соответствующих им показателей можно оценить количество экономической информации, получаемой от исследуемого объекта (источника информации).

Кроме подхода, основанного на использовании тезаурусной меры, при определении количества информации на семантическом уровне находят применение и другие подходы. Например, один из подходов, связанных с семантической оценкой количества информации, заключается в том, что в качестве основного критерия семантической ценности информации, содержащейся в сообщении, принимается количество ссылок на него в других сообщениях. Количество получаемой информации определяется на основе статистической обработки ссылок в различных выборках.

Подводя итог сказанному, можно утверждать, что существовала и существует проблема формирования единого системного подхода к определению информации на семантическом уровне. Это подтверждается и тем, что в свое время для создания строгой научной теории информации К. Шеннон вынужден был отбросить важное свойство информации, связанное со смысловым ее содержанием.

Срочно?
Закажи у профессионала, через форму заявки
8 (800) 100-77-13 с 7.00 до 22.00

Источник

Семантическая мера информации

Классификация мер

Меры информации

Формы адекватности информации

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов её представления, надежность и точность преобразования этих кодов и т. п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, т.к. при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность.Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватностьотражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Прагматические свойства информации проявляются только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели.

Для измерения информации вводятся два параметра: количество информации I и объем данных V. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Объем данных Vд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

  • в двоичной системе счисления единица измерения — бит (bit — binary digit — двоичный разряд);
  • в десятичной системе счисления единица измерения — дит (десятичный разряд).


Рис. 2.1. Меры информации

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию Ib(a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала Hb(a).

Тогда количество информации Ib(a) о системе, полученной в сообщении b, определится как

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность системы Hb(a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Ib(a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна

,

где Pi — вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi = , ее энтропия определяется соотношением

.

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

где N — число всевозможных отображаемых состояний;

m — основание системы счисления (разнообразие символов, применяемых в алфавите);

n — число разрядов (символов) в сообщении.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Читайте также:  Оборудование для измерения атмосферного давления

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Источник

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства со способностью пользователя принимать поступившие сообщения. Для этого используется понятие тезаурус пользователя.

Тезаурус –это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан нарисунке 5. Рассмотрим два предельных случая, когда количество семантической информации Icравно :

· При Sp » 0 пользователь не воспринимает, не понимает поступающую информацию;

· При Sp® ¥ пользователь все знает, и поступающая информация ему не нужна.

Sp opt Sp

Рисунок 5.

Зависимость количества семантической информации, воспринимаемой

потребителем, от его тезауруса Ic = f(SP)

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом SP (SP = SP opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и тоже сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера величина также относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Пример.В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

где: Inb (g) – ценность информационного сообщения b для системы управления g,

П(g) априорный ожидаемый экономический эффект функционирования системы управления g,

П(g /b)– ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащиеся в сообщении b.

Для сопоставления введенные меры информации представим в таблице 2.

Таблица 2. Единицы измерения информации и примеры

Мера информации Единицы измерения Примеры (для компьютерной области)
Синтаксическая: шенноновский подход; компьютерный подход. Степень уменьшения неопределенности. Единицы представления информации. Вероятность события. Бит, байт, Кбайт, и т.д.
Семантическая Тезаурус Экономические показатели Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д. Рентабельность, производительность, коэффициент амортизации и т.д.
Прагматическая Ценность использования Емкость памяти, производительность компьютера, скорость передачи данных и т.д. Денежное выражение. Время обработки информации и принятия решений.

Системы счисления

С незапамятных времен людям приходилось выполнять элементарные подсчеты, связанные с определением количества животных в стаде, числа убитых и раненых воинов, размера добычи охотника и т. п. Наиболее древние числительные – один, два, пять, десять, двадцать – обязаны своим происхождением самым естественным счетным приспособлениям – пальцам рук и ног.

Английский исследователь первобытной культуры Э. Тейлор описывает происхождение вычислительных терминов на примере языка племени таманакс Ориноко. Для обозначения «пятерки» у них применялось сочетание, означающее в переводе «целая рука». Число «шесть» представлялось как «один с другой руки». И так до числа «десять», звучавшего как «обе руки». Затем в ход шли пальцы ног – «один с ноги» (11), «один с другой ноги» (16), «один человек» (20). Для больших величин приходилось прибегать к аналогичным «разрядам» другого человека – «один с руки другого человека» (21), «два человека» (40) и т. д.

Аналогичная техника использования «пятерок» хорошо прослеживается на письменности индейцев майя. Их жрецы в своих календарных расчетах применяли следующие цифры и производные от них числа.

В древнем Египте привились более близкие нам числовые компоненты – единицы, десятки, сотни и тысячи.

Подобный способ счета заложил основу для аддитивных (от слова складывать – add) систем счисления, в которых число представляется в виде суммы стандартных слагаемых.

Так называемая римская система счисления представляет собой несколько более усложненную аддитивную модель:

1=I 5=V 10=X 50=L 100=C 500=D 1000=M 1972=MCMLXXII

Если меньшая числовая компонента находится справа, то она увеличивает значение предыдущего слагаемого (VI=V+I=6, XII+X+I+I=12), а если слева, то вместо прибавления приходится вычитать (IV=-1+V=4, IX=-1+X=9). И хотя запись чисел в римской системе не так уж сложна, но попробуйте перемножить CCXLVII на MMCDXI или хотя бы сложить эти два числа. А в десятичной системе такая же задача (247*2411) решается за несколько секунд.

Следующий шаг в математическом развитии человечества связан с появлением мультипликативных систем счисления. Теперь каждая цифра множится на некий весовой коэффициент, зависящий от нахождения цифры в числе. Одна из наиболее ранних попыток такого рода предпринималась жрецами майя, которые для записи больших чисел использовали формулу:

Здесь — одна из описанных выше цифр, принадлежащая диапазону . Выбор столь странных весовых коэффициентов объясняется тем, что жрецы делили год на 18 месяцев, каждый из которых насчитывал по 20 дней. В расшифрованных документах было обнаружено довольно большое число:

Появлению современной десятичной системы счисления предшествовали различные счетные приспособления, которыми люди пользовались для ускорения рыночных операций и более сложных рыночных расчетов. К ним относятся и примитивные кучки из камушков разного размера, и более удобные приспособления из доски, разделенные на отсеки со счетными шариками (абак). Кстати, латинское слово для обозначения счета «calculare» произошло от «calculus» – камень.

Одна и та же цифра в разных позициях числа имеет, естественно, разный вес.

Десятичная система, обязанная своим происхождением первобытным средствам счета, далеко не единственная, придуманная людьми. Отголоски системы с основанием 60 можно обнаружить в наших представлениях об измерении времени и угловых величин. В Нидерландах сохранилась тенденция к счету дюжинами. Однако десятичная система доминирует в мире людей. А вот в мире компьютеров с момента появления первой ЭВМ используется только двоичная система. За всю историю информатики известна единственная попытка построить ЭВМ, работающую в троичной системе счисления, она была сконструирована в МГУ и называлась «Сетунь».

Система счисления— это совокупность правил и при­емов записи чисел с помощью набора цифровых знаков (алфавита). Количество цифровых знаков называют ос­нованием системы счисления.

Различают два типа систем счисления:

позиционные,когда значение каждой цифры числа определяется ее местом (позицией) в записи числа;

непозиционные, когда значение цифры в числе не зависит от ее места в записи числа.

Примером непозиционной системы счисления являет­ся римская: XI, IV, XV и т.д. Примером позиционной системы счисления можно назвать десятичную систему, используемую повседневно.

Десятичная система счисления пришла в Европу из Индии, где она появилась не позднее VI века н.э. В этой системе 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, но информацию несет не только цифра, но и место, на котором цифра стоит (то есть ее позиция). В десятичной системе счисления особую роль играют число 10 и его степени: 10, 100, 1000 и т.д. Самая правая цифра числа показывает число единиц, вторая справа — число десятков, следующая — число сотен и т.д.

Двоичная система счисления. В этой системе всего две цифры — 0 и 1. Особую роль здесь играет число 2 и его степени: 2, 4, 8 и т.д. Самая правая цифра числа показывает число единиц, следующая цифра — число двоек, следующая — число четверок и т.д. Двоичная система счисления позволяет закодировать любое натуральное число — представить его в виде последовательности нулей и единиц. В двоичном виде можно представлять не только числа, но и любую другую информацию: тексты, картинки, фильмы и аудиозаписи. Инженеров двоичное кодирование привлекает тем, что легко реализуется технически.

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого.

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ — конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой.

Источник

Семантическая мера информации

Синтаксические меры количества информации в общем случае не могут быть непосредственно использованы для измерения смыслового содержания, ибо имеют дело с обезличенной информацией, не выражающей смыслового отноше­ния к объекту.

Для измерения смыслового содержания информации, то есть ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера ин­формации, предложенная Ю. И. Шрейдером, которая связывает семантиче­ские свойства информации со способностью пользователя воспринимать посту­пившее сообщение. Тезаурус пользователя можно трактовать как совокупность сведений, которыми располагает данная система, пользователь.

В зависимости от соотношений между смысловым содержанием информации — S* и тезаурусом пользователя — SП, изменяется количество семантической ин­формации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус:

  • при SП≈0 пользователь не воспринимает, не понимает поступающую инфор­мацию;
  • при SП®∞ пользователь все знает и поступающая информация ему не нуж­на.

И в том, и в другом случае IС ≈0.

Максимальное значение IС приобретает при согласовании S* с тезаурусом SП (SП = 5П opt — см.рис), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количест­во новых знаний, получаемых пользователем, является величиной относитель­ной: одно и то же сообщение может иметь смысловое содержание для компе­тентного пользователя и быть бессмысленным (семантическим шумом) для пользователя некомпетентного. Вместе с тем понятная, но известная компетент­ному пользователю информация представляет собой для него тоже семантиче­ский шум.

Читайте также:  Прибор для измерения давления природного газа

При разработке информационного обеспечения систем управления следует стре­миться к согласованию величин S* и SП так, чтобы циркулирующая в системе ин­формация была понятна, доступна для восприятия и обладала наибольшей со­держательностью S, то есть S=IС/VД.

Источник

Семантическая мера информации

Классификация мер

Меры информации

Формы адекватности информации

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов её представления, надежность и точность преобразования этих кодов и т. п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, т.к. при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность.Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватностьотражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Прагматические свойства информации проявляются только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели.

Для измерения информации вводятся два параметра: количество информации I и объем данных V. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Объем данных Vд в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

  • в двоичной системе счисления единица измерения — бит (bit — binary digit — двоичный разряд);
  • в десятичной системе счисления единица измерения — дит (десятичный разряд).


Рис. 2.1. Меры информации

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию Ib(a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала Hb(a).

Тогда количество информации Ib(a) о системе, полученной в сообщении b, определится как

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность системы Hb(a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Ib(a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна

,

где Pi — вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi = , ее энтропия определяется соотношением

.

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

где N — число всевозможных отображаемых состояний;

m — основание системы счисления (разнообразие символов, применяемых в алфавите);

n — число разрядов (символов) в сообщении.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Источник

ЦП Автоматизированные системы управления и промышленная безопасность

БК Автоматизированные системы управления и кибернетика

2. Меры и единицы представления, измерения и хранения информации

Количественные характеристики информации

Классификация мер информации представлена на рис.1.

Рис. 1. Классификация мер информации

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации.

Существуют два основных подхода в определении количества информации. Исторически они возникли почти одновременно. В конце 40-х г. XX века один из основоположников кибернетики, американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Объём данных (VД) понимается в техническом смысле этого слова как информационный объём сообщения или как объём памяти, необходимый для хранения сообщения без каких-либо изменений.

Информационный объём сообщения измеряется в битах и равен количеству двоичных цифр (“0” и “1”), которыми закодировано сообщение.

В компьютерной практике слово “бит” используется также как единица измерения объёма памяти. Ячейка памяти размером в 1 бит может находиться в двух состояниях (“включено” и “выключено”) и в неё может быть записана одна двоичная цифра (0 или 1). Понятно, что бит – слишком маленькая единица измерения информации, поэтому пользуются кратными ей величинами. Основной единицей измерения информации является байт. 1 байт равен 8 битам. В ячейку размером в 1 байт можно поместить 8 двоичных цифр, то есть в одном байте можно хранить 256 = 2 8 различных чисел. Для измерения ещё больших объёмов информации используются следующие величины:

1 Кбайт (один килобайт) = 2 10 байт = 1024 байта (1 kB );

1 Мбайт (один мегабайт) = 2 10 Кбайт = 1024 Кбайта (1 MB );

1 Гбайт (один гигабайт) = 2 10 Мбайт = 1024 Мбайта (1 GB );

1 Тбайт (один терабайт) = 2 10 Гбайт = 1024 Гбайта (1 TB );

1 Пбайт (один петабайт) = 2 10 Тбайт = 1024 Тбайта (1 PB );

1 Эбайт (один эксабайт) = 2 10 Пбайт = 1024 Пбайта (1 EB );

1 Збайт (один зеттабайт) = 2 10 Эбайт = 1024 Эбайта (1 ZB );

1 Йбайт (один йоттабайт) = 2 10 Збайт = 1024 Збайта (1 YB ).

Пример 1 . При двоичном кодировании текста каждая буква, знак препинания, пробел занимают 1 байт. На странице книги среднего формата примерно 50 строк, в каждой строке около 60 символов, таким образом, полностью заполненная страница имеет объём 50×60= = 3000 байт ≈3 Килобайта. Вся книга среднего формата занимает ≈0,5 Мегабайт. Один номер четырёхстраничной газеты – 150 Килобайт. Если человек говорит по 8 часов в день без перерыва, то за 70 лет он наговорит около 10 Гигабайт информации. Один чёрно-белый кадр (при 32 градациях яркости каждой точки) содержит примерно 300Кб информации, цветной кадр содержит уже около 1Мб информации. Телевизионный фильм продолжительностью 1,5часа с частотой 25 кадров в секунду — 135 Гб.

При вероятностном подходе количество информации I на синтаксическом уровне определяется через понятие энтропии системы.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что неопределенность состояния системы после получения сообщения β стала Hβ(α).

Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность Hβ(α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации будет определяться как Iβ(α) = H(α). Иными словами, энтропия системы Н(а) может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где – вероятность того, что система находится в i-м состоянии. Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны , ее энтропия определяется соотношением:

Пример 2. Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передавать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N = m n ,где N – число всевозможных отображаемых состояний;

m – основание системы счисления (разнообразие символов, применяемых в алфавите);

n – число разрядов (символов) в сообщении.

Допустим, что по каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N = m n , то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет определяться по формуле Хартли:

I = log N = n log m

Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = VД, полученных по каналу связи.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя».

Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic,воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер зависимости количества семантической информации, воспринимаемой потребителем, от его тезауруса показан на рис. 2.

Читайте также:  Принципы измерения углов теодолит

Рис. 2. Характер зависимости количества семантической информации от его тезауруса

Рассмотрим два предельных случая, когда количество семантической информации Icравно 0:

• при пользователь не воспринимает и не понимает поступающую информацию;

• при пользователь все знает, и поступающая информация ему не нужна.

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, т.е. количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему: .

Прагматическая мера информации (аксиологический подход)

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера также является величиной относительной, обусловленной особенностями использования этой информации в той или иной системе.

Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Представим для сопоставления введённые меры информации в таб. 1.

Таб. 1. Меры информации

Источник

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства со способностью пользователя принимать поступившие сообщения. Для этого используется понятие тезаурус пользователя.

Тезаурус –это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан нарисунке 5. Рассмотрим два предельных случая, когда количество семантической информации Icравно :

· При Sp » 0 пользователь не воспринимает, не понимает поступающую информацию;

· При Sp® ¥ пользователь все знает, и поступающая информация ему не нужна.

Sp opt Sp

Рисунок 5.

Зависимость количества семантической информации, воспринимаемой

потребителем, от его тезауруса Ic = f(SP)

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом SP (SP = SP opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и тоже сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера величина также относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Пример.В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

где: Inb (g) – ценность информационного сообщения b для системы управления g,

П(g) априорный ожидаемый экономический эффект функционирования системы управления g,

П(g /b)– ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащиеся в сообщении b.

Для сопоставления введенные меры информации представим в таблице 2.

Таблица 2. Единицы измерения информации и примеры

Мера информации Единицы измерения Примеры (для компьютерной области)
Синтаксическая: шенноновский подход; компьютерный подход. Степень уменьшения неопределенности. Единицы представления информации. Вероятность события. Бит, байт, Кбайт, и т.д.
Семантическая Тезаурус Экономические показатели Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д. Рентабельность, производительность, коэффициент амортизации и т.д.
Прагматическая Ценность использования Емкость памяти, производительность компьютера, скорость передачи данных и т.д. Денежное выражение. Время обработки информации и принятия решений.

Системы счисления

С незапамятных времен людям приходилось выполнять элементарные подсчеты, связанные с определением количества животных в стаде, числа убитых и раненых воинов, размера добычи охотника и т. п. Наиболее древние числительные – один, два, пять, десять, двадцать – обязаны своим происхождением самым естественным счетным приспособлениям – пальцам рук и ног.

Английский исследователь первобытной культуры Э. Тейлор описывает происхождение вычислительных терминов на примере языка племени таманакс Ориноко. Для обозначения «пятерки» у них применялось сочетание, означающее в переводе «целая рука». Число «шесть» представлялось как «один с другой руки». И так до числа «десять», звучавшего как «обе руки». Затем в ход шли пальцы ног – «один с ноги» (11), «один с другой ноги» (16), «один человек» (20). Для больших величин приходилось прибегать к аналогичным «разрядам» другого человека – «один с руки другого человека» (21), «два человека» (40) и т. д.

Аналогичная техника использования «пятерок» хорошо прослеживается на письменности индейцев майя. Их жрецы в своих календарных расчетах применяли следующие цифры и производные от них числа.

В древнем Египте привились более близкие нам числовые компоненты – единицы, десятки, сотни и тысячи.

Подобный способ счета заложил основу для аддитивных (от слова складывать – add) систем счисления, в которых число представляется в виде суммы стандартных слагаемых.

Так называемая римская система счисления представляет собой несколько более усложненную аддитивную модель:

1=I 5=V 10=X 50=L 100=C 500=D 1000=M 1972=MCMLXXII

Если меньшая числовая компонента находится справа, то она увеличивает значение предыдущего слагаемого (VI=V+I=6, XII+X+I+I=12), а если слева, то вместо прибавления приходится вычитать (IV=-1+V=4, IX=-1+X=9). И хотя запись чисел в римской системе не так уж сложна, но попробуйте перемножить CCXLVII на MMCDXI или хотя бы сложить эти два числа. А в десятичной системе такая же задача (247*2411) решается за несколько секунд.

Следующий шаг в математическом развитии человечества связан с появлением мультипликативных систем счисления. Теперь каждая цифра множится на некий весовой коэффициент, зависящий от нахождения цифры в числе. Одна из наиболее ранних попыток такого рода предпринималась жрецами майя, которые для записи больших чисел использовали формулу:

Здесь — одна из описанных выше цифр, принадлежащая диапазону . Выбор столь странных весовых коэффициентов объясняется тем, что жрецы делили год на 18 месяцев, каждый из которых насчитывал по 20 дней. В расшифрованных документах было обнаружено довольно большое число:

Появлению современной десятичной системы счисления предшествовали различные счетные приспособления, которыми люди пользовались для ускорения рыночных операций и более сложных рыночных расчетов. К ним относятся и примитивные кучки из камушков разного размера, и более удобные приспособления из доски, разделенные на отсеки со счетными шариками (абак). Кстати, латинское слово для обозначения счета «calculare» произошло от «calculus» – камень.

Одна и та же цифра в разных позициях числа имеет, естественно, разный вес.

Десятичная система, обязанная своим происхождением первобытным средствам счета, далеко не единственная, придуманная людьми. Отголоски системы с основанием 60 можно обнаружить в наших представлениях об измерении времени и угловых величин. В Нидерландах сохранилась тенденция к счету дюжинами. Однако десятичная система доминирует в мире людей. А вот в мире компьютеров с момента появления первой ЭВМ используется только двоичная система. За всю историю информатики известна единственная попытка построить ЭВМ, работающую в троичной системе счисления, она была сконструирована в МГУ и называлась «Сетунь».

Система счисления— это совокупность правил и при­емов записи чисел с помощью набора цифровых знаков (алфавита). Количество цифровых знаков называют ос­нованием системы счисления.

Различают два типа систем счисления:

позиционные,когда значение каждой цифры числа определяется ее местом (позицией) в записи числа;

непозиционные, когда значение цифры в числе не зависит от ее места в записи числа.

Примером непозиционной системы счисления являет­ся римская: XI, IV, XV и т.д. Примером позиционной системы счисления можно назвать десятичную систему, используемую повседневно.

Десятичная система счисления пришла в Европу из Индии, где она появилась не позднее VI века н.э. В этой системе 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, но информацию несет не только цифра, но и место, на котором цифра стоит (то есть ее позиция). В десятичной системе счисления особую роль играют число 10 и его степени: 10, 100, 1000 и т.д. Самая правая цифра числа показывает число единиц, вторая справа — число десятков, следующая — число сотен и т.д.

Двоичная система счисления. В этой системе всего две цифры — 0 и 1. Особую роль здесь играет число 2 и его степени: 2, 4, 8 и т.д. Самая правая цифра числа показывает число единиц, следующая цифра — число двоек, следующая — число четверок и т.д. Двоичная система счисления позволяет закодировать любое натуральное число — представить его в виде последовательности нулей и единиц. В двоичном виде можно представлять не только числа, но и любую другую информацию: тексты, картинки, фильмы и аудиозаписи. Инженеров двоичное кодирование привлекает тем, что легко реализуется технически.

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого.

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ — конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой.

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.

Источник