Вероятностный подход измерения представления информации



Вероятностный и алфавитный подходы к измерению ин­формации. Единицы измерения информации. Скорость передачи информации. Пропускная способность канала связи.

Понятие информации. Виды информационных процес­сов. Поиск и систематизация информации. Хранение ин­формации; выбор способа хранения информации. Пере­дача информации в социальных, биологических и технических системах.

С развитием теории информации, кибернетики, информа­тики как науки понятие «информация»(от латинского infor-matio — сведения, разъяснения), наряду с понятиями «веще­ство», «энергия», «пространство» и «время» легло в основу современной научной картины мира. В то же время однознач­ного определения этого понятия пока не существует.

Все подходы к феномену информации имеют право на су­ществование и исследуются в соответствующих областях на­уки. «В информатике информацию можно рассматривать как продукт взаимодействия данных и методов их обработ­ки, адекватных решаемой задаче».

В учебниках информатики в общем виде информацион­ный процессопределяется как совокупность действий, про­водимых над информацией для получения какого-либо ре­зультата. В настоящее время выделены типовые действия над информацией, общие для различных систем: обработка, передача, хранение.

Процесс обработки информацииможет представлять со­бой:

Поиск и отборинформации в различных источниках. Поиск информации отнесен к процессу обработки, по­скольку при его осуществлении, независимо от того, осуществляется это вручную или с помощью компью­тера, происходит процесс идентификации имеющейся (найденной) информации с требуемой в соответствии с определенными критериями поиска. По такому же принципу происходит отбор необходимой информа­ции.

Получение новой информации.При решении задач любой дисциплины человек, обрабатывая имеющиеся исходные данные в соответствии с требуемым результа­том, получает некоторую новую информацию. Интерп­ретация исходных данных может быть у каждого своя, результат по смыслу схожим, но в любом случае полу­чается новая информация.

Получение новой по содержанию информации из исход­ной информации возможно путем как математических вычислений, так и логических рассуждений.

Структурированиеозначает изменение формы инфор­мации без изменения ее содержания. Если процесс об­работки информации связан с тем, что ее содержание не изменяется, а изменяется только форма представле­ния, то происходит упорядочивание, систематизация, или структурирование информации.

Кодирование(упаковка) информации. В настоящее время достаточно распространен процесс кодирования, т. е. преобразования информации из одной символьной формы в другую, удобную для ее обработки, хранения или передачи. К этой деятельности можно отнести упа­ковку (архивирование), шифрование с использованием различных алгоритмов.

Процесс передачи информациипредставляет собой со­здание копии информации на расстоянии от исходного мес­та хранения. В процессе передачи информации обязательно участвуют источники приемник информации.Между ними действует канал связи. Впроцессе передачи информация может теряться или искажаться — случайно или намерен­но. На устранение этого могут быть направлены методы за­щиты при передаче информации. Передача информации в социальных, биологических и технических системах с точ­ки зрения информатики осуществляется по общей схеме: источник-канал-приемник. Различие в том, что в таких сис­темах понимают под информацией. «В социальных науках под информацией понимают сведения, данные понятия, от­раженные в нашем сознании и изменяющие наши представ­ления о реальном мире. Эту информацию, передающуюся в человеческом обществе и участвующую в формировании об­щественного сознания, называют социальной информацией. Инженеры, биологи, генетики, психологи отождествляют информацию с теми сигналами, импульсами, кодами, кото­рые наблюдают в технических и биологических системах. Содержание принимаемых и обрабатываемых сигналов ин­женера не интересует» [3], а генетиков и биологов может ин­тересовать.

К процессу хранения информацииможно отнести: • Размещение (накопление).Информация, полученная в результате поиска, размещается на каком-либо носите­ле информации, происходит ее накопление. Процесс, в результате которого информация оказывается на носи­теле в виде, пригодном для последующего извлечения, называется размещением. Таким образом, мы создаем некоторый информационный ресурс.Основное отли­чие информационных ресурсов от других видов ресур­сов состоит в том, что информация после их использо­вания не исчезает. Поэтому важнейшей задачей является создание таких хранилищ информации, кото­рые совмещали бы процессы защиты, структурирова­ния, поиска, извлечения, передачи в автоматическом режиме для увеличения доступности информации.

Коррекцию.Информация в хранилищах нуждается в коррекции по различным причинам, таким как: меха­нические повреждения или изменения свойств носите­ля, устаревание информации, модернизация структу­ры для оптимизации доступа к информации и пр. С этой целью выполняется процесс коррекции информа­ции.

Доступ.Организация оптимального доступа к различ­ной по ценности информации с использованием проце­дур защиты от несанкционированного доступа может быть отнесена к процессу хранения.

Понятие о кодировании информации. Выбор способа представления информации в соответствии с поставлен­ной задачей. Универсальность дискретного (цифрового) представления информации. Двоичное кодирование.

Информация никогда не появляется в «чистом виде», она всегда как-то представлена, в каком-либо формализованном (закодированном) виде. Одна и та же информация может быть представлена различными способами. От того, как представлена информация, зависит очень многое, от воз­можной интерпретации до возможности ее технической об­работки. Так что в практических задачах важно выбрать тот способ представления информации, который наиболее удо­бен и адекватен решаемой задаче.

В настоящее время достаточно распространен процесс ко­дирования,т. е. преобразование информации из одной зна­ковой формы в другую, удобную для ее обработки, хранения или передачи. Используемый для кодирования конечный набор знаков называют алфавитом. Кодирование осуществ­ляется по принятым правилам. Правило кодирования назы­вается кодом(от французского code — кодекс, свод зако­нов). Длина кода — количество знаков алфавита, используе­мое для кодирования.

Многие годы человечество работало с информацией, преж­де чем был изобретен компьютер. С появлением компьютера стало возможным автоматизировать процессы обработки, передачи и хранения информации. При кодировании инфор­мации для технических устройств удобно использовать ал­фавиты, состоящие всего из двух знаков. Такие алфавиты называют двоичными. Чем меньше знаков в алфавите, тем проще должна быть устроена «машина» для распознавания (дешифровки) информационного сообщения. Однако чем ме­ньше знаков в алфавите, тем большее их количество требу­ется для кодирования, следовательно, тем больше длина кода. Легко рассчитать количество М элементарных сообще­ний, которые можно закодировать, используя код постоян­ной длины п и алфавит из R знаков: М = R n . Длину кода рассчитывают по формуле п = [logRM + 1]. Если мы исполь­зуем двоичный алфавит, то М = 2 п .

При конструировании компьютеров был выбран двоичный алфавит <0, 1>, что позволило использовать достаточно про­стые устройства для представления и автоматического распо­знавания программ и данных. Именно простота сделала этот принцип кодирования таким распространенным. Наряду с этим свойством двоичное кодирование обеспечивает удобство физической реализации, универсальность представления лю­бого вида информации, уменьшение избыточности сообще­ния, обеспечение защиты от случайных искажений или не­желательного доступа. Наиболее распространены кодировки компьютерных символов: ASCII, Winl251, КОИ-8.

Вероятностный и алфавитный подходы к измерению ин­формации. Единицы измерения информации. Скорость передачи информации. Пропускная способность канала связи.

Различные подходы к измерению количества информа­ции в сообщении определяются различием подходов к опре­делению самого понятия «информация».

Чтобы измерить что-либо, необходимо ввести единицу из­мерения. Минимальная единица измерения информации — бит.Смысл данной единицы также различен в рамках раз­ных подходов к измерению информации. Выделяют три подхода.

1. Неизмеримость информации в бытуЕсли в сообщении содержалось для вас что-то новое, то оно информативно. Но для другого человека в этом же сооб­щении нет ничего нового, для него оно не информативно. Это происходит оттого, что до получения данного сообщения знания каждого из нас были различны. Фактор субъектив­ного восприятия сообщения делает невозможным количест­венную оценку информации в сообщении, т. е. если рассмат­ривать количество полученной информации с точки зрения новизны для получателя, то измерить её невозможно.

2. Вероятностный, или содержательный подходПопытаться объяснить данный подход можно, допустив, что для каждого человека можно условно выделить (напри­мер, в виде окружности) область его знания. Всё, что будет находиться за пределами окружности, можно назвать информа­ционной неопределенностью. Постепенно, в процессе обучения или иной деятельности происходит переход от незнания к зна­нию, т. е. неопределенность уменьшается. Именно такой под­ход к информации как мере уменьшения неопределенности знанияпозволяет ее количественно оценить (измерить).

Сообщение, уменьшающее неопределенность знания в 2 раза, несет один бит информации.

Например: при подбрасывании монеты может выпасть либо «орел», либо «решка». Это два возможных события. Они равновероятны. Сообщение о том, что произошло одно из двух равновероятных событий (например, выпала «реш­ка»), уменьшает неопределенность нашего знания (перед броском монеты) в два раза.

Математики рассматривают идеальный вариант, что воз­можные события равновероятны. Если даже события нерав­новероятны, то возможен подсчет вероятности выпадения каждого события.

Под неопределенностью знания здесь понимают количе­ство возможных событий, их может быть больше, чем два.

Например, количество оценок, которые может получить студент на экзамене, равно четырем. Сколько информации содержится в сообщении о том, что он получил «4»? Рассуж­дая, с опорой на приведенное выше определение, можем сказать, что если сообщение об одном из двух возможных событий несет 1 бит информации, то выбор одного из четы­рех возможных событий несет 2 бита информации. Можно прийти к такому выводу, пользуясь методом половинного деления. Сколько вопросов необходимо задать, чтобы выяс­нить необходимое, столько битов и содержит сообщение. Во­просы должны быть сформулированы так, чтобы на них можно было ответить «да» или «нет», тогда каждый из них будет уменьшать количество возможных событий в 2 раза.

Очевидна связь количества возможных равновероятных событий и количества информации:

Заполним по формуле таблицу:

Количество битов
Количество событий

Это формула Р. Хартли. Если р = 1/N — вероятность на­ступления каждого из N равновероятных событий, тогда формула Хартли записыватся так:

Чтобы пользоваться рассмотренным подходом, необходи­мо вникать в содержание сообщения. Это не позволяет ис­пользовать данный подход для кодирования и передачи ин­формации с помощью технических устройств.

3. Алфавитный подход к измерению информации. Подход основан на подсчете числа символов в сообщении. Этот подход не связывает количество информации с содержа­нием сообщения, позволяет реализовать передачу, хранение и обработку информации с помощью технических устройств, не теряя при этом содержания (смысла) сообщения.

Алфавитлюбого языка включает в себя конечный набор символов. Исходя из вероятностного подхода к определению количества информации, появление символов алфавита в тексте можно рассматривать как различные возможные со­бытия. Количество таких событий (символов) N называют мощностью алфавита. Тогда количество информации i, ко­торое несет каждый из JV символов, согласно вероятностно­му подходу определяется из формулы: N=2 i

Количество символов в тексте из k символов: I=k*i

Алфавитный подход является объективным способом из­мерения информации и используется в технических устрой­ствах.

Дата добавления: 2016-02-16 ; просмотров: 4736 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Источник

Вероятностный подход измерения информации

Информация нуждается в измерении. На практике количество информации измеряется с точки зрения синтаксической адекватно­сти. Исторически сложились два подхода к измерению информации: вероятностный и объемный. В 1940-х гг. К. Шеннон предложил ве­роятностный подход, а работы по созданию ЭВМ способствовали развитию объемного подхода.

Рассмотрим вероятностный подход к измерению количества ин­формации.

Пусть системаа может принимать одно из N состояний в каждый момент времени, причем каждое из состояний равновероятно. На­пример, в качестве системы могут выступать опыты с подбрасывани­ем монеты (N = 2) или бросанием игральной кости (N= 6).Количество информации системы а вычисляется по формуле, предложенной Р. Хартли:H = H(a) = log2N= lnN/ln2.При N =2 количество информации минимально и равно Н = 1. Поэтому в качестве единицы информации принимается количество информации, связанное с двумя равновероятными состояниями системы, например: «орел» — «решка», «ложь» — «истина». Такая еди­ница количества информации называется бит.Введем понятие вероятности. Вероятность событияА — это от­ношение числа случаев М, благоприятствующих событию А, к обще­му количеству случаев N:

Пример 1.Найти вероятность выпадения числа 6 при бросании кости.Решение. Всего граней у кости N = 6. Число 6 присутствует только на одной грани.

Следовательно, вероятность выпадения числа 6 при бросании кости: Р=M/N/

Пример 2.Найти вероятность выпадения числа, большего 3, при бросании кости.

Решение. Всего граней у кости N = 6. Чисел, больших 3, на гранях кости М= 3.

Следовательно, вероятность выпадения числа, большего 3, при бросании кости: P=M/N=3/6=1/2. Если N состояний системы не равновероятны, т.е. система на­ходится в i-м состоянии с вероятностью Pi и при этом все состояния системы образуют полную группу событий, т.е. сумма вероятностей равна: , то используются следующие формулы, предложенные Шенноном. Для определения количества информации:a)в одном (i-м) состоянии системы H=Log2 (1/ );b)среднего количества информации во всех состояниях системы:

H=-

Из приведенных выражений следует, что количество информации максимально, если состояния системы равновероятны.

Объемный подход

Объем данных V в сообщении измеряется количеством символов (разрядов) в этом сообщении. В информатике в основном использу­ется двоичная система счисления, т.е. все числа представляются двумя цифрами: 0 и 1. Поэтому минимальной единицей измерения данных является бит. Таким образом, 1 бит — это либо 0, либо 1. Элемент, принимающий всего два значения, называется двухпози­ционным и просто реализуется аппаратно: например, двумя состоя­ниями «включено» —«выключено», «ток есть» —«ток отсутствует».

Более подробно о системах счисления будет рассказано позже.

Наряду с битом используется укрупненная единица измерения — байт, равная 8 бит.При кодировании информации по Y разрядам с помощью X символов количество возможных различных комбинаций N определяется по формуле N=X y (этосоотношение определяет число размещений с повторениями). При двоичном кодировании (Х=2) количество возможных различных комбинаций N определяется по формуле N=2 Y .

Напомним таблицы размерностей:

1 бит — самая маленькая единица информации — условно один «О» или одна «1».

1 байт = 8 бит (8 = 2 3 ); в международной системе кодов ASCII (AmtricanStandardCodeforInformationInterchange, Американский стандартный код обмена информацией) каждый символ кодировался одним байтом, чтопозволяло закодировать = 256 символов, чего на первых порах хватало. Сейчас происходит переход к кодировке Unicode, где каждый символ кодируется двумя байтами, что позволяет кодировать 2 16 = 65536 символов, многократно увеличивая возможности кодирования.

1 Кбайт (килобайт) = 1024 байт (2 10 байт). По этому поводу есть анекдот, что физик думает, что в одном килобайте 1000 байт, а программист — что в одном килограмме 1024 грамма.

1 Мбайт (мегабайт) = 1024 Кбайта (2 10 Кбайт или 2 20 байт).

1 Гбайт (гигабайт)=1024 Мбайта (2 10 Мбайт или 2 30 байт).

1 Тбайт (терабайт)=1024 Гбайта (2 10 Гбайт или 2 40 байт).

В недалеком будущем нас ожидают:

1 Пбайт (петабайт) =1024 Тбайта (2 10 Тбайт или 2 50 байт).

1 Эбайт (экзабайт) =1024 Пбайта (2 10 Пбайт или 2 60 байт).

1 Збайт (зеттабайт) =1024 Эбайта (2 10 Эбайт или 2 70 байт).

1 Йбайт (йоттабайт) =1024 Збайта (2 10 Збайт или 2 80 байт)

Пример 2.8.Сообщение в двоичной системе счисления 10010010 имеет объем данных V = 8 бит. Этот объем данных представляется 1 байтом.

Для удобства использования введены и более крупные единицы объема данных:

1 024 байт = 1 килобайт (Кбайт);

1 024 Кбайт = 1 мегабайт (Мбайт) = 1 024 2 байт = 1048 576 байт;

1 024 Мбайт = 1 гигабайт (Гбайт) = 1 024 3 байт;

1 024 Гбайт = 1 терабайт (Тбайт) = 1 024 4 байт;

1 024 Тбайт = 1 пентабайт (Пбайт) = 1 024 5 байт.

Общий объем информации в книгах, цифровых и аналоговых но­сителях за всю историю человечества составляет по оценкам 10 18 байт. Зато следующие 10 18 байт будут созданы в течение пяти —семи лет.

Отличие объема данных от количества информации заключается в следующем: объем данных выражается только целыми значениями, а количество информации — вещественными.

Формулу Хартли можно использовать для определения объема данных. При этом результат округляется в большую сторону, так как минимальной ячейкой памяти в ЭВМ является байт. Поэтому, заняв только часть байта (его несколько бит), оставшаяся часть байта не используется.

Пример 2.9.В сообщениях используются только первые шесть букв латинского алфавита: А, В,С, D, Е, F.Сколько байт необходи­мо для хранения сообщения «AABBCCD»?

Решение. Определим, сколько бит необходимо для хранения одной буквы по формуле Хартли:

Результат округлим в большую сторону, следовательно:

Тремя битами можно представить 8 комбинаций: ООО, 001, 010, 011, 100, 101, 110, 111. Для кодирования шести букв используются первые шесть комбинаций, а две последние комбинации не используются.

Для сообщения, состоящего из М = 7 букв, необходимо

Vc = М*Vb = 7 • 3 = 21 бит = 2,625 байт.

Результат вновь округлим в большую сторону:

Информатика и ее структура

Информатика — это наука и вид практической деятельности, связанные с процессами обработки информации с помощью вычис­лительной техники.

Термин «информатика» произошел от слияния двух французских слов information (информация) и automatique (автоматика) и до­словно определял новую науку об «автоматической обработке инфор­мации». В англоязычных странах информатика называется computerscience (наука о компьютерной технике).

Информатика представляет собой единство разнообразных от­раслей науки, техники и производства, связанных с переработкой информации с помощью вычислительной техники и телекоммуника­ционных средств связи в различных сферах человеческой деятель­ности.

Основная задача информатики заключается в определении общих закономерностей процессов обработки информации: создания, пере­дачи, хранения и использования в различных сферах человеческой деятельности. Прикладные задачи связаны с разработкой методов, необходимых для реализации информационных процессов с исполь­зованием технических средств.

Информатика включает в себя следующие разделы.

I. Теоретическая информатика.Это часть информатики, вклю­чающая в себя ряд подразделов, тесно связанных с другой наукой — математикой. В теории информации и кодирования изучается ин­формация как таковая, ее свойства, способы измерения количества информации. Областью исследования теории алгоритмов и автоматов являются методы переработки информации с помощью вычислитель­ных систем. Теория формальных языков и грамматик рассматривает правила построения простейших языков с небольшим числом син­таксических конструкций, называемых языками программирования. Теория принятия решений и исследования операций связана с ис­пользованием информации для принятия решений и оценки их опти­мальности. Теоретическая информатика использует математические методы для общего изучения процессов обработки информации.

II. Вычислительная техника.Это раздел, включающий в себя общие принципы построения вычислительных систем. Примером вычислительной системы является персональный компьютер, или ЭВМ. Этот раздел не связан с вопросами физической разработки, реализации и производства элементов вычислительных систем. Здесь рассматривается архитектура вычислительных систем— соглаше­ние о составе, назначении, функциональных возможностях и прин­ципах взаимодействия элементов внутри вычислительных систем и вычислительной системы с другими устройствами. Примерами прин­ципиальных, ставших классическими решений в этой области явля­ются архитектура фон Неймана компьютеров первых поколений, шинная архитектура ЭВМ, архитектура параллельной или многопро­цессорной обработки информации.

III. Программирование.Это деятельность, направленная на раз­работку программного обеспечения вычислительной техники. Про­граммирование делится на разделы, связанные с разработкой соот­ветствующих типов программного обеспечения. Программное обе­спечение, непосредственно управляющее составными частями вычислительной техники, называется системным. Системный уровень программного обеспечения составляют операционные системы. Слу­жебное программное обеспечение— это архиваторы, антивирусы, программы управления файлами и папками. Служебное программное обеспечение предназначено для выполнения некоторых вспомога­тельных функций. Прикладное программное обеспечение— это программы для решения большинства задач пользователя. Приклад­ное программное обеспечение включает в себя офисные, графиче­ские, справочные программы, среды разработки программ и др.

IV. Информационные системы.Это раздел информатики, свя­занный с решением проблем анализа потоков информации в раз­личных сложных системах, их оптимизации, структурировании, принципах хранения и поиска информации по запросу пользователя. Примерами информационных систем являются информационно­справочные, информационно-поисковые, глобальные системы или сети хранения и поиска информации.

V. Искусственный интеллект.Это область информатики, в ко­торой решаются сложнейшие проблемы, находящиеся на пересечении с психологией, физиологией, языкознанием и другими науками. Исторически сложились три основных направления развития систем искусственного интеллекта. Целью работ первого направления явля­ется создание алгоритмического и программного обеспечения вы­числительных машин, позволяющего решать интеллектуальные за­дачи не хуже человека. В рамках второго подхода объектом исследо­ваний являются структура и механизмы работы мозга человека, а конечная цель заключается в моделировании функционирования.

Источник

Поделиться с друзьями
Моя стройка
Adblock
detector