Вероятностный и алфавитный подходы к измерению информации. Единицы измерения информации. Скорость передачи информации. Пропускная способность канала связи.
Понятие информации. Виды информационных процессов. Поиск и систематизация информации. Хранение информации; выбор способа хранения информации. Передача информации в социальных, биологических и технических системах.
С развитием теории информации, кибернетики, информатики как науки понятие «информация»(от латинского infor-matio — сведения, разъяснения), наряду с понятиями «вещество», «энергия», «пространство» и «время» легло в основу современной научной картины мира. В то же время однозначного определения этого понятия пока не существует.
Все подходы к феномену информации имеют право на существование и исследуются в соответствующих областях науки. «В информатике информацию можно рассматривать как продукт взаимодействия данных и методов их обработки, адекватных решаемой задаче».
В учебниках информатики в общем виде информационный процессопределяется как совокупность действий, проводимых над информацией для получения какого-либо результата. В настоящее время выделены типовые действия над информацией, общие для различных систем: обработка, передача, хранение.
Процесс обработки информацииможет представлять собой:
• Поиск и отборинформации в различных источниках. Поиск информации отнесен к процессу обработки, поскольку при его осуществлении, независимо от того, осуществляется это вручную или с помощью компьютера, происходит процесс идентификации имеющейся (найденной) информации с требуемой в соответствии с определенными критериями поиска. По такому же принципу происходит отбор необходимой информации.
• Получение новой информации.При решении задач любой дисциплины человек, обрабатывая имеющиеся исходные данные в соответствии с требуемым результатом, получает некоторую новую информацию. Интерпретация исходных данных может быть у каждого своя, результат по смыслу схожим, но в любом случае получается новая информация.
Получение новой по содержанию информации из исходной информации возможно путем как математических вычислений, так и логических рассуждений.
• Структурированиеозначает изменение формы информации без изменения ее содержания. Если процесс обработки информации связан с тем, что ее содержание не изменяется, а изменяется только форма представления, то происходит упорядочивание, систематизация, или структурирование информации.
• Кодирование(упаковка) информации. В настоящее время достаточно распространен процесс кодирования, т. е. преобразования информации из одной символьной формы в другую, удобную для ее обработки, хранения или передачи. К этой деятельности можно отнести упаковку (архивирование), шифрование с использованием различных алгоритмов.
Процесс передачи информациипредставляет собой создание копии информации на расстоянии от исходного места хранения. В процессе передачи информации обязательно участвуют источники приемник информации.Между ними действует канал связи. Впроцессе передачи информация может теряться или искажаться — случайно или намеренно. На устранение этого могут быть направлены методы защиты при передаче информации. Передача информации в социальных, биологических и технических системах с точки зрения информатики осуществляется по общей схеме: источник-канал-приемник. Различие в том, что в таких системах понимают под информацией. «В социальных науках под информацией понимают сведения, данные понятия, отраженные в нашем сознании и изменяющие наши представления о реальном мире. Эту информацию, передающуюся в человеческом обществе и участвующую в формировании общественного сознания, называют социальной информацией. Инженеры, биологи, генетики, психологи отождествляют информацию с теми сигналами, импульсами, кодами, которые наблюдают в технических и биологических системах. Содержание принимаемых и обрабатываемых сигналов инженера не интересует» [3], а генетиков и биологов может интересовать.
К процессу хранения информацииможно отнести: • Размещение (накопление).Информация, полученная в результате поиска, размещается на каком-либо носителе информации, происходит ее накопление. Процесс, в результате которого информация оказывается на носителе в виде, пригодном для последующего извлечения, называется размещением. Таким образом, мы создаем некоторый информационный ресурс.Основное отличие информационных ресурсов от других видов ресурсов состоит в том, что информация после их использования не исчезает. Поэтому важнейшей задачей является создание таких хранилищ информации, которые совмещали бы процессы защиты, структурирования, поиска, извлечения, передачи в автоматическом режиме для увеличения доступности информации.
• Коррекцию.Информация в хранилищах нуждается в коррекции по различным причинам, таким как: механические повреждения или изменения свойств носителя, устаревание информации, модернизация структуры для оптимизации доступа к информации и пр. С этой целью выполняется процесс коррекции информации.
• Доступ.Организация оптимального доступа к различной по ценности информации с использованием процедур защиты от несанкционированного доступа может быть отнесена к процессу хранения.
Понятие о кодировании информации. Выбор способа представления информации в соответствии с поставленной задачей. Универсальность дискретного (цифрового) представления информации. Двоичное кодирование.
Информация никогда не появляется в «чистом виде», она всегда как-то представлена, в каком-либо формализованном (закодированном) виде. Одна и та же информация может быть представлена различными способами. От того, как представлена информация, зависит очень многое, от возможной интерпретации до возможности ее технической обработки. Так что в практических задачах важно выбрать тот способ представления информации, который наиболее удобен и адекватен решаемой задаче.
В настоящее время достаточно распространен процесс кодирования,т. е. преобразование информации из одной знаковой формы в другую, удобную для ее обработки, хранения или передачи. Используемый для кодирования конечный набор знаков называют алфавитом. Кодирование осуществляется по принятым правилам. Правило кодирования называется кодом(от французского code — кодекс, свод законов). Длина кода — количество знаков алфавита, используемое для кодирования.
Многие годы человечество работало с информацией, прежде чем был изобретен компьютер. С появлением компьютера стало возможным автоматизировать процессы обработки, передачи и хранения информации. При кодировании информации для технических устройств удобно использовать алфавиты, состоящие всего из двух знаков. Такие алфавиты называют двоичными. Чем меньше знаков в алфавите, тем проще должна быть устроена «машина» для распознавания (дешифровки) информационного сообщения. Однако чем меньше знаков в алфавите, тем большее их количество требуется для кодирования, следовательно, тем больше длина кода. Легко рассчитать количество М элементарных сообщений, которые можно закодировать, используя код постоянной длины п и алфавит из R знаков: М = R n . Длину кода рассчитывают по формуле п = [logRM + 1]. Если мы используем двоичный алфавит, то М = 2 п .
При конструировании компьютеров был выбран двоичный алфавит <0, 1>, что позволило использовать достаточно простые устройства для представления и автоматического распознавания программ и данных. Именно простота сделала этот принцип кодирования таким распространенным. Наряду с этим свойством двоичное кодирование обеспечивает удобство физической реализации, универсальность представления любого вида информации, уменьшение избыточности сообщения, обеспечение защиты от случайных искажений или нежелательного доступа. Наиболее распространены кодировки компьютерных символов: ASCII, Winl251, КОИ-8.
Вероятностный и алфавитный подходы к измерению информации. Единицы измерения информации. Скорость передачи информации. Пропускная способность канала связи.
Различные подходы к измерению количества информации в сообщении определяются различием подходов к определению самого понятия «информация».
Чтобы измерить что-либо, необходимо ввести единицу измерения. Минимальная единица измерения информации — бит.Смысл данной единицы также различен в рамках разных подходов к измерению информации. Выделяют три подхода.
1. Неизмеримость информации в бытуЕсли в сообщении содержалось для вас что-то новое, то оно информативно. Но для другого человека в этом же сообщении нет ничего нового, для него оно не информативно. Это происходит оттого, что до получения данного сообщения знания каждого из нас были различны. Фактор субъективного восприятия сообщения делает невозможным количественную оценку информации в сообщении, т. е. если рассматривать количество полученной информации с точки зрения новизны для получателя, то измерить её невозможно.
2. Вероятностный, или содержательный подходПопытаться объяснить данный подход можно, допустив, что для каждого человека можно условно выделить (например, в виде окружности) область его знания. Всё, что будет находиться за пределами окружности, можно назвать информационной неопределенностью. Постепенно, в процессе обучения или иной деятельности происходит переход от незнания к знанию, т. е. неопределенность уменьшается. Именно такой подход к информации как мере уменьшения неопределенности знанияпозволяет ее количественно оценить (измерить).
Сообщение, уменьшающее неопределенность знания в 2 раза, несет один бит информации.
Например: при подбрасывании монеты может выпасть либо «орел», либо «решка». Это два возможных события. Они равновероятны. Сообщение о том, что произошло одно из двух равновероятных событий (например, выпала «решка»), уменьшает неопределенность нашего знания (перед броском монеты) в два раза.
Математики рассматривают идеальный вариант, что возможные события равновероятны. Если даже события неравновероятны, то возможен подсчет вероятности выпадения каждого события.
Под неопределенностью знания здесь понимают количество возможных событий, их может быть больше, чем два.
Например, количество оценок, которые может получить студент на экзамене, равно четырем. Сколько информации содержится в сообщении о том, что он получил «4»? Рассуждая, с опорой на приведенное выше определение, можем сказать, что если сообщение об одном из двух возможных событий несет 1 бит информации, то выбор одного из четырех возможных событий несет 2 бита информации. Можно прийти к такому выводу, пользуясь методом половинного деления. Сколько вопросов необходимо задать, чтобы выяснить необходимое, столько битов и содержит сообщение. Вопросы должны быть сформулированы так, чтобы на них можно было ответить «да» или «нет», тогда каждый из них будет уменьшать количество возможных событий в 2 раза.
Очевидна связь количества возможных равновероятных событий и количества информации:
Заполним по формуле таблицу:
Количество битов |
Количество событий |
Это формула Р. Хартли. Если р = 1/N — вероятность наступления каждого из N равновероятных событий, тогда формула Хартли записыватся так:
Чтобы пользоваться рассмотренным подходом, необходимо вникать в содержание сообщения. Это не позволяет использовать данный подход для кодирования и передачи информации с помощью технических устройств.
3. Алфавитный подход к измерению информации. Подход основан на подсчете числа символов в сообщении. Этот подход не связывает количество информации с содержанием сообщения, позволяет реализовать передачу, хранение и обработку информации с помощью технических устройств, не теряя при этом содержания (смысла) сообщения.
Алфавитлюбого языка включает в себя конечный набор символов. Исходя из вероятностного подхода к определению количества информации, появление символов алфавита в тексте можно рассматривать как различные возможные события. Количество таких событий (символов) N называют мощностью алфавита. Тогда количество информации i, которое несет каждый из JV символов, согласно вероятностному подходу определяется из формулы: N=2 i
Количество символов в тексте из k символов: I=k*i
Алфавитный подход является объективным способом измерения информации и используется в технических устройствах.
Дата добавления: 2016-02-16 ; просмотров: 4736 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ
Источник
Вероятностный подход измерения информации
Информация нуждается в измерении. На практике количество информации измеряется с точки зрения синтаксической адекватности. Исторически сложились два подхода к измерению информации: вероятностный и объемный. В 1940-х гг. К. Шеннон предложил вероятностный подход, а работы по созданию ЭВМ способствовали развитию объемного подхода.
Рассмотрим вероятностный подход к измерению количества информации.
Пусть системаа может принимать одно из N состояний в каждый момент времени, причем каждое из состояний равновероятно. Например, в качестве системы могут выступать опыты с подбрасыванием монеты (N = 2) или бросанием игральной кости (N= 6).Количество информации системы а вычисляется по формуле, предложенной Р. Хартли:H = H(a) = log2N= lnN/ln2.При N =2 количество информации минимально и равно Н = 1. Поэтому в качестве единицы информации принимается количество информации, связанное с двумя равновероятными состояниями системы, например: «орел» — «решка», «ложь» — «истина». Такая единица количества информации называется бит.Введем понятие вероятности. Вероятность событияА — это отношение числа случаев М, благоприятствующих событию А, к общему количеству случаев N:
Пример 1.Найти вероятность выпадения числа 6 при бросании кости.Решение. Всего граней у кости N = 6. Число 6 присутствует только на одной грани.
|
Следовательно, вероятность выпадения числа 6 при бросании кости: Р=M/N/
Пример 2.Найти вероятность выпадения числа, большего 3, при бросании кости.
Решение. Всего граней у кости N = 6. Чисел, больших 3, на гранях кости М= 3.
|
Следовательно, вероятность выпадения числа, большего 3, при бросании кости: P=M/N=3/6=1/2. Если N состояний системы не равновероятны, т.е. система находится в i-м состоянии с вероятностью Pi и при этом все состояния системы образуют полную группу событий, т.е. сумма вероятностей равна: , то используются следующие формулы, предложенные Шенноном. Для определения количества информации:a)в одном (i-м) состоянии системы H=Log2 (1/
);b)среднего количества информации во всех состояниях системы:
H=-
Из приведенных выражений следует, что количество информации максимально, если состояния системы равновероятны.
Объемный подход
Объем данных V в сообщении измеряется количеством символов (разрядов) в этом сообщении. В информатике в основном используется двоичная система счисления, т.е. все числа представляются двумя цифрами: 0 и 1. Поэтому минимальной единицей измерения данных является бит. Таким образом, 1 бит — это либо 0, либо 1. Элемент, принимающий всего два значения, называется двухпозиционным и просто реализуется аппаратно: например, двумя состояниями «включено» —«выключено», «ток есть» —«ток отсутствует».
Более подробно о системах счисления будет рассказано позже.
Наряду с битом используется укрупненная единица измерения — байт, равная 8 бит.При кодировании информации по Y разрядам с помощью X символов количество возможных различных комбинаций N определяется по формуле N=X y (этосоотношение определяет число размещений с повторениями). При двоичном кодировании (Х=2) количество возможных различных комбинаций N определяется по формуле N=2 Y .
Напомним таблицы размерностей:
1 бит — самая маленькая единица информации — условно один «О» или одна «1».
1 байт = 8 бит (8 = 2 3 ); в международной системе кодов ASCII (AmtricanStandardCodeforInformationInterchange, Американский стандартный код обмена информацией) каждый символ кодировался одним байтом, чтопозволяло закодировать = 256 символов, чего на первых порах хватало. Сейчас происходит переход к кодировке Unicode, где каждый символ кодируется двумя байтами, что позволяет кодировать 2 16 = 65536 символов, многократно увеличивая возможности кодирования.
1 Кбайт (килобайт) = 1024 байт (2 10 байт). По этому поводу есть анекдот, что физик думает, что в одном килобайте 1000 байт, а программист — что в одном килограмме 1024 грамма.
1 Мбайт (мегабайт) = 1024 Кбайта (2 10 Кбайт или 2 20 байт).
1 Гбайт (гигабайт)=1024 Мбайта (2 10 Мбайт или 2 30 байт).
1 Тбайт (терабайт)=1024 Гбайта (2 10 Гбайт или 2 40 байт).
В недалеком будущем нас ожидают:
1 Пбайт (петабайт) =1024 Тбайта (2 10 Тбайт или 2 50 байт).
1 Эбайт (экзабайт) =1024 Пбайта (2 10 Пбайт или 2 60 байт).
1 Збайт (зеттабайт) =1024 Эбайта (2 10 Эбайт или 2 70 байт).
1 Йбайт (йоттабайт) =1024 Збайта (2 10 Збайт или 2 80 байт)
Пример 2.8.Сообщение в двоичной системе счисления 10010010 имеет объем данных V = 8 бит. Этот объем данных представляется 1 байтом.
Для удобства использования введены и более крупные единицы объема данных:
1 024 байт = 1 килобайт (Кбайт);
1 024 Кбайт = 1 мегабайт (Мбайт) = 1 024 2 байт = 1048 576 байт;
1 024 Мбайт = 1 гигабайт (Гбайт) = 1 024 3 байт;
1 024 Гбайт = 1 терабайт (Тбайт) = 1 024 4 байт;
1 024 Тбайт = 1 пентабайт (Пбайт) = 1 024 5 байт.
Общий объем информации в книгах, цифровых и аналоговых носителях за всю историю человечества составляет по оценкам 10 18 байт. Зато следующие 10 18 байт будут созданы в течение пяти —семи лет.
Отличие объема данных от количества информации заключается в следующем: объем данных выражается только целыми значениями, а количество информации — вещественными.
Формулу Хартли можно использовать для определения объема данных. При этом результат округляется в большую сторону, так как минимальной ячейкой памяти в ЭВМ является байт. Поэтому, заняв только часть байта (его несколько бит), оставшаяся часть байта не используется.
Пример 2.9.В сообщениях используются только первые шесть букв латинского алфавита: А, В,С, D, Е, F.Сколько байт необходимо для хранения сообщения «AABBCCD»?
Решение. Определим, сколько бит необходимо для хранения одной буквы по формуле Хартли:
Результат округлим в большую сторону, следовательно:
Тремя битами можно представить 8 комбинаций: ООО, 001, 010, 011, 100, 101, 110, 111. Для кодирования шести букв используются первые шесть комбинаций, а две последние комбинации не используются.
Для сообщения, состоящего из М = 7 букв, необходимо
Vc = М*Vb = 7 • 3 = 21 бит = 2,625 байт.
Результат вновь округлим в большую сторону:
Информатика и ее структура
Информатика — это наука и вид практической деятельности, связанные с процессами обработки информации с помощью вычислительной техники.
Термин «информатика» произошел от слияния двух французских слов information (информация) и automatique (автоматика) и дословно определял новую науку об «автоматической обработке информации». В англоязычных странах информатика называется computerscience (наука о компьютерной технике).
Информатика представляет собой единство разнообразных отраслей науки, техники и производства, связанных с переработкой информации с помощью вычислительной техники и телекоммуникационных средств связи в различных сферах человеческой деятельности.
Основная задача информатики заключается в определении общих закономерностей процессов обработки информации: создания, передачи, хранения и использования в различных сферах человеческой деятельности. Прикладные задачи связаны с разработкой методов, необходимых для реализации информационных процессов с использованием технических средств.
Информатика включает в себя следующие разделы.
I. Теоретическая информатика.Это часть информатики, включающая в себя ряд подразделов, тесно связанных с другой наукой — математикой. В теории информации и кодирования изучается информация как таковая, ее свойства, способы измерения количества информации. Областью исследования теории алгоритмов и автоматов являются методы переработки информации с помощью вычислительных систем. Теория формальных языков и грамматик рассматривает правила построения простейших языков с небольшим числом синтаксических конструкций, называемых языками программирования. Теория принятия решений и исследования операций связана с использованием информации для принятия решений и оценки их оптимальности. Теоретическая информатика использует математические методы для общего изучения процессов обработки информации.
II. Вычислительная техника.Это раздел, включающий в себя общие принципы построения вычислительных систем. Примером вычислительной системы является персональный компьютер, или ЭВМ. Этот раздел не связан с вопросами физической разработки, реализации и производства элементов вычислительных систем. Здесь рассматривается архитектура вычислительных систем— соглашение о составе, назначении, функциональных возможностях и принципах взаимодействия элементов внутри вычислительных систем и вычислительной системы с другими устройствами. Примерами принципиальных, ставших классическими решений в этой области являются архитектура фон Неймана компьютеров первых поколений, шинная архитектура ЭВМ, архитектура параллельной или многопроцессорной обработки информации.
III. Программирование.Это деятельность, направленная на разработку программного обеспечения вычислительной техники. Программирование делится на разделы, связанные с разработкой соответствующих типов программного обеспечения. Программное обеспечение, непосредственно управляющее составными частями вычислительной техники, называется системным. Системный уровень программного обеспечения составляют операционные системы. Служебное программное обеспечение— это архиваторы, антивирусы, программы управления файлами и папками. Служебное программное обеспечение предназначено для выполнения некоторых вспомогательных функций. Прикладное программное обеспечение— это программы для решения большинства задач пользователя. Прикладное программное обеспечение включает в себя офисные, графические, справочные программы, среды разработки программ и др.
IV. Информационные системы.Это раздел информатики, связанный с решением проблем анализа потоков информации в различных сложных системах, их оптимизации, структурировании, принципах хранения и поиска информации по запросу пользователя. Примерами информационных систем являются информационносправочные, информационно-поисковые, глобальные системы или сети хранения и поиска информации.
V. Искусственный интеллект.Это область информатики, в которой решаются сложнейшие проблемы, находящиеся на пересечении с психологией, физиологией, языкознанием и другими науками. Исторически сложились три основных направления развития систем искусственного интеллекта. Целью работ первого направления является создание алгоритмического и программного обеспечения вычислительных машин, позволяющего решать интеллектуальные задачи не хуже человека. В рамках второго подхода объектом исследований являются структура и механизмы работы мозга человека, а конечная цель заключается в моделировании функционирования.
Источник