Меню

Способы измерения текстовой информации



Измерение и кодирование информации

Единицы информации

Бит — минимальная единица информации, представляющая собой наименьшую «порцию» памяти — 1 двоичный разряд. Бит обозначает количество информации, необходимое для различения двух равновероятных событий — значение размером в 1 бит представляет собой сообщение, уменьшающее неопределенность знания в два раза.

Байт — основная единица информации.

1 байт = 8 бит; 1 Кбайт = 2 10 байт = 1024 байт; 1 Мбайт = 2 10 Кбайт = 1024 Кбайт; 1 Гбайт = 2 10 Мбайт = 1024 Мбайт

Определение количества (объема) информации

Вероятностный подход к измерению количества информации — рассматривает информацию с точки зрения повышения определенности знания в результате ее получения:

Количество (объем) получаемой информации (I) при известном количестве возможных событий (N):

Для равновероятных событий: I = log2N

Для разновероятных событий: (формула Шеннона),

I — кол-во информации (бит), N — кол-во возможных событий, Pi — вероятность i-го события, i = 1, 2, …, N.

Алфавитный подход к измерению количества информации — рассматривает информацию с точки зрения ее представления как некоторой последовательности «знаков» (букв, цифр, кодов цвета точек изображения и т. п.). Алфавит знаковой системы — полный набор «знаков», используемых для формирования сообщений в данной знаковой системе. Объем информации, который несет каждый «знак» (информационная емкость «знака», объем занимаемой памяти): I = log2N, где N — кол-во знаков в алфавите.

Количество (объем) информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно: Информационная емкость «знака» * Количество знаков в сообщении.

Представление информации в компьютере

Все виды информации в компьютере обрабатываются в двоично-кодированном виде — т. е. в виде последовательности нулей и единиц, на физическом уровне представляемой в форме электрических импульсов: 1 — есть импульс, 0 — нет импульса.

Логические последовательности нулей и единиц представляют собой машинный язык.

Кодирование текстовой информации

Принцип кодирования: каждому символу ставится в соответствие определенный уникальный числовой (двоичный) код. Таблица, устанавливающая такое соответствие, называется таблицей кодировки символов.

Количество различных символов (N), которые можно закодировать с помощью какой-либо таблицы кодировки, определяется числом двоичных разрядов (k), отводимых под кодирование одного символа: N=2 k . Наибольшее распространение получило 8-разрядное кодирование (на кодирование одного символа отводится 8 бит = 1 байт), позволяющее закодировать N=2 8 =256 различных символов.

В различных кодировках: коды от 0 до 32 — соответствуют управляющим клавишам (Enter, Esc и т. п.); от 33 до 127 — латинским буквам, цифрам, знакам арифметическим операций и знакам препинания; от 128 до 255 (расширенная часть таблицы кодировки) — для символов национальных алфавитов (в т. ч. кириллицы).

Наиболее распространенные 8-разрядные таблицы кодировок: ASCII (принята в качестве стандарта в MS-DOS), Windows-1251 (CP1251), КОИ-8, ISO.

UNICODE — 16-разрядная кодировка символов, позволяющая закодировать 2 16 = 65536 различных символов.

Кодирование графической информации

Минимальный объект кодирования растрового графического изображения — пиксель.

В основе кодирования цветных графических изображений — принцип декомпозиции цветов — т. е. разложение произвольного цвета на основные составляющие (например, по системе RGB: красный (Red), зеленый (Green) и синий (Blue)).

Глубина кодирования (глубина цвета) — количество бит (двоичных разрядов), используемых для кодирования цвета одной точки. От глубины цвета (k) зависит количество отображаемых цветов (N) — т. е. количество возможных состояний одной точки изображения: N=2 k .

Наиболее распространенные значения глубины цвета: 4, 8, 16, 24 бита на точку.

Разрешение — количество точек (пикселей) изображения, приходящихся на единицу длины. От разрешения зависит размер пикселя.

Наиболее частот используемые экранные разрешения: 640×480, 800×600, 1024×768, 1280×1024 точек.

Глубина кодирования и разрешение влияют на качество кодирования изображения.

Объем видеопамяти (V), необходимый для формирования графического изображения на экране: V = M * N * k, где M — кол-во точек изображения по горизонтали, N — кол-во точек изображения по вертикали, k — глубина цвета (бит).

Кодирование звуковой информации

Для кодирования непрерывного (аналогового) звукового сигнала производится его дискретизация по времени (временная дискретизация, оцифровка) — разбиение непрерывной звуковой волны на отдельные короткие временные участки с измерением для каждого из них интенсивности звукового сигнала (величины амплитуды). Это выполняется аналогово-цифровым преобразователем (АЦП). При воспроизведении закодированного (оцифрованного) звука выполняется обратное преобразование цифро-аналоговым преобразователем (ЦАП) с последующим сглаживанием ступенчатого сигнала через аналоговый фильтр.

Глубина кодирования звука — количество бит (двоичных разрядов), используемых для кодирования уровня интенсивности (амплитуды) одного звукового сигнала. От глубины звука (k) зависит количество отражаемых в кодировании различных уровней звукового сигнала (N): N=2 k .

Частота дискретизации — количество измерений уровня (амплитуды, интенсивности) звукового сигнала в единицу времени. Количество измерений в секунду может лежать в диапазоне от 8000 до 48000, т. е. диапазон частоты дискретизации аналогового звукового сигнала: от 8 до 48 кГц.

Глубина кодирования и частота дискретизации влияют на качество кодирования звука.

Информационный объем моноаудиофайла (V): V = N * f * k, где N — общая длительность звучания (секунд), f — частота дискретизации (Гц), k — глубина кодирования (бит).

Читайте также:  Как измерить температуру ребенку если он сопротивляется

Представление чисел в памяти компьютера

Традиционная форма записи чисел, используемая в повседневной жизни, называется естественной формой записи чисел. Существует также экспоненциальная форма представления чисел: Aq = m * q p , где q — основание системы счисления, m — мантисса числа, p- порядок числа. Для 10-ой с/с: A10 = m * 10 p , для 2-ой с/с: A2 = m * 2 p .

В компьютере числа представляются в одной из двух форм:

1. В форме с фиксированной точкой — соответствует естественной двоичной форме записи чисел с фиксированной разрядностью и указанием знака числа. В современных ЭВМ в такой форме представляются только целые числа.

2. В форме с плавающей точкой — соответствует экспоненциальной двоичной форме записи чисел с фиксированной разрядностью мантиссы и порядка и указанием знаков мантиссы и порядка. В компьютере числа в плавающей форме записываются в нормализованном виде (когда первая цифра мантиссы числа не равна нулю).

Источник

Измерение информации

Что такое измерение информации

При измерении информации следует учитывать как объем передаваемого сообщения, так и его смысловую нагрузку. В связи с этим в информатике существуют разные подходы к измерению информации.

Алфавитный подход к измерению информации

Способы оценки величины информации могут учитывать или не учитывать смысла информационного сообщения.

Один из способов нахождения количества информации основан на определении веса каждого символа в тексте сообщения. При таком подходе объем сообщения зависит от количества знаков в тексте, чем больше тест, тем больше весит информационное сообщение. При этом абсолютно не важно, что написано, какой смысл несет сообщение. Так как определение объема информации привязано к текстовым единицам: буквам, цифрам, знакам препинания, то такой подход к измерению информации получил название алфавитного.

Вес отдельного знака зависит от их количества в алфавите. Число символов алфавита называют мощностью (N). Например, мощность алфавита английского языка по числу символов равно 26, русского языка 33. Но на самом деле, при написании текста используются и прописные и строчные буквы, а также знаки препинания, пробелы и специальные невидимые символы, обозначающие конец абзаца и перевод к новой строке. Поэтому имеют дело с мощностью 128 или в расширенной версии 256 символов.

Рис. 1. Таблица символов – латиница.

Бит, байт и другие единицы измерения

Для двоичного алфавита, состоящего из двух символов – нуля и единицы, мощность алфавита будет составлять 2. Вес символа бинарного алфавита выбран в качестве минимальной единицы информации и называется «бит». Происхождение термина «бит» исходит от англоязычного слова «binary», что означает двоичный.

Восемь бит образуют байт.

Название «байт» было придумано в 1956 году В. Бухгольцем при проектировании первого суперкомпьютера. Слово «byte» было получено путем замены второй буквы в созвучном слове «bite», чтобы избежать путаницы с уже имеющимся термином «bit».

Рис. 2. Портрет Вернера Бухгольца.

На практике величина объема информации выражает в более крупных единицах: килобайтах, терабайтах, мегабайтах.

Следует запомнить, что килобайт равен 1024 байта, а не 1000. Как, например, 1 километр равен 1000 метрам. Эта разница получается за счет того, 1 байт равен 8 битам, а не 10.

Для того, чтобы легче запомнить единицы измерения, следует воспользоваться таблицей степени двойки.

Таблица степеней двойки

Показатель степени

Значение

Рис. 3. Единицы измерения информации.

То есть, 2 3 = 8 – это 1 байт, состоящий из 8 бит, 2 10 = 1024 это 1 килобайт, 2 20 = 1048576 представляет собой 1 мегабайт, 2 30 = 1 гигабайт, 2 40 = 1 терабайт.

Определение количества информации

Вес символа (i) и мощность алфавита (N) связаны между собой соотношением: 2 i = N.

Так, алфавит мощностью в 256 символов имеет вес каждого символа в 8 бит, то есть один байт. Это означает, что на каждую букву приходится по байту. В таком случае, нетрудно определить, сколько весит весь кодируемый текст сообщения. Для этого достаточно вес символа алфавита умножить на количество символов в тексте. При подсчете количества символов в сообщении следует не забывать, что знаки препинания, а также пробелы – это тоже символы и они весят столько же, сколько и буквы.

Например, при условии, что каждая буква кодируется одним байтом, для текста, «Ура! Наступили каникулы.» информационный объем определяется умножением 8 битов на 24 символа (без учета кавычек). Произведение 8 * 24 = 192 бита – столько весит кодируемая фраза. В переводе на байты: 192 бита разделить на 8 получим 24 байта.

Эта схема работает и в обратной задаче. Пусть информационное сообщение составляет 2 килобайта и состоит из 512 символов. Необходимо определить мощность алфавита, используемого для кодирования сообщения.

Решение: Сначала целесообразно 2 килобайта перевести в биты: 2 * 1024 = 2048 (бит). Затем объем информационного сообщения делят на количество символов: 2048 / 512 = 4 (бит), получают вес одного символа. Для определения мощности алфавита 2 возводят в степень 4 и получают 16 – это мощность алфавита, то есть количество символов, используемых для кодирования текста.

Читайте также:  Какие инструменты используются для разметки измерения

Что мы узнали?

Одним из способов определения величины информационного сообщения является алфавитный подход, в котором любой знак в тексте имеет некоторый вес, обусловленный мощностью алфавита. Минимальной единицей измерения информации является бит. Информацию можно также измерять в байтах, килобайтах, мегабайтах.

Источник

Информатика

Текстовая информация

Обложка урока взята с источника .

Занятия с репетитором ОНЛАЙН от 200 руб / час

Бесплатный подбор репетитора на нашем сайте

Перейти

План урока:

Текст как форма представления информации

Текст (от лат. textus – ткань, объединение, сочетание) — это произвольная человеческая мысль, письменно выраженная упорядоченной цепочкой языковых знаков. В информатике совокупность связанных по смыслу знаков, несущее в себе какое-либо информационное сообщение, является текстовой информацией .

Примером текстовой информации может служить параграф школьного учебника, детская считалка, ремарка актера в пьесе, расписание уроков, магазинный чек и т.д.

Издавна люди пытались сохранить различного рода сведения на таких носителях, как камень, глина, береста, папирус, на смену которым пришла повсеместно используемая бумага.

Письменный текст записывали различными инструментами – острой костяной палочкой, перьевыми ручками, авторучками и с позапрошлого века стали печатать на пишущих машинках.

Чтобы зафиксировать большой объем информации или изменить смысл предложений, необходимо было проделывать огромную работу, трудоемкую и длительную. С помощью компьютера текстовую информацию можно с легкостью не только вводить, но и редактировать, сохранять, передавать и печатать любое количество копий на принтере. Компьютерные программы коренным образом изменили технологию письма . В современном мире все чаще бумажные документы заменяются электронными.

Причиной перехода к безбумажным технологиям во многих сферах деятельности человека является увеличение скорости и качества обработки информации, уменьшение себестоимости электронных носителей при росте цен на бумагу вследствие мирового экологического кризиса.

Представление текстовой информации в компьютере –это преобразование вводимых символов с помощью кодовой таблицы. Современная универсальная таблица кодировки Unicode позволяет охватить более 65 тысяч символов различных алфавитов, цифры, знаки препинания, математические и другие символы.

Фрагмент кодовой таблицы Unicode

Для каждого знака в памяти компьютера выделяется 2 байта или 16 бит двоичного кода. Таким образом, можно вычислить объем текстовой информации, легко перемножив количество символов (включая пробелы) на информационный вес одного символа. Для выражения крупных объемов информации используются такие единицы измерения, как килобайты, мегабайты и гигабайты.

Единицы измерения информации

Различают следующие виды текстовой информации:

  • фактуальная (отражает события, описание людей, мест действия, времени и т.д.);
  • концептуальная (открывает замысел автора, его позицию, точку зрения);
  • подтекстовая (дополнительная информация, позволяющая полнее раскрыть предыдущие виды информации).

Большинство текстов имеют сложную структуру, подразумевающую сочетание различных типов сведений: когнитивных, оперативных, эмоциональных и эстетических. Каждый из видов информации в тексте характеризуется своими особыми способами языкового выражения.

  • когнитивная информация – отражает объективные, абстрактные и логически завершенные сведения об окружающем мире (например, название и контакты предприятия в рекламном объявлении);
  • оперативные сведения представляют собой побуждение к совершению каких-либо действий (призыв приобрести продукт);
  • для эмоционального сообщения характерна субъективность, конкретность и образность (оценка качества продукта);
  • эстетическая информация транслирует чувства, возникающие у автора (это фразеологизмы, метафоры и др. выразительные средства).

Текстовые документы

В целях упрощения работы с письменной информацией создали специальное программное обеспечение – текстовые редакторы (процессоры). Каждый текст, написанный в нем, будет называться текстовым документом. Это может быть и научная статья с формулами, и рассказ, и рекламное объявление.

Компьютерный текстовый документ как структура данных, реализованная с помощью гиперссылок, называется гипертекстом . Такой метод организации электронного документа позволяет в кратчайшие сроки переходить к необходимым сведениям и устанавливать связи между различными фрагментами текста.

Основные объекты текстового документа

Различают следующие основные структурные единицы текстового документа:

  • символ – самый маленький элемент текста;
  • слово – буквенный или цифровой ряд, ограниченный пробелами или символами препинания;
  • абзац – набор письменных элементов, начинающийся с красной строки;
  • строка – ряд символов внутри абзаца, который расположен в пределах одной горизонтальной линии между границами полей документа;
  • фрагмент – произвольная непрерывная часть текста (может быть какодно слово, строчка, абзац, так и весь документ).

Страница в текстовом документе – это отрывок текста, помещающийся на листе определенного формата.

Компьютер – основной инструмент работы с текстом

В современном мире компьютер – уникальное устройство, в том числе и для работы с текстовой информацией. Элементарные программы для текстовых документов имеют возможность создания текстов, составленных из символов, печатаемых с клавиатуры, и небольшой комплект инструментов для оформления информации. Для подготовки наиболее сложных текстов с графиками, табличным представлением данных, надписями, схемами, картинками и фотографиями целесообразно использование сильных текстовых процессоров.

Среди множества программ, предназначенных для работы с текстовой информацией, выделяют следующие:

  1. Foxit Reader – бесплатная программа для открытия текстовых документов в формате PDF. Кроме просмотра, она имеет возможность редактировать и отправлять текст на печать.
Читайте также:  Способы измерения дебита скважины

  1. Libre Office Writer– свободное офисное приложение. Прямой аналог Open Office Writer.Текстовый документа, напечатанный в этой программе, будет иметь формат ODF.
  1. Adobe Reader – удобная программа для работы текстовыми документами в формате PDF, используемого для создания текстовой информации высокого качества.

  1. Open Office Writer– бесплатное программное обеспечение, полная альтернатива приложению Microsoft Office Word. Поддерживает многие форматы. Из минусов данного приложения – отсутствует автоматическая проверка грамматики.
  1. Word Pad – стандартная программа операционной системы Microsoft Windows, обладающая ограниченными функциональными возможностями.

  1. В большинстве случаев для создания текстового документа используют программу Microsoft Word, имеющую богатый арсенал инструментов для обработки текстовой информацией. Позволяет создавать документы различной сложности.

Основные стадии подготовки электронного текстового документа:

  1. Ввод (набор символов).
  2. Редактирование.
  3. Форматирование.
  4. Печать.

Ввод текста

К устройствам ввода текстовой информации относится графический планшет, сканер, сенсорный экран и самое распространённое — клавиатура. Она позволяет вводить числа, буквы, различные знаки и управлять действиями компьютера служебными клавишами.

При вводе текстовой информации следует придерживаться несложных правил:

  1. Любой символ препинания, кроме тире, печатается сразу же после буквы. Затем нужно поставить пробел, нажав соответствующую клавишу. Исключение составляет « – », которое выделяется пробелом с 2 сторон.
  2. Для выравнивания текста по центру, по ширине, по левому или правому краю, недопустимо печатание нескольких пробелов или использование клавиши Tab. Это действие выполняет специальная кнопка в текстовом редакторе.
  3. Между словами должен быть исключительно один пробел. Легко отследить это поможет включение режима отображения непечатаемых символов.

  1. Каждый абзац начинается после нажатия на клавишу Enter с новой строки.
  2. Отступ для абзаца создается нажатием на Tab.

Редактирование текста

Редактирование текста представляет собой процедуру внесения необходимых правок. Этот этап подготовки документа требует внимания и усидчивости.

В процессе редактирования текста изменяется содержание текста. В результате работы текст должен стать грамотным и понятным.

Основными функциями редактирования текста являются:

  • выделение текстового отрывка;
  • удаление, копирование, перемещение и вставка необходимых фрагментов текста;
  • корректировка документа, включающая в себя подстановку вместо повторяющихся слов синонимов, устранение грамматических, пунктуационных, орфографических и стилистических ошибок.

Редактирование текста осуществляется перемещением курсора в необходимое место с помощью мыши либо нажатием служебных клавиш (их комбинации).

Основные сочетания клавиш

Работать можно как с отдельными знаками, строками, абзацами,так и со всем текстом. Прежде всего нужный фрагмент следует выделить. Для этого нужно установить курсорную стрелку в начало элемента и, зажимая левую кнопку мышки, провести до его окончания.

Далее можно его скопировать, вырезать, удалить соответствующими кнопками или сочетаниями клавиш.

Microsoft Word – самая популярная программа для редактирования текста. Она обладает богатыми возможностями и удобным интерфейсом. Основные средства для редактирования текста в Word:

  1. Режим вставки и замены символов (в первом режиме при печатании знаки вставляются между уже имеющимися, а при втором – очередные символы заменяют ранее напечатанные при вводе) Файл→Параметры→Дополнительно

  1. Режим Тезауруса (используется для автоматической замены выделенных слов синонимами)

  1. Автоматическая проверка правописания (проверка орфографии и грамматики)

  1. Средства рецензирования (позволяет создавать примечания, исправления и другие операции, не изменяя исходный текст) вкладка Рецензирование

Форматирование текста

Следующий этап обработки текста заключается в его форматировании. Форматирование текста подразумевает изменение внешнего вида документа. Информация подвергается оформлению по необходимым критериям.

Форматирование текста представляет собой:

  • выбор параметров страницы;
  • форматирование символов;
  • форматирование абзацев;
  • создание списков.

Вначале выбирается альбомная или книжная ориентация страницы (Разметка страницы → Ориентация).

Также в этой вкладке можно устанавливать различные параметры страницы (поля, размер, колонки и т.д.)

Нумерация страницы производится нажатием на кнопку Вставка → Номер страницы.

В процессе форматирования текста изменяется размер, начертание и цвет шрифта на Главной вкладке.

Оформление абзацев состоит в выравнивании текста относительно границ страницы (по левому или правому краю, центру или ширине).

Применение номерованных или маркированных списков позволит облегчить восприятие текстовой информации.

Подготовка документа заканчивается его распечатыванием. Для этой цели используют принтеры (устройства, переводящие электронную информацию на бумажный носитель) разного типа:

  • матричного (изображение состоит из точек, формируемых ударным способом тонкими иглами);
  • струйного (чернила поступают через крохотные отверстия – сопла);
  • лазерного (печать происходит с помощью лазерного сверхтонкого луча).

Лазерные принтеры обеспечивают самую качественную печать.

Источник