Используются для сравнения нескольких величин. Способы сравнения по величине: непосредственные, опосредованные, при помощи глазомера. Занятие «Деловая графика

Типы диаграмм Круговая диаграмма- служит для сравнения нескольких величин в одной точке. Она особенно полезна, если величины составляют нечто целое (100%) Пример 1: Имеются оценки за контрольную работу по классу. 8 человек получили – «5», 13 человек- «4», 6 человек – «3» и один – «2». Решение:

Столбчатая диаграмма – для задачи в которой требуется несколько раз сравнить несколько величин. Пример 3: Пусть несколько магазинов одной фирмы продавали компьютеры. Их данные о прибыли за соответствующий день недели занесли в таблицу: В отличие от предыдущей диаграммы, в каждой опорной точке будет стоять не один столбик, а три- по одному для каждого магазина. Все столбики одного магазина будут закрашены одинаково.

Ярусная диаграмма – позволяет наглядно сравнить суммы нескольких величин в нескольких точках, и при этом показать вклад каждой величины в общую сумму. По данным примера 3 построим ярусную диаграмму. Данная диаграмма отражает долю каждого магазина в общей сумме.

Тип диаграммы «График» - служит для того, чтобы проследить за изменением нескольких величин при переходе от одной точки к другой. Областная диаграмма – гибрид ярусной диаграммы с линейной. Позволяет одновременно проследить изменение каждой из нескольких величин и изменение их суммы. В нескольких точках

Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаг" title="Для создания диаграмм используется Мастер диаграмм (Вставка>Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаг" class="link_thumb"> 8 Для создания диаграмм используется Мастер диаграмм (Вставка>Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаграмма. Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаг"> Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаграмма."> Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаг" title="Для создания диаграмм используется Мастер диаграмм (Вставка>Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаг"> title="Для создания диаграмм используется Мастер диаграмм (Вставка>Диаграмма). Мастер диаграмм позволяет создавать диаграмму по шагам с помощью серии диалоговых панелей. Создание диаграммы: 1. Выделяем диапазон ячеек, содержащих данные. Команда Вставка>Диаг">

2. Выбираем форму диаграммы. Доступные формы перечислены в списке Тип на вкладке Стандартные. Для выбранного типа диаграммы справа указывается несколько вариантов представления данных (Вид), из которых следует выбрать наиболее подходящий. Нажимаем кнопку Далее.

3. На этом шаге мы увидим как будет выглядеть наша диаграмма. Справа от диаграммы появляется Легенда, которая содержит необходимые пояснения к диаграмме. Окно Диапазон: содержит диапазон адресов ячеек, содержащих данные для диаграммы. Установите необходимые параметры и щелкните по кнопке Далее.

Из всех типов операторов отношения чаще всего используются операторы сравнения – для определения относительного порядка двух величин.

Меньше (<). Результат оператора < равен true , если первый операнд меньше, чем второй операнд; в противном случае он равен false .

Больше (>). Результат оператора > равен true , если его первый операнд больше, чем второй операнд; в противном случае он равен false .

Меньше или равно (<=). Результатом оператора <= является true , если первый операнд меньше или равен второму операнду; в противном случае результат равен false .

Больше или равно (>=). Результат оператора >= равен true , если его первый операнд больше второго или равен ему; в противном случае он равен false .

Эти операторы позволяют сравнивать операнды любого типа. Однако сравнение может выполняться только для чисел и строк, поэтому операнды, не являющиеся числами или строками, преобразуются. Сравнение и преобразование выполняется следующим образом:

Если оба операнда являются числами или преобразуются в числа, они сравниваются как числа.

Если оба операнда являются строками или преобразуются в строки, они сравниваются как строки.

Если один операнд является строкой или преобразуется в строку, а другой является числом или преобразуется в число, оператор пытается преобразовать строку в число и выполнить численное сравнение. Если строка не представляет собой число, она преобразуется в значение NaN и результатом сравнения становится false .

Если объект может быть преобразован как в число, так и в строку, интерпретатор JavaScript выполняет преобразование в число. Это значит, например, что объекты Date сравниваются как числа, т. е. можно сравнить две даты и определить, какая из них более ранняя.

Если оба операнда не могут быть успешно преобразованы в числа или строки, операторы всегда возвращают false.

Если один из операндов равен или преобразуется в NaN, то результатом оператора сравнения является false.

Имейте в виду, что сравнение строк выполняется строго посимвольно, для числовых значений каждого символа из кодировки Unicode. В некоторых случаях стандарт Unicode допускает кодирование эквивалентных строк с применением различных последовательностей символов, но операторы сравнения в JavaScript не обнаруживают этих различий в кодировках; предполагается, что все строки представлены в нормализованной форме. Обратите внимание: сравнение строк производится с учетом регистра символов, т. е. в кодировке Unicode (по крайней мере, для подмножества ASCII) все прописные буквы «меньше» всех строчных букв. Это правило может приводить к непонятным результатам. Например, согласно оператору < строка "Zoo" меньше строки "aardvark".

При сравнении строк более устойчив метод String.localeCompare(), который также учитывает национальные определения «алфавитного порядка». Для сравнения без учета регистра необходимо сначала преобразовать строки в нижний или верхний регистр с помощью метода String.toLowerCase() или String.toUpperCase().

Операторы <= (меньше или равно) и >= (больше или равно) определяют «равенство» двух значений не при помощи операторов равенства или идентичности. Оператор «меньше или равно» определяется просто как «не больше», а оператор «больше или равно» – как «не меньше». Единственное исключение имеет место, когда один из операндов представляет собой значение NaN (или преобразуется в него); в этом случае все четыре оператора сравнения возвращают false .

Я слушал лекцию по измерению производительности компьютера, и профессор дал аналогию с измерением производительности самолетов. Он показал таблицу, которая содержала различные параметры различных летательных аппаратов, таких как:

Aircrafts: Passenger Capcity Speed Concord 132 1350 mph DC9 146 544 mph

тогда он задавал вопросы от студентов, что «Насколько быстрее Конкорд по сравнению с DC9 ?». Затем он объяснил это более чем в 2 раза. Мой вопрос: почему он использовал Дивизион для сравнения двух значений, а не вычитания? Я знаю его очень фундаментальный вопрос, но, пожалуйста, извините мою некомпетентность за это.

Иногда вам приходится использовать соотношение для описания явлений, например, вероятность выигрыша игры. Иногда это необязательно, как в вашем случае. Вы можете найти это интересно: https: //en.wikipedia.org/wiki/Relative_change_and_difference - NoChance 06 мар. 16 2016-03-06 17:40:56

2 ответа

Сортировка:

Активность

Я разместил тот же вопрос на Dr.Maths и получил следующий ответ, который, на мой взгляд, более точный и подробный.

Ask yourself which would be more meaningful to you: The Concord is 806 mph faster than the DC9. The Concord is 2.5 times as fast as the DC9. If you have no idea how fast the DC9 is, the first statement would be nearly meaningless -- you can"t tell whether it"s just a small improvement (from, say 100,000 mph to 100,806 mph!) or a huge improvement (from 10 mph to 816 mph). I"m exaggerating to make a point: interpreting the significance of the number depends on having at least some knowledge of related numbers. The ratio, on the other hand, requires no such knowledge. Also, and perhaps even more important, the ratio will be the same regardless of the units used. We don"t need to know whether the speeds were measured in mph or kph or inches per second. In effect, the ratio amounts to using the DC9 itself as a unit of measurement -- the Concord flies at 2.5 DC9"s. The same is probably true in comparing computer speeds. Who knows, these days, what is a good speed? But anyone can tell that twice as fast is a lot better. This is something we can visualize a lot better than nanoseconds or gigabytes!

Рассмотрите ситуацию - я съел $1000$ яблок. Мой друг съел яблоки на $1050$ .

Два statements- Мой друг съел $50$ яблок больше, чем я от разницы, Мой друг съел $1,05$ раз количество яблок, как мне из соотношения.

Рассмотрим другую ситуацию, когда я ел $100$ яблоки и мой друг $105$

Два заявления будет Мой друг съел $5$ яблоки больше, чем меня и
Мой друг съел $1,05$ раза больше яблок, как мне

Третий Я ел с ситуациями $1$ яблоко, мой друг ел $51$

два заявления - Мой друг съел $50$ яблок более-й МЭ и
Мой друг съел $51$ раз количество яблок, как мне

Заключение - Нам нужно как разность и отношение четко знать ситуацию. Однако мы используем разные вещи в разных сценариях, которые, как я надеюсь, ясны из приведенного выше примера.

Однако, круговая диаграмма не всегда обеспечивает необходимую наглядность представления информации. Во-первых, на одном круге может оказаться слишком много секторов. Во-вторых, все сектора могут быть примерно одинакового размера. Вместе эти две причины делают круговую диаграмму малополезной.

2.Столбчатая диаграмма (гистограмма)- Служит для сравнения нескольких величин в нескольких точках.

Столбчатые диаграммы (как и следует из названия) состоят из столбиков. Высота столбика определяется значениями сравниваемых величин . Каждый столбик привязан к опорной точке .

3.Линейная диаграмма (график)- Служит для того, чтобы проследить за изменениями нескольких величин при переходе от одной точки к другой.

Построение линейной диаграммы аналогично построению столбчатой. Но вместо столбиков просто отмечается их высота (точками, черточками, крестиками) и полученные отметки соединяются прямыми линиями. Вместо разной штриховки (закраски столбиков) используются разные отметки (ромбики, треугольники, крестики и т.д.), разная толщина и тип линий (сплошная, пунктирная и пр.), разный цвет.

4. Ярусная диаграмма (гистограмма с накоплением)- Позволяет наглядно сравнить суммы нескольких величин в нескольких точках, и при этом показать вклад каждой величины в общую сумму.

Порядок построения ярусной диаграммы очень напоминает порядок построения диаграммы столбчатой. Разница в том, что столбики в ярусной диаграмме ставятся не рядом друг с другом, а один на другой. Соответственно меняются правила расчета вертикального и горизонтального размера диаграммы.

5. Областная диаграмма (диаграмма площадей)- Гибрид ярусной диаграммы с линейной позволяет одновременно проследить изменение каждой из нескольких величин и изменение их суммы в нескольких точках.

Отдельные столбики сливаются, образуя непрерывные области. Отсюда и название – диаграмма областей или диаграмма площадей. Каждая область соответствует какой-то одной величине, для указания на которую используется различная штриховка (раскраска). Раньше ярусами располагались столбики, теперь – линии (и очерченные ими площади).

Форматирование ячеек. Формат чисел в Microsoft Excel.

Форматирование в Excel применяется для облегчения восприятия данных, что играет немаловажную роль в производительности труда.

Для того чтобы назначить формат нужно выполнить следующее:

2. Выберать команду "Формат"-"Ячейки" (Ctrl+1).

3. В появившемся окне диалога ввести нужные параметры форматирования.

4. Нажать кнопку "Ок".

Форматированная ячейка сохраняет свой формат, пока к ней не будет применен новый формат или не удален старый. При вводе значения в ячейку к нему применяется уже используемый в ячейке формат.

Для того чтобы удалить формат нужно выполнить следующее:

1. Выделить ячейку (диапазон ячеек).

2. Выберать команду "Правка"-"Очистить"-"Форматы".

3. Для удаления значений в ячейках надо выбрать команду "Все" подменю "Очистить".

Следует учитывать, что при копировании ячейки наряду с ее содержимым копируется и формат ячейки. Таким образом, можно сберечь время, форматируя исходную ячейку до использования команд копирования и вставки

Форматирование можно также производить с помощью панелей инструментов. Наиболее часто используемые команды форматирования вынесены на панель инструментов "Форматирование". Чтобы применить формат с помощью кнопки панели инструментов, выделите ячейку или диапазон ячеек и затем нажмите кнопку мышью. Для удаления формата надо нажать кнопку повторно .

Для быстрого копирования форматов из выделенных ячеек в другие ячейки можно использовать кнопку "Формат по образцу" панели "Форматирование"

Форматирование можно применять к отдельным символам текстового значения в ячейке так же, как и ко всей ячейке. Для этого необходимо выделить нужные символы и затем в меню "Формат" выберать команду "Ячейки". Далее установить нужные атрибуты и нажать кнопку "Ок". Нажать клавишу Enter, чтобы увидеть результаты своего труда.

Настройка формата чисел в Excel

Так как программа Excel предназначена для обработки чисел, важную роль играет правильная настройка их формата. Для человека число 10 - это просто единица и ноль. С точки зрения Excel эти две цифры могут нести совершенно разную информацию в зависимости от того, обозначают ли они количество работников компании, денежную величину, процентную часть целого или фрагмент заголовка «10 ведущих фирм». Во всех четырех ситуациях это число должно отображаться и обрабатываться по-разному. Excel поддерживает следующие форматы данных:

* Общий - текст и числовые значения произвольного типа; * Числовой - наиболее общий способ представления чисел; * Денежный - денежные величины; * Финансовый - денежные величины с выравниванием по разделителю целой и дробной частей; * Дата - дата или дата и время; * Время - время или дата и время; * Процентный - значение ячейки, умноженное на 100 с символом «%» в конце; * Дробный - рациональные дроби с числителем и знаменателем; * Экспоненциальный - десятичные дробные числа; * Текстовый - текстовые данные отображаются точно так же, как вводятся и обрабатываются строки, вне зависимости от их содержимого; * Дополнительный - форматы для работы с базами данных и списками адресов; * Заказной - формат, настраиваемый пользователем.

Наиболее распространенные варианты формата данных можно назначать с помощью панели инструментов Форматирование.

1. Щелкните на ячейке С4, а затем на кнопке Процентный формат . Величина клетки С4 будет умножена на 100, и к ней добавится знак «%».

Рис. 9.14. Вкладка выбора формата данных

2. Нажмите клавишу вниз и щелкните на кнопке Денежный формат .

3. Щелкните на ячейке Сб, а затем на кнопке Формат с разделителями . Эта кнопка заставляет числа выравниваться в столбце по разделителю целой и дробной частей.

4. Выделите ячейку С7 и щелкните на кнопке Увеличить разрядность . Эта кнопка не изменяет основной формат, но добавляет один знак в дробной части числа.

5. Нажмите клавишу Enter и щелкните на кнопке Уменьшить разрядность . Эта операция убирает один знак дробной части и округляет число. Теперь ячейки с С4 по С9 выглядят совершенно по-разному, хотя исходно в них были введены совершенно одинаковые числа. Другие форматы назначаются с помощью следующих действий.

6. Щелкните на ячейке С10 и выберите команду Формат > Ячейки .

7. В открывшемся окне диалога раскройте вкладку Число (рис. 9.14).

8. В списке Числовые форматы щелкните на пункте Дата .

9. В появившемся списке Тип щелкните на строке 14 мар 01 (14-Mar-01). Затем щелкните на кнопке ОК .

Рис. 9.15. Различные форматы чисел

10. Аналогичным образом назначьте ячейке С11 формат Экспоненциальный, а ячейке С12 - формат Числовой. Теперь таблица будет выглядеть так (рис. 9.15). Обратите внимание, что среднее значение таблицы не изменилось, то есть при смене формата изменяется только способ отображения, а сами числовые значения остаются неизменными. Для проверки этого факта выполните следующие шаги.

11. Дважды щелкните на ячейке С11 и измените величину 03.01.1900 на 03.02.1900.

12. Нажмите клавишу Enter. Среднее значение таблицы (которое выводится в денежном формате) моментально изменится на 15.41р. Как войдите, можно суммировать даты с процентами и в результате получать рубли. Это типичный пример неверного назначения форматов данных.

Защита листа. Защита ячеек в Microsoft Excel.

Автоформаты и стили в Microsoft Excel.

Использование условного форматирования в Microsoft Excel.

Создание списка и формы данных в Microsoft Excel. Требования к оформлению списка.

Сортировка и фильтрация данных в Microsoft Excel (автофильтр, расширенный фильтр).

Группирование и структуирование данных в Microsoft Excel.

Автоматические итоги: создание итоговой таблицы, отражение на экране итогов в разрезе одной или нескольких групп записей.

Создание сводной таблицы в Microsoft Excel.(в тетради)

Связывание и консолидация данных. (в тетради)

Понятия теории баз данных. Принципы организации данных.

Иерархическая и сетевая модели организации данных.

Реляционная модель организации данных. Нормальные формы.

Понятия систем управления БД (СУБД) и их назначение.

Профессиональные системы управления базами данных (СУБД).

Назначение, порядок работы, создание баз данных СУБД MS Access.

Таблицы БД MS Access: назначение, структура, варианты создания.

Типы данных и свойства полей СУБД MS Access.

Понятие домена, атрибута, ключа реляционной базы данных.

Создание структуры связей между таблицами БД.

Виды отношений и ограничения в СУБД MS Access.

Понятия, назначение и свойства форм.

Варианты создания форм. Использование мастера форм.

Работа с конструктором форм. Разделы формы.

Использование выражений и вычисляемых полей.

Типы элементов управления формами.

Назначение, виды и варианты создания запросов.

Порядок работы с конструктором запросов.

Фильтрация и сортировка данных в запросах.

Использование операторов и условий в запросах.

Создание вычисляемых полей, объединений в запросах.

Порядок работы с многотабличными запросами.

Итоговые запросы. Групповые операции в MS Access.

Изменение информации при помощи модифицирующих запросов.

Назначение и способы создания отчетов MS Access.

Использование мастера для создания отчета.

Работа с конструктором отчетов.

Группировка данных и промежуточные результаты в отчетах.

Макросы в Access и их конструирование.

Защита информации в базах данных.

Классификация компьютерных сетей. Понятие сервера, рабочих станций.

Программное обеспечение для работы в локальных сетях и в Интернете.

Обмен данными в сетях, протоколы. Сетевое оборудование. Связи между сетями. Беспроводные сети.

Интернет, структура сети, основные понятия. Сервисы Интернета.

Принципы информационного поиска.

Индексирование и механизм поиска.

Схема информационно-поисковой системы. Стратегии поиска. Интерфейс.

Антивирусные программы и их классификация.

Основы защиты информации и сведений, составляющих государственную тайну.

Способы защиты программ и данных.

Аппаратное обеспечение средств защиты.

Параметрические критерии, которые мы рассматривали до сих пор, основаны на том, что сравниваемые выборки можно охарактеризовать двумя параметрами: средним и стандартным отклонением (или какой-то иной мерой изменчивости). А что делать, если распределение в выборках (или, точнее, в той генеральной совокупности, откуда были получены эти выборки) является совсем иным?

Если численность каждой из сравниваемых выборок достаточно велика (больше ста), параметрические критерии можно использовать все равно. Какое бы распределение ни имели эти выборки, их средние "ведут себя" примерно так же, как средние выборок с нормальным распределением. Однако если численность выборок более низкая, следует использовать непараметрические критерии.

Например, непараметрическим аналогом t-критерия Стьюдента является U-критерий Манна-Уитни. Критерий Стьюдента построен на основе распределения, которое описывает отклонения среднего значения выборки определенной численности вокруг генеральной средней нормально распределенной величины . Чем сильнее отклонение от , тем ниже вероятность того, что оно получилось в силу случайности при формировании выборки. А как действовать, если мы ничего не знаем о характере распределения генеральных совокупностей?

Рассмотрим достаточно простой пример, поясняющий, как работает большая группа непараметрических методов, - ранговые критерии . У нас есть две выборки. Расположим их элементы в порядке возрастания: первая - a1, a2, a3, a4, a5; вторая - b1, b2, b3, b4, b5, b6. Составим из элементов этих выборок общий ряд, построенный в порядке возрастания их значений. Сравним три разных случая:
№ 1: a1, a2, a3, a4, a5, b1, b2, b3, b4, b5, b6;
№ 2: a1, a2, a3, a4, b1, a5, b2, b3, b4, b5, b6;
№ 3: b1, a1, b2, a2, b3, a3,b4, b5, a4, a5, b6.

В случае № 1 все элементы одной выборки расположены с одной стороны общего ряда, а все элементы другого ряда - с другой стороны. В случае № 2 одной перестановки (элементов b1 и a5) было бы достаточно, чтобы порядок элементов стал, как в случае № 1. Наконец, в случае № 3 элементы двух выборок перепутаны, и чтобы выстроить их в ряд, где будут сначала стоять одни, а потом - другие, надо сделать 5 перестановок. Нам нужно выбрать между альтернативной гипотезой (согласно которой выборки a и b взяты из разных совокупностей) и нулевой гипотезой (согласно которой эти выборки взяты из одной совокупности). Одинаковы ли вероятности альтернативной и нулевой гипотез для показанных нами трех разных случаев? Нет; альтернативная гипотеза более вероятна в первом случае, а нулевая - в третьем.

Идея рангового непараметрического критерия состоит в том, что мы можем использовать количество необходимых перестановок как меру для оценки нулевой и альтернативной гипотезы. Конкретные величины, которые высчитываются при применении непараметрических критериев, оказываются иными, но логика сравнения примерно соответствует рассмотренному нами примеру.

Итак, благодаря применению остроумных подходов, для параметрических методов сравнения выборок подобраны их непараметрические аналоги (табл. 4.8.1). Чаще всего непараметрические методы обладают меньшей мощностью (т.е. чаще отвергают альтернативную гипотезу в той ситуации, когда она на самом деле верна), но зато позволяют работать с разнообразно распределенными данными и менее чувствительны к малой численности сравниваемых выборок.

Таблица 4.8.1. Непараметрические аналоги параметрических методов

Тип сравнения	Параметрические методы	Непараметрические методы
Сравнение значений величины в двух независимых выборках	t-критерий Стьюдента; Дисперсионный анализ (ANOVA)	U-критерий Манна-Уитни ; Критерий серий Вальда-Вольфовица; Двухвыборочный критерий Колмогорова-Смирнова
Сравнение значений величины в двух зависимых выборках	t-критерий Стьюдента для парных сравнений	Критерий знаков Критерий Вилкоксона
Сравнение значений величины в нескольких независимых выборках	Дисперсионный анализ (ANOVA)	Ранговый дисперсионный анализ Краскела-Уоллиса ; Медианный тест

4.9. U-критерий Манна-Уитни

Чтобы рассмотреть применение критерия Манна-Уитни на нашем файле-примере Pelophylax_example.sta нам придется использовать несколько искуственный пример. В качестве примера величины, распределение которой сильно отличается от нормального, мы можем использовать признак, который называется DNA - содержание ДНК на клетку (в пикограммах, пг), измеренное с помощью проточной ДНК-цитометрии.

Рис. 4.9.1. Признак "DNA" имеет распределение, резко отличающееся от нормального

Выясним, отличаются ли по значению этого признака самки и самцы Pelophylax esculentus . Чтобы воспользоваться критерием Манна-Уитни перейдем в меню Statistics / Nonparametrics. Обратите внимание на пиктограммы в меню: они соответствуют тем, которые используются для аналогичных сравнений с помощью t-теста.

Рис. 4.9.2. U-критерий Манна-Уитни вычисляется здесь

В диалоговом окне надо указать зависимую (Dependent) и группирующую (Grouping) переменные; если группирующая переменная имеет более двух значений, надо выбрать те два значения, которым будут соответствовать сравниваемые выборки. Чтобы выбрать только представителей Pelophylax esculentus , воспользуемся окошком Select cases и используем текстово-цифровые обозначения, введенные в пункте 3.1, при описании файла-примера.

Рис. 4.9.3. Установки, выбираемые для описываемого сравнения

Вы можете увидеть, что Statistica вычисляет все три упомянутых в табл. 4.9.1. критерия, которые используются для сравнения двух независимых выборок, но "рекомендует" (запускает с кнопки, расположенной в левом верхнем углу) критерий Манна-Уитни. Вычислим его и убедимся, что отличия между самками и самцами по количеству ДНК, приходящемуся на клетку, статистически незначимы.

Рис. 4.9.4. Результат сравнения по Манну-Уитни

Если нас не интересует односторонний критерий, целесообразно использовать значение p, вычисленное с поправкой (то, которое находится после столбца "Z adjusted, т.е. 0,906780). Эта поправка повыщает мощность критерия в случае выборок, численность которых превышает 20. Так или иначе, никакой сколь-нибудь существенной разницы между самцами и самками не обнаружено.

Использованный нами диалог для сравнения по Манну-Уитни предусматривает возможность построения коробчатых графиков. Поскольку мы используем непараметрический метод, на графике не тражаются параметры выборки (например, ее среднее значение), а используются непараметрические меры - медиана и квартили (значения, "отрезающие" по четвертой части распределения).

Рис. 4.9.5. Графическое сравнение распределений значения признака DNA для самок и самцов Pelophylax esculentus

Может показаться странным, почему первая (от Min до 25%) и последняя (от 75% до Max) четверти настолько уже, чем вторая и третья? Чтобы это понять, построим категоризованную гистограмму.

Рис. 4.9.6. Гистограмма, показывающая распределения значения признака DNA, зарегистрированные для самок и самцов Pelophylax esculentus

Становится понятно, что удивившее нас свойство показанных на предыдущем рисунке распределений является следствием бимодальности рассматриваемого нами признака.

4.10. Критерий знаков для парных сравнений

В нашем файле-примере Pelophylax_example.sta отсутствуют данные, которые требуют сравнения значений двух связанных выборок, поэтому мы создадиим их искусственно. Представим себе, что выборку из 25 лягушек измерили два человека. Их результаты измерений находятся в столбцах First и Second. Размерное распределение в данной выборке изначально было далеким от нормального.

Рис. 4.10.1. Распределение размеров лягушек (в 0,1 мм) по данным измерений, выполненных двумя людьми на одном и том же материале

Тем не менее, для многих из лягушек результаты измерений, сделанных первым и вторым исследователем, отличаются. Наша задача - установить, одинаково ли измеряют длину лягушек два исследователя. Для поиска ответа на этот вопрос воспользуемся критерием знаков.

Рис. 4.10.2. Использование критерия знаков для сравнения результатов измерений, сделанных двумя разными исследователями

Критерий знаков попросту определяет долю случаев, в которых значение из одной выборки больше, чем значение из другой выборки.

Рис. 4.10.3. Отличия статистически значимы!

Мы можем установить, что второй исследователь статистически значимо чаще завышал результаты измерений по сравнению с первым исследователем.

Сравним полученный результат с результатом от использования параметрического метода - t-критерия для парных выборок.

Рис. 4.10.4. Параметрический метод дал тот же результат, но с несколько большей надежностью

Более низкое значение p, определенное с помощью параметрического критерия, вполне согласуется с упомянутым выше фактом, что параметрические методы обладают большей мощностью, чем непараметрические. Но правомочно ли мы использовали параметрический критерий? На самом деле, правомочно. Парные сравнения рассматривают не совокупность значений в первой и второй выборке, а разницу по каждому элементу между первой и второй выборкой. Построим распределение разницы между выборками First и Second.

Рис. 4.10.5. Распределение разницы между измерениями двух исследователей

Можно увидеть, что отклонение распределения разницы между двумя измерениями от нормального является статистически незначимым. Использование параметрического теста было вполне правомочным.

А могли ли мы использовать методы для сравнения независимых выборок? В случае сравнения независимых выборок то, что распределение интересующих нас величин сильно отличается от нормального, оказывается важным. Таким образом, мы должны использовать не t-критерий, а U-критерий. Для того, чтобы использовать U-критерий Манна-Уитни, файл с данными придется перестроить: все измерения должны находиться в одном столбце, а второй столбец станет группирующим.

Рис. 4.10.6. По Манну-Уитни результаты измерений, выполненных двумя разными людьми, не отличаются

Как пояснить такое отличие? Как и во многих других случаях, первое, что нужно сделать в случае какого-то непонимания - надо посмотреть на распределение интересующих нас величин.

Рис. 4.10.7. Распределения результатов измерений, выполненных двумя людьми, практически одинаковы. Но, все-таки, как свидетельствует рис. 4.10.3, для 75% лягушек результаты измерения второго исследователя оказываются большими, чем результаты измерения первого исследователя!

Конечно, полученный результат вполне закономерен. Используя критерий Манна-Уитни вместо критерия знаков (или критерия Вилкоксона), мы утратили важнейшую информацию, характеризующую закономерности изменений рассматриваемой нами величины.

Кстати, использованные нами данные были сгенерированы искусственно. Столбец First был фрагментом из файла Pelophylax_example.sta, куда попали в основном самые мелкие и самые крупные особи, а столбец Second был получен с помощью формулы =Trunc(First-2,4+Rnd(8)). Вам ведь понятно, что и как "делает" эта формула?

4.11. Ранговый дисперсионный анализ Краскела-Уоллиса

До нестоящего времени мы использовали только попарные сравнения выборок. Сейчас мы рассмотрим метод, позволяющий сравнивать друг с другом одновременно несколько выборок. Тест Краскела-Уоллиса является непараметрическим аналогом дисперсионного анализа (ANOVA), который подробно обсуждается в следующем разделе нашего пособия. С вычислительной точки зрения он является многомерным обобщением теста Манна-Уитни. Хотя тест Краскела-Уоллиса в некоторых отношениях и уступает дисперсионному анализу (например, в том, что не позволяет одновременно оценивать действия двух или большего количества факторов), он является мощным инструментом, который оказывается пригодным для решения многих задач.

Покажем действие теста Краскела-Уоллиса на примере нашего файла Pelophylax_example.sta (см. пункт 3.1). Нам надо выяснить, отличаются ли представители разных генотипов по длине внутреннего пяточного бугра статистически значимо. Это вполне осмысленная задача, ведь размер и форма внутреннего пяточного бугра являются важным диагностическим признаком, полезным для определения разных форм зеленых лягушек.

Рис. 4.11.1. Обратите внимание на выделенную пиктограмму, соответствующую сравнению нескольких независимых групп

Естественно, что зависимой переменной является длина пяточного бугра (Ci), а группирующей - генотип.

Рис. 4.11.2. Установки выбраны. Если надо сравнивать не все значения группирующей переменной, следует воспользоваться диалогом, который вызывает кнопка Code

Нажав на кнопку Summary, вы получите результаты сразу двух тестов: непараметрического дисперсионного анализа Краскела-Уоллиса и медианного теста, который основан на методе Пирсона. Использование подробнее обсуждается в одной из следующих глав данного пособия, а здесь достаточно сказать, что этот метод используется для непараметрического сравнения распределений. Если распределения зависимой величины для разных групп, выделенных по значению группирующего признака, оказываются различными, это свидетельствует о том, что группирующая и зависимая переменная связаны. Метод же Краскела-Уолиса, как вы помните, относится к ранговым непараметрическим методам. Эти два метода работают по разным принципам и часто дают достаточно сильно отличающиеся результаты.

Рис. 4.11.3. Оба метода демонстрируют статистически значимое влияние группирующей переменной на зависимую переменную. Метод Краскела-Уоллиса дает p=0,0047, а медианный тест - p=0,0112

Обратите внимание: в силу какого-то непонятного снобизма в некоторых окнах программы Statistica 0 перед десятичным разделителем (при используемых настройках операционной системы - запятой) не ставится.

Нажав на кнопку Multiple comparisons of mean ranks for all groups можно получить результаты попарного сравнения всех групп. Фактически, это эквивалентно выполнению сравнения по Манну-Уитни для всех возможных пар групп. Программа при этом выводит два окна: значения величины z, используемой в вычислениях по Манну-Уитни, и расчитанный для каждой пары уровень статистической значимости различий.

Рис. 4.11.4. Попарные сравнения групп в диалоге теста Краскела-Уоллиса эквивалентны множественным сравнениям с помощью критерия Манна-Уитни

Обратите внимание на то, что при проведении множественных сравнений появляется опасность совершить статистическую ошибку I рода (принять альтернативную гипотезу в то время, когда верна нулевая). Чтобы избежать этой опасности, следует использовать описанную выше поправку на множественные сравнения.

Наконец, кнопка Box & whisker позволяет зримо сравнить распределения разных групп.

Рис. 4.11.5. Сравнение распределений длины пяточного бугра у представителей разных генотипов

Еще одна из "графических" кнопок обсуждаемого диалога позволяет построить категоризованные гистограммы для сравниваемых групп; с точки зрения автора, этот способ вывода результатов является менее наглядным.