Приемы статистического анализа в ibm spss statistics (v26)☛Информатика ✎ |
.jpg)
1. Подготовка и описание данных (Descriptive Statistics)
Это первый и обязательный этап любого анализа.
Частоты (Frequencies):
Что делает: Считает количество случаев для каждого значения переменной. Идеально для категориальных данных (номинальных и порядковых).
Где найти:
Analyze > Descriptive Statistics > FrequenciesЧто смотреть: Таблицы частот, проценты. Для непрерывных данных — показатели центральной тенденции и разброса.
Описательные статистики (Descriptives):
Что делает: Вычисляет основные показатели для непрерывных данных.
Где найти:
Analyze > Descriptive Statistics > DescriptivesЧто смотреть:
Среднее арифметическое (Mean)
Стандартное отклонение (Std. Deviation) — мера разброса данных вокруг среднего.
Минимум, максимум (Min, Max)
Асимметрия и Эксцесс (Skewness and Kurtosis) — для проверки на нормальность распределения.
Кросс-таблицы (Crosstabs):
Что делает: Показывает совместное распределение двух или более категориальных переменных.
Где найти:
Analyze > Descriptive Statistics > CrosstabsЧто смотреть: Саму таблицу сопряженности. Кнопка
Statisticsпозволяет рассчитать критерии связи (хи-квадрат, фи, V Крамера и др.).
2. Сравнение групп (Comparing Means)
Одни из самых популярных методов.
T-тест для независимых выборок (Independent-Samples T-Test):
Что делает: Сравнивает средние значения одной непрерывной переменной между двумя независимыми группами (например, мужчины и женщины).
Где найти:
Analyze > Compare Means > Independent-Samples T-TestЧто смотреть: Сначала на тест Левина (Levene's Test) на равенство дисперсий. Если p > 0.05, смотрим строку "Equal variances assumed". Значение p-value (Sig. 2-tailed) указывает на наличие статистически значимых различий (обычно p < 0.05).
T-тест для парных выборок (Paired-Samples T-Test):
Что делает: Сравнивает средние значения для одной и той же группы в двух разных точках времени или в двух разных условиях (например, "до" и "после" лечения).
Где найти:
Analyze > Compare Means > Paired-Samples T-Test
Односторонний дисперсионный анализ (One-Way ANOVA):
Что делает: Сравнивает средние значения одной непрерывной переменной между тремя и более независимыми группами (например, уровень дохода в 5 разных регионах).
Где найти:
Analyze > Compare Means > One-Way ANOVAЧто смотреть: Значение p-value (Sig.) в таблице ANOVA. Если оно значимо, это говорит, что хотя бы одна группа отличается от других. Чтобы узнать, какие именно, используются пост-хок тесты (Post Hoc Tests), например, Тьюки (Tukey) или Шеффе (Scheffe).
3. Анализ связей между переменными (Analyzing Relationships)
Корреляционный анализ (Correlate):
Что делает: Измеряет силу и направление линейной связи между двумя непрерывными переменными.
Где найти:
Analyze > Correlate > BivariateЧто смотреть:
Коэффициент корреляции Пирсона (Pearson): Для нормально распределенных данных. Значение от -1 до +1.
Коэффициент корреляции Спирмена (Spearman): Для порядковых данных или данных, не подчиняющихся нормальному распределению.
p-value (Sig.): Статистическая значимость корреляции.
Регрессионный анализ (Regression Analysis):
Что делает: Позволяет предсказать значение одной переменной (зависимой) на основе одной или нескольких других (независимых).
Где найти:
Analyze > RegressionОсновные типы:
Линейная регрессия (Linear): Для непрерывной зависимой переменной.
Что смотреть:
R-квадрат (R Square)— доля дисперсии зависимой переменной, объясняемая моделью. ТаблицаCoefficients— значимость каждого предиктора (p-value в столбце Sig.) и его вес (B).
Логистическая регрессия (Binary Logistic): Для бинарной зависимой переменной (Да/Нет, 0/1).
Что смотреть: Статистику
Хосмера-Лемешоу (Hosmer-Lemeshow)на адекватность модели. ТаблицуVariables in the Equationдля оценки вклада предикторов.
4. Анализ для категориальных данных
Критерий Хи-квадрат (Chi-Square Test):
Что делает: Проверяет наличие статистически значимой связи между двумя категориальными переменными.
Где найти: В меню
Crosstabs, кнопкаStatistics-> выбрать "Chi-square".Что смотреть: Значение p-value (Asymp. Sig.) в строке "Pearson Chi-Square". Если p < 0.05, связь считается статистически значимой.
5. Понижение размерности и классификация
Факторный анализ (Factor Analysis):
Что делает: Используется для выявления скрытых (латентных) факторов, которые объясняют взаимосвязи между множеством наблюдаемых переменных. Часто используется при работе с опросниками.
Где найти:
Analyze > Dimension Reduction > FactorЧто смотреть: Используется Метод главных компонент (Principal Component Analysis) с вращением Варимакс (Varimax) для упрощения структуры факторов. Чтобы повысить свою квалификацию, можно пройти курсы IBM по данному направлению.
Кластерный анализ (Cluster Analysis):
Что делает: Позволяет разбить объекты на группы (кластеры) так, чтобы объекты внутри кластера были похожи друг на друга, а объекты из разных кластеров — отличались.
Где найти:
Analyze > ClassifyОсновные типы:
K-Means Cluster(заранее задается число кластеров) иHierarchical Cluster(дерево кластеризации, число кластеров определяется аналитиком).
6. Некоммерческие альтернативы для практики
Если у вас нет доступа к SPSS, для отработки этих приемов отлично подойдут:
PSPP: Бесплатный и очень похожий на SPSS клон с похожим интерфейсом.
JASP: Бесплатная программа с современным интерфейсом, которая помимо классической статистики поддерживает байесовские методы.
R / RStudio с R Commander: R — это мощнейший бесплатный язык статистики. Пакет
Rcmdrпредоставляет графический интерфейс, похожий на SPSS.Python (библиотеки Pandas, Scipy, Statsmodels): Для тех, кто предпочитает программирование. Очень гибко и мощно.
Пример простого анализа "от и до":
Задача: Сравнить уровень стресса (continuous) у мужчин и женщин (categorical).
Подготовка: Открыть файл данных. Проверить переменные в
Variable View.Описательная статистика:
Analyze > Descriptive Statistics > Descriptives. Выбрать переменную "стресс". Посчитать среднее и стандартное отклонение.Сравнение групп:
Analyze > Compare Means > Independent-Samples T-Test.Test Variable: "Уровень стресса".
Grouping Variable: "Пол" (определить группы, например, 1 и 2).
Интерпретация: В выводе (Output):
Смотрим таблицу "Group Statistics": видим средние значения для каждой группы.
Смотрим таблицу "Independent Samples Test": сначала на "Levene's Test", затем на строку "Equal variances assumed" и значение "Sig. (2-tailed)". Если оно меньше 0.05, делаем вывод, что различия между мужчинами и женщинами статистически значимы.
Этот обзор покрывает основные, но далеко не все возможности SPSS 26. Освоив эти приемы, вы сможете решать подавляющее большинство стандартных статистических задач.
Разработана теория практической устойчивости дифференциальных включений
Особенность организации научных исследований в педагогическом колледже
Сравнение ПЛК110 ОВЕН с siemens и schneider electric
Контейнеры и devops: технология и практика
Поисковая деятельность в процессе обучения 