применение пакета stata. учебник и практикум для вузов

Упоминание о использовании системы SAS занимает одно из ведущих мест в публикациях, посвященных исследованию качества жизни. Алгоритмы шкалирования опросников зачастую распространяются в виде командного скрипта на встроенном языке системы.
Система SAS известна с 1976 г. и способна работать под управлением практически любой операционной системы (ОС). Установка SAS на компьютер приводит к инсталляции своей собственной операционной системы, которая, однако, способна обмениваться данными из приложений, работающих под управлением других ОС.

SAS включает свыше 20 различных программных продуктов, объединенных друг с другом "средствами доставки информации" (Information Delivery System или IDS, так что весь пакет иногда обозначается как SAS/IDS). Под понятием IDS подразумевается, что пользователю SAS достаточно поставить на свой компьютер кроме ОС систему SAS и этим ограничиться для 100% информатизации деятельности (все остальные функции типа задач, решаемых на основе Excel, Word, любой из СУБД и др. полностью возьмет на себя SAS/IDS). Традиционно сложилось, что основными отечественными пользователями системы являются предприятия ВПК, крупные бизнесмены (некоторые банки, включая Центробанк, биржи, торговые фирмы), некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры.

Основным достоинством SAS является непревзойденная мощность по набору статистических алгоритмов среди универсальных пакетов. Кроме того, SAS предоставляет пользователю возможность подключения собственных оригинальных алгоритмов.
Использованием SAS возможно решить практически любые задачи как систематизации данных, так и практически любого вида статистического анализа. Однако, высокая стоимость системы и малая распространенность ее в России делает ее малоизвестной среди отечественных специалистов, занимающихся исследованием качества жизни.

Пакет SPSS для Windows

Пакет SPSS предназначен в первую очередь для статистиков-профессионалов. Он включает развитый аппарат статистического анализа, соизмеримый по мощности с SAS. Программу SPSS для Windows считают в настоящее время одним из лидеров среди универсальных статистических пакетов. Алгоритмы шкалирования опросников качества жизни распространяются также в виде скриптов на языке SPSS, причем научиться самостоятельно писать подобные алгоритмы способен даже специалист без начального программистского образования.
SPSS имеет удобные графические средства (более 50 типов диаграмм), а также развитые средства подготовки отчетов. Аналитические параметры отображаются на экране в виде простых и понятных меню и диалоговых окон. Новая контекстно-ориентированная справочная система содержит пошаговые инструкции для наиболее важных операций. В литературных источниках, посвященных исследованию качества жизни, упоминания об использовании SPSS встречаются практически наравне с упоминаниями о SAS.

Универсальная статистическая система SYSTAT

Универсальная статистическая система SYSTAT разработана одноименной фирмой, которая с сентября 1994 г. поглощена корпорацией SPSS. Главное достоинство пакета - исключительно широкий диапазон и глубина проработки функционального наполнения. Здесь есть широкие возможности и для слабо подготовленного в статистике пользователя и для достаточно искушенного статистика. Для исследователя качества жизни этот программный продукт представляет интерес благодаря наличию алгоритмов анализа шкал опросников, таких как анализ внутреннего постоянства, многомерное шкалирование, классический и логит-анализ пунктов шкалы.

Пакет MINITAB

Пакет MINITAB развивается более 20 лет и широко известен в США, где он является одним из основных учебных пакетов. Пакет также работает на компьютерах Macintosh.
MINITAB хорошо продуман по разделу описательной (дескриптивной) статистики, хорошо сконструирован и управляется с помощью удобного меню, или, по желанию пользователя, через команды, составлять которые помогают диалоговые окна пакета. Часто используемые команды можно запускать по их первой букве. Общее число команд превышает 200. Можно составлять специальные макросы для выполнения последовательностей команд.

Импорт/экспорт данных из других Windows-приложений делается через стандартный буфер обмена. В пакете имеются разнообразные возможности по управлению данными.

Пользователь Minitab при исследовании качества жизни может легко и быстро решать практически все типовые задачи, в основном из области получения описательных статистик и сравнения групповых средних, анализа временных рядов. Если на этапе создания и валидации опросника исследования качества жизни требуется применение методов многомерной статистики, то Minitab позволяет находить главные компоненты или же проводить стандартный линейный или даже квадратичный дискриминантный анализ, использовать алгоритмы факторного и кластерного анализа.
Кроме того, Minitab позволяет получать множество хороших и сложных полноцветных графиков. В плане характеристики мощность Minitab достаточно силен и разнообразен, поэтому говорят, что первые четыре буквы пакета скорее надо поменять на Maxi.

Пакет Statistica 6.0

Пакет Statistica 6.0 не стоит использовать пользователю-новичку в статистике, так как он предполагает владение статистической терминологией. Тем не менее на отечественном рынке этот пакет пользуется популярностью благодаря высокой активности фирмы-разработчика Statsoft и дилера в России - Softline, способствующих популяризации пакета (см.сайт www.statsoft.ru).

Ряд авторов считает, что пакет Statistica является хорошо сбалансированным по соотношению "мощность/удобство". Наличие достаточно широкого спектра функциональных алгоритмов делает его достаточно привлекательным для статистиков-профессионалов. В частности, он включает в себя ряд непараметрических методов анализа, методы многомерного анализа: дискриминантного, факторного кластерного, логлинейного и др. В области исследования качества жизни Statistica 6.0 предоставляет возможности анализа шкал и пунктов, а также обладает развитым блоком анализа мощности и необходимого количества наблюдений.

Средства манипулирования исходными данными в пакете Statistica хорошо развиты. Данные относительно легко отредактировать, можно создавать новые переменные ("признаки"), выбирать отдельные наблюдения или "вырезать" подмножество данных по строкам и/или по столбцам таблицы "объект-признак". Благодаря обширной панели инструментов, для выполнения большинства манипуляций достаточно несколько щелчков мышки, так как почти для всех функций пакета здесь имеются пиктограммы.

Сильной стороной пакета является графика и средства редактирования графических материалов. В пакете представлены сотни типов графиков 2D или 3D, матрицы и пиктограммы. Предоставляется возможность разработки собственного дизайна графика.

Средства управления графиками позволяют работать одновременно с несколькими графиками, изменять размеры сложных объектов, добавлять художественную перспективу и ряд специальных эффектов, разбивку страниц и быструю перерисовку. Например, 3D-графики можно вращать, накладывать друг на друга, сжимать или увеличивать. Передовая анимационная техника позволяет увидеть на графиках, какие точки изменились под влиянием изменений в одной из переменных.

Российский статистический пакет STADIA

Пакет STADIA разработан ведущими специалистами Московского государственного университета им. М. В. Ломоносова (главный разработчик - А. П. Кулаичев) совместно с НПО "Информатика и компьютеры". Первая версия пакета была создана в конце 70-х гг. для БЭСМ-6. С тех пор пакет постоянно модифицировался, пополняя свои функциональные и сервисные возможности.

Пакет STADIA является единственным российским статистическим пакетом, представленном на рынке, который можно отнести к классу универсальных пакетов, то есть в нем представлены все самые распространенные методы статистического анализа данных от описательной статистики и проверки различных гипотез до анализа временных рядов и контроля качества, а также многомерных (факторный, кластерный, дискриминантный анализ, шкалирование) и непараметрических методов анализа. Таким образом, пакет подходит для решения практически всех задач, встречающихся в исследовании качества жизни.

Пакет STADIA , в отличие от SAS и SPSS, не поддерживает обработку миллионов наблюдений, но прекрасно справляется с данными выборочных обследований нескольких сотен или тысяч респондентов. Пакет ориентирован на конкретные статистические расчеты и построение сопутствующих графиков во всех областях прикладной статистики, снабжая пользователя попутно всей необходимой информацией о работе статистических процедур.

В настоящее время пакет используется в учебном процессе и научно-практической работе более чем в 150 университетах России, включая 17 университетов медицинского профиля. Среди пользователей пакета не только ведущие медицинские центры страны (НИИ им. Сербского, НИИ педиатрии РАМН, НИИ дефектологии, институт медико-биологических проблем, НИИ медицинского приборостроения и др.), но и поликлиники, больницы, медсанчасти городов: Москвы, Самары, Перми, Тулы, Уфы, Липецка, Архангельска, Кисловодска, Оренбурга, Бердянска и др.
Пакет STADIA простой в освоении, недорогой (профессиональная версия стоит 500 у.е.) и очень мощный инструмент статистического анализа данных ограниченных объемов. Он учитывает уровень статистической подготовки российского пользователя, позволяет быстро найти необходимый метод обработки данных, представить результаты анализа в табличной и графической формах и продолжить их оформление в других средствах среды Windows (текстовых и графических редакторах).

STATGRAPHICS 5.1 for Windows

STATGRAPHICS включает более 250 статистических процедур, применяющихся в бизнесе, экономике, маркетинге, медицине, биологии, социологии, психологии, на производстве и в других областях. Каждой группе процедур соответствует собственное меню. Результаты представляются в табличной форме или на удобных для восприятия графиках.

Версия 5.1 обогащена диалоговой системой ввода данных из других приложений и выбора методов анализа. Уникальной особенностью STATGRAPHICS является процедура регрессионного анализа, где представлено сравнение полученной регрессионной зависимости с альтернативными моделями. При исследовании статистических связей между показателями качества жизни и клинико-лабораторными данными этот модуль может оказаться неоценимым.

Модуль Statistical Advisor кратко поясняющий суть любого проведенного анализа оказывает помощь в интерпретации результатов. Таким образом, STATGRAPHICS является достаточно полезным программным продуктов для исследования , доступным как для начинающего исследователя, так и для совершенствующегося эксперта.

дой regress. Для уточнения оценок параметров и вторых моментов регрессионных моделей можно использовать веса (см. help weights), связанные с вероятностью включения в выборку отдельных наблюдений (т.е. веса, учитывающие стратификационное происхождение выборки) pw eight (сокр. от probability weights) если такие веса входят в базы данных обследований.

2.6.2 Системы одновременных уравнений

Подобные модели описывают явления, в которых несколько переменных определяется одновременно, как некоторое равновесие экономической системы. Типичным примером СОУ является равновесие рыночных спроса и предложения.

Проблема одновременности тесно связана с уже упоминавшейся проблемой стохастичности регрессоров. Дело в том, что эндогенные переменные (т. е. переменные, определяемые в равновесии; сопутствующее понятие экзогенные, или заданные извне, переменные) коррелированы с ошибками, и поэтому оценивание по методу наименьших квадратов приводит к смещенным и несостоятельным оценкам. В зависимости от структуры уравнений, коэффициенты при эндогенных переменных могут быть, а могут и не быть идентифицируемы.

Для разрешения проблемы эндогенности используются двух- и трехшаговый метод наименьших квадратов (3SLS).

Stata И соответствующая команда называется reg3.

2.6.3 Модели с дискретными и другими ограниченными зависимыми переменными

Часто возникает потребность в анализе моделей, в которых в качестве зависимой переменной фигурирует качественная величина, например, наличие-отсутствие или отказ- участие. Естественным образом такие величины кодируются как 0/1 и называются на статистическом жаргоне успех-неуспех. Они имеют (условное) биномиальное распределение. Метод наименьших квадратов, применяемый напрямую, будет как минимум страдать от гетероскедастичности: ошибки должны быть устроены так, чтобы в результате получилось значение 0 или 1. Возможно, что для каких-то наблюдений и в случае

успеха, и в случае неуспеха ошибка должна быть отрицательной (или положительной), и тогда будет нарушаться и предположение об (условной) центральности ошибок.

Для разрешения подобных трудностей моделируется непосредственно вероятность успеха (т. е. регистрации 1 в принятой кодировке исходов). При дополнительном предположении наличия индексной функции, являющейся линейной комбинацией известных переменных,

Соответствующие модели носят название пробит- и логит-моделей; для второй еще используется название логистическая регрессия. Существенных оснований предпочитать одну модель другой, видимо, нет. Обе функции распределения симметричны, а разли-

чия между ними не так велики: sup x2(1;+1) jF logit (x) F N(0;1) (x)j < 0:02 , но у логисти- ческого распределения более тяжелые хвосты. Пробит-модель привлекательна тем, что в ней используется самое типичное распределение в мире нормальное, и поэтому она удобна для анализа моделей с многомерным нормальным распределением ошибок, если зависимых переменных несколько. В качестве примера можно привести модель Хекмана регрессии с внешним выбором наблюдений (Heckman sample selection model)17 . С другой стороны, логит-модель допускает достаточно широкий спектр средств анализакачества приближения (goodness of fit).

17 В этой модели вероятность попадания объекта в выборку зависит от известных факторов. В связи с непредставительностью выборки относительно исследуемой совокупности многие выборочные статистики, в т.ч. оценки МНК, оказываются смещенными (Greene 1997); модель Хекмана предлагает способ устранения этого смещения. Именно за эту работу профессор Чикагского университета Джеймс Хекман был удостоен Нобелевской премии по экономике 2000 г.

Иногда встречается также асимметричная функция дополнительных логарифмов, называемая также функцией Гомперца (Gomperz, соответственно, гомпит/gompit-модель):

F (z) = 1 exp[ exp(z)]

Stata Соответствующие регрессии в пакете Stata вызываются командами probit, logit и cloglog.

Оценивание коэффициентов в данных моделях производится по методу максималь-
ного правдоподобия. Если наблюдения независимы, то функция правдоподобия для
отдельных наблюдений имеет вид:
L(yi ; xi ; ; F) =		F (xi T );		yi = 1
L(yi ; xi ; ; F) =			F (xi T );	yi = 0
			F (xi T );	yi = 0

что может быть очень удачно переписано как
L(yi ; xi ; ; F) = F (xi T )y i (1 F (xi T ))1 y i
Тогда общая функция правдоподобия имеет вид:

	yi ln F (xi T ) + (1 yi ) ln(1 F (xi T ))
ln L(y; X; ; F) =	yi ln F (xi T ) + (1 yi ) ln(1 F (xi T ))

Задача максимизации этой функции по решается численными методами.

Stata Одним из очень существенных достоинств пакета Stata является доступ программистов к алгоритму численного решения задач максимизации функции правдоподобия пользователя (Gould, Sribney 1999). Оценивание по методу максимального правдоподобия осуществляется командами набора ml.

К оценкам коэффициентов пробит- и логит-регрессий относятся все комментарии о методе максимального правдоподобия (Кендалл, Стьюарт 1973). В определенном классе оценок оценки максимального правдоподобия являются асимптотически эффективными, однако они очень чувствительны к нарушениям формы распределения. Тесты на значения коэффицентов или их линейных комбинаций (в т.ч. на значимость регрессии в целом) осуществляются с помощью статистики отношения правдоподобия или ее асимптотических аналогов теста Вальда (Wald test) и множителей Лагранжа (LM test,

Lagrange multiplier test, score test). Все эти тесты имеют асимптотическое распределе- íèå 2 с числом степеней свободы, равном числу накладываемых ограничений (Айвазян,

Мхитарян 1998, Greene 1997).

Определенное неудобство логит- и пробит-моделей (как, впрочем, и всех нелинейных моделей) заключается в том, что оценки коэффициентов, в отличие от линейной регрессии, не могут быть интепретированы как предельные эффекты (т.е. изменения зависимой переменной при измененении независимой, в том числе бинарной, на единицу), поскольку предельные эффекты в нелинейных моделях зависят от точки, в которой берется такое приращение. Для того, чтобы получить хоть какое-то представление о предельных эффектах, можно рассчитать предельные эффекты для выборочного среднего по всем независимым переменным, или рассчитать предельные эффекты во всех точках и усреднить.

Stata В шестой версии функцию расчета предельных эффектов для пробит-модели выполняет команда dprobit, которая оценивает пробит-модель точно так же, как probit, но вместо коэффициентов выводит предельные эффекты для выборочных средних всех регрессоров. В седьмой версии пакета Stata появилась очень удобная команда mfx, которая рассчитывает эти самые предельные эффекты для произвольной оцененной модели.

2.6.4 Квантильные регрессии

Иногда предметом интереса исследователя могут быть не средние значения зависимой переменной при фиксированных объясняющих, а определенные квантили распределения:

P = p

В исследованиях финансового риска интерес могут представлять, к примеру, 5% или

10% точки (p = 0:05 èëè0:1 ). Кроме того, знание набора (условных) квантилей позволит

понять, меняется ли форма распределения в зависимости от объясняющих переменных. Примером квантильной регрессии является упоминавшаяся ранее в контексте проблем

робастности условная медиана при p = 0:5 .

Stata Квантильные регрессии реализованы в пакете Stata командой qreg. Опция qreg : : : ,

quantile() этой команды позволяет явно указать, квантиль какого уровня p следует исследовать.

Можно показать, что медианная регрессия является решением задачи минимизации суммы абсолютных отклонений (ср. (2.11)):



jyi xi j ! min

Данная задача решается симплекс-методом или другими методами линейного программирования.

2.6.5 Непараметрические регрессии

Методы непараметрической регрессии являются формализацией интуитивного понятия сглаживания на глаз. Если мы будем проводить на глаз кривую на двумерном графи-

ке рассеяния, чтобы описать примерный вид зависимости E , мы будем учитывать,

где лежат наблюденные значения y вблизи интересующей нас точкиx , повторяя харак-

терные пики и впадины кривой регрессии (см., например, рис. 2.3). Непараметрическая оценка кривой регрессии имеет вид:



m^ (x) = n 1 Wni (x)yi ;

ãäå W ni веса сглаживания, которые могут зависеть от всего вектораx . В такой постановке задачу сглаживания можно интерпретировать как задачу нахождения оценки локально взвешенных наименьших квадратов:



n 1 W
	i ^ (	M(x)

Stata Один из методов, явно использующий многократно прогоняемые регрессии для локального сглаживания lowess (locally weighted smoothing) (Fox 1997, Хардле 1993).

Его реализация в пакете Stata осуществлена командой ksm с опцией ksm: : : , lowess.

В эконометрической литературе варианты непараметрической регрессии известны под названиями локальной регрессии (local regression) и скользящей регрессии (rolling regression). В них используется та же самая идея локального взвешивания.

Формализация близости заключается во введении ядра сглаживания с определенной шириной окна. Точки, не попадающие в ядро, будут иметь нулевой вес; таким образом, внимание процедуры сглаживания будет сосредоточено вблизи требуемой точки. Понятие ядра и его применение в непараметрической регрессии формализуется следующим образом (Хардле 1993):

Wni (x) = Kh n (x xi )=f^ h n (x)

f^ h n (x) = n1 Kh n (x xi )

Kh n (u) = hn 1 K(u=hn )

Здесь (2.70) непараметрическая (ядерная) оценка плотности в данной точке (называе-

мая также оценкой Розенблата-Парзена), (2.71) ядро масштабаh n (ширина которого может зависить от числа наблюдений). Нормализация (2.70) гарантирует, что сумма весов равна единице. Полученная таким образом ядерная оценка функции регрессии носит название оценки Надарая-Ватсона.

Есть ряд наиболее популярных ядерных функций:

ядро Епанечникова:

квартическое ядро:

равномерное ядро:

треугольное ядро:

нормальное (гауссово) квазиядро:

K(u) = 0:75(1 u2 )I(juj 1) K(u) =15 16 (1 u2 )2 I(juj 1)

K(u) = 1 2 I(juj 1)

K(u) = (1 juj)I(juj 1)

K(u) = p1 exp[ u2 =2] 2

Здесь I(условие) индикаторная функция, принимающая значение 1, если условие

выполняется, и 0, в противном случае.

Если по отношению к параметрическим моделям всегда могут возникнуть вопросы:Почему именно такая спецификация модели? Почему именно такая форма ошибок? , то естественные вопросы к непараметрическим моделям Почему именно такая форма ядра? Почему именно такая ширина окна? . Есть результаты, показывающие, что ядерная оценка будет состоятельна независимо от выбора ядра, однако ядро Епанечникова

n 4=9

обладает определенными оптимальными свойствами в смысле среднеквадратической

ошибки. Что же касается выбора ширины окна h n , то выбор слишком малого значе- ния будет означать, что оценка кривой регрессии пройдет через все точки выборки, тогда как слишком большое значение сгладит истинную кривую слишком сильно18 . Со статистической точки зрения, задача заключается в том, чтобы соблюсти компромисс между дисперсией точечной оценки и ее смещением. Асимптотически максимальная скорость сходимости среднеквадратической ошибки прогноза составляет в одномерном

случае (т. е. медленнее, чем в параметрических задачах), а ширина окна при этом пропорциональнаn 1=9 .

Stata Непараметрическая регрессия выполняется командой kernreg, входящей в состав дополнения STB-30. Данная команда позволяет указать тип ядра (Епанечникова по умолчанию, равномерное, нормальное, квартическое, триквартическое, треугольное, косинусоидальное), ширину окна, а также точки, в которых будет произведена оценка. Непараметрическая оценка плотности осуществляется встроенной командой kdensity, которая изначально существовала как команда STB, а потом стала частью официального дистрибутива Stata.

Наиболее существенным недостатком непараметрической регрессии является ее одномерность. Обобщение на случай многомерного вектора объясняющих переменных, безусловно, возможно достаточно использовать многомерные плотности, или произведения одномерных ядер однако число соседей убывает с ростом размерности очень быстро (эффект, известный под названием проклятие высокой размерности, dimensionality curse), и окно приходится распространять чуть ли не на всю выборку. Кроме того, в многомерных задачах меняется и скорость сходимости, причем, конечно же, в сторону ухудшения.

Stata Во всяком случае, упомянутая выше реализация алгоритма непараметрической регрессии рассчитана на единственный регрессор.

Я бы порекомендовал дополнять параметрические оценки регрессии непараметри- ческими в целях проверки точности подгонки. Сведенные на одном графике диаграмма рассеяния, предсказанные значения и непараметрическая оценка позволят выявить основные дефекты регрессии: неуч тенную нелинейность, гетероскедастичность и т. п.,

18 Ïðè h ! 1, f(x) ! y.

как это сделано на рис. 2.3.

Краткое описание пакета Stata

Программа Stata (StataCorp. 1999, 2001) это универсальный пакет для решения статистических задач в самых разных прикладных областях: экономике, медицине, биологии, социологии. Впервые пакет вышел на рынок под этим названием в начале 80-õ гг. В январе 1999 г. была выпущена шестая версия, в декабре 2000 г. седьмая. Основными достоинствами Stata являются:

большой спектр реализованных статистических методов (хотя и есть методы, не реализованные практически никак, например, дискриминантный анализ, кластерный анализ, обобщенный метод моментов, ряд других);

возможности гибкой пакетной обработки данных (т. е. программирования всей последовательности команд, начиная от загрузки данных в память и вплоть до всех деталей анализа). Возможности интерактивного режима работы полностью идентичны возможностям пакетной обработки;

относительная простота написания собственных программных модулей, и, вместе с тем, весьма серьезный спектр средств программирования;

мощная поддержка как со стороны производителя, так и со стороны других пользователей Stata (через интернетовский список рассылки); огромный архив пользовательских программ в открытом доступе;

возможность максимизации функций правдоподобия, задаваемых пользователем;

наличие совместимых по функциональным возможностям и форматам данных реализаций для большинства популярных платформ (Windows, Macintosh, UNIX).

По поводу графических средств мнения пользователей разнятся: с одной стороны, они вполне достаточны для текущего графического анализа данных и подготовки научных

публикаций (все рисунки в этой книге выполнены в Stata и импортированы в L A T E X ), с другой, несравнимы с графическими возможностями специализированных пакетов типа Harvard Graphics или презентационных программ типа PowerPoint.

Ниже будет приведена сводка наиболее важных команд пакета. Эта сводка вряд ли сможет заменить изучение этих (и, естественно, других) команд по руководствам пользователя или хотя бы по встроенной подсказке Stata (например, не все детали синтаксиса и не все опции могут быть упомянуты в данном кратком введении). Скорее, она поможет найти, какими командами и для чего следует воспользоваться; более полное и точное описание этих команд можно найти во встроенной помощи Stata и в руководствах. Многие команды будут упомянуты лишь на уровне названия (что, впрочем, достаточно для поиска по встроенной подсказке Stata). Читателю настоятельно советуется овладеть и пользоваться встроенной помощью Stata по командам и деталям внутреннего устройства пакета.

3.1 Договориться: обозначения

Мы будем пользоваться следующими обозначениями, выдержанными в стиле руководств Stata. Так, command команда, которую можно набирать целиком, а можно сократить до первых трех букв (например,reg ress можно написать какreg , а можно какregress ).[ в квадратных скобках] будут указаны необязательные фрагменты команды необязательные опции, списки переменных и т. п. Курсивом мы будем обозначать то, что пользователь подставляет по своему разумению названия переменных, численные значения параметров программ и т. п. Через вертикальную черту будут

перечисляться возможные варианты: [ вариант 1j вариант 2] . Таким образом, запись

describe [ переменные| using имя файла] может разворачиваться в следующие варианты.

describe x1 x2 x3 d using source

desc using source.dta

Эта команда выдает краткое описание файла данных в памяти Stata или на диске. Ссылки на руководства также оформляются в стиле Stata: [R] команда означает, что эту команду можно найти в четырехтомном справочнике команд (Reference);[U] 3 A brief description of Stata это ссылка на Руководство пользователя, а именно на главу 3 в книге User"s Guide (для Stata 6) описание Stata в руководстве пользователя (то, что можно почитать о Stata вместо этого параграфа);[G] twoway описание

двумерных графиков в руководстве по графике.

3.2 Открыть: установка и запуск Stata

Обычно Stata устанавливается в каталог c:/stata , если при установке не было явно указано иное. Исполняемый файл называетсяwstata.exe (Stata for Windows).

Команда verinst проверяет корректность установки пакета.

Сам этот исполняемый модуль выполняет сравнительно небольшое число (около 200) базовых процедур. Подавляющее большинство собственно статистических задач выполняется внешними программами с расширением .ado , находящимися в каталогеc:/stata/ado и его подкаталогах. Эти ado-файлы с некоторой степенью условности можно разделить на базовые (около 900), отлаженные разработчиком и входящие в комплект поставки Stata, (хотя и в них иногда находят ошибки, и тогда Stata делает официальные обновления ado-файлов); официально распространяемые, входящие в состав официальных дополнений к Stata Stata Technical Bulletin, сокращенно STB, которые рассылаются подписчикам и распространяются бесплатно через Internet; и, наконец, пользовательские.

При запуске Stata устанавливает ряд внутренних параметров, таких, как объем выделяемой памяти, и некоторые другие (о них можно узнать в [R] limits или в подсказкеhelp limits ). Практически наверняка вам придется менять следующие установки:

set memory объем памяти

Объем памяти, выделяемой операционной системой для Stata. Чтобы отвести 10 мегабайт, надо напечатать: set memory 10m . Можно выделить память при запуске па-

раметром командной строки: wstata /k 10240 . Если количество переменных ограни- чено 2047, то количество наблюдений может быть ограничено только возможностью выделения памяти операционной системой. При выделении количества памяти, приближающейся к физическому объему ОЗУ (или тем более превышающего этот объем), Stata начинает пользоваться виртуальной памятью (постоянно перезагружаемой с жесткого диска), и работа может замедляться в сотни раз.

set matsize число

Максимальный размер матрицы, которую Stata сможет обработать. По умолчанию устанавливается 10. Максимальный размер 800. Этот параметр влияет на размер-

ность статистических моделей, которые Stata будет в состоянии оценить.

Stata может быть запущена в пакетном режиме, в котором она обрабатывает заданную в качестве входного параметра программу 1 , а по завершении выполнения этой программы передает управление операционной системе (или, попросту говоря, самоликвидируется). Такой вариант запуска задается (в Windows) какwstata /b do имя файла с программой.

Выход из Stata осуществляется командой exit . Если при этом данные не были сохранены, Stata об этом напомнит.

См. также: [U] 5 Starting and stopping Stata, [U] 6 Troubleshooting starting and stopping Stata

3.3 Придти, увидеть, посчитать: интерфейс Stata

Внешний вид Stata (рис. 3.3) несколько отличен от того, что обычно можно увидеть в других статистических пакетах. Внешний аскетизм интерфейса унаследован от идеологии командной строки UNIX, и пользователю Windows требуется некоторое привыкание.

Stata использует в работе несколько окон: окно ввода команд (Stata Command), окно вывода результатов (Stata Results), окно истории, или предыдущих команд (Review), окно переменных (Variables), окно поиска и помощи (Help), графический экран (Graph), окно файла-протокола, èëè log-файла (Log; â 7-é версии его функцию выпол-няет окно Viewer). Можно также в ызвать окна просмотра данных (Stata Browser) или

1 О программах см. ниже параграф 3.13.

Рис. 3.1: Интерфейс Stata.

14 Language syntax

редактирования данных (Stata Editor), а также редактор программ (Stata Do-file Editor). Переключаться между окнами можно, тыкаясь мышкой в любое место на нужном окне, либо через менюWindows .

При вводе команд в окне Stata Command можно пользоваться стандартными средствами редактирования в Windows (выделения, стирания, вставки в буфер и из буфера). Можно вызывать предыдущие команды, нажимая PgUp и PgDn, и редактировать их (что очень полезно, если при вводе команды были допущены мелкие опечатки, или если надо добавить какие-то опции или условия к предыдущей команде). Можно менять кое-какие установки Stata в менюPrefs , например, сохранить текущие установки окон (размеры, положение, шрифты).

См. также: , т.е. руководство Getting Started for Windows.

3.4 Обобщить: как выглядят команды Stata

Команды Stata, как правило, имеют следующий вид:

команда [ список переменных] [[ âåñà]], [ опции]

Список переменных может состоять из одной переменной (например, если нужно получить сводные статистики или построить гистограмму), из двух (расчет корреляций или построение диаграммы рассеяния) и более (регрессии, графики со многими переменными). Условия if èin выделяют те наблюдения, для которых необходимо провести анализ (см. ниже параграф 3.6). Если команда предполагает работу с файлами (чтение, объединение и т.п.), то имя файла, с которым необходимо провести указанные действия, передается в конструкцииusing . Если разным наблюдениям необходимо придать разные веса, то для этого используется конструкция типа (ñì.help weights ; квадратные скобки обязательны). Наконец, дополнительные модификаторы и параметры, влияющие на выполнение команд Stata или вывод результатов, а также все, что не поместилось в упомянутые рамки синтаксиса, записываются в опции.

Есть несколько исключений из вышеупомянутого синтаксиса, в т.ч. команды, выполняющие повторные действия см. ниже параграф 3.11.

См. также: [U]

9 Stata"s on-line

3.5 Узнать: помощь

Â Windows-верии Stata для поиска нужной информации проще всего воспользоваться менюHelp , в котором имеются подменюSearch (поиск по ключевым словам, например,Durbin Watson statistic ) èStata Command (файл помощи по конкретной команде Stata). Впрочем, практически все то же самое можно сделать с клавиатуры командамиsearch ,help èwhelp . Содержимое встроенной подсказки полностью дублируется в открытом

доступе на сайте Stata: http://www.stata.com/info/capabilities/.

Встроенная помощь Stata устроена гипертекстовым образом: если подвести мышку к фрагменту текста, выделенному зеленым цветом, то курсор превратится в ладошку, а если нажать при этом на левую кнопку мыши 2 , то будет выведен соответствующий фрагмент подсказки Stata. Если зеленым цветом помечена ссылка в Internet, то Stata запустит внешний браузер (MS Internet Explorer, Netscape Navigator). В Stata 7 эти действия можно выполнять и с результатами, выводимыми в окно Results.

Полный список стандартных команд, входящих в состав начальной установки Stata, можно найти в меню Help/Contents (или по командеhelp contents ). Эти команды сгруппированы по тематическим разделам: общее представление о пакете, синтаксис команд, работа с данными, графика, статистические средства, матричные команды, программирование, особенности работы в среде Windows.

Все файлы помощи представляют собой специальным образом отформатированные текстовые файлы с расширением.hlp3 .

В Stata имеются собственные обучающие средства мини-уроки (являющиеся, с технической точки зрения, специальным видом программ), доступ к которым обеспе- чивается командойtutorial . Они дают краткое введение в пакет, в графические и табличные средства Stata, знакомят с данными, поставляемыми вместе со Stata, и способами перевода текстовых файлов в формат Stata, а также освещают ряд основных статистических команд.

См. также: [U] 8 Stata"s on-line help and search facilities, [U] tutorials and sample datasets.

2 Для левшей эта кнопка, возможно, будет правой имеется в виду та кнопка, на которой лежит указательный палец.

3 В ОС Windows также имеется формат гипертекстовой помощи, несовместимый с форматом Stata, поэтому кликание на файлах помощи Stata из Проводника (Explorer) Windows ни к чему не приведет.

3.6 Ограничить: условные модификаторы

Многие команды Stata позволяют ограничить свое действие на определенные наблюдения. Делается это с помощью условных модификаторов . Условие, задаемое подif это логическое выражение, в котором могут использовать-

ся операторы отношений > ("больше"),< ("меньше"),>= ("больше или равно"),<=

("меньше или равно"), == ("равно", двойной знак использован для того, чтобы не спутать с операцией присвоения),! = èëè~ = ("не равно"); логические операции& ("è"),j

("èëè"), ! èëè~ ("не"), указание на текущее наблюдение_n и на последнее_N , обычные

операции и функции, а также скобки для указания приоритета. in указывает диапазон наблюдений вида начало/ конец, где в качестве конца диапазона может быть использо-

вано последнее наблюдение, обозначаемое латинской "эл"(l ) èëè êàê1 .

Пропущенное значение (см. ниже описание команды generate , с. 79) тоже может фигурировать как аргумент логической команды. Так,count if x!=. выдаст количе-

ство наблюдений, для которых известно значение переменной x .

Естественно, для того, чтобы данные анализировать, их надо как минимум загрузить в память. Stata обладает достаточно гибкими средствами ввода данных из текстовых

файлов (команды infile; infix; insheet; см. также help dictionaryè [U]24 Com-

mands to input data ), однако файлы других форматов (Excel, SAS, SPSS, Statistica и т.п.) необходимо предварительно сохранить в виде текста (с разделением данных запятыми, табуляциями, или в фиксированном формате), либо воспользоваться внешними средствами для конвертации данных. В комплект поставки Professional Stata входит чрезвычайно полезная Windows-утилита StatTransfer (http://www.stattransfer.com ), позволяющая преобразовывать данные между двумя десятками различных форматов. Другая похожая по функциональным возможностям программа DBMS/COPY.

Работу с уже имеющимися файлами данных формата Stata можно осуществлять из меню File, а можно и с клавиатуры.

use имя файла,

25 Commands for combining data

Загрузить в память указанный файл. Опция use : : : , clear показывает, что при этом

нужно уничтожить все данные, находящиеся в памяти. Если размер оперативной памяти (точнее, размер свободной памяти, остающейся после Windows и прочих приложений) не позволяет втиснуть в нее необходимый файл, то можно воспользоваться вариантом use переменные using имя файла , выбрав модификаторами только те переменные и/или только те наблюдения, которые нужны для работы. С помощью этого трюка можно проводить черновой анализ для задач большого объема, т.е. отработать последовательность команд на некоторой подвыборке, сохранить алгоритм работы с данными в виде do-файла (см. параграф 3.13), а потом оставить на выходные машину считать все то же самое по полной выборке.

save имя файла,

Сохранить данные из памяти на диск под указанным именем. Опция replace указывает, что файл надо переписать, если он существует. Если нет не беда, он будет создан. Опция old нужна для сохранения данных èç-ïîä Stata 6 в формате Stata 4-5 (т.е. для обмена данными с обладателями Stata более ранних версий). В Stata 7 опция old позволяет записать данные в формате Stata 6.

merge список ключевых переменных using имя файла,

Добавить данные из указанного файла к данным, находящимся в памяти. Необходима для пополнения данных вширь, т. е. для добавления переменных. Необходимо, чтобы в обоих файлах (которые на жаргоне Stata называются master data и using data) имелись ключевые переменные, т. е. переменные, однозначно идентифицирующие наблюдения, а также чтобы файлы были отсортированы по этим переменным, см. [R] sort и ниже команду sort. Некоторые из этих ограничений преодолеваются командой mmerge (Wessie 1999), которую необходимо устанавливать дополнительно (см. раздел 3.17). Опция nokeep указывает, что не надо добавлять наблюдения, которые встречаются только в using data.

append using имя файла

Добавить данные из указанного файла в длину, т. е. добавить новые наблюдения.

См. также: [U]

3.8 Добавить, выбросить, переименовать: работа с данными

В Stata имеется несколько типов данных. Первый уровень разделения это данные строковые и числовые. Числовые делятся в свою очередь на целые и действительные, а внутри каждого класса есть различия в точности представления; см. [U] data types ,

help datatypes.

g enerate [тип] имя переменной = выражение

Создать новую переменную, возможно, указанного типа, и присвоить ей значение выражения. Имя переменной в шестой версии Stata может быть длиной до восьми символов, а в седьмой 32, включать в себя буквы (верхний и нижний регистр различа- ются), цифры или знак подчеркивания, и должно начинаться с буквы. В выражение могут входить числа, переменные, фигурировать арифметические операции, функции (математические, статистические, строковые и пр.), логические условия (которые вычисляются как 1 истина и 0 ложь), а также обозначение для пропущенного значения (missing value) точка (.). Stata устроена так, что пропущенное значе- ние равняется плюс бесконечности. Все операции с пропущенным значением будут давать пропущенное значение (кроме логических операций сравнения). Команда g byte nonmissx=x<. создаст новую переменную nonmiss типа byte (т.е. наименьшего возможного размера), которая будет равна 1, если переменная x имеет конечное значение, и 0, если x не определена. Об условиях и диапазонах говорится ниже, в раз-

деле 3.6. См. также [U] 14 Language syntax, [U] 15 Data, Functions and

expressions.

egen [ тип] имя переменной = egen-функция(выражение) ,

Более мощная функция для создания новых переменных, позволяющая рассчитывать средние, медианы, минимумы, максимумы, суммы значений и т. п. по всей выборке или по группам, задаваемым переменными-идентификторами. Подробный список поддерживаемых функций и статистик имеется в [R]egen èëè help egen.

xi специальные выражения

xi: команда Stata со специальными выражениями

Позволяет создать набор бинарных (0/1) переменных из категорийной, или выполнить указанную команду, включив в список переменных создаваемый на ходу набор бинарных переменных. Одна из категорий берется как базовая, и для нее бинарная пе-

ременная не создается, т.е. корректно отрабатывается проблема статистической связи между получаемыми бинарными переменными. Специальные выражения имеют вид i.категорийная переменная.

				Изменяет значения переменной. Актуально для перекодировки значений категорий-
				ной переменной или для соединения нескольких категорий в одну.
replace имя переменной =выражение
				Заменить значения уже существующей переменной.
rename имя переменной новое имя
				Переименовать переменную.
				if условие \| in диапазон
				Удалить наблюдения, удовлетворяющие указанным условиям.
drop переменные
				Удалить указанные переменные.


				Вывести значения указанных переменных (если не указано ничего, то всех) для на-
				блюдений, удовлетворяющих указанным условиям (если никаких условий не указано,
				то вывести все наблюдения).
				[переменные]
				Вручную редактировать указанные переменные для указанных наблюдений. Stata
				предоставляет для этой цели ÷òî-òî вроде примитивных электронных таблиц. Ис-
				пользовать подобный режим для внесения изменений в данные не рекомендуется в
				целях обеспечения воспроизводимости результатов.
browse [ переменные]

				Просмотреть значения указанных переменных для указанных наблюдений. То же, что

и edit, только изменять ничего нельзя.

Отсортировать переменные по алфавиту. sort переменные

gsort +|-переменная : : :

Отсортировать данные по указанным переменным. compress [ переменные]

Привести переменные (если не указано, какие, то все) к минимально возможному типу, снижая тем самым объем памяти, необходимый для их хранения.

Достаточно продвинутая команда, необходимая для изменения представления группированных данных например, панельных. Она переводит данные из длинного (long) формата, в котором на каждый объект панели имеется несколько наблюдений, соответствующих разным моментам времени (много наблюдений, откладываемых в длину мало переменных, откладываемых в ширину), в широкий формат (мало наблюдений много переменных), в котором наблюдения соответствуют объектам, а данные записаны в виде переменных, называния которых заканчиваются на дату. Так, файл с переменными income96, income97, income98 это данные в широком формате, а файл с переменными income, year, где year принимает значения 96, 97, 98 это данные в длинном формате. Панельные команды Stata, имеющие префикс xt), работают с данными в длинном формате.

describe [ переменные ] ,

Вывести описание данных и переменных: формат, метки и т. п. Эта команда показывает также количество наблюдений и переменных, изменялись ли данные с момента последнего сохранения, по каким переменным отсортированы наблюдения. Можно указать файл, находящийся на жестком диске.

Приписать метки к данным или переменным. label variable имя переменной "текст" создает метку переменной, которая выводится командой describe и видна в окне переменных. Можно также задать метку для файла данных (информация о файле данных хранится в сопровождающем его объекте _dta, и соответствующая команда будет иметь вид label data). Эта метка будет выводиться при исполнении use и describe. Можно также задать метки для отдельных значений дискретной переменной через label define и label values . Признаком хорошего стиля работы с данными является придание меток создаваемым переменным: после любой команды generate или egen должно идти label variable .

note s [_dtaj переменная] : " текст"

Еще один вариант создания примечаний о файле или переменных. Если командой label всем данным в целом или отдельной переменной можно приписать только одну метку ограниченной длины, то notes позволяет приписать к каждой переменной или к _dta произвольное число меток произвольной длины. Примечания удобны для внесения комментариев типа: Разобраться с этой переменной; Данные за 1994 г. сверены; Файл получен программой households.do и т.п.

Баум К. Ф.

Переводчик: В. А. Банников

Книга содержит как теоретические постулаты эконометрики, так и подробное описание их реализации в современном программном продукте Stata. Материал охватывает ключевые темы, начиная от самых простых (линейная регрессия) и заканчивая наиболее сложными (например, оценка моделей панельных данных). Особый акцент делается на непосредственной работе с данными, ее организацией, чтобы минимизировать ошибки, которые могут возникнуть при повторных исследованиях или проверке результатов исследования.

Книга будет полезна как студентам, начинающим исследователям, так и имеющим опыт работы с эконометрическими методами, в том числе с инструментом программы Stata, поскольку в ней не только подробно описываются азы работы с программой, но и приводятся тонкости, на которые большинство не обращало внимания.

Похожие публикации

Ч. 1. Волгоград: Волгоградское научное издательство, 2010.

Сборник включает статьи участников международной научно-практической конференции «Экономика и управление: проблемы и перспективы развития», прошедшей 15-16 ноября 2010 г. в г. Волгограде на базе Регионального центра социально-экономических и политических исследований «Общественное содействие». Статьи посвящены актуальным вопросам экономической, управленческой теории и практики, изучаемыми учеными из разных стран - участниц конференции.

Настоящее издание включает в себя два доклада, объединенных общей темой: «Куда движется современная экономическая наука?» В докладе Р.И. Капелюшникова «О современном состоянии экономической науки: полусоциологические наблюдения» анализируются новейшие социологические и эпистемологические тенденции в развитии экономической науки. Доклад А.М. Либмана «Эмпирические исследования в экономике: “революция достоверности”?» посвящен анализу ключевых изменений в практике эмпирических экономических исследований, происходящих в последние десятилетия - так называемой «революции достоверности».

В работе рассматриваются два метода Монте-Карло с цепями Маркова, широко применяемые в эконометрических исследованиях. Это алгоритм Метрополиса и гиббсовский выбор. Приводится описание обоих методов. Методы Монте-Карло с цепями Маркова предназначены для симулирования наборов векторов, отвечающих многомерным распределениям вероятностей. В частности, эти методы применяются в байесовской статистике для исследования апостериорных распределений. Существенное значение имеет соблюдение условия инвариантности, доказательства, что это условие выполняется, приводятся для обоих методов. Для обоснования и изучения методов используется теория цепей Маркова с конечным числом состояний. На нескольких примерах исследуется точность рассматриваемых методов Монте-Карло с цепями Маркова. Эти примеры включают двумерное нормальное распределение с высокой корреляцией, двумерное экспоненциальное распределение, смесь двумерных нормальных распределений.

Предложен и реализован новый подход к определению наборов факторов для регрессии при заданном множестве потенциальных аргументов и фиксированной выборке. Выбираются наборы, являющиеся для используемых критериев качества регрессий конкурирующими, и такие, что не отвергается нормальность ошибок. К искомым регрессиям предъявляется требование быть гармоничными, обобщающее предложенное Хелвигом понятие коинцидентности. Несуществование одновременно конкурирующих, нормальных и гармоничных регрессий (KNH-регрессий) в условиях доверия к предположениям МНК интерпретируется как наличие в выборке нетипичных наблюдений. Предложен класс процедур «регрессионного тримминга», выявляющих и корректирующих такие наблюдения с целью нахождения скорректированных KNH-регрессий. Приведены примеры, использующие данные из классических работ по регрессионному анализу.

Трунин П. В. , Дробышевский С. М. , Евдокимова Т. В. М.: Издательский дом «Дело» РАНХиГС, 2012.

Целью работы является сравнение режимов денежно-кредитной политики с точки зрения уязвимости экономики использующих их стран к кризисам. Работа состоит из двух частей. Первая часть содержит обзор литературы, где представлены результаты исследований, рассматривающие подверженность кризисам экономик, применяющих такие режимы денежно-кредитной политики, как таргетирование валютного курса, классическое и модифицированное инфляционное таргетирование. Также приводятся оценки эффективности накопления валютных резервов в качестве инструмента предотвращения или смягчения кризисов. Во второй части работы - эмпирической - описаны методология и результаты сравнения адаптационных способностей экономик, полученные на основе анализа динамики ключевых макроэкономических показателей в докризисный и посткризисный периоды в странах, сгруппированных по режимам денежно-кредитной политики. Кроме того, представлены оценки подверженности экономик кризисам на основе расчета частот наступления кризисов при различных режимах.

В статье исследуются особенности моделирования кредитных рейтингов банков с использованием эконометрических методов. Особое внимание уделяется формированию наборов данных для исследования, выбору объясняющих переменных, анализу прогнозной силы моделей и их временной устойчивости. Анализируются сравнительные особенности эконометрических моделей рейтингов банков применительно к странам с развивающейся экономикой (включая БРИК, Центральную и Восточную Европу, СНГ), а также подходов ведущих рейтинговых агентств. Эмпирическое исследование базируется на данных о 551 банке из 86 стран за 1995-2009 гг.

М.: Анкил, 2013.

В сборнике представлены материалы прошедшей 29 октября 2013 г. научно-практической конференции "Эконометрические методы в исследовании глобальных экономических процессов", организованной кафедрой эконометрики и математических методов анализа экономики в партнерстве с Фондом развития МГИМО и при поддержке Международного статистического института.

Конференция, состоявшаяся в рамках Международного года статистики, была посвящена накопленному опыту и перспективам использования эконометрических моделей и применения численных методов при решении прикладных задач международной макроэкономики.

В мероприятии приняли участие ведущие эксперты в области эконометрики, математической статистики, прикладной экономики и международных экономических отношений из ЦЭМИ РАН, ИЭ РАН, МГИМО, МГУ им. М.В.Ломоносова, НИУ ВШЭ, ГУУ, ФУ, МЭСИ, РУДН, РАНХиГС.

Данная работа посвящена критическому анализу института минимальной заработной платы в странах с развитой рыночной и переходной экономикой, а также в некоторых развивающихся странах. Рассматриваются институциональные особенности минимальной оплаты труда в отдельных странах: процедура установления, региональные особенности, роль профсоюзов. В специальном разделе анализируется динамика абсолютного и относительного размера МЗП, выявляются те общественные группы, которые выигрывают и проигрывают от пересмотра минимальной оплаты. Особое внимание уделено воздействию института МЗП на рынок труда. Автор рассматривает механизм трансляции повышения минимальной оплаты труда на динамику занятости и безработицы, приводит результаты эмпирических исследований. Опыт многих стран свидетельствует, что «скачкообразное» повышение МЗП приводит к стагнации и даже сокращению занятости, в первую очередь среди социально не защищенных слоев. Особенно негативный эффект фиксируется для компаний с высокой долей трудовых издержек и широким применением неквалифицированного труда, т.е. прежде всего для малого предпринимательства и предприятий аграрного сектора. Один из выводов работы состоит в том, что увеличение МЗП не является эффективным средством решения проблемы бедности, так как большинство ее получателей сосредоточены в домохозяйствах со средним и выше среднего уровнем дохода.

Stata представляет собой интегрированный пакет для решения статистических задач в средах Windows, Macintosh или Unix, предназначенный для специалистов, занимающихся научными изысканиями. Решение можно использовать как в экономике, политологии и других общественных науках (благодаря поддержке широкого спектра моделей панельных данных), так и в биостатистике, эпидемиологии и других областях медицины, благодаря широкой поддержке различных моделей выбытия.Stata 10 добавляет много новых функций, таких как многоуровневая смешанная модель, точные логистические регрессии, множественный анализ, графический редактор Find out more about these features at.

Год выпуска: 2007
Размер: 569 MB
Версия: 10.0
Разработчик: StataCorp
Платформа: Microsoft Windows XP/Vista
Совместимость с Vista: да
Системные требования:
Pentium processor or compatible
256 MB RAM
Язык интерфейса: только английский
Таблэтка: Присутствует
Быстрая, точная и простая в использовании
Интерфейс с использованием координатного указателя, интуитивно понятный синтаксис команды, а также справка, Stata проста в использовании, быстрая и точная (см. результаты сертификации http://www.stata.com/support/cert/) . Все анализы могут быть воспроизведены и задокументированы для публикации и обзоров.
Широкий набор статистических возможностей
Stata предлагает сотни передовых статистических инструментов, таких, как динамические панели данных (DPD) регрессии, обобщенные оценки уравнений (GEE), многоуровневые смешанные модели, модели выборки, ARCH и оценки со сложным обследованием образцов; стандартные методы, такие, как линейные и обобщенные линейные модели (GLM), ANOVA / MANOVA, ARIMA, кластерного анализа, стандартизация курсов, анализ случай-контроль, и основные таблицы и сводные статистические данные.
Полный контроль над управлением объектами
Stata даёт вам полный контроль над всеми типами данных: вы можете комбинировать и изменять наборы данных, управлять переменными, а также собирать статистику по группам или дубликатам. Вы можете работать с данными типа байт, целое, с плавающей точкой, двойной точности и строковыми переменными. Stata также предлагает дополнительные инструменты для управления специализированными данными, такими, как выживание / продолжительность данных, временных рядов данных, панель / продольных данных, категорических данных и данных обследований.
Публикация качества графики
Stata позволяет легко генерировать различные стили графиков для публикации, в том числе регрессии, графиков распределения участков, временных рядов, графиков участков выживания. Благодаря интегрированному графическому редактору достаточно нажать кнопку для изменения чего-либо в вашем графике: добавления заголовка, выделения, линий, стрелок или текста.
Вы можете выбирать между действующим графиком стилей или создать свой собственный.
Чуткий и расширяемый
Stata программируемый на столько, что позволяет разработчикам и пользователям добавлять новые функции каждый день для удовлетворения растущих потребностей сегодняшних исследователей. Новые функции и официальные обновления могут быть установлены через Интернет при помощи одного нажатия кнопки мыши. Многие новые функции и информативные статьи публикуются ежеквартально в журнал. Также имеется один большой ресурс «Statalist» - независимый сервер, где более чем 2800 пользователе обмениваются более чем 1000 сообщениями и 50 программами в месяц.
Язык программирования Mata
Mata – это полнофункциональный матричный язык программирования. Исходный код, написанный на этом языке, компилируется в байт-код и оптимизируется для быстрого выполнения. Большинство новых возможностей Stata 10, таких как построение линейных смешанных моделей и полиномиальных пробит-моделей, появилось именно благодаря Mata.
Кросс-платформенная совместимость
Stata доступна для Windows, Macintosh, и Unix операционных систем (включая Linux). Любыми данными Stata можно легко обмениваться между различными платформами.
Широко используются
Stata распространяется в более чем 150 странах и используется специалистами во многих областях исследований.
Доп. информация: В папке CYGiSMO смотреть readme.txt В папке "учебник" работа Коленкова С. Прикладной эконометрический анализ в статистическом пакете Stata
Доп. информация: Программу устанавливал и проверял работу под Windows XP. В папке "unix" видимо модули для работы под другими операционными системами.