Статистика в R. Начало.
Ришат Габидуллин — Вс, 14.06.2009
Любое биомедицинское научное исследование требует проведения статистического анализа. Для этого нам необходимы специальные инструменты. На сегодняшний день это компьютер и специализированный софт.
Последнее время, широко используются такие прекрасные программные пакеты как Statistica и SPSS. Эти монстры позволяют ученым делать с цифрами то, что непосвященному человеку и в страшном сне не привидится. Не меньшим кошмаром оказываются и цены на подобные программы. Но можно ли получить всю мощь профессионального статистического инструмента бесплатно? Оказывается можно. Этот инструмент называется R.
R – язык программирования для статобработки данных и работы с графикой. Это свободная программная среда с открытым исходным кодом. Во многих дистрибутивах Linux есть эта великолепная штука. Не забыты и пользователи Windows и MacOS X.
Как видим, R — свободный и бесплатный программный продукт, но в чем еще его отличие от привычных многим приложений? Здесь нет графического интерфейса. Да-да, того самого всеми любимого кликодрома, в R просто нет. И это является его преимуществом. Утомительное нажимание разнообразных кнопочек — это непродуктивный путь работы. Конечно, существуют сторонние приложения, реализующие графический пользовательский интерфейс, но о них я сейчас рассказывать не буду. По моему мнению, для статистической программы они практически не нужны.
Ядро R — это интерпретируемый язык программирования позволяющий применять циклы, ветвления, а так же создавать свои собственные функции. Язык R был создан Ross Ihaka и Robert Gentleman (Оклендский университет в Новой Зеландии) как некоммерческий вариант языка S, который используется в статистическом пакете S-PLUS.
Дистрибутив R содержит необходимые функции для выполнения большого числа статистических процедур. Во всяком случае, для биомедицинских исследований хватит с лихвой, и даже если не хватит, всегда можно написать свою функцию либо пакет. Правда, вряд ли эта возможность вам когда-нибудь понадобится.
R представляет собой комплексный, интерактивный пакет для управления данными и анализа, который включает в себя функции для стандартной описательной статистики (средние, дисперсии, разброс значений и пр.), а также включает в себя необходимые инструменты для разведывательного анализа данных. Кроме того он имеет много разновидностей обобщенной линейной модели, включая однофакторный и многофакторный дисперсионный анализ. Дополнительные возможности включают пакеты для многомерного анализа и кластерного анализа. Кроме того, пользователям доступны нейронные сети, деревья решений, бутстреп и многое другое.
На сегодняшний день, во многих университетах мира R используется для обучения статистике. Его применяют ученые в самых разных областях науки. Надежность этого инструмента подтверждает и то, что специалисты в Google, Facebook и других крупных компаниях успешно применяют его в своей работе (ссылка).
Таким образом, абсолютно бесплатно мы получаем всю мощность, гибкость и надежность профессионального статистического приложения. Но как с ним работать? Об этом я напишу в следующих статьях. Сейчас дам только ссылки на несколько ресурсов в сети на эту тему.
P.S. В январе 2010 г я написал более полную вводную статью "Статистика с большой буквы R" для сайта Six Sigma Online.
Понравилась статья? .

