- 5 лучших научных дистрибутивов Linux
- 1. Био-Linux
- 2. Посейдон Линукс
- 3. CAElinux
- 4. Научный Linux
- 5. Fedora Scientific
- Настройка Data Science окружения на вашем компьютере
- Python
- Преимущества Anaconda
- Как установить Anaconda?
- Язык программирования R
- Преимущества RStudio
- Как установить R и RStudio?
- Unix Shell
- Интеграция с другими технологиями
- Unix Shell на Mac
- Команды Unix Shell в Windows
- Интеграция с другими технологиями
- Инструкции по установке Git
- Заключение
5 лучших научных дистрибутивов Linux
Время для популярной викторины: что такое научные дистрибутивы Linux?
Ответ довольно очевиден: хотя большинство дистрибутивов Linux являются универсальными, некоторые специализированные поставляются в комплекте с определенными типами программного обеспечения. Например, есть дистрибутивы медиацентра
те, которые превращают ваш компьютер в мультимедийную студию производства, и даже несколько религиозных дистрибутивов
, Зная это, вас не должно удивлять существование научных дистрибутивов Linux. Ведь история Linux
началось в исследовательских лабораториях, и сегодня Linux работает на серверах
и рабочие места крупнейших исследовательских организаций мира.
Проще говоря, научные дистрибутивы предлагают предустановленное программное обеспечение для различных исследовательских целей. Конечно, вы можете превратить вашу обычную Ubuntu в научный дистрибутив, установив те же приложения, но суть таких дистрибутивов заключается в том, чтобы избежать охоты на отдельные приложения. Вместо этого они предоставляют быстрый способ развертывания Linux в исследовательских учреждениях, учебных заведениях и на персональных компьютерах студентов и любознательных пользователей. Если вы среди последних, вот пять великих научных дистрибутивов для рассмотрения.
1. Био-Linux
Этот зеленый дистрибутив предназначен для ученых, которые работают в области биоинформатики — междисциплинарной области, которая сочетает молекулярную биологию и генетику со статистикой и методами анализа из компьютерных наук. Разработанный в британском Центре Синтеза Окружающей Среды, Bio-Linux поддерживается и финансируется Центром Экологии Совет по гидрологии (CEH) и исследованиям окружающей среды (NERC).
Это дистрибутив на основе Ubuntu, доступный только для 64-битных систем, и он предлагает две среды рабочего стола: Unity по умолчанию и MATE в качестве легкой альтернативы
, Последняя версия (8.0.5) гарантирует долгосрочную поддержку благодаря ядру Ubuntu 14.04. Bio-Linux 8 содержит буквально сотни инструментов биоинформатики, как командной строки, так и графических. Чтобы помочь вам начать, Bio-Linux предлагает руководство в формате PDF.
Основные характеристики программного обеспечения: Артемида, программа просмотра последовательности ДНК и приложение для аннотаций; Galaxy, основанная на браузере биомедицинская исследовательская платформа; Fasta, для поиска в базе данных ДНК и белков; Мескит, для эволюционной биологии; njplot, для рисования филогенетических деревьев, и Rasmol, для визуализации макромолекул. Если вы хотите установить пакеты из Bio-Linux в вашей системе на основе Ubuntu, вы можете просто добавить их репозитории.
Bio-Linux доступен бесплатно в виде живого образа и файла OVA, если вы хотите запустить его в VirtualBox.
Альтернатива: BioSLAX, научное распространение на основе Slackware, сфокусированное на биоинформатике и разработанное в Национальном университете Сингапура.
2. Посейдон Линукс
Как и Bio-Linux, Poseidon Linux также имеет цветовую схему: нежные голубые тона, которые соответствуют его морскому названию. Брендинг был вдохновлен океанологами, которые работают над проектом, но Poseidon Linux не только для одной отрасли науки. Вместо этого он предлагает широкий спектр инструментов, от 2D и 3D визуализации, генетики и приложений для программирования до поддержки статистики, численного моделирования и картографии.
Poseidon Linux является результатом трансатлантического сотрудничества между Федеральным университетом Рио-Гранде в Бразилии и Институтом MARUM в Германии. Текущая стабильная версия (4.0) отстает от времени, поскольку она основана на Ubuntu 10.04. Тем не менее, Poseidon 5.0 находится в разработке и обещает долгосрочную поддержку (опираясь на Ubuntu 12.04) и Unity в качестве среды рабочего стола по умолчанию — долгожданное обновление со старой версии GNOME 2.30, которая поставляется с Poseidon 4.0.
Основные характеристики программного обеспечения: Лабораторный график, для интерактивного построения графиков и анализа данных; QCAD, для 2D-рисования; Blender для 3D-моделирования и QGIS, полная географическая информационная система.
Вы можете бесплатно скачать Poseidon Linux в 32- и 64-разрядных версиях.
Альтернатива: Если вам нужны только инструменты географии и картографии, попробуйте OSGeo, продукт на основе Lubuntu от Open Source Geospatial Foundation.
3. CAElinux
Подсказка в названии: CAE означает автоматизированное проектирование, и этот научный дистрибутив идеально подходит для всех, кто работает с САПР, моделированием, прототипированием, 3D-печатью и физическим моделированием. Разработанный в Швейцарии, CAElinux основан на Xubuntu 12.04 и требует 64-битной системы. Он не предлагает никаких вариантов рабочего стола, кроме Xfce, но его выбор программного обеспечения впечатляет.
Основные характеристики программного обеспечения: Саломе, для 3D CAD и создания сетки; GMSH, для моделирования геометрии; Scilab, для математического программирования; Paraview, для 3D визуализации; ImageJ, для обработки и анализа изображений, и Элмер, для сложных физических моделей.
CAElinux доступен в виде образа Live DVD бесплатно, или вы можете заказать физическую копию по доступной цене.
Альтернатива: Если вам не нужно все передовое программное обеспечение для проектирования и вам нужны инструменты для 3D-моделирования и анимации, попробуйте ArtistX, который мы подробно рассмотрели
4. Научный Linux
После всех этих * основанных на Buntu дистрибутивов Scientific Linux — настоящий комбо-разрушитель: это перестройка Red Hat Enterprise Linux. Последняя версия (7.1, кодовое название Nitrogen) вышла совсем недавно, в трех вариантах — KDE, GNOME и IceWM
— только для 64-битных систем. Однако его база — не единственное, что выделяет Scientific Linux. В отличие от других дистрибутивов, которые переполнены научным программным обеспечением, Scientific Linux предлагает только базовый набор приложений. Какой подлый, вводящий в заблуждение дистрибутив!
Ну не совсем. Scientific Linux, по сути, разработан учеными из Национальной ускорительной лаборатории Ферми и Европейской организации ядерных исследований (ЦЕРН). Хотя по умолчанию он не предлагает много научных приложений, в репозиториях доступны десятки. Благодаря встроенной поддержке кодеков и беспроводной связи Scientific Linux является отличным выбором для научной среды, в которой все должно функционировать без особых усилий. Пользователи могут устанавливать только то программное обеспечение, которое им нужно, поэтому их система не будет перегружена приложениями, которые они даже никогда не откроют.
Основные характеристики программного обеспечения: PostgreSQL и MySQL, для баз данных и разработки приложений; Текстовый редактор GNU Emacs; R язык программирования; Frysk, для системного анализа и мониторинга, и gnuplot, для построения математических выражений. (Обратите внимание, что некоторые из этих приложений не будут установлены по умолчанию, но вы можете получить их из репозиториев.)
Scientific Linux можно загрузить как образ живого DVD.
Альтернатива: Разработчики Scientific Linux поощряют создание «спинов» или сборок на основе своего проекта. Одним из таких дистрибутивов является Fermi Linux; хороший, ориентированный на безопасность вариант для тех, кто хочет запускать Scientific Linux в 32-битной системе.
5. Fedora Scientific
Этот выпуск Fedora представляет собой золотую середину между узкоспециализированным и обычным дистрибутивом Linux. Как таковой, он отлично подходит для исследователей и студентов всех научных специальностей, хотя он слегка склоняется в пользу численных исследований. Среда рабочего стола по умолчанию — KDE, а Fedora Scientific доступна как для 32-разрядных, так и для 64-разрядных архитектур. Он разработан Amit Saha при поддержке Fedora Science and Technology SIG. Красивая онлайн-документация познакомит вас с Fedora Scientific и проведет вас через выбор программного обеспечения.
Основные характеристики программного обеспечения: Максима, полный набор алгебры; LaTeX, для создания документов и презентаций; Mayavi, для 3D-визуализации данных и контроля версий
trifecta: мерзавец, Mercurial и Subversion.
Вы можете скачать Fedora Scientific Live DVD либо через прямую загрузку, либо через торрент.
Альтернатива: Если вы ищете удобный научный дистрибутив, посвященный математике, Mathbuntu — прекрасная замена Fedora Scientific. Он доступен в виде отдельного дистрибутива или набора пакетов для текущей установки Ubuntu.
Независимо от того, в какой области науки вы заинтересованы, вы сможете выбрать подходящий дистрибутив из этого списка. Теперь вернемся к этой популярной викторине.какой ваш любимый научный дистрибутив Linux? Можете ли вы назвать другие подобные дистрибутивы, которые заслуживают места в этом списке? Сделайте свою домашнюю работу и поделитесь своими рекомендациями в комментариях.
Кредиты изображений: Главное изображение, стена мониторинга на базе Nagios в NOC через Flickr от Docklandsboy, скриншот Poseidon, скриншот CAElinux, Scientific Linux через Wikimedia Commons, скриншот Fedora Scientific.
Источник
Настройка Data Science окружения на вашем компьютере
После прохождения различных курсов и обучения на различных образовательных платформах, вроде Datacamp, вашим следующим шагом станет использование полученных знаний о Python, R, Git или Unix Shell на персональном компьютере. Однако, многие из нас затрудняются с тем, какие пакеты и программное обеспечение нужно установить, чтобы начать работу с различными технологиями. Поэтому в этой статье мы рассмотрим:
- Преимущества Python-дистрибутива — Anaconda, а также процесс его установки.
- Преимущества совместного использования R и RStudio, а также процесс их установки.
- Преимущества Unix Shell, а также способы его использования на вашем персональном компьютере.
- Преимущества использования Git, а также процесс его установки.
Ну что же, давайте начнем!
Python
Как вы понимаете, для того, чтобы начать использовать Python — сначала его необходимо установить. Для Python существует огромное количество различных дистрибутивов, но для Data Science — дистрибутив Anaconda является наиболее предпочтительным.
Преимущества Anaconda
Anaconda — это пакетный менеджер, менеджер окружения, а также Python-дистрибутив, содержащий в себе более 400 основных библиотек (с открытым исходным кодом) для научных и инженерных расчетов. Из предустановленных библиотек можно отметить numpy, scikit-learn, scipy, pandas, а также Jupyter Notebooks. На рисунке ниже вы увидите Jupyter Notebook в действии. Это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики. Здесь вы можете подробнее узнать о Jupyter Notebooks.
Также у Anaconda есть несколько других преимуществ:
- Если вам потребуются дополнительные пакеты после установки, вы можете использовать менеджер пакетов conda или pip для установки этих пакетов. Это очень удобно, так как вам не нужно будет беспокоиться из-за совместимости одних пакетов с другими. Всю работу за вас сделают conda или pip. Также Conda упрощает переход между Python 2 и 3 (З десь вы сможете подробнее об этом узнать).
- Anaconda поставляется совместно со Spyder — интерактивной IDE для научных расчетов на языке Python. Данная IDE позволяет писать, редактировать и тестировать код. Spyder предлагает просмотр и редактирование переменных с помощью GUI, динамическую интроспекцию кода, нахождение ошибок на лету и многое другое. Также, по необходимости, можно интегрировать Anaconda с другими Python IDE, включая PyCharm и Atom. Здесь вы сможете узнать об этом поподробнее.
Как установить Anaconda?
Ниже приведены ссылки на руководства по установке Anaconda на вашу ОС.
Язык программирования R
Большинство людей устанавливают RStudio в паре с языком программирования R. Интегрированная среда разработки RStudio считается самым простым и удобным способом работы с языком R.
Преимущества RStudio
При работе с языком R, вам доступен простенький встроенный интерпретатор, в котором можно запускать написанные команды. Но с точки зрения комфорта — он вам точно не подойдет. Поэтому и придумали IDE RStudio, который, по мнению некоторых пользователей, упрощает работу с R. Кое-что из его функций вам точно понравится, а именно: цветовая подсветка синтаксиса, автоматическое завершение кода, удобная навигация по скрипту и т.д
При запуске RStudio появляется экран, схожий с тем, что показан сверху. RStudio разделен на 4 экрана: (A) Текстовый редактор. (B) Панель управления для рабочей среды. © Интерпретатор R (D) Справочное окно и менеджер управления пакетами. Вы должны понять, что RStudio — единственная нужная вам вещь при работе с R. Люди очень часто задают вопрос о том, как установить пакеты в R. На видео ниже вам подробно ответят на этот вопрос на примере пакета tidyverse.
Если вам будет интересно углубиться в данную тему, у Datacamp есть серия из двух курсов, посвященных IDE RStudio (Часть 1, Часть 2).
Как установить R и RStudio?
Ниже приведены ссылки на руководства по установке R и RStudio на вашу ОС.
Unix Shell
Навигация по директориям, копирование файлов, использование виртуальных машин и многое другое — являются неотъемлемой частью работы data scientist. Для выполнения этих задач часто используется Unix Shell.
Способы применения Unix Shell:
- Большинство платформ облачных вычислений основаны на Linux. Например, если вы захотите настроить Data Science окружение в Google Cloud или провести глубокое обучение (Deep Learning) с помощью Jupyter Notebooks в облачных веб-сервисах, типа Amazon Web Services и Amazon EC2, для этого вам потребуются знания и навыки работы с Unix Shell. Конечно, вы можете использовать виртуальную машину и на Windows, но подобный метод не так распространен.
- Unix Shell предоставляет ряд полезных команд, таких как: команда «wc», которая подсчитывает количество строк или слов в файле; команда «cat», которая позволяет вывести содержимое файла; команды head и tail, которые выводят начало (head) и конец (tail) файла. О многих других командах вы можете узнать из статьи «8 Useful Shell Commands for Data Science».
- Unix Shell часто интегрируется с другими технологиями, об этом и пойдет речь далее.
Интеграция с другими технологиями
К примеру, зачастую можно увидеть Unix Shell команды вместе с кодом на Python в Jupyter Notebook. В Jupyter Notebook, вы можете получить доступ к Unix командам, обращаясь к Unix Shell с помощью «!». В приведенном ниже коде, результат Unix команды «ls» (которая перечисляет все файлы в текущей директории) присваивается Python переменной myfiles.
На скриншоте ниже изображен код Python, интегрированный в рабочий процесс для объединения нескольких датасетов. Обратите внимание на Unix Shell команду (в красном прямоугольнике), интегрированную в Jupyter Notebooks
Имейте в виду, что код на скриншоте выше — не какой-то уникальный способ решения проблемы, а всего лишь небольшой пример того, как вы можете использовать Unix команды. Если вы захотите научиться использовать Unix в Data Science, у Datacamp есть бесплатный курс, под названием «Introduction to Shell for Data Science», который я крайне рекомендую. Это тот навык, о котором забывают многие начинающие data scientist, но в дальнейшей работе он может очень пригодится.
Unix Shell на Mac
MacOS поставляется с Unix Shell по умолчанию, поэтому вам не придется ничего устанавливать. Но нужно знать, что существует множество Unix-систем, каждая из которых имеет разные команды. Случается, что у вас нет Unix команды (например, wget), которая до этого была в другой Unix системе. Подобно Anaconda и RStudio, у MacOS тоже есть менеджер пакетов под названием Homebrew. Ниже приведена ссылка о том, как установить и использовать Homebrew.
Команды Unix Shell в Windows
В операционной системе Windows команды Unix Shell по умолчанию не предустановлены. Не забывайте — эти команды будут очень полезны для аналитиков и специалистов в сфере Data Science. Существует множество различных способов, с помощью которых вы сможете установить оболочку Unix в Windows. Например, вы можете установить Git в свой Windows, в который уже входят Unix команды, которые будут доступны для работы из командной строки. Кроме того, вы можете установить GNU на Windows с помощью GOW (около 10мб) или с помощью Unix- подобной среды Cygwin(около 100мб).
Git — на сегодняшний день — это самая широко используемая система контроля версий. Система управления версиями записывает все изменения, которые вы вносите в файл или целый набор файлов и сохраняет их как отдельные версии. Это очень удобно, когда, например, вы пишите код на протяжении нескольких недель и понимаете, что в последние три дня писали не то что нужно и просто откатываетесь к нужной вам версии. Git — важная технология, так как, помимо всего прочего, она позволяет одновременно трудиться над одним проектом/кодом разработчикам по всему миру. Большинство современных компаний, занимающихся разработкой, используют Git в своей профессиональной деятельности. Система контроля версий Git имеет следующие преимущества:
- Ни одна из версий, которую вы закоммитили, не будет потеряна, поэтому вы всегда сможете вернуться к предыдущим версиям своего кода.
- Git уведомит вас, если вы будете работать над участком кода, над которым уже кто-то работает. Таким образом, Git предотвращает потерю или перезапись версии (однако и такое возможно).
- Git синхронизирует работу, выполняемую разными людьми на разных компьютерах, поэтому система масштабируется по мере объемов выполненной работы.
- Научившись работать с Git, вы сможете вносить свой вклад в развитие проектов с открытым исходным кодом.
Интеграция с другими технологиями
Самое крутое в системе Git это то, что она интегрируется с другими технологиями. Ранее я уже упоминал, что интегрированная среда разработки RStudio (IDE) — это один из лучших вариантов для работы с языком R. RStudio предлагает поддержку управления версиями, и большинство интегрированных сред разработки Python (узнать об этом поподробнее можно здесь).
Если вы хотите узнать больше о том, как использовать Git в сфере Data Science, на сайте DataCamp есть бесплатный курс на эту тему, который я очень рекомендую к изучению.
Инструкции по установке Git
Ниже приведены ссылки на руководства по установке Git в вашей операционной системе.
Заключение
В данной статье, мы разобрали различные способы настройки Data Science окружения на вашем персональном компьютере. Важно подчеркнуть, что эти технологии часто используются совместно.
Источник