Блог Дмитрия Сошникова

Декабрь 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Май
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

You are currently browsing the Технологии category.

Создание виртуальной машины для анализа данных в облаке Microsoft Azure

Для задач машинного обучения как правило требуются достаточно большие ресурсы: как вычислительные, так и для хранения данных. Поэтому всё большее количество специалистов по анализу данных (датасайнтистов) обращают свой взгляд в сторону облачных ресурсов.

Для всех, кто хочет использовать облако для машинного обучения или глубокого обучения нейросетей, у нас есть хорошая новость – облако Microsoft Azure прекрасно вам подойдёт! И вот почему:

В Azure есть готовый образ Data Science Virtual Machine, как под управлением Windows, так и под Linux, на которых уже установлено всё необходимое вам программное обеспечение!
В нашем облаке вам доступны компьютеры с графическими процессорами NVidia (т.н. N-Series VMs), что сильно ускоряет процесс обучения нейросетей.

В этом посте я рассмотрю инструкцию по созданию и настройке виртуальной машины для глубокого обучения в облаке. При этом я буду предполагать, что у вас уже есть облачная подписка Microsoft Azure, привязанная в вашему Microsoft Account – если это не так, то можно обзавестись пробной подпиской.

Data Science Virtual Machine

Для задач обработки данных хорошо подходит специализированная виртуальная машина Data Science Virtual Machine. На ней изначально уже установлены:

Visual Studio и Visual Studio Code, с поддержкой R и Python
Anaconda – самая популярная cреда для поддержки различных окружений на Python и не только
Все необходимые фреймворки для обучения нейросетей: Microsoft Cognitive Toolkit (CNTK), Tensorflow, MXNet и др. Причем если вы используете виртуалку с GPU – все утилиты и библиотеки для работы с GPU (драйвера NVidia, CUDA, cuDNN и др.) будут уже настроены.
Jupyter Notebooks
Microsoft R
Все необходимые библиотеки и утилиты для доступа к Azure
Много полезных утилит (github, AzCopy, …) и прочих вкусностей

Виртуальные машины доступны как для Windows, так и для Linux:

При этом есть тонкости:

Data Science Virtual Machine for Windows 2016 – это самый лучший вариант! Может ставится как на GPU (причем как NC, так и NV – подробнее об этом ниже), так и на обычную VM.
Deep Learning Toolkit for DSVM – это более старая версия виртуальной машины для глубокого обучения на базе Windows Server, которая ставится только на виртуалки типа NC (которых иногда может не хватать).
Из Linux-вариантов поддержка GPU есть только в Ubuntu, но зато и выбор фреймворков там чуть шире.

Виртуалки с GPU

В Azure есть 2 типа виртуалок с GPU (т.н. N-Series VMs):

NC (Compute) – предназначены для вычислений и глубокого обучения. Поскольку такие виртуалки пользуются значительной популярностью, их может иногда не хватать в тех или иных регионах.
NV (Visualisation) – предназначены для запуска приложений графической визуализации. Тем не менее, на этих виртуалках теоретически можно считать нейросети, хотя делать это не рекомендуется. И стоят они чуть дороже.

Виртуальные машины с GPU доступны лишь в некоторых регионах, поэтому если вам не предлагают NC или NV в качестве опции при выборе типа виртуалки – попробуйте выбрать другой регион. Начинать стоит с США (South-Central US, East US) или Европы (North Europe). Вот на этой странице можно посмотреть доступность в разных регионах, выбирая их из drop-down вверху страницы.

Процесс создания VM

Ниже описывается процесс создания и настройки Data Science VM на GPU.

1. Заходим на Azure Portal и выбираем вверху пункт “создать”:

2. В строке поиска пишем Data Science и получаем на выбор несколько вариантов, приведенных на рисунке выше.

3. Выбираем нужны вариант и нажимаем “Создать”. После этого переходим вот к такому экрану конфигурации:

4. При установке машины с GPU в качестве диска обязательно выбрать HDD, поскольку N-Series VM не бывают с SSD, и если выбрать SSD-потом не будет доступна опция выбора N-Series.

5. Выбираем имя пользователя, пароль и т.д. Также выбираем имя новой ресурсной группы, куда будут помещены все облачные объекты, привязанные в этой виртуальной машине – хранилище для дисков, сама виртуалка, сетевые интерфейсы и т.д.

6. В качестве региона выбираем подходящий регион по принципу, описанному выше. Если в выбранном регионе не окажется доступных VM с GPU – потом можно будет вернуться и сменить его.

7. Следующим пунктом выбираем размер и тип виртуалки. NC6 – это самая простая виртуалка с графическим процессором, и как видим на текущий момент она стоит около 60000 руб. в месяц.

8. В разделе “дополнительные параметры” в принципе можно ничего не настраивать, если вы просто создаете одну вирталку. Если же у вас уже есть какая-то виртуальная подсеть, или вы настраивали ранее сетевой доступ для другой VM – здесь есть некоторый простор для оптимизации.

9. На последнем экране читаем ещё раз выбранную конфигурацию и нажимаем “Купить”.

10. После этого машина долго и мучительно (более 10 минут) создается.

Процесс настройки VM

На этом этапе вы уже можете зайти в свою виртуалку, нажав кнопку “Connect” на страничке настроек (выделено красным):

Однако для комфортной работы с виртуальной машиной нужно сделать ещё несколько настроек:

1. Присвоить машине удобное DNS-имя, чтобы обращаться к ней по имени. Для этого надо нажать на IP-адрес на страничке выше (выделено синим), на открывшейся странице ввести DNS-имя и нажать “Сохранить”:

Также запомните окончание адреса, который зависит от региона. Для данной машины полный DNS-адрес будет smart8.southcentralus.cloudapp.azure.com. Теперь вы сможете просто подключаться к машине с помощью удалённого рабочего стола, используя DNS-адрес и введя указанные ранее данные о пользователе и пароль:

2. Очень удобно проводить обучение нейросетей не через удалённый терминал, а через браузер, используя Jupyter Notebook. Для этого рекомендуется настроить автоматический запуск Jupyter на виртуалке, а также пароль для доступа. Для этого войдите на машину через удалённый рабочий стол и запустите ярлык, показанный ниже:

После этого в появившемся текстовом окне необходимо дважды ввести пароль и нажать ENTER.

После этого необходимо немного подождать, и можно попробовать войти в Jupyter из локального браузера по адресу https://localhost:9999. При этом игнорируйте сообщения о том, что https-сертификат неверный – смело переходите на страницу, вводите установленный ранее пароль и начинайте работать!

3. Для того, чтобы Jupyter Notebook был доступен извне по порту 9999, необходимо добавить запись в Network Security Group для нашей машины (если это не было сделано по умолчанию). В панели управления Azure переходим в группу ресурсов нашей виртуалки и выбираем нечто, заканчивающееся на –nsg:

В открывшемся окне мы должны увидеть примерно такие правила:

Если правила Jupyter с портом 9999 нет, то его необходимо добавить вручную, указав протокол TCP и порт 9999.

После этого вы должны быть в состоянии зайти на Jupyter Notebook вашей машины, просто указав в браузере адрес https://smart8.southcentralus.cloudapp.azure.com:9999 и введя пароль, установленный на предыдущем шаге.

Простой запуск и остановка VM

Поскольку машины с GPU дорогие, то рекомендуется останавливать виртуалки, когда вы их не используете. Так вы сможете снизить расходы с $1000 в месяц, до $70-150 (таков на данный момент мой типовой счет за облако, если я не делаю чего-то экстраординарного). Чтобы каждый раз не заходить на Azure Portal, очень удобно настроить специального Azure Bot в скайпе, который позволит вам запускать и останавливать машины простыми командами.

Процесс настройки бота такой:

1. Заходите на http://botframework.com в раздел Bot Directory.

2. Как правило, Azure Bot будет доступен на первой странице. Если нет – найдите его!

3. Нажимаете на бота и устанавливаете его себе в Skype.

4. При первом диалоге с ботом надо будет аутентифицироваться – перейти по ссылке, залогиниться в Azure и скопировать код с сайта в чат с ботом. После этого бот вас запомнит, и делать это будет не нужно.

5. Для остановки и запуска виртуальных машин используйте команды start vm <имя>, stop vm <имя>

Обратите внимание, что только такое выключение машины (DEALLOCATION) ведет к тому, что с вас перестают списывать деньги за её использование. Если вы просто в удалённом терминале скажете Shutdown – машина будет остановлена, но не деаллоцирована, и деньги продолжат списываться. При деаллокации машины освобождаются лишние ресурсы, включая IP-адреса и временные диски.

Хранение данных

В заключение хотелось бы сказать несколько слов о хранении данных. Вместе с созданной машиной автоматически было создано два диска:

Диск C: – системный. На нем хранятся все программы и системные файлы, и даже есть немного места. Содержимое этого диска сохраняется при деаллокации машины. Однако захламлять его вашими данными – не слишком хорошая идея.
Диск D: – это быстрый диск для временных данных, его содержимое между запусками машины будет теряться.

Для долгосрочного хранения данных, а также для разделения их между машинами, можно использовать следующие подходы:

Создать файловое хранилище внутри Azure Storage и затем подключить его к своей машине командой net use. Такой подход имеет тот плюс, что вы сможете также подключить то же хранилище к своей основной машине, и тем самым получите простой способ обмениваться данными. Однако файловое хранилище относительно медленное, а если оно вдруг расположено в другом регионе – то совсем медленное. Кроме того, за пересылку данных между регионами взимается какая-то плата.
Создать виртуальный диск (Managed Disk) и подключить его к виртуальной машине. Виртуальные диски быстрее, чем файловые хранилища, но их сложнее подключить к внешним компьютерам.

Best Practice

В последнее время я делаю несколько проектов по анализу данных и обучению нейросетей, поэтому хочу поделиться с вами полезным приёмом использования виртуальных машин с GPU. Как известно, 80% времени обычно тратится на подготовку данных, и лишь 20% – на собственно запуск алгоритмов обучения. Поэтому я обычно имею в своём арсенале две виртуальные машины, подключенные к общему файловому хранилищу:

Виртуальная машина для подготовки данных – это обычная виртуалка, без GPU, достаточно мощная, чтобы с ней было комфортно работать по удалённому доступу. Обычно я использую что-то типа DS2.
Виртуальная машина для обучения – это NC6.

В каждый момент времени я запускаю ту машину, с которой планирую работать. При этом в обоих случаях все данные и скрипты располагаются на файловом хранилище, т.е. я имею к ним доступ отовсюду.

Однако для ускорения обучения я иногда копирую данные с внешнего хранилища на локальный диск (C: или D:, в зависимости от того, насколько долгосрочны должны быть эти данные).

Заключение

Data Science Virtual Machine – это очень простой и быстрый способ начать использовать инструменты анализа данных и глубокого обучения. Я надеюсь, что мой опыт поможет вам использовать эти виртуальные машины в своей работе или исследованиях. Если у вас есть свой опыт использования виртуальных машин с GPU для анализа данных – делитесь опытом в комментариях!

Posted Май 31st, 2017.
2 comments

Hello, Bot! Чат-боты–следующее поколение приложений

Недавно прошла конференция //BUILD, на которой Майкрософт традиционно представляет новые технологии для разработчиков. В ключевом докладе первого дня была высказана одна очень важная мысль – по мере того, как общение с компьютерами становится всё более естественным, возрастает роль диалогового общения на естественном языке. Речь здесь не только о том, что мы сможем просить голосовой помощник Cortana просить поставить нам будильник, но и что множество других задач (заказать пиццу, забронировать гостиницу, купить билеты и т.д.) может быть решено с помощью диалога. Более того, это может быть не только диалог между пользователем и компьютером: в более сложном случае человек может попросить Cortana спланировать путешествие, и затем Cortana будет сама общаться с другими ботами, совершая заказ гостиницы и билетов.

Здесь интересно то, что само “общение” может происходить а различных местах: на десктопе с помощью клиента Cortana, но также и в других традиционно используемых для чата каналах: в Skype, Telegram, Slack и т.д. Личность и память нашего персонального ассистента не зависит от канала общения, а располагается где-то в облаке, готовая пообщаться с нами на любом из так называемых “conversational canvases”.

Для создания ботов была представлена предварительная версия Microsoft Bot Framework и соответствующие API. Для работы с ботами используются следующие ключевые элементы:

Bot Builder SDK (доступен для C# и для Node.js) предназначен для создания ключевой функциональности бота. Он основан на WebAPI, и определяет протокол общения бота с внешним миром. В рамках SDK есть эмулятор, позволяющий отлаживать ботов, а также набор классов для упрощения реализации некоторых ключевых абстракций, таких, как продолжительные диалоги с состоянием.
Cognitive Services (ранее известные как LUIS, составная часть Project Oxford) позволяют упростить анализ естественного языка и выделение смысла из текстовых предложений. С помощью веб-интерфейса мы можем определить основные синтаксические конструкции, и автоматически присвоить им соответствующие намерения пользователя (intents), на которые затем будет реагировать бот.
Bot Connector позволяет привязать наш бот к одному или нескольким каналам общения, таким, как Skype, Slack, Telegram и др. Для этого достаточно сконфигурировать соединение бота на сайте botframework.com.
Каталог ботов, в котором со временем можно будет публиковать ссылки на различные боты.

Пример: знакомимся с Murphy Bot

Отличный пример бота – это Murphy, созданный в рамках проекта http://www.projectmurphy.net/. Зайдя на сайт, вы можете установить Murphy себе в Skype и начать с ним общаться (только убедитесь, что вы используете последнюю версию Skype, которая поддерживает ботов). Этому боту можно задавать вопросы вида “What if Cindy Crawford were a superman?” (пример диалога вы видите ниже), или “What if I were a programmer” (в этом случае он попросит вас загрузить свою фотографию).

Hello, Bot! Пишем себе собеседника

В качестве примера давайте рассмотрим, как создать простейшего бота на базе Bot Framework. Вспомним, что сердце и мозг бота – это веб-сервис, который обычно располагается в облаке.

Для создания такого сервиса проще всего скачать Bot Framework Template для Visual Studio (убедитесь, что у вас стоит Visual Studio 2015 Update 1 с веб-инструментами). Полученный ZIP-файл положите в каталог с шаблонами Visual Studio, обычно это “%USERPROFILE%\Documents\Visual Studio 2015\Templates\ProjectTemplates\Visual C#". После этого в Visual Studio вы сможете создать новый проект типа Bot Application:

В созданном проекте за основную функциональность бота отвечает метод Post в файле Controllers/MessagesController.cs. Для простейшего Hello-бота реализуем этот метод следующим образом:

public async Task<Message> Post([FromBody]Message message)
{
    if (message.Type == "Message")
    {
        var reply =
            message.Text.ToLower() == "hello" ?
                "Hello!" :
                "I do not understand you!";
        return message.CreateReplyMessage(reply);
    }
    else
    {
        return HandleSystemMessage(message);
    }
}

Чтобы протестировать бота, запустим проект на локальном веб-сервере (F5), скопируем адрес и порт из адресной строки открывшегося браузера, и откроем его в Microsoft Bot Framework Emulator (его необходимо предварительно скачать и установить). Обратите внимание, что к адресной строке сайта необходимо дописать путь /api/messages.

Чтобы заставить бот делать что-то чуть более полезное, я использовал порт на C# известной программы Eliza. Получившийся чат-бот вы можете скачать в нашем репозитории GitHub. В первой версии схема построения бота мало чем отличается от приведенной выше программы, только для формирования ответа вызывается метод готовой библиотеки Eliza.

Такая простая реализация не очень подходит для поддержки длительных диалогов с пользователем, поскольку метод Post используется для обработки запросов всех пользователей, и нет разделения состояния между ними. Чтобы это сделать, можно в явном виде смотреть на идентификатор сессии (message.ConversationID), использовать объекты BotUserData/BotConversationData, или же задействовать более продвинутые API с поддержкой диалогов (о них мы расскажем в дальнейших статьях). Пока же не будем обращать внимания на эти детали, считая, что бот является Stateless.

Чтобы запустить бота в облаке, нам для начала нужно опубликовать получившися Web API в Azure. Затем следует войти на сайт http://dev.botframework.com и зарегистрировать нового бота. Важно придумать для бота уникальный AppID, и получить сгенерированный автоматически App Secret.

После этого необходимо сделать важный шаг – в файле Web.Config нашего приложения необходимо добавить App ID и App Key:

<configuration>
  <appSettings>
    <add key="AppId" value="YourAppId" />
    <add key="AppSecret" value="YourAppSecret" />
  </appSettings>

После чего необходимо повторно развернуть бота в облаке, чтобы Web Config обновился.

Сделав это, можно протестировать работоспособность бота в панели свойств на сайте Bot Framework, или же воспользоваться уже знакомым нам эмулятором – правда в этом случае надо будет ввести правильные AppID и App Secret:

Теперь, когда бот работает в эмуляторе, можно привязать его к различным каналам связи. Для этого в панели управления ботом на сайте Bot Framework необходимо добавить и сконфигурировать эти каналы. Для этого выбираем предпочитаемый канал связи, и следуем инструкциям:

Например, в случае с Telegram необходимо создать новый бот в Telegram с помощью беседы со специальным ботом Bot Father, после чего получить Access Tokem, и предоставить его сайту Bot Framework. После этого Bot Connector возьмет на себя все посреднические операции между Telegram API и вашим ботом, и вы сможете общаться с вашим ботом из Telegram. Кстати, мой бот называется в телеграме @ElllizaBot, можете с ним поговорить!

Подробнее про создание бота с нуля с помощью Bot Framework вы можете посмотреть в этом англоязычном докладе в BUILD.

Канальная абстрация

Основная прелесть Bot Framework API состоит в том, что мы можем теперь писать боты, не ориентируясь на какой-то один канал общения. По сути дела, Bot Framework даёт нам правильный уровень абстракции для реализации механизмов беседы и диалогов, а конкретную связь с различными инструментами общения берет на себя Bot Connector. Это разделение позволяет программисту написать бот один раз, а общаться с ним отовсюду.

Write Once – Chat Everywhere

Принцип абстрации от канала, заложенный в Microsoft Bot Framework

Несколько слов про Skype Bot API

Ещё одна новость, объявленная на //BUILD – это доступность отдельного Skype API для создания ботов. На самом деле создавать Skype-ботов можно и через Bot Framework, но возможности Bot Framework пока позволяют нам работать только с текстом (плюс с некоторыми видами attachemnt-ов), в то время как Skype Bot API несколько шире, и позволяет в том числе создавать видео-боты. При выборе технологии следует отдавать предпочтение Bot Framework, из-за её универсальности, однако если вы хотите создать действительно удивительный бот именно для Skype – посмотрите на Skype Bot SDK.

Заключение

Диалог – это естественная форма взаимодействия людей, и может статься, что она станет естественной формой взаимодействия людей и компьютеров. Майкрософт предлагает удобную программную абстракцию в виде Bot Framework, которая позволяет начать достаточно просто создавать свои чат-боты, работающие сразу со многими каналами общения. Это не только перспективно, но ещё и очень занимательно! Давайте пока экспериментировать с созданием ботов, а через несколько лет (или месяцев) посмотрим, являются ли боты заменой веб-сайтам или мобильным приложениям, как о том говорят аналитики.

Posted Апрель 12th, 2016.
Add a comment

Как Microsoft дружит с Arduino и другими на почве IoT

Пару месяцев назад в рамках конференции Build было объявлено о партнерстве Microsoft с платформой Arduino, а Windows 10 была названа первой Arduino-сертифицированной операционной системой. Исходные анонсы вы можете прочитать на сайте Arduino и в официальном блоге Windows. Давайте разберемся, что же стоит за этими объявлениями.

Самое главное, что следует из этого объявления – Microsoft понимает важность платформы Arduino и будет предпринимать усилия, чтобы соответствующие устройства хорошо взаимодействовали с устройствами на Windows 10. Представьте себе мир, в котором внешние электронные устройства на базе Arduino являются продолжением аппаратного обеспечения компьютера, работающего под управлением Windows 10, и доступны из стандартных универсальных приложений с помощью соответствующих расширений. Это позволит оптимальным образом сочетать вычислительную мощность традиционных компьютеров и облака с потенциалом микроконтроллеров по управлению устройствами, создавая целостные решения в области интернета вещей.

В рамках текущих анонсов было объявлено о доступности двух технологий:

Windows Remote Arduino – это технология, которая позволяет управлять платой Arduino, подключенной по USB или Bluetooth, из универсального приложения, как если бы её порты ввода-вывода были доступны локально. Разработчику универсального приложения становятся доступны основные команды по работе с аналоговыми и цифровыми портами, что позволяет напрямую работать с рядом датчиков. Для взаимодействия Arduino с компьютером используется протокол Firmata, а на плате запускается специальный Firmata Sketch, выполняющий приходящие от удаленного компьютера команды. Проект доступен для Windows 8.1 и Windows 10 в виде исходных текстов на GitHub.
Windows Virtual Shield for Arduino позволяет использовать смартфон под управлением Windows Phone 10 в качестве виртуальной платы расширения для Arduino. При этом смартфон может использоваться как текстовый экран, как гироскоп/акселерометр/GPS, в качестве распознавателя речи и т.д. Вы получаете простой доступ ко всем этим возможностям прямо из своего Arduino Sketch. В качестве примера можно посмотреть на проект Picture the Weather.

Эти проекты в настоящий момент активно дорабатываются, и стоит воспринимать их как первый шаг в правильном направлении. В следующей своей статье я подробнее и на примере познакомлю вас с тем, как всё это работает.

В новом мире многие инновации делаются энтузиастами, которые любят собирать что-то своими руками – в английском языке для этого есть прекрасное слово maker. Понимая важность такого сообщества для будущих инноваций в IoT, Microsoft также объявила о партнерстве с популярным порталом Hackster.IO, на котором теперь будут представлены многие официальные примеры разработок для Windows IoT.

Если же говорить про промышленный интернет вещей, то здесь важной задачей является построение инфраструктуры для взаимодействия сети устройств между собой и с клиентами. Одной из таких платформ межмашинного взаимодействия является DeviceHive от компании DataArt. В результате партнерства компании с Microsoft теперь можно легко разворачивать DeviceHive в облаке прямо из магазина Azure Marketplace, что существенно упрощает создания облачных решений для интернета вещей.

Интернет вещей на текущий момент является достаточно молодым направлением. Чем больше компаний будут работать вместе над развитием этой отрасли, чем больше соглашений и промышленных стандартов типа AllJoyn – тем больше устройств будут общаться между собой и работать вместе, обеспечивая нам прекрасное технологическое будущее.

Posted Июль 10th, 2015.
1 comment

« Previous

Блог Дмитрия Сошникова

Обо мне

О чем я пишу

Создание виртуальной машины для анализа данных в облаке Microsoft Azure

Data Science Virtual Machine

Виртуалки с GPU

Процесс создания VM

Процесс настройки VM

Простой запуск и остановка VM

Хранение данных

Best Practice

Заключение

Posted Май 31st, 2017. 2 comments

Hello, Bot! Чат-боты–следующее поколение приложений

Пример: знакомимся с Murphy Bot

Hello, Bot! Пишем себе собеседника

Канальная абстрация

Write Once – Chat Everywhere

Несколько слов про Skype Bot API

Заключение

Posted Апрель 12th, 2016. Add a comment

Как Microsoft дружит с Arduino и другими на почве IoT

Posted Июль 10th, 2015. 1 comment

Posted Май 31st, 2017.
2 comments

Posted Апрель 12th, 2016.
Add a comment

Posted Июль 10th, 2015.
1 comment