Ирисы Фишера

Дмитрий Чалый

Ирисы Фишера

Изучить науки о данных может каждый. Сначала кажется что делать анализ данных сложно, однако потом ты понимаешь, что это интересно, красиво и занимательно. Особенно если ты знаешь Python и используешь Тильду.

ВСЕ НАЧИНАЕТСЯ С ИСТОРИИ

История

Истории обогащают нашу жизнь. Каждый проект по анализу данных рассказывает какую-то историю и делает нашу жизнь интереснее.

Вот что говорит нам Википедия об этой истории:
Ирисы Фишера — это набор данных для задачи классификации, на примере которого Рональд Фишер в 1936 году продемонстрировал работу разработанного им метода дискриминантного анализа. Иногда его также называют ирисами Андерсона, так как данные были собраны американским ботаником Эдгаром Андерсоном. Этот набор данных стал уже классическим, и часто используется в литературе для иллюстрации работы различных статистических алгоритмов.

Как мы делаем эту страничку?

Ненадолго прервемся и расскажем, что мы сделали чтобы получить такую страничку не написав ни строчки кода. Это Тильда, детка :)

Один блок за другим

Мы создали пустую страницу, на которую один за другим прямо в браузере помещаем блоки. Для этого не надо быть веб-программистом.

Обложка с картинкой

Первым блоком является обложка. Она привлекает внимание, не правда ли?

Фрагменты текста

Каждый фрагмент текста состоит из двух блоков: заголовка и текста. Просто помещаешь их один за другим и все. Если вдруг блоки перепутались, всегда их можно поменять местами.

Картинки

Все любят картинки, поэтому мы взяли блок с галереей и поместили туда три картинки ирисов разных видов.

А продолжается описанием данных

Описание данных

Прежде чем анализировать данные необходимо разобраться в их структуре.

В своей работе Р. Фишер использовал данные, собранные американским ботаником Э. Андерсоном, который измерил следующие характеристики цветков каждого из 150 образцов:

Длина чашелистика (англ. sepal length);
Ширина чашелистика (англ. sepal width);
Длина лепестка (англ. petal length);
Ширина лепестка (англ. petal width).

Каждый образец принадлежит к одному из трех видов ирисов: ирис щетинистый (Iris setosa), ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor).

Ниже мы приводим пример того, как организованы данные.

150

Измерений различных цветков

Вида ирисов

Ирисов каждого типа

Где взять эти данные?

Наш набор данных является настолько популярным, что его можно легко найти в любой поисковой машине. Он оказался настолько популярным, что даже входит в модуль scikit-learn для языка Python, в котором реализованы многие методы машинного обучения. Чтобы начать работу достаточно сделать следующее:

from sklearn import datasets
iris = datasets.load_iris()

ЗАДАЧА

Думай о задаче

Всегда надо думать о той задаче, которую можно решить при помощи анализа данных. Интересные истории начинаются с простого вопроса.

На первый взгляд задача ставится просто: необходимо классифицировать ирисы по виду на основе размеров чашелистика и лепестка. Даже в такой постановке в задаче образуется доля волшебства: представьте себе, что вы с линейкой измерили цветок и на основе этих измерений можете сразу определить вид ириса.
Но прежде чем приступить к решению этой задачи полезно взглянуть на те данные, которые у нас есть под рукой.

Представление результатов анализа

Представление результатов анализа является главной задачей, которую предстоит решить. При этом в идеале визуализация результатов должна автоматически обновляться в зависимости от данных. Этого можно достигнуть если использовать Python для подготовки данных, а библиотеку D3.js для визуализации этих данных.

Анализ данных — Python

Исходные данные должны помещаться в репозиторий, например, на GitHub, там же должны находиться Python-скрипты, которые анализируют данные и представляют результаты в виде csv-файлов, которые помещаются также в репозиторий.

Визуализация — библиотека D3.js

Библиотека D3.js позволяет делать высококачественную векторную графику, позволяющую визуализировать результаты анализа данных. В интернете много примеров использования этой библиотеки, не стесняйтесь изучать код и использовать его для своих проектов. Начать знакомство с этой библиотекой можно, например, со статьи Просто о D3.js, а примеры можно посмотреть на сайте D3.js - Data-Driven Documents.

Хостинг — GitHub.io

Результаты анализа (в виде csv-файлов) и javascript-файлы проще всего расположить на хостинге github.io, откуда они будут автоматически подгружаться когда пользователь зайдет на ваш сайт.

Использование всего этого на Тильде

Чтобы отобразить одну или несколько картинок необходимо сделать Зеро-блок, на котором расположить один или несколько текстовых элементов. Каждый из этих элементов при помощи JavaScript заменяется на график, который вы хотите отобразить.
Например, на этой странице в Зеро-блоке есть текстовый элемент с атрибутом field="tn_text_1470210011265", и он при помощи вот этого JavaScript заменяется на график. Сам JavaScript-код и необходимые стилевые файлы подключаются в стандартном для Тильды блоке для html-кода.