Активность «Обучить модель для предсказания значений» может быть найдена в разделе «Машинное обучение. Предсказание» рабочей области «Активности».
Активность создаёт новую модель машинного обучения для предсказания значений, обучает её на основе входных данных и сохраняет итоговую модель в файл.
Алгоритмы для обучения модели в активности машинного обучения для предсказания значений можно разделить на два класса – линейные алгоритмы и алгоритмы дерева решений.
Линейные алгоритмы создают модель, которая вычисляет результат на основе линейной комбинации входных данных и набора весов. Веса являются параметрами модели, которые вычисляются в ходе её обучения. Эти алгоритмы хорошо работают с данными, у которых предсказываемое значение линейно зависит от его свойств.
Линейные алгоритмы являются масштабируемыми и быстрыми, скорость их выполнения зависит от количества свойств (столбцов, на основании которых производится вывод) и количества данных для обучения.
Алгоритмы дерева решений создают модель, которая содержит набор решений, строящийся на основе данных для обучения. Для использования алгоритмов из этого класса не обязательны линейная зависимость результата от свойств и нормализация свойств.
Алгоритмы дерева решений обычно предоставляют более точный результат, чем линейные алгоритмы, но им требуется больше ресурсов, и они не так хорошо масштабируются.
К линейным алгоритмам относятся LbfgsPoissonRegression и OnlineGradientDescent, к алгоритмам дерева решений – FastTree и FastForest.
При создании модели машинного обучения для данной задачи строковые данные кодируются с помощью one-hot encoding, поэтому предполагается, что значения из текстовых столбцов являются категориями из ограниченного набора значений.