Разное про Est1mator

Материал из Материалы по машинному обучению
Перейти к: навигация, поиск

Формат файла данных

  • Формат файла csv
  • Разделитель столбцов - точка с запятой ';'
  • Десятичный разделитель - запятая ',' (точка тоже допустима - автоматически заменяется на запятую)
  • Использование кавычек - TBD
  • Названия столбцов - в первой строке
    • Столбец в моделировании не используется, если в название начинается с тильды '~'
    • Столбец является целевым, если его название начинается со звездочки '*' или он называется 'objective'.
    • В данных должен быть целевой столбец и только один
    • Названия столбцов не должны повторяться
  • Типы столбцов - во второй строке
    • String - NOMINAL
    • Int16, Int32, Int64 - ORDINAL
    • Double, Float - SCALE
    • Bool (0s and 1s) - BINARY
    • DateTime - DATETIME