Задание отборочного этапа хакатона "IT-Education HACK"

Работа над массивом данных об обучающихся школ
Данные
В рамках отборочного этапа вам предлагается проанализировать набор
данных об обучающихся двух школ. В файле students_data.csv представлена информация об обучающихся, посещающих два предмета: математику (Math) и природоведение (Por). При этом
некоторые обучающиеся выбирают оба предмета, некоторые – только один из них. Для каждого обучающегося известны три оценки по предмету: оценка за первое полугодие (G1), оценка за второе полугодие (G2) и итоговая оценка за год (G3). Общее количество обучающихся, по которым данные известны – 1044.

Признаки

Данные по каждому обучающемуся содержат сведения в разрезе следующих признаков (общее количество признаков – 36).

Задания

Уровень 1

Задание 1
1.1. Для каждого признака определите, к какому типу он относится (численный/категориальный).
1.2. Проверьте значения признаков на наличие опечаток и ошибок, исправьте их. Важно! Исправлять ошибки нужно программно (в т.ч. с использованием технологий ИИ), модифицировать руками исходный файл нельзя.
1.3. При необходимости, приведите признак к определенному вами типу.

Задание 2
2.1. Проверьте, присутствуют ли в данных пропущенные значения. Сколько? В каких признаках?
2.2. По каждому такому признаку предложите и обоснуйте, что делать с пропущенными значениями.

Задание 3
3.1. Посчитайте базовые статистики (по крайней мере, средние значения) для числовых и для категориальных признаков.
3.2. Сколько студентов посещают каждую из школ?
3.3. Сколько студентов посещают математику, сколько - природоведение?
3.4. Какой предмет «заваливают» чаще?
3.5. Сколько в среднем времени в неделю уходит на учебу по каждомупредмету?
3.6. На что чаще обращают внимание при выборе школы?

Задание 4
4.1. Оцените распределение оценок (отдельно для G1, G2 и G3). Сравните распределения для разных предметов - математики и природоведения.Сделайте как можно больше обоснованных выводов из результатов сравнения. Подсказка: для выполнения заданий пригодятся навыки ИИ по построениюгистограмм.

Задание 5
5.1. Оцените, есть ли попарные зависимости между разными числовыми признаками? Ответ обоснуйте.
5.2. Оцените, есть ли попарные зависимости между разными категориальными (нечисловыми) признаками? Ответ обоснуйте.

Уровень 2

Задание 6
6.1. Оцените, есть ли разница в времени, проводимом на улице, между мальчиками и девочками. Кто из них больше времени проводит вне дома?
6.2. Зависит ли время, проводимое на улице, от таких параметров как: address, Pstatus, higher, romantic, freetime.
6.3. Сравните значения времени, проводимого на улице, для 50 лучших учеников и 50 худших (по G3). Выполните сравнение отдельно для каждого предмета (Math и Por). Сделайте обоснованный вывод: влияет ли время, проводимое на улице, на успеваемость?
Подсказка: для выполнения заданий пригодятся навыки ИИ по построению гистограмм.

Задание 7
7.1. Оцените зависимость итоговой оценки (G3) по предметам от следующих признаков:
• Пола
• Времени в пути от дома до школы
• Наличия дополнительной помощи в учебе (от членов семьи или
одноклассников)
• Посещения платных занятий с репетитором
• Наличия интернета дома
• Количества времени, проводимого на улице

Задание 8
8.1. Часть из представленных в данных обучающихся посещали оба предмета: и Math, и Por.
Предложите способ идентификации таких обучающихся и определите количество тех, кто посещал оба курса.
8.2. Также для найденных обучающихся сравните оценки по двум предметам. Сделайте как можно больше обоснованных выводов из результатов сравнения.
Подсказка: столбец ID является уникальным идентификатором наблюдения, но не студента. Он будет уникален для каждой строки.

Задание 9
9.1. Добавьте в данные новый признак (G4) - итоговая оценка по 4-х балльной шкале:
• excellent (отлично): 18 <= G3 <= 20
• good (хорошо): 14 <= G3 <= 17
• satisfactory (удовлетворительно): 8 <= G3 <= 13
• unsatisfactory (неудовлетворительно): G3 < 8

Уровень 3

Задание 10
10.1. Предложите модель для определения итоговой оценки обучающегося по
4-х балльной системе (G4) по другим имеющимся признакам. Оцените точность предложенной модели.

Критерии оценивания

  1. К каждому заданию команда предоставляет исходный код реализованного решения, содержащий ответ на все подпункты заданий вместе с ходом решения.
  2. За каждый реализованный подпункт задания 1-ого уровня команда получается по 1 баллу. За каждый реализованный подпункт задания 2-ого уровня команда получается по 3 балла. За каждый реализованный подпункт задания 3-его уровня команда получается по 10 баллов. Итого команда может получить 14, 36 и 10 баллов за задачи 1-ого, 2-ого и 3-его уровней соответственно (всего 60 баллов).
  3. Также команда может получить до 10 дополнительных баллов в случае, если при выполнении заданий будут использованы технологии искусственного интеллекта (в ИИ, т.ч. генеративные модели): по 1 баллу к каждому из заданий, в котором применены технологии ИИ.
  4. Максимальное количество баллов, которые может набрать команда по итогам оценивания – 70 баллов.
  5. В рамках выполнения заданий допускается использовать любые языки программирования (Python, Java, C/C++ и т.п.).
  6. В рамках выполнения заданий 1-ого и 2-ого уровней не допускается использовать сторонние библиотеки. В рамках выполнения заданий 3-его уровня допускается использовать сторонние библиотеки ТОЛЬКО для анализа точности решения. Задания, в решении которых нарушено данное условие оцениваются 0 баллов.
Не допускается использовать фрагменты чужого исходного кода (плагиат).
Команда, уличенная в плагиате, дисквалифицируется.
По всем вопросам свяжитесь с нами любым удобным способом:

Ушакова Елена Игоревна
E-mail: event@vega52.ru
Телефон: 7 (910) 391-79-64


Made on
Tilda