Сервис передает контакты клиента (ученика) репетитору. Если репетитор начинает заниматься с учеником, то он должен платить сервису комиссию от каждого занятия. Но в реальности так происходит не всегда. Иногда, это из-за того, что репетитор звонит по телефону и ему просто не отвечают. Некоторые репетиторы плохо договариваются о занятиях или обманывают. Сервис теряет деньги каждый раз, когда отдаёт заявку неэффективному репетитору. Заказчику нужно как можно раньше понять, что репетитор недобросовестный или мошенник, чтобы отключить его от сервиса и отдавать заявки ответственным репетиторам.
Разработать модель, которая по имеющейся информации о репетиторе и проведенных им занятий будет классифицировать репетиторов на платящих и неэффективных. Оценка качества модели будет производиться с использованием метрики F1.
- pandas
- numpy
- sklearn
- phik
- pipeline
- RandomForestClassifier
- CatBoostClassifier
- LightGBM
- Загружены данные и проведена предобработка.
- Выполнено сравнение 3-х моделей RandomForestClassifier, CatBoostClassifier, LightGBM с использованием различных наборов гиперпараметров.
- Выбрана лучшая модель по результатам метрики F1.
По метрике F1 лучше показала себя модель RandomForestClassifier, но анализируя матрицу ошибок сделал вывод, что модель CatBoostClassifier более полезна для предсказания недобросовестных репетиторов. Если брать нашу тестовую выборку 404 обьекта модель RandomForestClassifier для проверки выдаёт 189 репетиторов, CatBoostClassifier 104 репетиторов. Для улучшения качества метрики рекомендуется увеличить тренировочную выборку.