№ | Название | Задача | Инструменты | Итоги |
---|---|---|---|---|
1 | AI-ассистент | Создать AI-ассистента в виде консольного приложения и Telegram бота. | Python, OpenAI API (GPT-4-mini), aiogram 3.x, LangChain, Hugging Face Transformers, FAISS, AsyncIO | AI-ассистент: https://t.me/ceres_assistant_bot?start |
2 | Исследование в сфере ASR | 1. Написать программу распознования голосовых фраз. 2. Используя платформу Huggingface и готовую библиотеку Python написать программу для разделения аудиодорожки на отдельные персоны и распознавания текста, сказанного каждой персоной на аудио. | vosk, whisper, pyannote, nltk, speech_recognition, gTTS, AudioSegment, numpy, SbertPuncCase, gc | Модель whisper/pyannote/speaker-diarization-3.1 для диалога на анлийско языке показала наилучший результат. |
3 | Распознание номеров грузовых вагонов по фотографии | Предоставлена выборка фотографий номеров грузовых вагонов с аннотацией. Необходимо построить модель распознавания изображений. | YoloV8, TrOCRProcessor, VisionEncoderDecoderModel, Roboflow, PIL, IPython, seaborn, numpy, pandas, matplotlib | Модель YoloV8m показывает хорошие результаты, производительность модели на разных уровнях сложности обнаружения на тестовой выборке mAP50-95 = 0.87, mAP50 = 0.995. |
4 | Предсказание стоимости строящегося жилья | Построение модели предсказания стоимости жилья на основе имеющихся данных | pandas, numpy, phik, matplotlib, sklearn, seaborn, RandomForestRegressor, Ridge, CatBoostRegressor, LGBMRegressor | Выбрана лучшая модель LightGBMRegressor, результат метрики на обучающей части R2 = 0.8754, на валидационной части R2 = 0.8781. Прогнозы в среднем ошибаются на 9.55%. |
5 | Определение жанра по изображению обложки музыкального диска | Очевидно, что оформление музыкального альбома как-то связано с его содержанием. Но насколько связано? Как подтвердить это, опираясь на данные? И чем это может быть полезно? | pandas, sklearn, pytorch, fastai, resnet50 | Samples avg (f1-score) = 0.82 средняя оценка, считая все категории равноправными. В целом модель обучилась хорошо, но из-за дисбаланса классов метрика хуже, чем могла бы быть. Рекомендацией является увеличение размера текущего набора данных, а точнее малочисленных класоов с f1-score < 0,6 : disco, jazz, pop. Это позволит улучшить метрику и качество работы модели. |
6 | Построение ML-продукта для выявления и оптимизации платежей преподавателей сервиса Repetit.ru | Заказчику нужно как можно раньше понять, что репетитор недобросовестный или мошенник, чтобы отключить его от сервиса и отдавать заявки ответственным репетиторам. | pandas, numpy, sklearn, phik, pipeline, RandomForestClassifier, CatBoostClassifier, LightGBM | По метрике F1 лучше показала себя модель RandomForestClassifier, но анализируя матрицу ошибок сделал вывод, что модель CatBoostClassifier более полезна для предсказания недобросовестных репетиторов. Для улучшения качества метрики рекомендуется увеличить тренировочную выборку. |
7 | Классификация фильмов по уровню владения английского языка | Разработать модель соотносящая фильмы к определенному уровню владения английского языка. | pandas, numpy, sklearn, ntlk, pipeline, GridSearchCV, MultinomialNB, SGDClassifier | Использовал модель SGDClassifier c Accuracy = 0.951220. Для заказчика однозначно рекомендую использовать эту модель для определения уровня английского языка по субтитрам. |
8 | Разработка демонстрационной версии поиска изображений по текстовому запросу | Разработать нейронную сеть, которая получит векторное представление изображения, векторное представление текста, а на выходе выдаст число от 0 до 1 — что покажет, насколько текст и картинка подходят друг другу. | pandas, numpy, sklearn, matplotlib, seaborn, tensorflow, keras_nlp, torch, glob, nltk, AutoModel, AutoTokenizer, GridSearchCV, Ridge | С помощью сети ResNet50 векторизировали фото, для векторизации текстов использовали DistilBert. Обучили полносвязную нейронную сеть, RMSE = 21.97%. |
9 | Прогнозирование температуры звезды | Разработать нейронную сеть, которая поможет предсказывать абсолютную температуру на поверхности звезды. Достичь заданной метрики RMSE < 4500. | pandas, numpy, sklearn, matplotlib, seaborn, torch | Обучили нейросеть. Достигли заданной метрики RMSE < 4500, с результатом 4491. |
10 | Прогнозирование заказов такси | Разработать модель прогнозирования количество заказов такси на следующий час. Значение метрики RMSE на тестовой выборке должно быть не больше 48. | pandas, numpy, matplotlib, sklearn, statsmodels, RandomForestRegressor, Ridge, CatBoostRegressor, LGBMRegressor | Использовал модель RandomForestRegressor. RMSE на тестовой выборке = 46. |
11 | Построение модели предсказания стоимости автомобиля на вторичном рынке | Разработать модель предсказания стоимости автомобиля на вторичном рынке. | pandas, numpy, scipy, sklearn, seaborn, phik, CatBoostRegressor, XGBRegressor, Ridge | Разработал модель CatBoostRegressor показатель MAPE = 0.1977. |
12 | Построение модели прогнозирования оттока клиентов банка | Построить модель, способную спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. | pandas, sklearn, matplotlib | Модель прогнозирования оттока клиентов банка достигла заданных показателей метрик F1 = 0,60; AUC-ROC = 0,85. |
13 | Прогнозирование оттока клиентов компании "Теледом" | Обучить модель для прогноза оттока клиентов. | pandas, numpy, sklearn, matplotlib, seaborn, lightgbm, xgboost, shap, phik, torch | NeuralNetwork опередила остальные модели. На тестовой выборке NeuralNetwork показала ROC-AUC: 0.85. Что удовлетворяет поставленным требованиям компании оператора связи. |
14 | Прогнозирование отказа клиентов отеля от брони | Обучить модель для прогнозирования отказа клиентов отеля от брони. | pandas, numpy, scipy, sklearn, matplotlib, seaborn | Модель дерева решений показала хорошие результаты на тестовой выборке ROC-AUC = 0.9198 . Модель принесёт компании выручку: 8 841 480 рублей, что является целесообразным действием при затратах на разработку системы прогнозирования 400 000 рублей. |
15 | Рекомендация тарифов телеком компании | Построить модель для задачи классификации, которая выберет подходящий тариф с значением Accuracy не меньше 0.75. | pandas, sklearn | На тестовой выборке модель случайного леса показала Accuracy = 0.7791. |
16 | Определение возраста покупателей по фотографии | Построить и обучить свёрточную нейронную сеть на датасете с фотографиями людей. Добиться значения MAE на тестовой выборке не больше 8. | pandas, numpy, matplotlib, seaborn, tensorflow, keras | Использовали архитектуру ResNet50. Test MAE: 5.8556. |
17 | Классификация комментариев на позитивные и негативные | Построить модель классификации комментариев на позитивные и негативные со значением метрики качества F1 не меньше 0.75. | pandas, numpy, spacy, sklearn, ntlk, LGBMClassifier, CatBoostClassifier | Лучшей моделью по требуемому параметру является LogisticRegression. F1 на тестовой выборке = 0,7761. |
18 | Предсказание стоимости жилья | Обучить модель линейной регрессии предсказывающую медианную стоимость дома в жилом массиве и сделайте предсказания на тестовой выборке. | pandas, numpy, seaborn, matplotlib, pyspark | По результату исследования модель линейной регрессии с категориальными переменными показала лучшие показатели RMSE = 73713. |
19 | Oценить риск ДТП по выбранному маршруту движения | Создать модель предсказания ДТП. | pandas, numpy, sklearn, matplotlib, seaborn, lightgbm, shap, phik | Использовал модель LightGBM и получил метрику recall = 72.9%, precision = 74.3%, f1 = 72.7%. |
20 | Выбор локации для разработки скважин | С помощью машинного обучения выбрать районы, которые подходят для разработки новых скважин по экономическим показателям. | pandas, numpy, scipy, sklearn, matplotlib | По итогу расчета только один регион был принят в качестве экономически надежного для разработки местрождений. Необходимый объем сырья для безубыточной разработки 1 скважины в тыс. баррелей 111.11. |
21 | Определение стоимости автомобилей | Построить модель для определения стоимости. Заказчику важны: качество предсказания, скорость предсказания, время обучения. | pandas, numpy, sklearn, matplotlib, seaborn, CatBoostRegressor, LGBMRegressor | Лучшей моделью по трем параметрам качество, скорость обучения и скорость предсказания можно считать CatBoostRegressor. RMSE для модели CatBoostRegressor на тестовой выборке 1328. |
-
Notifications
You must be signed in to change notification settings - Fork 0
ALeksandrUrvanov/portfolio
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published