Skip to content

ALeksandrUrvanov/portfolio

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 

Repository files navigation

Портфолио

Выполненные проекты

Название Задача Инструменты Итоги
1 AI-ассистент Создать AI-ассистента в виде консольного приложения и Telegram бота. Python, OpenAI API (GPT-4-mini), aiogram 3.x, LangChain, Hugging Face Transformers, FAISS, AsyncIO AI-ассистент: https://t.me/ceres_assistant_bot?start
2 Исследование в сфере ASR 1. Написать программу распознования голосовых фраз. 2. Используя платформу Huggingface и готовую библиотеку Python написать программу для разделения аудиодорожки на отдельные персоны и распознавания текста, сказанного каждой персоной на аудио. vosk, whisper, pyannote, nltk, speech_recognition, gTTS, AudioSegment, numpy, SbertPuncCase, gc Модель whisper/pyannote/speaker-diarization-3.1 для диалога на анлийско языке показала наилучший результат.
3 Распознание номеров грузовых вагонов по фотографии Предоставлена выборка фотографий номеров грузовых вагонов с аннотацией. Необходимо построить модель распознавания изображений. YoloV8, TrOCRProcessor, VisionEncoderDecoderModel, Roboflow, PIL, IPython, seaborn, numpy, pandas, matplotlib Модель YoloV8m показывает хорошие результаты, производительность модели на разных уровнях сложности обнаружения на тестовой выборке mAP50-95 = 0.87, mAP50 = 0.995.
4 Предсказание стоимости строящегося жилья Построение модели предсказания стоимости жилья на основе имеющихся данных pandas, numpy, phik, matplotlib, sklearn, seaborn, RandomForestRegressor, Ridge, CatBoostRegressor, LGBMRegressor Выбрана лучшая модель LightGBMRegressor, результат метрики на обучающей части R2 = 0.8754, на валидационной части R2 = 0.8781. Прогнозы в среднем ошибаются на 9.55%.
5 Определение жанра по изображению обложки музыкального диска Очевидно, что оформление музыкального альбома как-то связано с его содержанием. Но насколько связано? Как подтвердить это, опираясь на данные? И чем это может быть полезно? pandas, sklearn, pytorch, fastai, resnet50 Samples avg (f1-score) = 0.82 средняя оценка, считая все категории равноправными. В целом модель обучилась хорошо, но из-за дисбаланса классов метрика хуже, чем могла бы быть. Рекомендацией является увеличение размера текущего набора данных, а точнее малочисленных класоов с f1-score < 0,6 : disco, jazz, pop. Это позволит улучшить метрику и качество работы модели.
6 Построение ML-продукта для выявления и оптимизации платежей преподавателей сервиса Repetit.ru Заказчику нужно как можно раньше понять, что репетитор недобросовестный или мошенник, чтобы отключить его от сервиса и отдавать заявки ответственным репетиторам. pandas, numpy, sklearn, phik, pipeline, RandomForestClassifier, CatBoostClassifier, LightGBM По метрике F1 лучше показала себя модель RandomForestClassifier, но анализируя матрицу ошибок сделал вывод, что модель CatBoostClassifier более полезна для предсказания недобросовестных репетиторов. Для улучшения качества метрики рекомендуется увеличить тренировочную выборку.
7 Классификация фильмов по уровню владения английского языка Разработать модель соотносящая фильмы к определенному уровню владения английского языка. pandas, numpy, sklearn, ntlk, pipeline, GridSearchCV, MultinomialNB, SGDClassifier Использовал модель SGDClassifier c Accuracy = 0.951220. Для заказчика однозначно рекомендую использовать эту модель для определения уровня английского языка по субтитрам.
8 Разработка демонстрационной версии поиска изображений по текстовому запросу Разработать нейронную сеть, которая получит векторное представление изображения, векторное представление текста, а на выходе выдаст число от 0 до 1 — что покажет, насколько текст и картинка подходят друг другу. pandas, numpy, sklearn, matplotlib, seaborn, tensorflow, keras_nlp, torch, glob, nltk, AutoModel, AutoTokenizer, GridSearchCV, Ridge С помощью сети ResNet50 векторизировали фото, для векторизации текстов использовали DistilBert. Обучили полносвязную нейронную сеть, RMSE = 21.97%.
9 Прогнозирование температуры звезды Разработать нейронную сеть, которая поможет предсказывать абсолютную температуру на поверхности звезды. Достичь заданной метрики RMSE < 4500. pandas, numpy, sklearn, matplotlib, seaborn, torch Обучили нейросеть. Достигли заданной метрики RMSE < 4500, с результатом 4491.
10 Прогнозирование заказов такси Разработать модель прогнозирования количество заказов такси на следующий час. Значение метрики RMSE на тестовой выборке должно быть не больше 48. pandas, numpy, matplotlib, sklearn, statsmodels, RandomForestRegressor, Ridge, CatBoostRegressor, LGBMRegressor Использовал модель RandomForestRegressor. RMSE на тестовой выборке = 46.
11 Построение модели предсказания стоимости автомобиля на вторичном рынке Разработать модель предсказания стоимости автомобиля на вторичном рынке. pandas, numpy, scipy, sklearn, seaborn, phik, CatBoostRegressor, XGBRegressor, Ridge Разработал модель CatBoostRegressor показатель MAPE = 0.1977.
12 Построение модели прогнозирования оттока клиентов банка Построить модель, способную спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. pandas, sklearn, matplotlib Модель прогнозирования оттока клиентов банка достигла заданных показателей метрик F1 = 0,60; AUC-ROC = 0,85.
13 Прогнозирование оттока клиентов компании "Теледом" Обучить модель для прогноза оттока клиентов. pandas, numpy, sklearn, matplotlib, seaborn, lightgbm, xgboost, shap, phik, torch NeuralNetwork опередила остальные модели. На тестовой выборке NeuralNetwork показала ROC-AUC: 0.85. Что удовлетворяет поставленным требованиям компании оператора связи.
14 Прогнозирование отказа клиентов отеля от брони Обучить модель для прогнозирования отказа клиентов отеля от брони. pandas, numpy, scipy, sklearn, matplotlib, seaborn Модель дерева решений показала хорошие результаты на тестовой выборке ROC-AUC = 0.9198 . Модель принесёт компании выручку: 8 841 480 рублей, что является целесообразным действием при затратах на разработку системы прогнозирования 400 000 рублей.
15 Рекомендация тарифов телеком компании Построить модель для задачи классификации, которая выберет подходящий тариф с значением Accuracy не меньше 0.75. pandas, sklearn На тестовой выборке модель случайного леса показала Accuracy = 0.7791.
16 Определение возраста покупателей по фотографии Построить и обучить свёрточную нейронную сеть на датасете с фотографиями людей. Добиться значения MAE на тестовой выборке не больше 8. pandas, numpy, matplotlib, seaborn, tensorflow, keras Использовали архитектуру ResNet50. Test MAE: 5.8556.
17 Классификация комментариев на позитивные и негативные Построить модель классификации комментариев на позитивные и негативные со значением метрики качества F1 не меньше 0.75. pandas, numpy, spacy, sklearn, ntlk, LGBMClassifier, CatBoostClassifier Лучшей моделью по требуемому параметру является LogisticRegression. F1 на тестовой выборке = 0,7761.
18 Предсказание стоимости жилья Обучить модель линейной регрессии предсказывающую медианную стоимость дома в жилом массиве и сделайте предсказания на тестовой выборке. pandas, numpy, seaborn, matplotlib, pyspark По результату исследования модель линейной регрессии с категориальными переменными показала лучшие показатели RMSE = 73713.
19 Oценить риск ДТП по выбранному маршруту движения Создать модель предсказания ДТП. pandas, numpy, sklearn, matplotlib, seaborn, lightgbm, shap, phik Использовал модель LightGBM и получил метрику recall = 72.9%, precision = 74.3%, f1 = 72.7%.
20 Выбор локации для разработки скважин С помощью машинного обучения выбрать районы, которые подходят для разработки новых скважин по экономическим показателям. pandas, numpy, scipy, sklearn, matplotlib По итогу расчета только один регион был принят в качестве экономически надежного для разработки местрождений. Необходимый объем сырья для безубыточной разработки 1 скважины в тыс. баррелей 111.11.
21 Определение стоимости автомобилей Построить модель для определения стоимости. Заказчику важны: качество предсказания, скорость предсказания, время обучения. pandas, numpy, sklearn, matplotlib, seaborn, CatBoostRegressor, LGBMRegressor Лучшей моделью по трем параметрам качество, скорость обучения и скорость предсказания можно считать CatBoostRegressor. RMSE для модели CatBoostRegressor на тестовой выборке 1328.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published