Optimized code for task 1 #154

lightalloy · 2025-01-28T15:43:08Z

выполнены оптимизации по шагам
прописаны шаги "как это было"
минимальный тест на производительность

Извиняюсь за хаотичность коммитов, не удалось полностью придерживаться изначального плана, переделать и догнать уже не будет возможности.

spajic

nice work!

spajic · 2025-01-28T22:02:43Z

.ruby-version

@@ -0,0 +1 @@
+3.3.6


Извиняюсь за хаотичность коммитов, не удалось полностью придерживаться изначального плана, переделать и догнать уже не будет возможности.

вообще не проблема, никогда не смотрю на них ))

тут самое основное это case-study, потом код

spajic · 2025-01-28T22:03:01Z

case-study.md

+
+Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время.
+
+Я решил исправить эту проблему, оптимизировав эту программу.


решила*

spajic · 2025-01-28T22:03:35Z

case-study.md

+Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику:
+
+замер времени между началом и концом работы на семпле в 50000 строк, далее на `data_large.txt`
+Замеряла просто вычитая время конца из времени начала. Но опять же, большую часть времени смотрела прогресс в отчёте `ruby-prof`


Этот вопрос в данном случае tricky. По факту нет простого одного ответа на всю работу. У нас на каждую итерацию оптимизации новая метрика - время работы на файлах разного размера. Когда мы не можем посчитать общую метрику на всю систему / исходную проблему, то мы можем воспользоваться промежуточными метриками. Их функция получается в том, чтобы помочь нам понять, была ли оптимизация успешна на данной итерации.

spajic · 2025-01-28T22:04:03Z

case-study.md

+## Формирование метрики
+Для того, чтобы понимать, дают ли мои изменения положительный эффект на быстродействие программы я придумал использовать такую метрику:
+
+замер времени между началом и концом работы на семпле в 50000 строк, далее на `data_large.txt`


ну да, так замерять время вполне нормально

spajic · 2025-01-28T22:06:25Z

case-study.md

+А то и сразу собрать массив объектов `user` и его `sessions`.
+Также сразу можем собрать `uniqueBrowsers` и общее кол-во сессий, чтобы потом не считать.
+
+Также, `report['allBrowsers']` - это и есть  `uniqueBrowsers` , только нужно отстортировать и заджойнить.


очень важно не делать несколько изменений на одной итерации, потому что тогда сразу непонятно что как сработало;

spajic · 2025-01-28T22:06:45Z

case-study.md

+
+Теперь результат -  0.22433002200000374
+
+Результат профилировщика изменился ))


главное, что квадратичную сложность убрали и сделали линейную

spajic · 2025-01-28T22:07:15Z

case-study.md

+
+### Находка 4
+
+Вижу, что много времени тратится на парсинг даты, закэширую даты в Hash, вдруг повезёт.


с датами можно вообще ничего не делать, они сразу нормальные - это такая пасхалочка

С одной стороны - да, но с другой стороны оптимизация получилась приличная (на этих данных по крайней мере), поэтому оставила.

Почитала другие pr и поняла, что они можно было прям всё убрать )
Для меня было не очевидно, что они уже отсортированы, поэтому предположила, что сортировка всё-таки нужна, и соотв. парсинг.

spajic · 2025-01-28T22:07:45Z

spec/spec.rb

+    it 'works in 30 seconds' do
+      expect do
+        work('data_large.txt')
+      end.to perform_under(30).sec


spajic · 2025-01-28T22:08:12Z

case-study.md

+на sample (10000)
+5.62 => 4.8
+
+Заменила `uniqueBrowsers` на `Set` (но основная оптимизация кмк за счёт убирания прохода по всем браузерам, можно было и `Array.include`)


по Set поиск O(1), а по массиву O(N)

lightalloy added 10 commits January 26, 2025 00:12

Optimized to 58s

2ca3148

Cached dates

cdf1502

Small optimization, readlines

e221269

More optimizations + spec

e31cb7c

Removed dependencies

83dfa3a

Separate specs

6415886

Case study

fe2b75d

Moved test out

e4772fb

Removed profiler reports

dbb01dd

Removed brief notes

4e2f5c2

spajic approved these changes Jan 28, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimized code for task 1 #154

Optimized code for task 1 #154

lightalloy commented Jan 28, 2025

spajic left a comment

spajic Jan 28, 2025

spajic Jan 28, 2025

spajic Jan 28, 2025

spajic Jan 28, 2025

spajic Jan 28, 2025

spajic Jan 28, 2025

spajic Jan 28, 2025

lightalloy Jan 29, 2025

lightalloy Jan 29, 2025

spajic Jan 28, 2025

spajic Jan 28, 2025


		Она успешно работала на файлах размером пару мегабайт, но для большого файла она работала слишком долго, и не было понятно, закончит ли она вообще работу за какое-то разумное время.

		Я решил исправить эту проблему, оптимизировав эту программу.


		Теперь результат - 0.22433002200000374

		Результат профилировщика изменился ))


		### Находка 4

		Вижу, что много времени тратится на парсинг даты, закэширую даты в Hash, вдруг повезёт.

		@@ -0,0 +1 @@
		3.3.6

Optimized code for task 1 #154

Are you sure you want to change the base?

Optimized code for task 1 #154

Conversation

lightalloy commented Jan 28, 2025

spajic left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment