forked from learnpythonru/learn-homework-2
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path2_files.py
61 lines (49 loc) · 1.91 KB
/
2_files.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
"""
Домашнее задание №2
Работа с файлами
1. Скачайте файл по ссылке https://www.dropbox.com/s/sipsmqpw1gwzd37/referat.txt?dl=0
2. Прочитайте содержимое файла в перменную, подсчитайте длинну получившейся строки
3. Подсчитайте количество слов в тексте
4. Замените точки в тексте на восклицательные знаки
5. Сохраните результат в файл referat2.txt
"""
import requests
import re
from html.parser import HTMLParser
class MLStripper(HTMLParser):
"""
Class for stripping Html Tags
"""
def __init__(self):
self.reset()
self.strict = False
self.convert_charrefs= True
self.fed = []
#this function takes html string as input and put data in
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
def main():
"""
Эта функция вызывается автоматически при запуске скрипта в консоли
В ней надо заменить pass на ваш код
"""
url = 'https://www.dropbox.com/s/sipsmqpw1gwzd37/referat.txt?dl=0'
r = requests.get(url, allow_redirects=True)
open('referat1.txt', 'wb').write(r.content)
with open('referat1.txt','r') as f:
output = f.read()
print('Lenght of the string is {0}'.format(len(output)))
word_string = strip_tags(output)
words = re.findall(r'\w+', word_string)
print('Count of words {0}'.format(len(words)))
with open("referat2.txt", "w") as text_file:
text_file.write(output.replace('.','!'))
print("Done!")
if __name__ == "__main__":
main()