“创建python项目”

宋智航 · 宋智航 · commit c3f6841c8a86 · 2017-07-25T21:33:39.000+08:00
diff --git a/baike_bug/__init__.py b/baike_bug/__init__.py
diff --git a/baike_bug/bug_main.py b/baike_bug/bug_main.py
@@ -0,0 +1,34 @@
+# coding:utf8
+from baike_bug import url_manager, html_downloader, html_parser, html_output
+
+
+class BugMain(object):
+    def __init__(self):
+        self.urls = url_manager.UrlManager()
+        self.downloader = html_downloader.HtmlDownloader()
+        self.parser = html_parser.HtmlParser()
+        self.outputer = html_output.HtmlOutputer()
+
+    def craw(self, root_url):
+        count = 1
+        self.urls.add_new_url(root_url)
+        while self.urls.has_new_url():
+            try:
+                new_url = self.urls.get_new_url()
+                print 'craw %d : %s' % (count, new_url)
+                html_cont = self.downloader.download(new_url)
+                new_urls, new_data = self.parser.parse(new_url, html_cont)
+                self.urls.add_new_urls(new_urls)
+                self.outputer.collect_data(new_data)
+                if count == 1000:
+                 break
+                 count = count + 1
+            except:
+                 print 'craw fail'
+            self.outputer.output_html()
+
+
+if __name__ == "__main__":
+    root_url = "https://baike.baidu.com/item/Python/407313?fr=aladdin"
+    ojb_bug = BugMain()
+    ojb_bug.craw(root_url)
diff --git a/baike_bug/html_downloader.py b/baike_bug/html_downloader.py
@@ -0,0 +1,13 @@
+# coding:utf8
+import urllib2
+
+
+class HtmlDownloader(object):
+    def download(self, url):  # 要下载的url
+        if url is None:
+            return None
+        response = urllib2.urlopen(url)
+        if response.getode() != 200:
+            return None
+
+        return response.read()
diff --git a/baike_bug/html_output.py b/baike_bug/html_output.py
@@ -0,0 +1,7 @@
+# coding:utf8
+class HtmlOutputer(object):
+    def collect_data(self, new_data):
+        pass
+
+    def output_html(self):
+        pass
diff --git a/baike_bug/html_parser.py b/baike_bug/html_parser.py
@@ -0,0 +1,31 @@
+# coding:utf8
+import re
+import urlparse
+
+from bs4 import BeautifulSoup
+
+
+class HtmlParser(object):
+    def parse(self, page_url, html_cont):
+        if page_url is None or html_cont is None:
+            soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
+            new_urls = self._get_new_urls(page_url, soup)
+            new_data = self._get_new_data(page_url, soup)
+            return new_urls, new_data
+
+    def _get_new_urls(self, page_url, soup):
+        new_urls = set()
+        links = soup.find_all('a', href=re.compile(r"/view/\d+\.html"))
+        for link in links:
+            new_url = link['href']
+            new_full_url = urlparse.urljoin(page_url, new_url)
+            new_urls.add(new_full_url)
+            return new_urls
+
+    def _get_new_data(self, page_url, soup):
+        res_data = {}
+        title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find()
+        res_data['title'] = title_node.get_text()
+        summary_node = soup.find('div', class_="lemma-summary")
+        res_data['summary'] = summary_node.get_text()
+        return res_data
diff --git a/baike_bug/url_manager.py b/baike_bug/url_manager.py
@@ -0,0 +1,26 @@
+# coding:utf8
+class UrlManager(object):
+    def __init__(self):
+        self.new_urls = set()  # 待爬取
+        self.old_urls = set()  # 爬取过
+
+    def add_new_url(self, url):
+        if url is None:
+            return
+        if url not in self.new_urls and url not in self.old_urls:
+            self.new_urls.add(url)
+
+    def has_new_url(self):
+        return len(self.new_urls) != 0
+        pass
+
+    def add_new_urls(self, urls):
+        if urls is None or len(urls) == 0:
+            return
+        for url in urls:
+            self.add_new_url(url)
+
+    def get_new_url(self):
+        new_url = self.new_urls.pop()  # 会获取然后移除
+        self.old_urls.add(new_url)
+        return new_url
diff --git a/test/__init__.py b/test/__init__.py
diff --git a/test/my_test.py b/test/my_test.py
@@ -0,0 +1,42 @@
+# coding:utf8
+import re, urllib2, bs4
+
+from bs4 import BeautifulSoup
+
+print bs4
+
+# url = 'www.baidu,com'
+#
+# urllib2.urlopen(url, "", 100000)
+#
+# re.findall("")
+
+html_doc = """ <div class="J-next-auto hide next-auto"><em>3</em> 秒后播放下一节</div>
+                            <div class="J-next-btn hide next-auto btn btn-green">下一节</div>
+                            <a href="/video/10687/0" class="review-course">重新观看</a>
+                            
+                            <div id="js-ques-box"></div>                        </div>
+
+                                    </div>
+"""
+soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')
+print  '获取链接'
+links = soup.find_all('a')
+for link in links:
+    print link.name, link['href'], link.get_text()
+
+print '获取指定url'
+link_node = soup.find('a', href='/video/10687/0')
+print link_node.name, link_node['href'], link_node.get_text()
+
+print '正则匹配'
+link_node = soup.find('a', href=re.compile(r'video'))
+print link_node.name, link_node['href'], link_node.get_text()
+
+print '获取div'
+link_node = soup.find('div', class_='J-next-auto hide next-auto')
+print link_node.name, link_node.get_text()
+
+print '获取div正则'
+link_node = soup.find('div', id=re.compile(r'ques'))  # 正则可以模糊匹配
+print link_node.name, link_node['id'], link_node.get_text()  # 如果匹配结果为空的时候输出会报错