바이럴 마케팅 회사에 다니는 지인의 부탁을 받아
네이버 카페 본문 웹스크래핑 하는것을 자동화 하여 엑셀파일로 최종결과물을 얻을수 있습니다.
시연영상 Youtube
네이버 카페 게시글 URL리스트를 엑셀로 담아서 해당 URL을 웹스크래핑을 합니다.
네이버 카페 게시글의 조회수, 댓글수, 작성자 닉네임 등의 데이터를 추출 합니다.
추출한 데이터를 엑셀로 담아서 사용자가 엑셀 파일로 최종결과물을 얻을수 있게 합니다.
- 사용언어 : 파이썬
- BeautifulSoup
- openpyxl
- requests
- pyinstaller
아래 4가지 주제에 대해 고민 해볼 수 있는 기회였습니다.
- 파이썬으로 웹크롤링, 웹스크래핑 관련하여, 여러 라이브러리, 방법이 존재
- 한번에 몇백가지 타겟을 웹크롤링 해야 하기때문에, 동기성 프로그래밍, 비동기의 필요성을 고민
- 웹크롤링 기능 수행을 클라이언트 사이드에 처리하게 할지 서버사이드에 처리하게 할지 고민
- 배포 형태를 어떤 방식으로 할지 고민
