Coding/Python

[BeautifulSoup] github repository 이름 크롤링하기

junedev 2019. 10. 11. 17:36

BeautifulSoup


BeautifulSoup로 Github 크롤링하여 repository 목록 나열하기

import requests
from bs4 import BeautifulSoup

githubId = input('아이디를 입력하세요 => ')
url = 'https://github.com/{}?tab=repositories'.format(githubId)
req = requests.get(url)
soup = BeautifulSoup(req.text, 'html.parser')

repositoriesList = soup.select('#user-repositories-list > ul')[0]
for repository in repositoriesList:
    repoName = repository.find('a')
    try:
        print(repoName.text, end='')
    except:
        pass
  1. github repository 목록 사이트의 url은 https://github.com/아이디?tab=repostories 입니다. 따라서 사용자의 아이디를 입력받아 문자열 포맷으로 해당 url에 집어넣습니다.
  2. select / find를 이용하여 repository 이름을 추출합니다.

 

실행 결과