괴발개발/Crawling 3

네이버 주식 데이터 크롤링(crawling)에 대한 이해 (할수있을까?)

현재 많은 프로그래머들은 다양한 자료들을 수집하고 분석하기 위해 다양한 기술을 사용하고 있습니다. 특히, Python이라는 간단하고 강력한 프로그래밍 언어가 많은 인기를 끌고 있습니다. 이번 포스팅에서는 Python 을 사용하여 네이버 주식 데이터를 크롤링하는 방법에 대해 알아보려고 합니다. 네이버 주식 크롤링 Python은 다양한 기능을 제공하고 있으며, 프로그래밍 언어로써 생태계가 잘 갖추어져 있습니다. 따라서 네이버 주식 데이터를 크롤링하는데 필요한 라이브러리를 사용하기 쉽습니다. 가장 많이 사용되는 라이브러리는 "BeautifulSoup"과 "Requests" 입니다. 여기에 이 라이브러리를 사용하여 네이버 주식 데이터를 가져오는 방법을 설명하겠습니다. 사용되는 라이브러리 Python의 다양한 라..

beautifulsoup와 selenium을 이용하여 스크롤이동 후 크롤링하기

제곧내 입니다~ element로 스크롤 이동 하는 코드 입니다~ html = driver.page_source soup = BeautifulSoup(html, 'html.parser') count = len(soup.select('.list_basis > div > div > li')) for idx, li in enumerate(soup.select('.list_basis > div > div > li'), start=1): this_li = driver.find_element_by_xpath('//*[@id="__next"]/div/div[2]/div[2]/div[3]/div[1]/ul/div/div['+str(idx)+']/li') # location = this_li.location_once_sc..

셀레니움(selenium) session deleted because of page crash 문제 해결!

selenium.common.exceptions.WebDriverException: Message: unknown error: session deleted because of page crash from unknown error: cannot determine loading status from tab crashed 셀레니움을 이용해 크롬브라우져로 크롤링을 하다보면 위와 같은 오류 메시지가 출현 할 수 있다 이유는 크롬드라이버에 shm 메모리가 부족하여 나오는 문제인데 아래와 같이 option에 파라미터로 추가해주면 된다. chrome_options.add_argument('--no-sandbox') chrome_options.add_argument('--disable-dev-shm-usage') dri..