Semalt, 웹 페이지를 긁어내는 5 단계 제안

Scrapy는 다른 웹 사이트에서 정보를 추출하기위한 오픈 소스 및 프레임 워크입니다. API를 사용하며 Python으로 작성되었습니다. Scrapy는 현재 Scrapinghub Ltd라는 웹 스크랩 회사에서 관리합니다.

Scrapy를 사용하여 웹 크롤러를 작성하고 Craigslist를 구문 분석하고 정보를 CSV 형식으로 저장하는 방법에 대한 간단한 학습서입니다. 이 튜토리얼의 5 가지 주요 단계는 다음과 같습니다.

1. 새로운 Scrapy 프로젝트 생성

2. 스파이더를 작성하여 웹 사이트를 크롤링하고 데이터 추출

3. 명령 행을 사용하여 스크랩 된 데이터 내보내기

4. 거미가 링크를 따르도록 변경

5. 거미 인수 사용

1. 프로젝트 만들기

첫 번째 단계는 프로젝트를 만드는 것입니다. Scrapy를 다운로드하여 설치해야합니다. 검색 창에 데이터를 저장하려는 디렉토리 이름을 입력해야합니다. Scrapy는 서로 다른 스파이더를 사용하여 정보를 추출하며이 스파이더는 초기 디렉토리 생성 요청을합니다. 스파이더를 작동 시키려면 디렉토리 목록을 방문하여 특정 코드를 삽입해야합니다. 현재 디렉토리의 파일을 주시하고 quotes-a.html과 quotes-b.html이라는 두 개의 새로운 파일을 확인하십시오.

2. 스파이더를 작성하여 웹 사이트를 크롤링하고 데이터를 추출하십시오.

스파이더를 작성하고 데이터를 추출하는 가장 좋은 방법은 Scrapy의 셸에서 다른 선택기를 만드는 것입니다. 항상 URL을 따옴표로 묶어야합니다. 그렇지 않으면 Scrapy가 해당 URL의 특성이나 이름을 즉시 변경합니다. 스파이더를 적절하게 작성하려면 URL을 큰 따옴표로 묶어야합니다. .extract_first ()를 사용해야하며 색인 오류를 피해야합니다.

3. 명령 행을 사용하여 스크랩 된 데이터를 내보내십시오.

명령 행을 사용하여 스크랩 된 데이터를 내보내는 것이 중요합니다. 내 보내지 않으면 정확한 결과를 얻을 수 없습니다. 스파이더는 유용한 정보가 포함 된 다른 디렉토리를 생성합니다. yield 파이썬 키워드를 사용하여이 정보를 더 나은 방식으로 내 보내야합니다. JSON 파일로 데이터를 가져올 수 있습니다. JSON 파일은 프로그래머에게 유용합니다. JQ와 같은 도구는 문제없이 스크랩 된 데이터를 내보내는 데 도움이됩니다.

4. 링크를 따라 거미를 변경하십시오.

소규모 프로젝트에서는 링크를 적절하게 따르도록 스파이더를 변경할 수 있습니다. 그러나 대규모 데이터 스크래핑 프로젝트에는 필요하지 않습니다. 스파이더를 변경하면 아이템 파이프 라인의 자리 표시 자 파일이 설정됩니다. 이 파일은 tutorial / pipelines.py 섹션에 있습니다. Scrapy를 사용하면 정교한 거미를 만들고 언제든지 위치를 변경할 수 있습니다. 한 번에 여러 사이트를 추출하고 다양한 데이터 추출 프로젝트를 수행 할 수 있습니다.

5. 거미 인수를 사용하십시오.

parse_author 콜백은 동적 웹 사이트에서 데이터를 추출하는 데 사용할 수있는 스파이더 인수입니다. 특정 코드를 사용하여 스파이더에 명령 줄 인수를 제공 할 수도 있습니다. 스파이더 인수는 곧 스파이더 속성이되고 데이터의 전체 모양을 변경합니다.

이 튜토리얼에서는 Scrapy의 기본 사항 만 다뤘습니다. 이 도구에는 많은 기능과 옵션이 있습니다. 사양에 대한 자세한 내용을 보려면 Scrapy를 다운로드하여 활성화하면됩니다.