ProgramowaniePython

Data scraping w Python

Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Kurs ten jest przeznaczony dla osób, które chciałyby nauczyć się najlepszych praktyk data scrapingu, czyli pozyskiwaniu danych z róznych źródeł, za pomocą Pythona. Szkolenie głównie kładzie nacisk na web scraping, czyli automatyzację pobierania danych ze stron internetowych, natomiast poruszone zostaną również techniki ekstrakcji użytecznych danych z plików tekstowych. Uczestnik pozna najpopularniejsze biblioteki takie jak BeautifulSoap, Scrapy oraz Selenium. Oprócz teorii koniecznej do zrozumienia zagadnienia w trakcie kursu przekazywana jest również praktyczna wiedza, która pozwoli uczestnikom tworzyć wydajne i łatwe w utrzymaniu projekty pozyskujące dane. Prezentacja każdego konceptu będzie się wiązała z tworzeniem miniprojektu ekstraktującego dane, a na koniec szkolenia zostanie utworzony projekt końcowy polegający na utworzeniu ETL pipeline – ,programu który pobierze dane z publicznej strony internetowej, wyczyści je i zapisze w ustrukturyzowanej formie w zdefiniowanej przez nas bazie danych.

    Osoby posiadające podstawową wiedzę i umiejętności związane z Pythonem powinny bez problemu zrozumieć treści kursu. Dla osób, które dopiero zaczynają programować w Pythonie może być konieczne wykonanie pewnej dodatkowej pracy wstępnej.

    Dla kogo jest to szkolenie?

    • Analitycy wykorzystujący Python
    • Naukowcy
    • Data scientist
    • Developerzy Python

    Czego się nauczę?

    Po ukończeniu szkolenia uczestnik:

    • Dowie się czym jest protokół HTTP i podstaw odnośnie struktury dokumentów HTML
    • Nauczy się wyciągać z dokumentów HTML interesujące Cie informacje
    • Nauczy się łączyć z internetowym API serwującym dane
    • Dowie się czym jest Web crawling i jak go zaimplementować
    • Pozna pakiety BeautifulSoap, Scrapy oraz Selenium. Najpopularniejsze narzędzia do web scrapingu w Python.
    • Dowie się jakie są legalne oraz etyczne ograniczenia dotyczace pozyskiwania danych z publicznie dostępnych źródeł
    • Stworzy kompletny projekt będący ETL Pipeline’m, dokonujący ekstracji danych z pewnego źródła, czyszczeniu ich i zapisujący je w uporządkowanej strukturz bazo danowej
    • Czym jest web scraping
    • Zapytania HTTP
    • Api scraping
    • Stuktura dokumentów HTML
    • Parsowanie HTML
    • Wybieranie elementów DOM
    • Custom selectors
    • CSS selectors
    • Wyrażenia regularne
    • Czym jest web crawling?
    • Tworzenie wikipediowego crawlera
    • Crawling całej strony
    • Legalne i etyczne aspekty web scrapingu
    • Modele do web crawlingu
    • Tworzenie i uruchamianie pierwszego pająka
    • Selectors
    • Items
    • Item loaders i Item Pipeline
    • Podążanie za linkami
    • Unikanie zbanowania
    • Pdf
    • Pliki Word
    • Procesowanie języka naturalnego
    • Wstęp do javascript
    • Podstawy Selenium
    • Selectors
    • Tworzenie crawlera
    • Czyszczenie danych
    • Przechowywanie danych w bazie danych