Data ScienceR

Text Mining w R

06 - 08 maj 2024

Online

3 050,00 zł netto / osobę
Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Szkolenie Text Mining w R rozwija umiejętności związane z pozyskaniem, przetwarzaniem, analizą oraz ekstrakcją użytecznych wzorców i informacji z danych tekstowych. Uczestnicy szkolenia otrzymają kompletny zestaw narzędzi i metod które będą mogli wykorzystać w praktyce na własnych danych już pierwszego dnia po szkoleniu.

    Duży nacisk został położony na najtrudniejsze kwestie związane z przetwarzaniem nieustrukturyzowanych tekstów do postaci która umożliwia ich wykorzystanie w algorytmach maszynowego uczenia. Warsztatowa forma szkolenia sprzyja zapamiętywaniu i zrozumieniu nawet najtrudniejszych koncepcji text mining ponieważ na bieżąco można obserwować i analizować postępy w pracy z tekstem. Uczestnicy kończą szkolenie z zestawem skryptów, procedur i funkcji w R które po zmianie danych mogą w większości wykorzystać na nowych danych. Dzięki odpowiedniemu ukierunkowaniu przez ekspertów uczestnicy szkolenia mają również możliwość rozwinąć swoje umiejętności efektywnej pracy w środowisku R i poznać najlepsze praktyki.

    Szacuje się że ponad 70% dostępnych danych przenoszących istotne dla biznesu informację jest w formie nieustrukturyzowanej z czego większość w formie tekstowej. Gdy dodamy do tego coraz szybszy napływ nowych danych, efektywna analiza danych tekstowych jest coraz cześciej poszukiwaną umiejętnością wśród Analityków danych i Data Scientists.

    Text mining to ogólna nazwa na zbiór metod i technik służących do wydobywania praktycznych informacji biznesowych z danych tekstowych. Proces text miningu obejmuje przetwarzanie nieustrukturyzowanego tekstu do postaci danych, najczęściej numerycznych, którymi zasilane są odpowiednie algorytmy uczące. W wyniku procesu uczenia otrzymujemy informacje i wzorce które po ewaluacji stanowi ważne źródło wiedzy i wsparcie procesów decyzyjnych w biznesie. Typowe problemy jakie rozwiązywane są za pomocą text miningu to:

    • Kategoryzacja tekstu
    • Klasyfikacja tekstu
    • Analiza sentymentu
    • Wykrywanie nazw własnych
    • Modelowanie tematyczne

    Dla kogo jest to szkolenie?

    • NauData Scientist
    • Analitycy danych
    • Inżynierowie danych

    Czego się nauczę?

    Po ukończeniu szkolenia:

    • Nauczysz się jak pozyskiwać i przetwarzać tekst w systemie R
    • Nauczysz się przygotowywać tekst do postaci danych którymi można zasilić algorytmy maszynowego uczenia
    • Poznasz najważniejsze biblioteki w R wykorzystywane w Text Mining
    • Nauczysz się korzystach z metod statystycznych i algorytmów służących analizie danych tesktowych
    • Zrozumiesz jak analiza danych tekstowych może wesprzeć problemy decyzyjne w biznesie dzięki praktycznym przykładom i case study
    • Nauczysz się praktycznego podejścia do problemu analizy tekstu i jego rozwiązania
    • Poznasz najlepsze praktyki w analizie danych w systemie R
    • Czym jest text mining?
    • Dlaczego potrzebne jest wyodrębnienie dotatkowej grupy metod?
    • Dlaczego text mining jest nam potrzebny
    • Analiza procesu text mining krok po kroku
    • Jakie narzędzia są nam potrzebne i jak zacząć
    • Text Mining analiza przypadku i aplikacje
    • Przegląd pakietów w R do analizy danych tekstowych między innymi – tidytext, tm, OpenNLP, RTextTools, languageR, koRpus, RKEA, stringr
    • Ładowanie danych tekstowych z plików PDF, DOC, HTML, XML, JSON HTTP i baz danych
    • Pozyskiwanie danych ze stron internetowych – web scraping
    • Obiekty w R pozwalające na przechowywanie tekstu i metadane o tekście – corpora, corpus
    • Wykrywanie języka tekstu
    • Manipulacje na tekście z pakietem tidytext
    • Transformacje tekstu z pakietem stringr
    • Przetwarzanie tekstu z wyrażeniami regularnymi w pakiecie stringr
    • Tokenizacja tekstu na słowa
    • Usuwanie słów niewpływających na identyfikację tekstu i nieniosących istotnych treści np. spójniki itp.
    • Tagowanie części mowy
    • Normalizacja tekstu w tym Stemming i lematyzacja odpowiednia dla danego języka oraz synonimy
    • Konwersja do postaci bag of words
    • Term Document Matrix
    • Reprezentacja tekstu za pomocą macierzy TF-IDF i prawo Zipfa
    • Model wektorowej reprezentacji słów Word2vec i word embeedings
    • Częstotliwośc występowania słów
    • Asocjacje pomiędzy słowami
    • Sieci słów
    • Dendrogramy
    • Word Clouds
    • Biblioteki do analizy sentymentu w R
    • Analiza pozytywnych i negatywnych słów
    • Scoring
    • Emotikony i ich znaczenie w analizie sentymentu
    • Tworzenie słownika
    • Algorytmy do analizy sentymentu
    • Case study
    • Wyszukiwanie podobnych dokumentów za pomocą algorytmów k-means, k-medoid i metod hierarchicznych
    • Wykorzystanie algorytmów w R
    • Miary podobieństwa dokumentów
    • Studium przypadku
    • Latent Semantic Indexing
    • Latent Dirichlet Allocation
    • Text2vec
    • Studium przypadku
    • Redukcja wymiaru problemu z PCA
    • Pakiety FactoMineR oraz Amap
    • Kanoniczna analiza korespondencji
    • Singular value decomposition
    • Ekstrakcja obiektów z tekstu
    • Algorytmy NER
    • Praktyczne zastosowanie NER
    • Klasyfikacja vs predykcja
    • Klasyfikacja za pomocą algorytmu bayesowskiego
    • Klasyfikacja za pomocą algorytmu SVM
    • Interfejs RtextTools do klasyfikacji tekstu
    • Ewaluacja modeli
    • Studium przypadku