Data SciencePython

Text Mining i Przetwarzanie Języka Naturalnego z Python

Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Jedną z bardzo ważnych umiejętności na wyposażeniu Data Scientist jest umiejętność przetwarzania języka naturalnego (z ang. Natural Language Processing) oraz text mining. Szybko rosnąca liczba źródeł danych tekstowych i ich większy wolumen odpowiadają w dużej mierze za znaczenie jakie przypisuje się obecnie umiejętności analizy danych tekstowych. Prezentowane szkolenie odpowiada na potrzeby wszystkich poszukujących umiejętności analizy dokumentów i danych tekstowych, szukania wzorców i ekstrakcji informacji umożliwiającej nam lepsze zrozumienie naszych klientów i biznesu.

    Warsztatowa forma szkolenia dostarcza zarówno wiedzy teoretycznej dla lepszego zrozumienia koncepcji NLP i Text Mining oraz praktycznych umiejętności analizy danych tekstowych w Python. Zastosowanie języka Python do prezentacji przykładów, ćwiczeń i studium przypadków umożliwia uczestnikom zbudowanie gotowych rozwiązań problemów z obszaru text mining i pozwala lepiej przyswoić skomplikowane koncepcje przetwarzania języka naturalnego. Po ukończeniu szkolenia uczestnicy będą dysponowali skryptami umożliwiającymi rozwiązanie większości problemów z obszaru Text Mining i NLP.

    NLP to jedna z głównych składowych sztucznej inteligencji (z ang. Artificial Intelligence). Za pomocą algorytmów komputerowych, koncepcji matematycznych i statystycznych  NLP stara się przetworzyć i zrozumieć tekst tak jak człowiek (najczęściej spotykane problemy NLP to m.in automatic summarization, part-of-speech tagging, disambiguation, entity extraction). Text mining to metoda eksploracji danych służąca wydobywaniu informacji z tekstu. Text mining wykorzystuje różne metody analizy danych wsród których najważniejsze są NLP oraz algorytmy maszynowego uczenia. Pomysł połączenia NLP i text mining w jedno szkolenie wynika z dużego potencjału jaki niesie jednoczesne wykorzystanie tych metod przy analizie danych tekstowych i dokumentów.

    W części praktycznej szkolenia do tworzenia aplikacji NLP i text mining wykorzystujemy środowisko programistyczne Python głównie z uwagi na dużą dostępność narzędzi i bibliotek do NLP i text mining. Najważniejszą i jednocześnie najczęściej wykorzystywaną do NLP biblioteką Python jest NLTK, z prostą składnią i ogromną liczbą funkcji sprawia że nawet najbardziej złożone zadania NLP można rozwiązać za pomocą kilku linii kodu. Ponadto prosta składnia Python oraz duża dostępność innych pakietów do analizy danych sprawia że Python jest jednym z najczęściej wybieranych języków Data Science. Jeżeli chcesz dowiedzieć się więcej przeczytaj nasz artykuł R czy Python? Który język programowania wybrać w 2023 roku? .

    Dla kogo jest to szkolenie?

    • Data Scientist pragnący rozszerzyć warsztat analityczny o umiejetność analizy danych tekstowych
    • Programiści projektujący systemy mające m.in. interpretować i odkrywać wiedzę z danych tekstowych
    • Wszyscy zainteresowani zdobyciem wiedzy i praktycznych umiejętności przetwarzania języka naturalnego i text mining z Python

    Czego się nauczę?

    Po ukończeniu szkolenia:

    • Poznasz problemy i sposoby ich rozwiązania metodami rozwijanymi w ramach przetwarzania języka naturalnego i zastosowanie metody maszynowego uczenia w analizie tekstu
    • Zrozumiesz koncepcje i pojęcia obecne w analizie tekstu naturalnego między innymi Corpus, NLU, NLG.
    • Poznasz techniki przygotowania dokumentów i tekstu do przetwarzania i transformacji oraz nauczysz się je dostosowywać do potrzeb analizy
    • Poznasz algorytmy NLP niezbędne do pracy i analizy danych tekstowych
    • Nauczysz się przetwarzać dane wykorzystując metody NLP do generowania danych na potrzeby algorytmów maszynowego uczenia
    • Poznasz najnowsze koncepcje i model wykorzystywane w NLP takie jak word2vec, doc2vec, GloVe i inne
    • Nauczysz się przeprowadzać proces klasyfikacji tekstu i dokumentów zaawansowanymi metodami maszynowego uczenia
    • Dowiesz się jak wykrywać nazwy własne i wykorzystać je w text mining
    • Poznasz i nauczysz się zastosować w praktyce metody modelowania tematycznego
    • Dowiesz się jak przeprowadzić segmentację dokumentów za pomocą metod maszynowego uczenia
    • Nauczysz się wykorzystywać metody maszynowego uczenia i przetwarzania języka naturalnego do analizy semantycznej i sentymentu
    • Liczne studia przypadku ugruntują twoją wiedzę i pomogą budować usystematyzowane skrypty Python do przetwarzania i analizy danych tekstowych
    • Dlaczego przetwarzanie języka naturalnego jest takie ważne?
    • Przebieg procesu przetwarzania i analizy danych tekstowych
    • Jakie rodzaje problemów można rozwiązać za pomocą text mining i nlp
    • Algorytmy maszynowego uczenia w zastosowaniu do Text Mining i NLP
    • Dlaczego Python –biblioteki pandas, NLTK, scikit-learn
    • Dokumentacja i gdzie szukać pomocy
    • Pojęcia i koncepcje w analizie tekstu naturalnego takie jak:
      • Corpus
      • NLU i NLG (z ang. Natural language understanding, Natural language generation)
      • Analiza morfologiczna
      • Analiza syntaktyczna
      • Analiza semantyczna
    • Przykłady zastosowań text mining i przetwarzania języka naturalnego w biznesie
    • Tokenizacja
      • Tokenizacja tekstu na zdania
      • Tokenizacja zdań na słowa
      • Tokenizacja w Treebank Word Tokenizer oraz za pomocą wyraże regularnych
    • Normalizacja
      • Usuwanie znaków przestankowych, specjalnych, liczb
      • Usuwanie nieistotnych słów
      • Zamiana na małe litery
    • Lemmatyzacja
    • Stemming
    • Wyrażenia regularne i przetwarzanie ad hoc
    • Wizualizacja danych w text mining – dendrogramy, worldcloud, tag plot
    • Przykłady i ćwiczenia przetwarzania danych tekstowych w Python
    • Rola Feature engineering w analizie tekstu
    • Parsery i parsowanie tekstu
    • POS tagging
    • Rozpoznawanie nazw własnych (ang. Name entity recognition)
    • N-grams
    • Reprezentacja Bag of words
    • Macierz document term
    • Przekształcenie macierzy document term za pomocą tf-idf
    • Zaawansowane techniki w tym model word2vec
    • Reprezentacja dokumentu i przegląd klasyfikatorów
    • Drzewa klasyfikacyjne
    • Klasyfikatory Bayesowskie
    • Algorytm k-nearest neighbors
    • Support vector machines
    • Klasyfikator Maximum Entropy
    • Ocena jakości klasyfikacji i krzywa uczenia
    • Case study – rozwiązanie problemu klasyfikacji
    • Wyodrębnienie nazw własnych z tekstu za pomocą reguł i metod maszynowego uczenia
    • Wykrywanie początku i zakończenia zdania
    • Uczenie modelu rozpoznawania nazw własnych
    • Zastosowania i potencjał modelowania tematycznego w text mining
    • Latent Dirichlet Allocation
    • Correlated topic model
    • Mierzenie podobieństwa między dokumentami a słowami kluczowymi
    • Klastrowanie za pomocą algorytmów k-means, k-medoid
    • Obliczanie odległości pomiędzy stringami
    • Fuzzy matching – Amatch Ain
    • Miary podobieństwa
    • Czym jest analiza sentymentu i jak ją zastosować
    • Analiza sentymentu za pomocą NER
    • Wykorzystanie metod maszynowego uczenia do analizy sentymentu
    • Sentiment word clouds