Data ScienceSzkolenia z języka Python

Text Mining i Przetwarzanie Języka Naturalnego z Python

Poziom kursu: Zaawansowany
Cena za uczestnika: 3 250,00 zł netto
Czas trwania: 4 dni

Interesują Cię inne szkolenia? Zobacz więcej

Zapisz się

Zapytaj o szkolenie zamknięte

Terminarz szkoleń

Nie pasuje Ci żaden termin? Napisz do nas!

Zapisz więcej osób

Taniej w grupie

O szkoleniu

Jedną z bardzo ważnych umiejętności na wyposażeniu Data Scientist jest umiejętność przetwarzania języka naturalnego (z ang. Natural Language Processing) oraz text mining. Szybko rosnąca liczba źródeł danych tekstowych i ich większy wolumen odpowiadają w dużej mierze za znaczenie jakie przypisuje się obecnie umiejętności analizy danych tekstowych. Prezentowane szkolenie odpowiada na potrzeby wszystkich poszukujących umiejętności analizy dokumentów i danych tekstowych, szukania wzorców i ekstrakcji informacji umożliwiającej nam lepsze zrozumienie naszych klientów i biznesu.

Warsztatowa forma szkolenia dostarcza zarówno wiedzy teoretycznej dla lepszego zrozumienia koncepcji NLP i Text Mining oraz praktycznych umiejętności analizy danych tekstowych w Python. Zastosowanie języka Python do prezentacji przykładów, ćwiczeń i studium przypadków umożliwia uczestnikom zbudowanie gotowych rozwiązań problemów z obszaru text mining i pozwala lepiej przyswoić skomplikowane koncepcje przetwarzania języka naturalnego. Po ukończeniu szkolenia uczestnicy będą dysponowali skryptami umożliwiającymi rozwiązanie większości problemów z obszaru Text Mining i NLP.

NLP to jedna z głównych składowych sztucznej inteligencji (z ang. Artificial Intelligence). Za pomocą algorytmów komputerowych, koncepcji matematycznych i statystycznych NLP stara się przetworzyć i zrozumieć tekst tak jak człowiek (najczęściej spotykane problemy NLP to m.in automatic summarization, part-of-speech tagging, disambiguation, entity extraction). Text mining to metoda eksploracji danych służąca wydobywaniu informacji z tekstu. Text mining wykorzystuje różne metody analizy danych wsród których najważniejsze są NLP oraz algorytmy maszynowego uczenia. Pomysł połączenia NLP i text mining w jedno szkolenie wynika z dużego potencjału jaki niesie jednoczesne wykorzystanie tych metod przy analizie danych tekstowych i dokumentów.

W części praktycznej szkolenia do tworzenia aplikacji NLP i text mining wykorzystujemy środowisko programistyczne Python głównie z uwagi na dużą dostępność narzędzi i bibliotek do NLP i text mining. Najważniejszą i jednocześnie najczęściej wykorzystywaną do NLP biblioteką Python jest NLTK, z prostą składnią i ogromną liczbą funkcji sprawia że nawet najbardziej złożone zadania NLP można rozwiązać za pomocą kilku linii kodu. Ponadto prosta składnia Python oraz duża dostępność innych pakietów do analizy danych sprawia że Python jest jednym z najczęściej wybieranych języków Data Science. Jeżeli chcesz dowiedzieć się więcej przeczytaj nasz artykuł R czy Python? Który język programowania wybrać w 2023 roku? .

Dla kogo jest to szkolenie?

Data Scientist pragnący rozszerzyć warsztat analityczny o umiejetność analizy danych tekstowych
Programiści projektujący systemy mające m.in. interpretować i odkrywać wiedzę z danych tekstowych
Wszyscy zainteresowani zdobyciem wiedzy i praktycznych umiejętności przetwarzania języka naturalnego i text mining z Python

Czego się nauczę?

Po ukończeniu szkolenia:

Poznasz problemy i sposoby ich rozwiązania metodami rozwijanymi w ramach przetwarzania języka naturalnego i zastosowanie metody maszynowego uczenia w analizie tekstu
Zrozumiesz koncepcje i pojęcia obecne w analizie tekstu naturalnego między innymi Corpus, NLU, NLG.
Poznasz techniki przygotowania dokumentów i tekstu do przetwarzania i transformacji oraz nauczysz się je dostosowywać do potrzeb analizy
Poznasz algorytmy NLP niezbędne do pracy i analizy danych tekstowych
Nauczysz się przetwarzać dane wykorzystując metody NLP do generowania danych na potrzeby algorytmów maszynowego uczenia
Poznasz najnowsze koncepcje i model wykorzystywane w NLP takie jak word2vec, doc2vec, GloVe i inne
Nauczysz się przeprowadzać proces klasyfikacji tekstu i dokumentów zaawansowanymi metodami maszynowego uczenia
Dowiesz się jak wykrywać nazwy własne i wykorzystać je w text mining
Poznasz i nauczysz się zastosować w praktyce metody modelowania tematycznego
Dowiesz się jak przeprowadzić segmentację dokumentów za pomocą metod maszynowego uczenia
Nauczysz się wykorzystywać metody maszynowego uczenia i przetwarzania języka naturalnego do analizy semantycznej i sentymentu
Liczne studia przypadku ugruntują twoją wiedzę i pomogą budować usystematyzowane skrypty Python do przetwarzania i analizy danych tekstowych

Plan szkolenia

1. Text Mining i przetwarzanie języka naturalnego w Python

Dlaczego przetwarzanie języka naturalnego jest takie ważne?
Przebieg procesu przetwarzania i analizy danych tekstowych
Jakie rodzaje problemów można rozwiązać za pomocą text mining i nlp
Algorytmy maszynowego uczenia w zastosowaniu do Text Mining i NLP
Dlaczego Python –biblioteki pandas, NLTK, scikit-learn
Dokumentacja i gdzie szukać pomocy
Pojęcia i koncepcje w analizie tekstu naturalnego takie jak:
- Corpus
- NLU i NLG (z ang. Natural language understanding, Natural language generation)
- Analiza morfologiczna
- Analiza syntaktyczna
- Analiza semantyczna
Przykłady zastosowań text mining i przetwarzania języka naturalnego w biznesie

2. Przygotowanie tekstu do analizy i text mining

Tokenizacja
- Tokenizacja tekstu na zdania
- Tokenizacja zdań na słowa
- Tokenizacja w Treebank Word Tokenizer oraz za pomocą wyraże regularnych
Normalizacja
- Usuwanie znaków przestankowych, specjalnych, liczb
- Usuwanie nieistotnych słów
- Zamiana na małe litery
Lemmatyzacja
Stemming
Wyrażenia regularne i przetwarzanie ad hoc
Wizualizacja danych w text mining – dendrogramy, worldcloud, tag plot
Przykłady i ćwiczenia przetwarzania danych tekstowych w Python

3. Reprezentacja tekstu za pomocą zmiennych numerycznych – Feature engineering

Rola Feature engineering w analizie tekstu
Parsery i parsowanie tekstu
POS tagging
Rozpoznawanie nazw własnych (ang. Name entity recognition)
N-grams
Reprezentacja Bag of words
Macierz document term
Przekształcenie macierzy document term za pomocą tf-idf
Zaawansowane techniki w tym model word2vec

4. Klasyfikacja tekstu

Reprezentacja dokumentu i przegląd klasyfikatorów
Drzewa klasyfikacyjne
Klasyfikatory Bayesowskie
Algorytm k-nearest neighbors
Support vector machines
Klasyfikator Maximum Entropy
Ocena jakości klasyfikacji i krzywa uczenia
Case study – rozwiązanie problemu klasyfikacji

5. Named entity recognition – Wykrywanie nazw własnych

Wyodrębnienie nazw własnych z tekstu za pomocą reguł i metod maszynowego uczenia
Wykrywanie początku i zakończenia zdania
Uczenie modelu rozpoznawania nazw własnych

6. Topic modelling – modelowanie tematyczne

Zastosowania i potencjał modelowania tematycznego w text mining
Latent Dirichlet Allocation
Correlated topic model
Mierzenie podobieństwa między dokumentami a słowami kluczowymi

7. Analiza skupień tekstów i dokumentów

Klastrowanie za pomocą algorytmów k-means, k-medoid
Obliczanie odległości pomiędzy stringami
Fuzzy matching – Amatch Ain
Miary podobieństwa

8. Analiza sentymentu w tekście

Czym jest analiza sentymentu i jak ją zastosować
Analiza sentymentu za pomocą NER
Wykorzystanie metod maszynowego uczenia do analizy sentymentu
Sentiment word clouds

Brałeś udział w szkoleniu?
Oceń nas i napisz opinię.

Dodaj opinię Google

Text Mining i Przetwarzanie Języka Naturalnego z Python

Poziom kursu

Cena za uczestnika

3 250,00 zł netto

Czas trwania

4 dni

Terminarz szkoleń

Taniej w grupie

O szkoleniu

Dla kogo jest to szkolenie?

Czego się nauczę?

Plan szkolenia

1. Text Mining i przetwarzanie języka naturalnego w Python

2. Przygotowanie tekstu do analizy i text mining

3. Reprezentacja tekstu za pomocą zmiennych numerycznych – Feature engineering

4. Klasyfikacja tekstu

5. Named entity recognition – Wykrywanie nazw własnych

6. Topic modelling – modelowanie tematyczne

7. Analiza skupień tekstów i dokumentów

8. Analiza sentymentu w tekście