Text Mining en Web Scraping

Niet Goed Geld Terug

Gratis Annuleren

Startgarantie

NRTO Keurmerk

10 op basis van 1 ervaringen
825,-excl. btw

Tijdens deze tweedaagse cursus leer hoe je data en teksten eenvoudig van het internet kan halen en analyseren. Voor de analyse zullen we diverse Natural Language Processing (NLP) tools gebruiken om de teksten te analyseren. Zo leer je bijvoorbeeld de prijzen van huizen scrapen en visualiseren. Daarnaast leren we het sentiment van een tekst te bepalen. Dit is alleen mogelijk met onze unieke leermethode, de persoonlijke aandacht en onze extra ondersteuning na je cursusdagen. De cursus wordt afgesloten met een Text Mining en Web Scraping certificaat.

Background Image for School of Data Science Website

Text Mining en Web Scraping

Niet Goed Geld Terug
Gratis annuleren 
Startgarantie
★★★★★ 10 op basis van 1 ervaringen

Niveau: MBO/HBO/WO Trainer Locatie: Den Haag
Tijdens deze tweedaagse cursus leer hoe je data en teksten eenvoudig van het internet kan halen en analyseren. Voor de analyse zullen we diverse Natural Language Processing (NLP) tools gebruiken om de teksten te analyseren. Zo leer je bijvoorbeeld de prijzen van huizen scrapen en visualiseren. Daarnaast leren we het sentiment van een tekst te bepalen.
825,- excl. btw

Mail: rick@schoolofdatascience.nl

Telefoonnummer:
070 221 1586

Background Image for School of Data Science Website

Ervaringen

Hieronder is een selectie te zien van onze blije klanten. Bekijk hier alle recensies.
 Mariëlle Zondervan
Mariëlle Zondervan
Mariëlle Zondervan Data Specialist
Read More
"De opzet en inhoud van de cursus is erg goed. Je leert meerdere methoden aan voor web-scraping, zodat je in elke situatie aan de slag kunt. Het text mining gedeelte bevat goede basics voor regular expressions, maar ook interessante modellen die je kunt toepassen op tekst data zodat je bijv. ook een sentiment analyse kunt uitvoeren of gevoelige data kunt herkennen. Je krijgt als cursist alle bijbehorende Jupyter notebooks met opdrachten en antwoorden zodat je ook na de training voldoende houvast hebt om zelf aan de slag te gaan. In de kleinschalige opzet van de cursus is ook voldoende ruimte voor vragen. De trainer heeft erg veel kennis en ervaring en kan daarmee op elke data science vraag ingaan. Ik heb heel veel aan deze cursus gehad!"

Informatie

Locatie: Den Haag. 
Duur: 2 dagen.
Studiebelasting: 14 uur cursus + 7 uur zelfstudie.

Lestijden: 10:00 – 17:00. 
Taal: Nederlands/Engels.
Niveau: MBO/HBO/WO.

Prijs: €825,- excl. btw. 

Over de cursus Text Mining en Web Scraping

Tekst komt je overal tegen. Denk aan websites, nieuws artikelen, recensies, mail berichten en wetenschappelijke publicaties. In veel gevallen is de hoeveelheid tekst te groot om handmatig te analyseren of moeten de analyses dagelijks worden uitgevoerd. In deze situaties is het handig om teksten automatisch te verwerken.

Gelukkig zijn er web scraping tools, waarmee deze taken uitgevoerd kunnen worden. Daarnaast zijn er Natural Language Processing (NLP) tools om kwantitatieve analyses uit te voeren op tekst data. Het vakgebied van NLP is enorm aan het groeien de afgelopen jaren en de meest krachtige technieken zijn publiekelijk beschikbaar!

Een groot deel van deze cursus wordt besteed aan het verkrijgen van onze data. Wij zullen meerdere websites – waaronder www.funda.nl, www.autoscout24.nl en www.allrecipies.com – gaan gebruiken als bron. Deze websites zullen we met een simpele Google Chrome extensie gaan scrapen. Hierdoor kunnen we onder andere reviews, getallen en categorieën uitlezen en visualiseren.

We maken gebruik van de programmeertaal Python voor het analyseren van onze data. Deze programmeertaal is relatief eenvoudig om mee te werken en bevat de beste data analyse en Natural Language Processing (NLP) tools.

Heb je geen ervaring met programmeren en/of met Python? Geen probleem! We bieden deze cursus ook aan voor mensen die geen ervaring hebben met programmeren. Ter voorbereiding sturen wij je materiaal toe. Hierdoor kun je met alle benodigde kennis met de cursus van start! Mocht je niet zeker zijn of je voldoende voorkennis hebt? Laat het ons dan weten via het contact formulier

Leerdoelen cursus Text Mining en Web Scraping

  • kun je websites scrapen,
  • kun je tekst data opschonen met RegEx,
  • kun je data analyseren die je vanuit online bronnen hebt verkregen,
  • kun je sentiment analyses uitvoeren op teksten,
  • en kun je werken met de krachtige NLP tools SpaCy en HuggingFace.

Voor wie is de cursus Text Mining en Web Scraping?

Deze cursus is iets voor jou als je:
  • kwantitatieve en kwalitatieve analyses wilt uitvoeren op teksten,
  • teksten of data wilt scrapen van het web,
  • bereid bent om te leren programmeren.
Python Essentials Code voorbeeld
Python Essentials Cursisten School of Data Science

Afbeelding 1 en 2. Programmeer voorbeeld uit de cursus en ons klaslokaal op locatie Rotterdam.

Cursusinhoud Text Mining en Web Scraping

Tijdens deze cursus werken we met gratis tools, zodat je na deze cursus verder kan gaan met wat je geleerd hebt.

Teksten binnenhalen

  • Web Scraping. We gaan werken met de Google Chrome Extension www.webscraper.io. Deze tool maakt het mogelijk om snel en eenvoudig informatie van website pagina’s te halen.
  • Basiskennis Python. Om iedereen mee te laten komen met de cursus is het belangrijk dat je begrijpt wat code doet. Daarom is er lesstof die je voor de cursus kan doornemen als je geen Python ervaring hebt.
  • Google Colab. We gaan teksten analyseren binnen Google Colab. Dit is een gratis Python omgeving van Google zodat je geen Python hoeft te installeren op je computer.

Tekst verwerking

    • Teksten opschonen met RegEx. Data moet vrijwel altijd opgeschoond worden voordat we er mee kunnen werken. RegEx is een taaltje op zichzelf dat vaak wordt gebruikt om teksten op te schonen.
    • Data verwerken met Pandas. Python heeft een library genaamd Pandas wat wordt gebruikt om makkelijk met data te kunnen werken. 
 

Natural Language Processing

  • Taal analysis met SpaCy. Er zitten vele structuren in teksten die bruikbaar zijn om de juist informatie te vinden. SpaCy in een NLP tool die veel kennis heeft van taal structuren zodat we makkelijker informatie kunnen vinden.
  • Doorzoeken van teksten met SpaCy. Door het taalbegrip van SpaCy is het een krachtige tool voor het vinden van informatie in teksten. 
  • Sentiment Analysis met HuggingFace. Een veel voorkomende toepassing van NLP is het voorspellen van de positiviteit of negativiteit van een tekst. HuggingFace heeft de nieuwste modellen voor vele NLP toepassingen waaronder Sentiment Analyse.
  • Andere classificaties met HuggingFace. Naast sentiment kan je teksten ook met andere tags labelen. Bijvoorbeeld of de tekst ongepast is of wat het onderwerp is. 
  • Samenvatten, vertalen en creëren van teksten. Huidige taal modellen zijn tegenwoordig zo goed dat ze zelfs teksten kunnen schrijven en vertalen. Dit staat nog in de kinderschoenen maar het is al verwerkt in meerdere commerciële producten.

Extra informatie over de Text Mining en Web Scraping cursus

  • Na je inschrijving nemen we contact met je op voor een intake. Dit doen we om je ervaring en leerbehoeften goed in kaart te brengen.
  • De cursussen worden gegeven in groepen van maximaal 12 personen .
  • Je hebt voor deze cursus een eigen laptop nodig om mee te doen, met daarop Google Chrome geinstalleerd. Je hoeft van te voren geen software te installeren.
  • We gebruiken de servers van Google voor de opdrachten. Hiervoor heb je een Google account nodig. Dit is eenzelfde account dat je voor Gmail en YouTube gebruikt.
  • Tijdens de cursus zal er een lunch worden voorzien. Heb je dieetvoorkeuren? Laat het ons weten! Dan zorgen wij voor een aangepaste lunch.

Veelgestelde vragen

Web scraping is het verkrijgen van data (dat kunnen bijvoorbeeld afbeeldingen, getallen of nieuwsartikelen zijn) van bestaande websites.

Er is veel data beschikbaar op het internet. Met web scraping kunnen we eventueel geautomatiseerd data (bijvoorbeeld dagelijks) halen vanuit bepaalde websites. Hiermee kun je bijvoorbeeld de verandering van huizenprijzen in kaart brengen. Of bijvoorbeeld het sentiment analyseren van bepaalde nieuws websites. Ook wordt het gebruikt om informatie te verzamelen over bedrijven en daarmee aandelen te verhandelen. 

Python is een van de meest gebruikte programmeertalen met een zeer grote actieve community die de programmeertaal dagelijks groter en sterker maakt. De taal is de meest gebruikte taal in de wereld van Data Science, Kunstmatige Intelligentie, beeldverwerking, wetenschappelijk onderzoek en simulaties. Ook is het een van de meest gebruikte talen bij grote bedrijven als bijvoorbeeld Google, Amazon en Instagram.

We verwachten enkele basisvaardigheden op het gebied van programmeren met Python. Mocht je dit niet hebben, is dat geen probleem. Laat het ons dan weten bij de opmerkingen in het inschrijfformulier. Wij zorgen er dan voor dat je voldoende voorbereidingsmateriaal meekrijgt om met de cursus mee te kunnen doen. 

Je kunt op aanvraag na de cursus een zogenaamd ‘Certificaat van deelname’ ontvangen van de School of Data Science. Hierop staat je naam, de datum, de cursusnaam en het aantal uur dat besteed is aan de cursus.

Jazeker! Onze opleidingen, trainingen en cursussen kan je volgen met het UWV Scholingsbudget. Dus ook de cursus Python Essentials is te volgen met het UWV Scholingsbudget. Op onze UWV Scholingsbudget pagina kan je meer informatie vinden over het UWV Scholingsbudget en een aanvraag indienen.

Bij de cursus Text Mining & Web Scraping richten we ons op het toepassen van bestaande Natural Language Processing modellen en technieken. Bij de cursus Natural Language Processing gaan we zelf modellen trainen op eigen data en toepassingen. De cursus Natural Language Processing is theoretischer en heeft een stuk meer voorkennis nodig.

Scroll to Top