Fachhochschule Nordwestschweiz FHNW

Job Classifier α

Zusammenfassung

Entwicklung eines Classifier zur Klassifizierung von HTML-Quellcode als Jobinserate

Durch Natural Language Processing (NLP) werden die Quellcodes in eine interpretierbare Form für ein Neuronales Netzwerk "übersetzt".
Die Daten (HTML-Quellcodes) werden zuerst mit einem massgeschneiderten Preprocessing verarbeitet. Danach werden sie mit Word Embeddings in Wort-Vektoren übersetzt. Zum Schluss werden diese Wort-Vektoren von einem Recurrent Neural Network (RNN) klassifiziert.

Schlüsselbegriffe

Machine Learning, Data Science, Artificial Intelligence, Natural Language Processing, Keras, Classifier, Python

Zielsetzung

Das Ziel dieser Arbeit ist es mittels Methoden des Machine Learning und NLP einen Classifier zu konzipieren, welcher für einen gegebenen HTML-Quellcode bestimmen kann, ob es sich um ein Jobinserat handelt.

Ausgangslage

In Zusammenarbeit mit der Firma 4U Computing entwickelt das Institut für Data Science einen Web-Crawler, um Stellenausschreibungen im deutschsprachigen Internet zu finden und zu einem Vakanzen-Feed zusammenzuführen. Dieser Feed kann z.B. auf Job-Plattformen publiziert und so den Stellensuchenden zugänglich gemacht werden. Die Beschreibungen der Vakanzen bestehen hauptsächlich aus Fliesstext und variieren in der Strukturierung von Quelle zu Quelle, d.h. Webseiten mit Stellenangeboten lassen sich nicht so einfach von anderen Webseiten unterscheiden. Notwendig ist deshalb ein Classifier, welcher die heruntergeladenen Webpages möglichst gut in Vakanzen und Nicht- Vakanzen klassifiziert.

Ergebnisse

Wir haben einen Classifier erstellt, welcher auf dem Test-Datenset eine Genauigkeit von über über 93% erreicht! Das finale Modell verwendet mit Gensim nachtrainierte Word2Vec Word Embeddings und ein Bidirektionales LSTM mit einem Global Max Pool Layer. Dieses Modell resultiert aus einer Auswertung eines Hyperparametertrainings von verschiedenen Modellkombinationen von Preprocessings, neuronalen Netzwerk-Typen und weiteren Massnahmen.

Abbildung 1: Layer und Parameter des finalen Modells

Abbildung 2: Vorhersagen des Classifiers auf Test Set

Projektdaten

Projektdauer	Aufwand in Personenstunden	Teamgrösse
17. September 2018 bis 19. Januar 2019	360 h	2 Personen

Auftraggeber

4U Computing, Webseite

Projektteam

Dominik Sommerhalder , Studiengang Informatik, 5. Semester
Renato Rao , Studiengang Informatik, 5. Semester

Kontakt

Betreuer: Manfred Vogel, E-Mail: manfred.vogel@fhnw.ch
Lukas Neukom, E-Mail: lukas.neukom@fhnw.ch

Hochschule für Technik

Studierendenprojekte im Studiengang Informatik