natural language processing
Crawling Swiss News

Swiss News and Swiss National Langauges
Die Schweiz ist ein einzigartiges Land mit vier Amtssprachen. Dies wirkt sich auch auf die Nachrichtenlandschaft aus, die vielfältig und mehrsprachig ist. Um ein besseres Verständnis dieser Landschaft zu erlangen, haben wir Schweizer Nachrichtenartikel mithilfe von Web-Crawling-Techniken gesammelt und analysiert.
The Big Picture
Unser übergeordnetes Ziel war es, die Sprachkomplexität in den Kategorien auf Schweizer News-Websites zu analysieren. Dazu haben wir eine Vielzahl von Artikeln von vier verschiedenen Schweizer Nachrichtenwebsites gesammelt, darunter das Schweizer Radio und Fernsehen (SRF) sowie drei weitere Websites aus den anderssprachigen Regionen der Schweiz.
Designing a robust system
Um ein robustes System zu entwickeln, haben wir verschiedene Tools verwendet. Mit Python und Selenium haben wir einen Crawler erstellt, der die Websites durchsucht und die relevanten Informationen sammelt. Zur Messung der Sprachkomplexität haben wir die Python-Bibliothek “textstat” verwendet und den Flesch Reading Ease Score angewendet.
Alerting
Eine besondere Herausforderung beim Crawlen von Websites ist das Erkennen und Umgehen von möglichen Blockierungen. Um sicherzustellen, dass unser Crawler korrekt funktioniert, haben wir ein Benachrichtigungssystem eingerichtet, das uns warnt, wenn Probleme auftreten.
The ethics of crawling
Beim Crawlen von Websites ist es wichtig, ethische Aspekte zu berücksichtigen. Wir haben darauf geachtet, dass unser Crawler die Websites nicht überlastet und dass wir die gesammelten Daten verantwortungsvoll und respektvoll behandeln.
Features extraction & enhancement
Nachdem wir die Rohdaten gesammelt hatten, haben wir diese weiter analysiert und verbessert. Wir haben verschiedene Merkmale aus den Daten extrahiert und diese zur Berechnung weiterer Daten verwendet. Besonders interessant war dabei die Analyse der Sprachkomplexität.
Our short analysis
Unsere Analyse hat gezeigt, dass es durchaus Unterschiede in der Sprachkomplexität zwischen den verschiedenen Nachrichtenwebsites und -kategorien gibt. Dies gibt uns einen interessanten Einblick in die sprachlichen Merkmale der Nachrichtenberichterstattung in der Schweiz.
Conclusion
Unsere Studie hat gezeigt, dass die Analyse von Nachrichtenartikeln mit Web-Crawling und NLP-Techniken spannende Einblicke in die Nachrichtenlandschaft bieten kann. Dabei sind jedoch auch ethische Aspekte und technische Herausforderungen zu berücksichtigen.
Inspiration for further projects
Diese Studie könnte als Grundlage für weitere Projekte dienen, etwa zur Untersuchung der sprachlichen Merkmale in Nachrichtenartikeln aus verschiedenen Ländern oder zur Entwicklung von Tools zur Verbesserung der Zugänglichkeit von Nachrichten für verschiedene Lesergruppen.