natural language processing

Crawling Swiss News

Crawling Swiss News

Swiss News and Swiss National Langauges

Die Schweiz ist ein einzigartiges Land mit vier Amtssprachen. Dies wirkt sich auch auf die Nachrichtenlandschaft aus, die vielfältig und mehrsprachig ist. Um ein besseres Verständnis dieser Landschaft zu erlangen, haben wir Schweizer Nachrichtenartikel mithilfe von Web-Crawling-Techniken gesammelt und analysiert.

The Big Picture

Unser übergeordnetes Ziel war es, die Sprachkomplexität in den Kategorien auf Schweizer News-Websites zu analysieren. Dazu haben wir eine Vielzahl von Artikeln von vier verschiedenen Schweizer Nachrichtenwebsites gesammelt, darunter das Schweizer Radio und Fernsehen (SRF) sowie drei weitere Websites aus den anderssprachigen Regionen der Schweiz.

Designing a robust system

Um ein robustes System zu entwickeln, haben wir verschiedene Tools verwendet. Mit Python und Selenium haben wir einen Crawler erstellt, der die Websites durchsucht und die relevanten Informationen sammelt. Zur Messung der Sprachkomplexität haben wir die Python-Bibliothek “textstat” verwendet und den Flesch Reading Ease Score angewendet.

Alerting

Eine besondere Herausforderung beim Crawlen von Websites ist das Erkennen und Umgehen von möglichen Blockierungen. Um sicherzustellen, dass unser Crawler korrekt funktioniert, haben wir ein Benachrichtigungssystem eingerichtet, das uns warnt, wenn Probleme auftreten.

The ethics of crawling

Beim Crawlen von Websites ist es wichtig, ethische Aspekte zu berücksichtigen. Wir haben darauf geachtet, dass unser Crawler die Websites nicht überlastet und dass wir die gesammelten Daten verantwortungsvoll und respektvoll behandeln.

Features extraction & enhancement

Nachdem wir die Rohdaten gesammelt hatten, haben wir diese weiter analysiert und verbessert. Wir haben verschiedene Merkmale aus den Daten extrahiert und diese zur Berechnung weiterer Daten verwendet. Besonders interessant war dabei die Analyse der Sprachkomplexität.

Our short analysis

Unsere Analyse hat gezeigt, dass es durchaus Unterschiede in der Sprachkomplexität zwischen den verschiedenen Nachrichtenwebsites und -kategorien gibt. Dies gibt uns einen interessanten Einblick in die sprachlichen Merkmale der Nachrichtenberichterstattung in der Schweiz.

Conclusion

Unsere Studie hat gezeigt, dass die Analyse von Nachrichtenartikeln mit Web-Crawling und NLP-Techniken spannende Einblicke in die Nachrichtenlandschaft bieten kann. Dabei sind jedoch auch ethische Aspekte und technische Herausforderungen zu berücksichtigen.

Inspiration for further projects

Diese Studie könnte als Grundlage für weitere Projekte dienen, etwa zur Untersuchung der sprachlichen Merkmale in Nachrichtenartikeln aus verschiedenen Ländern oder zur Entwicklung von Tools zur Verbesserung der Zugänglichkeit von Nachrichten für verschiedene Lesergruppen.