Unser Ziel ist es, mit künstlicher Intelligenz die Beratung im Reisebüro anzureichern – mit besseren Informationen, fundierter Beratung und Kontaktaufnahme mit den Leistungsträgern.
Gerade der Tourismus in Europa wird damit gestärkt, Touristen können dadurch intensiver reisen und mehr Guthaben und Zeit für ihren Urlaub investieren.
Techgiganten haben Daten
Facebook, Google und andere Unternehmer horten ihre Schätze. Das obwohl, die Benutzer ihre Daten einbringen. Die meisten Techunternehmer offerieren kostenlos ihre Plattform und beabsichtigen damit, davon durch Geschäfte zu profitieren. Es ist unwahrscheinlich, dass dieses Wissen von Nutzerdaten verstaatlicht wird, hingegen sehr wahrscheinlich, dass Geschäftsmodelle scheitern, die auf kostenlose Nutzung der Daten dieser Techunternehmen beruhen. Firmen werden also beispielsweise wahrscheinlich auch zukünftig für individuelle Werbung via Nutzerdaten zahlen müssen.
Es bleibt also nur die Möglichkeit, auf allgemein zugängliche Daten zugreifen zu können. Gehört Google Maps dazu? Google hat hierzu ein Lizenzmodell.
Die bei Bookings eingetragenen Hotels sind interessant, doch oft fehlen wesentliche Informationen, wie z.B. Ansprechpartner.
Die meisten Webseiten von Hotels oder Sehenswürdigkeiten lassen sogenannte Crawler zu. Da könnten wir uns theoretisch ein System überlegen und das Internet durchscrollen. Für einen Test könnten Programme von IBM, Microsoft oder Google genutzt werden, um genügend Rechnerkapazität zu haben.
Beim Webcrawler wird das Internet durchsucht, es werden Daten entnommen und diese werden aufbereitet und könnten via einer Datenbank ausgelesen werden.
KI Projekt Webcrawler realisieren?
Im Buch “Natürlich alles künstlich” von Philip Häusser wird ausführlich beschrieben, wie die KI funktioniert. Dennoch, es hat mich überfordert, und ich suche gerne den Kontakt mit dem Autor, wenn ich mal in München bin, z.B. auf der Messe F.re.e.
Künstliche Intelligenz braucht maschinelles Lernen, aufbauend auf neuronalem Netz „Deep Learning“ zur Entwicklung. Modelle erklären die Welt, und wir sollten wissen, was wir eigentlich möchten. Um ein Modell zu trainieren braucht es Daten. Die haben vor allem Techkonzerne, im Internet sollte genügend auf Webseiten vorhanden sein.
Ein Modell zu beschreiben, stellt sich für mich als immense Herausforderung dar. Ich schaue mal bei der ETH vorbei. Um die Daten zu „crawlen“ wird es wahrscheinlich Rechnerkapazitäten brauchen, von den grossen Techfirmen gibt es zwar Unterstützung für Startups. Wie die Realisierung des Projekts, das ist offen.
„Natürlich alles künstlich“ von Philip Häusser
erschienen im Drömer Verlag, ISBN 978-3-426-27851-2
Sofern das Modell funktioniert, können Investitionen mitsamt seinen Investoren durchaus auch von staatlicher Seite angegangen werden.
Einbau als Praxisarbeit
Aktuell arbeitet für uns eine Praktikantin. Sie soll ein Praxisprojekt abwickeln. Das Projekt skizzieren wir wie folgt:
- Der Crawler sucht nach Hotels auf der ganzen Welt und nutzt die jeweilige Landessprache.
- Wir suchen uns einige Begriffe, wie Name, Adresse, Kontaktdaten, Informationen zum Ort, auch Bilder.
- Alle Daten zum jeweiligen Urlaub werden gesammelt und in einer Datenbank aufbereitet.
- Diese Datenbank steht allen Interessierten zur Verfügung.
- In die entsprechenden Webseiten zu Ländern werden die Hoteldaten in Citadela-Verzeichnisse eingelesen.
- Zu vielen Ländern haben wir Webseiten erstellt, die gefüllt werden könnten reisen.international/laender
Pflichtenheft
Wir suchen weiterhin für diese Idee Partner. Auf der ITB Berlin sind Gespräche geplant. Schon heute ist vorhersehbar, dass die Praxisarbeit sich in der Praxis erst noch bewähren muss.
- Dokumentation über das Projekt nach der IPERKA-Methode erstellen
- Ein Arbeitsjournal schreiben, in dem der Fortschritt und die Probleme, für jeden Tag dokumentiert wird.
- Das Projekt ist ein Web Scraper. Es soll mit Hilfe von Beautifulsoup in Python entwickelt werden.
- Der Web Crawler sollte eine benutzerfreundliche, sauber aussehende UI haben.
- Der Web Scraper wird sich hauptsächlich darauf konzentrieren, Übernachtungsangebote (Hotels, Hostels, Motels, Bed&Breakfasts, usw.) zu finden.
- Neben der Möglichkeit, nach einem bestimmten Thema zu suchen, soll es auch die Möglichkeit geben, die Ergebnisse zu filtern (z.B. bestimmte Länder)
- Der Web Scraper soll in 4 Sprachen verfügbar sein: Deutsch, Französisch und Englisch, aber auch lokale Sprachen mithilfe vom Google Translator einbinden
- Der Web Scraper generiert aus seinen Ergebnissen eine Datenbank (und möglicherweise stellt sie im CSV-Format zum Download bereit.)
- Der Web Scraper muss in WordPress integrierbar sein. Dies kann durch das Schreiben eines Plugins in PHP für WordPress geschehen, das den Python-Code aufruft.
- Es soll eine Anleitung zur manuellen Installation in WordPress und Nutzung des Web Scrapers erstellt werden, insbesondere für Citadela, wo wir eine Lifetime Lizenz haben und bereits Erfahrungen haben.
Die Praxisarbeit wurde fertiggestellt, die Ziele nicht erreicht. Hier die ausführliche Dokumentation sowie den Code.
Es gibt auch ein Handbuch, welches nicht mehr aktuell ist.
Zum Thema Web Scraper hat die Praktikantin eine gute Präsentation gehalten
Gerne freuen wir uns auf Ihre Anregungen und Ideen. Wir möchten die Idee gerne weiter verfolgen.
Dafür eine Ausschreibung bei Upwork.
- Das Projekt ist gescheitert. WordPress und Python scheinen gemeinsam nicht zu funktionieren. Wahrscheinlich muss das Projekt von Grund auf neu gedacht werden.
- Bei der Dokumentation ist auf den letzten Seiten der Workaround mit Octoparse beschrieben. Wir hatten schlussendlich den Scraper auf die Google Suche orientiert, der Scraper wurde immer wieder blockiert. Booking hat funktioniert, doch sind wir an vollständigen Kontaktdaten interessiert. Bei Google hatten wir auf dem Bild URL und Telefonnummer, diese jedoch nicht ausgelesen
- Octoparse ist eine Cloud-basierte Lösung. Mit Octoparse können Webseiten extrahiert werden. Die Funktion von Octoparse ist in der Dokumentation beschrieben. Irgendwie sollten wir das nutzen können.
- Das Ziel ist nach wie vor, unsere Reisewebseiten mit Übernachtungsmöglichkeiten zu füllen und auch ein Plugin der WordPress Community zur Verfügung zu stellen. Die Daten sollten eine direkte Anfrage ermöglichen
- Bei der Ausschreibung auf Upwork wurde auf unzulängliche Serverkapazitäten hingewiesen. Es muss also mit Kosten gerechnet werden.
- Anbieter wollen das Scraping als Service anbieten, statt ein Plugin für WordPress zu entwickeln.
Die Ausschreibung bei Upwork hat gezeigt, dass einige Freelancer in der Lage sind, die Daten von Google Maps abzugreifen. Wir werden das weiter verfolgen. Das Ziel bleibt ein WordPress Plugin.
Aufgrund der Weiterentwicklung der KI wird die Lösung nicht mehr weiterverfolgt. Heute findet die KI effektiver Daten, als mit Web Scraping.