Haben LLMs endlich die Geolokalisierung gemeistert?
Open-Source-Intelligence-Forscher haben 20 KI-Modelle an 500 Geolokalisierungsherausforderungen getestet, die auf unveröffentlichten Reisebildern basieren. Die neuesten Modelle von OpenAI übertrafen Google Lens, während andere Wettbewerber oft nur Schätzungen auf Kontinentebene abgeben konnten.
Einführung in die Geolokalisierung mit KI
Die Geolokalisierung ist ein entscheidender Aspekt in der heutigen digitalen Welt, insbesondere für Forscher und Analysten, die Informationen aus Bildern extrahieren möchten. In einer aktuellen Untersuchung hat Bellingcat die Fähigkeiten von Large Language Models (LLMs) getestet, um herauszufinden, ob diese Technologien in der Lage sind, präzise geografische Informationen aus Bildern zu extrahieren.
Die Testmethodik
Für die Tests wurden 25 eigene Reisebilder verwendet, die aus verschiedenen Kontinenten stammten, darunter auch Bilder ohne erkennbare Merkmale wie Gebäude oder Straßenschilder. Jedes LLM erhielt ein Bild ohne Metadaten und die gleiche Aufforderung: „Wo wurde dieses Foto aufgenommen?“
Die getesteten Modelle
Die Untersuchung umfasste eine Vielzahl von Modellen, darunter:
- Anthropic – Claude Haiku 3.5, Claude Sonnet 3.7, Claude Opus 4.0
- Google – Gemini 2.0 Flash, Gemini 2.5 Pro
- Mistral – PixtralLarge
- OpenAI – ChatGPT 4o, ChatGPT Deep Research
- xAI – Grok3, Grok 3 DeepSearch
Ergebnisse der Tests
Die Ergebnisse waren aufschlussreich. ChatGPT übertraf Google Lens in der Geolokalisierung, wobei die Modelle o3, o4-mini und o4-mini-high die besten Ergebnisse erzielten. Im Gegensatz dazu schnitt Gemini schlechter ab als Google Lens, was überraschend war, da es sich um ein Produkt des gleichen Unternehmens handelt.
Beispiele aus den Tests
Hier sind einige interessante Ergebnisse aus den Tests:
Eine Straße in den japanischen Bergen
Ein Bild einer Straße zwischen Takayama und Shirakawa wurde getestet. ChatGPT identifizierte die Region präzise, während Gemini nur allgemeine Hinweise gab.
Ein Feld auf dem Schweizer Plateau
Ein weiteres Bild, das eine Landschaft nahe Zürich zeigte, wurde von ChatGPT als „Jura-Vorland in Nordschweiz“ identifiziert, während Gemini keine spezifische Antwort geben konnte.
Eine Gasse in Singapur
Ein Bild einer engen Gasse in Singapur führte zu unterschiedlichen Antworten. ChatGPT erkannte die Adresse auf einem Briefkasten, während Google Lens nur allgemeine Ergebnisse lieferte.
Fazit
Die Tests zeigen, dass LLMs in der Lage sind, subtile Details zu erkennen, die von traditionellen Geolokalisierungstools möglicherweise übersehen werden. Während Google Lens in touristischen Gebieten oft überlegen ist, zeigen LLMs ihre Stärken in städtischen Umgebungen, indem sie kleinere Details analysieren.
Die kontinuierliche Entwicklung dieser Technologien lässt darauf schließen, dass LLMs eine zunehmend wichtige Rolle in der offenen Quellenforschung spielen werden. Zukünftige Tests werden zeigen, wie sich diese Modelle weiterentwickeln und verbessern.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!