LMTTFY #1: Crime in Denver

With my background of spatial terrorism analysis I’m always very interested in the statistical analysis of crime data. Scott Stoltzman over at stoltzmaniac.com discovered a great data set by the City and County of Denver. It has data about all the criminal offenses in the City and County of Denver for the previous five calendar years plus the current year to date with plenty of attributes, timestamps and even geographic locations. Scott wrote a series of blog posts (starting here, then here, and here) showing some initial exploratory data analysis (ETA) in R and also some in-depth looks into a few topics that sparked his interest along the way. That’s exactly what Tableau wants to enable people to do, so with this first episode of “Let me tableau this for you” I want to show how easy it is to get to the same interesting insights Scott outlined in his write-up, only without all the coding. I’m not sure how long it took him to get from finding the data to generating all the plots in the article, but my guess would be it took longer than this ~20 minute screencast. Enjoy the video below, and please let us know in the comments section if you have anything to add. Please refer to the original post if you want to know more about the idea behind Let me tableau this for you (LMTTFY).

httpv://www.youtube.com/watch?v=OoF5Is-_XNQ

Visuelle Datenanalyse macht Sinn

Schon wieder ist mehr als ein Jahr vergangen, in dem dieses Blog mehr oder weniger komplett brach lag. Und in der Zwischenzeit ist so viel passiert!

Im Rahmen meines Jobs beim Institut für Verkehrsforschung am Deutschen Zentrum für Luft- und Raumfahrt (DLR) in Berlin habe ich nicht nur an der theoretischen und praktischen (Weiter-)Entwicklung von großmaßstäblichen Verkehrsnachfragemodellen gearbeitet, sondern habe daneben natürlich auch die daraus und auch aus anderen Projekten resultierenden Erkenntnisse (mit-)publiziert. Bei dieser Forschung habe ich hauptächlich mit R, Shiny, PostgreSQL/PostGIS, QGIS und vereinzelt ein paar Zeilen Python gearbeitet. Und ich liebe sie alle, wann immer ich mit ihnen arbeiten darf. Aber ich fand es zunehmend schwierig und anstrengend, Daten einfach, schnell, und trotzdem optisch ansprechend zu visualisieren. Natürlich lassen sich mit R und ggplot druckreife Plots erstellen, und Shiny und Leaflet erlauben die Generierung von interaktiven Grafiken und Karten. Aber manchmal ist es einfach nicht zielführend, sich mit den Feinheiten der jeweiligen Einstellungen und dem Schreiben des notwendigen Codes zu beschäftigen. Ich empfand es insbesondere in der höchst spannenden Phase der explorativen Datenanalyse (quasi dem ersten Date mit neuen Daten im Rahmen des Analyseprozesses…) als sehr störend, dass ich mich so viel mit Code und anderen technischen Aspekten beschäftigen musste, was mich von der eigentlichen Arbeit mit den Daten abgelenkt hat, nämlich dem Verstehen der Daten. Um nochmals die Dating-Analogie zu bemühen wäre das so, als würde man sich mehr damit beschäftigen, was man zum Essen bestellt oder worüber der nächste Small-Talk gehen soll, als sich mit dem (Gesprächs-)Partner zu beschäftigen und sich nur auf ihn/sie zu fokussieren. Wahrlich kein Erfolgsrezept… Continue reading →

Why Visual Data Analysis is Great

Wow, another year has passed and so much has happened in the meantime!

During my job at the Institute for Transport Research at the German Aerospace Center (DLR) in Berlin I not only worked on the theoretical underpinnings and actual development and implementation of micro-scale traffic models but was obviously also involved in publicizing the results of said models and also other research work. I did this mostly with R, Shiny, PostgreSQL/PostGIS, QGIS and the occasional line of Python code sprinkled in-between. They’re all great. I love them with all my heart and enjoy every second I’m working with one of them. But I found it increasingly hard to visualize data easily and quickly while still being pretty. Sure R and ggplot allow for camera-ready plots, Shiny and Leaflet make it increasingly easy to put together interactive plots and maps. But sometimes fiddling with their settings and writing the necessary code is just not practical to get to the point quickly. Also, during the fascinating stage of exploratory data analysis (kind of the first date with your new data in the data analysis process…) I felt focusing too much on the code and other technical aspects which distracted me from what I was originally doing: exploring my data to get a better understanding. Going back to the dating analogy it’s like over-thinking what to order and what small-talk topic to bring up next and thereby losing the interest of your possible future partner instead of being focused exclusively on him/her. Not a recipe for success… Continue reading →

The Power of Vectorization in R

I have always been a great fan and avid user of databases. They’re just so versatile, efficient, easy to use, … I found this to be true for all kinds of data, small and large, high-dimensional and low-dimensional, spatial, temporal, you name it. It was only very recently that my data seemed to have outgrown my PostgreSQL database. Not so much in size, but rather in performance.

Continue reading →