29 April 2009

Wolfram alpha

...Stephen Wolfram hat bei mir ja ein Stein im Brett - und das nicht nur, weil ich mit Mathematica schon im letzten Jahrtausend meine Ergebnisse z.B. der ein oder anderen Kurvendiskussion überprüfen konnte. Nicht selten lag ich mit meiner Stift+Papier-Methode falsch und dank der lustigen Formeln, die Mathematica ausspuckte, wusste ich dann sogar, wo mein Fehler lag.
Schon einige Zeit davor begegnete mir der Name Wolfram (wenn ich mich richtig erinnere) in einem Buch über AI, dort natürlich im Zusammenhang mit Zellularautomaten. Automaten sind auch das, womit sich Wolfram seit Jahrzehnten beschäftigt.
Seine Ankündigung, daß er sich nun mit einer Suchmaschine Wolfram alpha auf das Feld des Information Retreival begibt und seine Suchmaschine sowohl natürlichsprachliche Anfragen verarbeiten können als auch 'vernünftige' Resultate (semantische Suche) liefern soll, läßt wohl auch den ein oder anderen Computerlinguisten aufhorchen. Wolfram selbst nennt als Grundlage für seine Suchmaschine immer wieder sein Buch NKS, in dem es aber eigentlich nur um Automaten geht und nicht um Sprache oder Semantik.
Rechnen mit Automaten, wunderbar, aber wie wird seine Suchmaschine mit Sprache umgehen und 'semantisch' indexieren? Ansätze, wie das Textchaos im Netz zu bändigen ist gibt es inzwischen ebenso wie entsprechende (aber selten benutzte) Suchmaschinen. Ob alpha besser mit den Anfragen umgehen können wird, ob es bessere Ergebnisse liefert, bleibt beides abzuwarten.
Inzwischen hat Wolfram sein Programm öffentlich vorgestellt, als Suchmaschine im Netz wird alpha im Mai erscheinen. Im Netz wurde das Ding schon als Googlekiller gehyped und, wie es, wenn es um Rechner und ihren Umgang mit natürlicher Sprache eigentlich immer ist, sind die Erwartungen sehr hoch. Ich schätze mal, daß von diesen Erwartungen viele enttäuscht werden, da alpha natürlich eines nicht können wird: Den Benutzer verstehen. (Nur nebenbei: Wolfram schickt übrigens auch Menschen los, die das vorgefundene Textchaos zuerst aufarbeiten(!), um es für die Maschine zugänglich zu machen - baut Wolfram an seinem eigenen semantic web?).
Viele Erwartungen sind also ebenso überzogen und falsch wie die ein oder andere vollmundige Ankündigung. Daß sich hinter dieser semantischen Suchmaschine aber die geballte numerische Rechenleistung von Wolfram und seinen Automaten (und die Manpower seiner(?) Experten, die die Informationen aufarbeiten) versammelt, läßt trotzdem auf ein nützliches Tool hoffen.

Labels: , ,

26 April 2009

Ursula von der Leyen im Interview bei radioeins*

Am Freitag (24.4.2009) gab Ministerin von der Leyen dem Radiosender radioeins des rbb für die Sendung "Kopf der Woche" ein Interview zu Ihrem Gesetzesentwurf zur Sperrung von Kinderpornographie-Seiten im Internet. Besonders Interessant ist hierbei ihre Antwort auf den berechtigten Einwand ihrer Kritiker, daß diese "Sperrung auf der Ebene der voll qualifizierten Domainnamen" (DNS) sehr leicht zu umgehen sei:

Frage von radioeins:
Viele Kritiker halten Ihnen jetzt entgegen, daß jeder, der sich halbwegs mit 'nem Computer auskennt, diese Sperre ganz leicht umgehen kann.
Die Antwort der Ministerin:
Naja, wir wissen, daß bei den vielen Kunden, die es gibt, rund 80% die ganz normalen User des Internet sind. Und jeder der jetzt zuhört kann eigentlich sich selber fragen 'wen kenn ich, wer Sperren im Internet aktiv umgehen kann' - die müssen schon deutlich versierter sein. Das sind die 20%, die sind zum Teil Schwerpädokriminelle, die bewegen sich in ganz anderen Foren, die sind versierte Internetnutzer, natürlich auch geschult im Laufe der Jahre in diesem widerwärtigen Geschäft. [...]
Nun gibt es m.E. zwei Möglichkeiten (I und II), die Antwort der Ministerin zu interpretieren. Machen wir uns aber zuerst klar, daß in der Frage der Interviewerin davon gesprochen wird, daß es Kritiker gibt, die bemängeln, daß jeder versierte Computerbenutzer die angestrebten Sperren leicht umgehen könnte.

I. In ihrer Antwort spricht Frau von der Leyen daraufhin von "Kunden". Nun kann man diese "Kunden" als jene Computer- bzw. Internetnutzer (miß-?)verstehen, von denen in der Frage die Rede war - also als Kunden jener Internetprovider, die die Sperrung vornehmen sollen. Für den Rest ihrer Antwort bedeutet diese Interpretation, daß von der Leyen die Internetnutzer in zwei Lager teilt: Zum einen die 80% "normale" Nutzer, die nicht in der Lage sind, die Sperre zu umgehen und höchstens unabsichtlich auf eine gesperrte Seite treffen. Zum anderen die versierten Nutzer, die den Filter umgehen können und unter denen von der Leyen einen Anteil Schwerpädokrimineller ausmacht.
Unterscheidet von der Leyen hier eigentlich zwischen "normalen" Internetbenutzern im Sinne von Menschen, die das Internet nicht dazu nutzen, um irgendwelchen 'pädophilen Neigungen' (ich würde eher 'Verbrechen' sagen) nachzugehen und solchen, die dies tun? Sind also 20% der Internetnutzer pädophil? Nein, sie trifft ihre Unterscheidung auf der Grundlage, ob jemand "versiert" ist, oder nicht - im Sinne von: Ist jemand in der Lage, einen DNS-Filter zu umgehen, oder nicht. Sehr befremdlich wirkt in diesem Zusammenhang die Aufforderung an die Zuhörer, sich zu fragen, wer im Bekanntenkreis wohl versiert genug wäre, diesen Filter zu umgehen. Warum eigentlich? Ist die Nutzung eines DNS-Servers, der nicht von den betroffenen Internetanbietern betrieben wird, ein Verbrechen? Macht man sich verdächtig, wenn man beispielsweise als Student oder Angestellter einer Universität deren DNS-Server benutzt?
Es zeigt sich, daß diese Interpretation des von von der Leyen verwendeten Begriffs "Kunden" in eine Sackgasse führt. Der Internetnutzer per se ist hier also eher nicht gemeint.

II. Schauen wir uns also die zweite Möglichkeit an: Die Ministerin antwortet auf die Frage nach den Kritikern des Gesetzesentwurfs und auf den Hinweis, daß jeder Nutzer diese Sperren leicht umgehen kann, indem sie nur von den Nutzern mit pädophilen Absichten spricht. Die "Kunden" wären hier also die Nutzer kinderpornographischer Angebote, von denen 80% "normale" Internetnutzer seien, 20% hingegen "versiert" und möglicherweise sogar 'schwerpädokriminell'.
Hier stellt sich die Frage, was an einem Nutzer kinderpornographischer Inhalte "normal" sein soll. Möglicherweise "normal" im Sinne von 'nicht in der Lage, die geforderten Filter zu umgehen'. Von diesen Nutzern unterscheidet sie solche, die "versiert" genug sind, dies zu tun und verlangt von den Zuhörern, auf solche Menschen besonders zu achten ("[...] sich selber fragen 'wen kenn ich, wer Sperren im Internet aktiv umgehen kann'"). Sie fordert keinesfalls dazu auf, generell wachsam zu sein, ob der Zuhörer vielleicht Pädophile im Bekanntenkreis hat, nein, sie bricht diese Frage auf die Tatsache herunter, ob jemand in der Lage ist, den Filter zu umgehen - so, als wäre dies ein Indiz dafür, daß man es möglicherweise mit einem Kriminellen zu tun hat. So stellt sie die "versierten Internetnutzer" wiederum in die Verdachtsecke, Nutzer von Kinderpornographie oder sogar "schwerpädokriminell" zu sein.

Fazit: Egal, wie man die Antwort von der Leyens verstehen möchte, man kann ihr bestenfalls attestieren, sich hier sehr ungeschickt ausgedrückt zu haben, da sie so oder so einen direkten Bezug zwischen Pädophilen und Internetnutzern mit einem speziellen Fachwissen (DNS) herstellt. (Und wir sprechen hier nicht etwa von dem Wissen, wie und wo man sich in krimineller Absicht kinderpornographisches Material besorgt oder dieses verbreitet!)

Man kann die Antwort der Ministerin jedoch auch als Beispiel für ihren Umgang mit den Kritikern ihres Gesetzesentwurfs sehen, denn: Wer sind denn ihre Kritiker? Ihre Kritiker sind hauptsächlich eben jene "versierten Internetnutzer", die wissen, wie man den von ihr geforderten "Filter" umgehen kann. Dieses Wissen begründet schließlich einen Teil der Kritik.
Somit könnte man also behaupten, daß sie mit ihrer Antwort, in der sie allein schon das Wissen um ein Umgehen des Filters zu einem Verdachtsmoment macht, ihre Kritiker in eine Reihe mit widerwärtigen Kriminellen stellt.
Von einem sachlichen Umgang mit der an sie herangetragenen Kritik und von einem fairen Umgang mit den Kritikern kann dann keine Rede mehr sein.

Links:
*Versuch einer kurzen sprachkritischen Auseinandersetzung mit Teilen des dort Gesagten

24 April 2009

OCR Feeder

...die wirklich simple Klickibunti-OS-Lösung für OCR fehlt ja leider immer noch. Heute bin ich aber über das Projekt OCR Feeder von Joaquim Rocha gestolpert, der in Python (als master-thesis) eine recht brauchbare GUI zusammengestöpselt hat. Die sehr beachtliche page segmentation steckt in dem Programm selbst drin (wenn ich den python-code richtig interpretiert habe), das OCR leistet eine externe Engine, also wahlweise ocrad, gocr oder - wär ja nicht ganz unnett - tesseract. OCRFeeder nimmt dann einfach deren output und kann dann daraus ein ODT erzeugen.
Man braucht also nur eine Engine, die ein Bild frisst und den erkannten Text dann nach stdout schreibt. Leider nimmt (das cli von) tesseract aber afaik nur TIFFs und besteht auch noch beharrlich darauf, sein Ergebnis in eine Textdatei zu schreiben.
Damit OCRFeeder trotzdem mit tesseract als Engine funktioniert, hab ich auf Basis des Scripts ocube* mal einen kleinen Wrapper geschrieben, der nichts anderes macht als das Ursprungsbild mit imagemagick nach TIFF zu konvertieren, tesseract auf diesem Bild arbeiten zu lassen und dann die erzeugte Ausgabe nach stdout zu schreiben.
Wie man auf dem Bild sieht, klappt mit diesem Wrapper dann auch tessearact als Engine für OCRFeeder. Wie man aber leider auch sieht, erwartet OCRFeeder wohl normalen ascii-text, tesseract gibt aber natürlich utf-8 aus.
Ob an OCRFeeder noch weitergeschraubt wird (von wem auch immer) und dann die ein oder andere Verbesserung ansteht, bleibt abzuwarten.

(* dürfte bald weg sein der Link, wenn geocities abgeklemmt wird)

Labels: , ,

08 April 2009

Trick 17: Linie 14

Wie man im letzten Artikel vielleicht schon bemerkt hat, fahr ich mit dem Fahrrad lieber bergab. Oder anders: Ich sitze hier zwischen Stapeln geliehener Bücher, weshalb es durchaus vorkommt, daß ich mal einen Rückgabetermin verschlampe bzw. erst am letzten Tag der Leihfrist merke, daß ich ein Buch zurückgeben muß. Da es aus finanzieller Sicht ratsam ist, sowas (insbesondere über Feiertage) nicht zu verschleppen, muß ich dann schon mal recht kurzfristig und ungeplant in die Bibliothek.
Zurück zum Bergabfahren: Ein stetiger Quell des Ärgers ist die Tatsache, daß irgendwer irgendwann entschieden hat, die Uni nicht in die Moselauen bei Euren, sondern auf ein Höhenplateau zu bauen. Der Weg zur Uni taugt also fahrradverkehrstechnisch nur mäßig - und das ist noch sehr euphemistisch umschrieben. Es war deswegen sogar schon einmal im Gespräch, auf der steilsten Strecke (durch Kürenz?) nach oben einen Fahrradlift zu bauen - aber weil das lustig und recht einmalig wär, kann man sich denken, daß so etwas nicht wirklich durchgesetzt wurde und auch niemals wird.
Zum Glück dürfen Studenten inzwischen neben den oft überfüllten und nur selten unnervigen Standardbuslinien (3, 13, 6, ...) nun auch mit der Linie 14 (Hbf, Gartenfeldstraße, Wissenschaftspark) hoch auf den 'Berg', ein Serviceangebot, das ich heute gerne genutzt habe. (Zusatztrick 17a: Steigt man schon 'Wasserturm' aus statt erst 'Campus II', bekommt man die schöne Abfahrt vom Wissenschaftspark umsonst dazu).
Schnell in die Bib, Bücher abgeben, und dann schnell wieder zurück in die Stadt.
Der Trick mit der Linie 14 hat jedoch leider einen Haken: Ich befürchte mal stark, daß diese zur Vorlesungszeit auch gut frequentiert sein wird. An eine Fahrradmitnahme ist dann sicherlich nicht zu denken.

Labels: , , ,

05 April 2009

Huiiiiiiii!

Gestern bin ich tief in den Wikimedia-Code getaucht, weil ich Wikimedia-Markup parsen wollte. Das Ergebnis war leider mehr als ärgerlich, diesen Ausflug hätte ich besser lassen sollen. Ich dachte noch "bevor ich an dem Markup selbst rumschneide" und "der Tokenizer aus eZ-Components ist auch noch nicht fertig, also..." - aber, naja. Irgendwann dämmerte es draußen und mir, daß das mit dem Parser wohl so nichts wird.
Da meine Lungen nach Sauerstoff und die müden Knochen nach Bewegung schrieen, wollte ich noch irgendwas unternehmen - und zwar möglichst unter freiem Himmel.
Glücklicherweise war gestern Astronomietag und somit die Trierer Sternwarten für Besucher geöffnet. Da ich schon immer mal wissen wollte, wo die Sternwarte ist und wie das Ding so aussieht, radelte ich also die inzwischen finstere Hunsrückstraße nach Irsch, beobachtete auf dem Weg schon die erste Sternschnuppe und an der Sternwarte angekommen netterweise durch die dort bereitgestellten Teleskope sogar ein paar Mondkrater. Ich hab zwar von Astronomie so viel Ahnung, wie ein Schluck Wasser vom Bergsteigen, aber durch ein Teleskop zu blicken gehört zu den Dingen, die man definitiv mal gemacht haben sollte (*abhak*).
Der Rückweg ging dann erstaunlich schnell. Erstaunlich deshalb, weil ich den Höhenunterschied auf dem Weg nach Irsch gar nicht so stark bemerkt hatte. Ich hab mal die auf dem Weg aufgezeichneten GPS-Daten zu einem Höhenprofil zusammengebastelt und dabei hoffentlich die Abstände der Meßpunkte einigermaßen richtig berechnet. Wie man sieht, ging es gut bergab und man konnte sich praktisch einfach in die Stadt fallen lassen. Huiiiiiiii! Wenn nur alles so schnell und einfach ging...

(Abbildung1: aufgezeichneter GPS-Track von Trier-Irsch (Sternwarte) in die Innenstadt (Domfreihof), Karte: OSM; Abbildung2: Höhenprofil der Strecke)

Labels: , , ,

03 April 2009

GPSgelogge

...gestern musste ich dann doch mal für ein Stündchen raus. Zu wenig Regen, um den ganzen Tag am Rechner zu sitzen. Und da hier zufällig momentan ein lustiges Mal-testen-Gimmick in Form einer Navilock-NL-302U-GPS-Maus rumlag und der blaue Himmel eine gute Sicht auf die Satelliten versprach - was lag da näher als bei einer kleinen Fahrradtour mal ein paar GPS-Daten mitzuloggen.
Da ich nicht nur einfach loggen (gpslogger oder so, Zugriff auf die Maus mit gpsd, eh klar), sondern möglichst auch ein bisschen ansehnliches Kartenmaterial mitführen wollte, verzweifelte ich zuerst daran, OSM mit Mapnik zu rendern, um das Resultat dann in GpsDrive zu nutzen. Es tat nicht so, wie es sollte. Runtergeladene Expedia- oder Google-Maps, alles kein Problem - stur wie ich bin wollte ich aber OSM. Deswegen fiel mir das großartige tangoGPS in die Hände, das meine Ansprüche mehr als abdeckte: OSM-Karten per Klick, Loggen in eine einfache CSV-Datei.
Los gings. Auf dem Bild sieht man den aufgezeichneten Track (grün) auf dem Fahrradweg (blau) rund um ein Hafenbecken. Ähnlichkeiten sind deutlich erkennbar, die Prüfung der OSM-Daten für die abgefahrene Strecke hak ich mal als bestanden ab.
Nimmt man nun die Daten aus dem GPS-Log und schreibt sie quick+dirty nach KML um, kann man sich das ganze dann auch mit GoogleEarth ansehen. Vielleicht schreib ich dafür mal ein kleines Script - da aber in bälde keine Exkursion droht, wofür ich das produktiv einsetzen könnte, nicht grad mehr heute.
(P.S.: dieser Text entstand stilistisch und formal auch mehr als quick+dirty. keinezeitkeinezeit)

Labels: , , , , ,