<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>I, Blog &#187; Uni-Leben</title>
	<atom:link href="http://www.marcel-noe.de/blog/category/unileben/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.marcel-noe.de/blog</link>
	<description>Weblog von Marcel Noe</description>
	<lastBuildDate>Tue, 03 Jan 2012 12:29:11 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>On the road again</title>
		<link>http://www.marcel-noe.de/blog/2007/11/15/on-the-road-again/</link>
		<comments>http://www.marcel-noe.de/blog/2007/11/15/on-the-road-again/#comments</comments>
		<pubDate>Thu, 15 Nov 2007 09:56:50 +0000</pubDate>
		<dc:creator>Marcel Noe</dc:creator>
				<category><![CDATA[Arbeit]]></category>
		<category><![CDATA[Privates]]></category>
		<category><![CDATA[Selbstmanagement]]></category>
		<category><![CDATA[Studium]]></category>
		<category><![CDATA[Uni-Leben]]></category>

		<guid isPermaLink="false">http://www.marcel-noe.de/blog/2007/11/15/on-the-road-again/</guid>
		<description><![CDATA[Lieber Leserin, lieber Leser, zunächst einmal möchte ich mich entschuldigen, dass ich so lange schon nichts mehr geschrieben habe. Viel ist passiert in der letzten Zeit, genüg was es eigentlich wert wäre, seperat gebloggt zu werden &#8211; ob ich dazu die Muße habe weiss ich allerdings noch nicht. Das interessanteste wahr wohl mein zweiwöchiger Tripp [...]]]></description>
			<content:encoded><![CDATA[<p>Lieber Leserin, lieber Leser,</p>
<p>zunächst einmal möchte ich mich  entschuldigen, dass ich so lange schon nichts mehr geschrieben habe. Viel ist passiert in der letzten Zeit, genüg was es eigentlich wert wäre, seperat gebloggt zu werden &#8211; ob ich dazu die Muße habe weiss ich allerdings noch nicht.</p>
<p>Das interessanteste wahr wohl mein zweiwöchiger Tripp nach Colorado. Für mich war das ja der erste Aufenthalt in den USA und ich muss sagen, es hat mich sehr beeindruckt. Ich muss ja zugeben, dass ich anfangs sehr skeptisch und unsicher war, weil ich nicht wusste was mich erwartet. Und auch zugeben muss ich, dass ich, was dieses Land angeht, sehr viele Vorurteile hatte. Für mich war es auf jeden Fall eine sehr wichtige Erfahrung, und eine Menge neuer Eindrücke, die erst einmal verarbeitet werden mussten.</p>
<p>Der eigentliche Anlass für die Reise war ja eher beruflicher Natur, Artus hatte mich zum diesjährigen PASS Community Summit eingeladen, der größten Veranstaltung rund um das Thema Microsoft SQLServer. Die Veranstaltung war sehr stark auf das Thema Business Intelligence konzentriert, was ja auch gerade mein Studienschwerpunkt ist. So konnte man durchaus das ein oder andere interessante mitnehmen. Das Beste an der durchaus sehr guten Veranstaltung waren allerdings die vielen interessanten Leute, die wir kennengelernt haben.</p>
<p>Nach den USA gab es noch zwei Wochen privaten Urlaub mit Freunden in Mallorca, der auch sehr schön und vor allem sehr erholsam war. Für mich war das der erste richtige Urlaub seit über drei Jahren, und vor allem die Gelegenheit, mal wieder auf den Boden zurück zu kommen.  Gerade das letze Jahr war viel anstrengender als ich dachte, und wie gestresst ich wirklich war, merkte ich eigentlich erst, als ich mal eine Zeit ganz ohne Stress geniessen konnte.</p>
<p>Frisch erholt zurück hatte ich nun endlich die Energie, mich mal um ein paar Dinge zu kümmern, die ich schon eine ganze Weile vor hatte, für die sich allerdings nie die Zeit gefunden hat. So habe ich einige Bastelprojekte wieder aufgenommen &#8211; unter anderem habe ich eins von fd0s Etherrapes zusammenbebaut und endlich mit dem lang geplanten Laser Beamer angefangen, den ich schon seit 5 Jahren bauen wollte. Ausserdem habe ich beschlossen, dieses Jahr etwas mehr an der Uni zu tun (geplant sind 1 Vertiefungsfach, 3 Wahlpflichtfächer, 1 Seminar und 1 Studienarbeit &#8211; mal sehen, wieviel davon am Schluss noch übrig ist. <img src='http://www.marcel-noe.de/blog/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> , wieder einen Tanzkurs angefangen und schon viel für meine Kunden gearbeitet.</p>
<p>Ich glaub, ich sollte öfter Urlaub machen, das tut nämlich gut. <img src='http://www.marcel-noe.de/blog/wp-includes/images/smilies/icon_razz.gif' alt=':-P' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcel-noe.de/blog/2007/11/15/on-the-road-again/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Computing with 1000s of computers can be fun</title>
		<link>http://www.marcel-noe.de/blog/2007/07/05/computing-with-1000s-of-computers-can-be-fun/</link>
		<comments>http://www.marcel-noe.de/blog/2007/07/05/computing-with-1000s-of-computers-can-be-fun/#comments</comments>
		<pubDate>Thu, 05 Jul 2007 01:02:06 +0000</pubDate>
		<dc:creator>Marcel Noe</dc:creator>
				<category><![CDATA[Arbeit]]></category>
		<category><![CDATA[Studium]]></category>
		<category><![CDATA[Technisches]]></category>
		<category><![CDATA[Uni-Leben]]></category>

		<guid isPermaLink="false">http://www.marcel-noe.de/blog/2007/07/05/computing-with-1000s-of-computers-can-be-fun/</guid>
		<description><![CDATA[Durch einen freundlichen Hinweis von Christoph erfuhr ich heute von einem Google Vortrag in der Uni, den ich auch spontan besuchte. Der Vortrag wurde von Thomas Hofman gehaltern, seineszeichens &#8220;Director of Engineering&#8221; bei Google in Zürich. Davor war er Professor an der ETH. Der Vortrag war sehr interessant, einige bemerkenswerte Dinge möchte ich hier in [...]]]></description>
			<content:encoded><![CDATA[<p>Durch einen freundlichen Hinweis von Christoph erfuhr ich heute von einem Google Vortrag in der Uni, den ich auch spontan besuchte. Der Vortrag wurde von Thomas Hofman gehaltern, seineszeichens &#8220;Director of Engineering&#8221; bei Google in Zürich. Davor war er Professor an der ETH.</p>
<p>Der Vortrag war sehr interessant, einige bemerkenswerte Dinge möchte ich hier in Auszügen wiedergeben.</p>
<p><span id="more-10"></span></p>
<p>Am Anfang motivierte  Herr Hofman den Vortrag mit der Aussage, dass Suchmaschinen immer wichtiger werden. Er zeigte eine Statistik, laut der die Nutzung von Suchmaschinen mit steigender Interneterfahrung zunimmt. Er meinte, dass das Ziel von Google sei, ein System für die Maße zu erzeugen, d.h. dass sie ihre Systeme möglichst intuitiv gestalten möchten.</p>
<p>Dannach zeigte er uns <a href="http://www.google.com/trends">Google Trends</a> &#8211; ein sehr schönes Tool: Man gibt einen Suchbegriff ein und bekommt einen Graphen, der einem anzeigt, in welcher Häufigkeit nach diesem Begriff gesucht wird. Ausserdem zeigte er ein Bild von einem Monitor im Google HQ, auf dem gerade die aktuellen Suchanfragen vorbeirauchsten (Lustigerweise suchte da wohl gerade einer nach rotten.c..).</p>
<p>Danach zeigte er uns dieses Bild:</p>
<p><a href="http://www.marcel-noe.de/blog/wp-content/uploads/2007/07/google-data-center-portland.jpg" title="Google Datacenter"><img src="http://www.marcel-noe.de/blog/wp-content/uploads/2007/07/google-data-center-portland.jpg" alt="Google Datacenter" /></a></p>
<p>und meinte: &#8220;Das is, was die New York Times meint, wie unser Rechenzentrum aussehen könnte. Offiziell würden wir das natürlich nie bestätigen&#8221;. Dann meinte er, dass sie so ein Rechenzentrum mittlerweile in wenigen Wochen bauen können.</p>
<p>Er erzählte, dass Google mittlerweile weit über 100 000 Server besitzt, und somit der größte Cluster der Welt darstellen dürfte. Das sei auch dringen notwendig, weil jeder Google Dienst durch Wachstum in die drei Dimensionen &#8220;More Data, More Queries, Better Results&#8221; ständig immer mehr Bedarf an Rechenleistung hat.</p>
<p>Aber nicht nur der Bedarf an Rechenleistung sondern auch der Bedarf an Speicherplatz steige kontinuierlich. Dazu muss man wissen, dass Google eine Kopie *aller* Dateien im Index auf Festplatte vorliegen hat. Dies erfordert natürlich ein spezielles Speicherkonzept. Google hat dafür das GFS, das Google Filesystem erschaffen. Hierbei handelt es sich um eine Art Raid über mehrere Server. Daten werden in 64 MB Chunks auf- und auf sogenannte Chunkserver verteilt. Eine Reihe zentraler GFS-Masterserver wissen jederzeit, welche Datei auf welchem Server liegt und ermöglichen den Clients so den Zugriff. Durch mehrfaches Vorhalten der Chunks auf mehreren Servern wird zum einen Redundanz bei Ausfall eins Chunkservers und zum anderen eine höhere IO Performance erreicht &#8211; oft benötigte Dateien werden auf mehr Rechnern vorgehalten, wie weniger benötigte. Insgesamt hat Google über 50 dieser GFS Cluster mit jeweils über 1000 Nodes, 1 PB an Daten und 10 GB/sec(!) IO Durchsatz.</p>
<p>Ein weitere interessanter Punkt war das sogenannte Map Reduce. Hierbei handelt es sich um ein Verfahren, um Batch-Operationen wie z.B. das Berechnen von Reverse-Anchor-Maps (Also eine Liste mit allen Seiten, die auf eine andere Seite verlinkt) sehr effektiv durchzuführen. Im wesentlichen sucht man sich zuerst die Daten zusammen (Map Phase), die man für eine Operation benötigt, sortiert diese und führt dann die eigentliche Operation aus (Reduce Phase).<br />
Auf jeden Fall hat man bei Google nun ein spezielles Map-Reduce Framework geschrieben,  welches sich mit C++, Java ode r Python ansteuern lässt. In diesem Framework muss man nur eine Klasse für den Reducer und eine für den Mapper implementieren. Über alle anderen Aspekte des Clusterings muss man sich keine Gedanken machen, das geht von alleine. Somit ist es für die Google Mitarbeiter sehr einfach möglich, neue Algorithmen und Verteilte Operationen zu testen, was wohl zu einem sehr effektiven Entwicklungsprozess führt.</p>
<p>Der Abschnitt über Crawling lieferte im wesentliche nicht viel neues, interessant fand ich jedoch, dass mehr als 50% aller Sites Duplikate sind, die man vor dem Crawlen erkennen und aus dem Index entfernen muss. Ausserdem gibt es wohl eine Priority Queue, d.h. Seiten mit hohem Page Rank werden öfter gecrawlt als Seiten mit einem niedrigeren.</p>
<p>Weitestgehends bestätigt haben sich unsere Annahmen bzgl. Google Sitemaps. Herr Hofmann meinte, dass dies zu einem deutlich besseren Crawling der Seite führt, da keine Discovery Crawls mehr notwendig sind.</p>
<p>Dann kam er auf das eigentliche Suchsystem zu sprechen. Er meinte, im wesentlichen gäbe es hier zwei Probleme, nämlich Perfomance und Relevanz. Zum Thema Performance meinte er, dass Google bemüht sei, alle Anfragen in weniger als 200ms zu beantworten, und das alles was länger als 1 Sekunde dauert von Usern als langsam empfunden wird.</p>
<p>Das Relevanzproblem sei eine ähnlich große Herausforderung. Oft würden User nur sehr unklare Anfragen an Google stellen und trotzdem ein passendes Ergebnis erwarten. Dazu nannte er uns ein paar Zahlen: Eine Durchschnittliche Suchanfrage hat 2,35 Wörter, 85% der User schauen sich nur die erste Seite an und 79% der  User modifizieren Ihren Query nie.</p>
<p>Wie wohl jedem bekannt ist, benutzt Google den sogenannten Page Rank, um die Wichtigkeit einer  Seite zu beurteilen. Dazu werden mehr als 100 Faktoren in Betracht gezogen, wie z.B. Link Text, Font Size und Nähe der Suchworte im Text.</p>
<p>Interessant fand ich hier, dass Google auch den Text eingehender Links sowohl mit dem Text abgehender Links als auch mit dem Content der Seite vergleicht. Bei dem Algorithmus im sich handelt es sich um wesentlichen um eine Markov Kette, die Details sind allerdings wohl eins der am besten gehüteten Geheimnisse von Google. Herr Hofmann meinte dazu nur &#8220;Die Prinzipielle Funktionsweise wird zwar in der Literatur beschrieben, beachten Sie allerdings bitte, dass diese nun schon wieder 9 Jahre alt ist. Seitdem hat sich viel getan&#8221;.  Das berechnen des Page Ranks hat früher wohl über 2 Wochen gedauert, scheint heute aber deutlich schneller zu gehen.</p>
<p>Oben erwähnte ich bereits, dass User oft sehr unklare Anfragen stellen. Als weiteres Problem kommt noch dazu, dass diese Anfragen oft auch noch Tippfehler enthalten. Herr Hofmann meinte dazu &#8220;People can&#8217;t spell&#8221;. Google bietet hier eine Auto Korrektur. Diese Auto Korrektur funktioniert allerdings grundlegend anders wie die Wörterbuch basierte Korrektur, die  z.B. von Textverarbeitungssoftware verwendet wird. Die Auto Korrektur von Google basiert auf einer Wahrscheinlichkeitsverteilung von Wörtern im Google Index. Jedem Wort, das Google gecrawlt hat, wird ein Wahrscheinlichkeitswert zugeordnet, und bei der Eingabe wird die Eingabe mit dieser Wahrscheinlichkeit verglichen. Die Google Korrektur funktioniert somit unabhängig von Sprache, Fachbegriffen und Eigennamen und ohne jeglichen Eingriff von Redakteuren.</p>
<p>Einen ähnlichen Ansatz wird momentan übrigens für das automatische Übersetzen von Texten erforscht. Hierzu analysiert Google alle Seiten im Index (Zitat: &#8220;Wir haben das ganze Web vorrätig&#8221;) und lernt damit einen automatischen Übersetzer an. Vermutlich arbeitet dieser genau wie der Korrektor über einen probabilistischen Ansatz. (Zitat: &#8220;Machine Learning is very difficult, but lots of data really helps&#8221;).  Auf jeden Fall scheinen sie damit schon sehr gute Ergebnisse zu erzielen (Er sagte irgendetwas von 53,5 BLEU% bei Übersetzungen von Arabisch nach Englisch), man kann also gespannt sein.</p>
<p>Ein weiterer Schwerpunkt liegt bei Google auf der Search Quality. Google setzt hier verschiedene Methoden ein, um diese zu verbessern. Zum einen betreiben Sie mehrere Usability Labs, bei denen User mit Eye-Trackern beim anschauen einer Seite beobachtet werden, zum anderen haben sie einen ganzen Staff von Leuten, die nichts anderes tun, als Suchergebnisse zu bewerten, um neue Suchalgorithmen zu testen.</p>
<p>Herr Hofmann redete dannach noch kurz über Länderspezifische Suche (z.B. möchte ein Franzose, der nach Corte d&#8217;ore  sucht  wahrscheinlich das gleichnamige Départmente, ein Deutscher wohl einer die Schokoladensorte finden) sowie über einige Gadgets wie z.B. <a href="http://www.google.com/views?q=thomas+jefferson%20view%3Atimeline">Google Timeline</a> oder Google Question Answering.</p>
<p>Zu Schluß hat Herr Hofmann uns dann aber doch &#8220;The Real Secret of Google&#8221; verraten: Die Mitarbeiter sind einfach super motiviert, die Arbeitsatmosphäre ist gut und in der Firma herrscht eine starke bottom-up Kultur. Er meinte, jeder habe die Möglichkeit, seine Ideen einzubringen und umzusetzen. Es gibt sehr viele Freizeitmöglichkeiten wie z.B. Billiardtisch und Kicker, die man während der Arbeitszeit nutzen kann und überall hängen White-Boards, an denen man spontane Einfälle skizzieren kann. Er meinte &#8220;Wir sind alle besessen, von dem, was wir tun.&#8221; Darüber hinaus sei jeder Mitarbeiter angehalten, nach spätestens 2 Jahren die Abteilung zu wechseln, damit keine Langeweile entsteht.</p>
<p>Dannach war Fragerunde. Nach den üblichen Fragen (&#8220;Wie verdient Google Geld?&#8221; Antwort: &#8220;Werbung&#8221;) hab ich ihn dann gefragt, was mir schon die ganze Zeit auf der Seele brannte: Was hat es mit dem Google Trusted Index auf sich? Herr Hofmann meinte, das wird überbewertet. Für Themen wie Websuche würde das kaum eine Rolle spielen. Trusted Sites wären z.B. wichtig, wenn man ein Bild für die Suchergebnisse einblenden will, um zu vermeiden, dass man da ausversehen auf der Suchseite ein Pornobild anzeigt.</p>
<p>Eine weitere Interessante Frage war die, nach den 20% Projekten (Jeder Google Mitarbeiter kann über 20% seiner Zeit frei verfügen). Daraus sei z.B. Google News und ein Shuttle Service entstannden (Google Transit). Er selbst würde in seiner 20% Zeit Vorlesungen an der ETH Zürich halten.</p>
<p>Lachen mussten wir alle, als jemand fragte, wie Google denn verhindere, dass jemand seiner Oma erzählen, wie der Google Suchalgorithmus funktioniere. Daraufhin meinte Herr Hofmanns, das wäre nicht so schlimm, denn Omas wären im allgemeinen recht Rauschbehaftete Kanäle. <img src='http://www.marcel-noe.de/blog/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> </p>
<p>Nach dem Vortrag gab es noch ein leckeres Büffet und wir diskutierten noch fast 2 Stunden mit Herrn Hofmann über Google, Gott und die Welt.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcel-noe.de/blog/2007/07/05/computing-with-1000s-of-computers-can-be-fun/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Nachwehen Unifest</title>
		<link>http://www.marcel-noe.de/blog/2007/07/01/nachwehen-unifest/</link>
		<comments>http://www.marcel-noe.de/blog/2007/07/01/nachwehen-unifest/#comments</comments>
		<pubDate>Sun, 01 Jul 2007 18:29:46 +0000</pubDate>
		<dc:creator>Marcel Noe</dc:creator>
				<category><![CDATA[Uni-Leben]]></category>

		<guid isPermaLink="false">http://www.marcel-noe.de/blog/2007/07/01/nachwehen-unifest/</guid>
		<description><![CDATA[Der heutige Tag war doch reichlich verpeilt. Um 15 Uhr hab ich es dann endlich aus dem Bett geschafft. Die Tatsache wikt weniger dramatisch, wenn man bedenkt, dass wir Securities bis um 5 Uhr morgens Schicht hatten. Letztendlich war ich dann gegen halb Sieben im Bett. Der größte Teil des Festes verlief recht ruhig. Moritz [...]]]></description>
			<content:encoded><![CDATA[<p>Der heutige Tag war doch reichlich verpeilt. Um 15 Uhr hab ich es dann endlich aus dem Bett geschafft. Die Tatsache wikt weniger dramatisch, wenn man bedenkt, dass wir Securities bis um 5 Uhr morgens Schicht hatten. Letztendlich war ich dann gegen halb Sieben im Bett.</p>
<p>Der größte Teil des Festes verlief recht ruhig. Moritz und ich waren die meiste Zeit entweder zum Bewachen irgendwelcher Notausgänge oder als mobile Einheit im Innenbereich im Einsatz. Das spektakulärste war eine Schnapsleiche, die wir aufwecken und vom Gelände begleiten mussten. Ansonsten wurden wir von ein paar Leuten angesprochen, die entweder wissen wollten, wo der Drum &amp; Base bereich ist, oder ob man in der Disco rauchen darf. Unsere &#8220;Security&#8221; T-Shirts wurden von ein paar Leuten kommentiert und zwei Personen wollten sogar ihre T-Shirts mit uns tauschen, eine davon weiblich. <img src='http://www.marcel-noe.de/blog/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> </p>
<p>Nachdem wir um 5 Uhr alle Leute vertrieben hatten, und uns dem auch für uns gemütlicheren Teil des Tages widmen wollte, wurde es nochmal aufregend. Eine Person kam auf uns zu und fragte uns, ob wir vielleicht ein paar Tempos hätten, um seinen Freund zu verarzten. Tempos hatten wir zwar keine, dafür aber einen ganzen Trupp Sanitäter, die sich dem verletzen angenommen hatten. Besser gesagt, den beiden verletzten. Dem einen mit der dicken Lippe, der fröhlich vor sich hinblutete, und dem anderen, mit der dazu passenden, aufgeplatzen Hand &#8211; zumindest die Frage, wer wen geschlagen hat, war somit recht schnell geklärt.</p>
<p>Jedenfalls bestand der Geschlagene darauf, Anzeige bei der Polizei zu erstatten &#8211; also riefen wir die Polizei, die auch prompt kam. Nun kommt das eigentlich interessante an der ganzen Geschten: Die 2 Polizisten hatten ein Kamerateam der ARD mitgebracht(sic!) die auch sofort mit Filmen anfingen. Dies gefiel dem Schlagenden und seinem Kumpel, der daneben stand dann doch etwas weniger und es wurde nochmal etwas lauter. <img src='http://www.marcel-noe.de/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' />  Nachdem die Polizei die Aussage aufgenommen hatte, und wir den wild-um-sich-fuchtelnden Kumpel des schlagenden von der Kamera weggezogen hatten, kehrte wieder Ruhe ein und auch wir kamen zu unserem wohl verdienten Feierabendbier.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcel-noe.de/blog/2007/07/01/nachwehen-unifest/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

