Login
Newsletter
Werbung

Thema: Offline-Format für Wikipedia

1 Kommentar(e) || Alle anzeigen ||  RSS
Kommentare von Lesern spiegeln nicht unbedingt die Meinung der Redaktion wider.
0
Von irgendwer am Mi, 28. Oktober 2009 um 08:02 #
Kein Wunder, dass du das anders siehst, wenn du alles durcheinander bringst.

>> Binärformate haben auch ihre Vorteile, gerade was Ressourcenauslastung angeht, ist das parsen von Textformaten wie XML aufwändiger.

> Super, wenn man die Texte (!!!) des Wikis als Binärformat speichert und dann wieder umwandelt ist das _sicher_ optimal *LOL* Die Bilder sind eh binär und brauchen nicht mehr "fomattiert" zu werden.

Bei einem Binärformat geht es um die Verwaltungsinformationen, die binär gehalten werden. Ein XML-Tag ist mehrere Zeichen breit, erfordert neben dem öffnenden ein schließendes Tag und um von einem Elternknoten auf einen Kindknoten zu kommen oder gar umgekehrt muss man den kompletten Inhalt des XML lesen. Wenn man in einem xhtml-Dokument weiß, dass man ein bestimmtes innerhalb des Dokumentes, z.B. mit id=234, lesen möchte, wie macht man das? Man ließt und parst die komplette xhtml-Datei.
Wenn man einen Binäroffsetindex, wie ihn der Dumpreader anlegt, nutzt, ist das, wie schon jemand anderes gesagt hat, eine Vergewaltigung des XML-Formates und - wie der Name schon sagt - holt man sich so die Vorteile des Binärformats ins Boot. Dann hat man im Index stehen, dieses steht an Byteposition 456 und man kann es sich sparen, den Rest des Dokumentes davor oder dahinter zu lesen.

Des weiteren ist es deutlich einfacher, dieses Binärformat zu parsen. Was macht man beim Lesen des XML-Dokumentes? Man ließt Tag für Tag, jedes einzelne Tag muss dabei als solches erkannt werden. Diese Textanalyse kostet nicht nur CPU-Zeit.

XML schön und gut, es hat viele Vorteile. Diese liegen allerdings in der Handhabung für den Programmierer (oder den Nutzer, der sich die Daten direkt angucken möchte), weniger in der für den Computer.

> Unsinn: Man nehme einen (einzigen) Zip-Entry...

Und woher weißt du, welchen Zip-Entry du brauchst? Überleg dir mal, wie ein Index von 700000 Zip-Entrys in XML aussehen würde und wie dies in für den Rechner optimierter Form aussehen könnte.

In der IT-Geschichte hat sich sicher oft das Schlechtere durchgesetzt. Und das war eben schon öfter XML. :-P

(Beispiel Konfigurationsdateien: Wenn eine Konfigurationsdatei quasi nur aus Wertzuweisungen besteht, dann ist es auch für den Menschen einfacher, diese einfach so hinzuschreiben (für die Maschine sowieso), anstatt sie in komplizierteren XML-Strukturen zu verstecken. Der Grund, weshalb XML genommen wird, ist oftmals simpel der, dass es für den Programmierer einfacher ist, da er grade zufällig einen fertigen XML-Parser kennt, der einem die Arbeit samt Konsistenzprüfung 100% abnimmt. Dabei gibt es fertige Parser für alle möglichen Arten an Konfigurationsformaten...)

[
| Versenden | Drucken ]
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung