und schon wieder Datencrash...

mauel · 14 Juni 2013

Ronald9 schrieb:
DIESES Argument oben ist nicht dumm, aber für mich dreist. Hätten sie nichts getan, wären wir wieder auf dem Stand vom letzten Crash. Was willst du eigentlich? Es ist eine Woche weg, ist dies so einschneidend in dein Leben? Meinst du nicht, dass in einem Leben viel Schlimmeres passieren kann als eine Woche Bilder und Diskussion weg. Ich verstehe diesen ganzen Pseudoaufstand nicht. Andere machen hier weiter, als wäre nichts gewesen, ich habe meine Bilder neu eingestellt - mein Gott, was ist den schon passiert?
Ich denke hier nun unwillkürlich an das, was hier in Deutschland wirklich zur existentiellen Bedrohung geworden ist. Manchmal ist ein wenig Relation nicht von Übel.

Wenn du persönliche Geschäftsdaten verloren hättest, Kundennummern oder sonst was, finanzielle Einbußen hättest, ja dann, aber hier seinem Keks nachjammern.

Meine Güte wer bist du denn?

Was haben bitte Deine angesprochenen Probleme in Deutschland mit dem Forum hier zu tun und falls du es noch nicht mitbekommen hast es gibt auf der Welt noch schlimmeres als Deine angesprochenen Probleme in Deutschland und das jeden Tag! Also komme mir hier bitte nicht mit solchen Weisheiten, die sind völlig unpassend! Und wenn es Dir so wichtig ist helfe lieber Sandsäcke füllen als hier so einen Unsinn zu schreiben! Würde ich nicht gerade im tiefsten Westen wohnen würde ich auch bestimmt dort helfen.

Christa01 · 14 Juni 2013

kennii schrieb:
Ich verweise einfach mal auf den Thread: https://www.dslr-forum.de/showthread.php?p=11196778#post11196778

aha, verstehe. Natürlich, dann geht das nicht!
lieben Dank für den Hinweis bzw. Verweis!

seppelceh · 14 Juni 2013

smule schrieb:
Naja, wieviel Volumen und wie dieses konkret aussieht ist doch für den aktuellen Fall irrelevant, Backups gabs ja anscheinend, allerdings fehlerhafte...

Ist wie damals in der Schule, nur weil man 1:1 vom Nachbarn abgeschrieben hatte, war es kein Garant für Gute Noten, überprüfen ob da schon Fehler drin waren ging auch schlecht... Nur mit Zeit und Erfahrung hat sich gezeigt wer "ein verlässlicher Hoster" sein könnte

Stimmt. Man kann sich nur effektiv um Fehler kümmern die man kennt und erkennt. Bei unbekannten Fehlern hat man nur zwei Möglichkeiten:
- Laufen lassen, Lösung suchen
- System stoppen, Backup einspielen und Lösung suchen.

Beide Möglichkeiten sind suboptimal. Bekannte Fehler sollte ein guter Dienstleister zeitnah beheben können.

rodinal · 14 Juni 2013

seppelceh schrieb:
Edit: Wenn die unteren drei Server ihre 14,4 TB nur noch im SAN liegen haben und nicht lokal, dann ist das zusammen mit den Backups doch schon eine recht hohe Sicherheit.
(Wenn auch nicht unbedingt gegen eine sich einschleichende unbemerkte Inkonsistenz der DB)

Dagegen würden Paranoiker wahrscheinlich die Tabellen auf einem anderen DBMS das auf einem anderen BS bei einem anderen Hoster läuft spiegeln und dort ein eigenes Backup-Regime fahren. Ich weiß aber wirklich nicht, ob solch ein Aufwand einem Fotoforum angemessen ist.

sou · 14 Juni 2013

rodinal schrieb:
Dagegen würden Paranoiker wahrscheinlich die Tabellen auf einem anderen DBMS das auf einem anderen BS bei einem anderen Hoster läuft spiegeln und dort ein eigenes Backup-Regime fahren. Ich weiß aber wirklich nicht, ob solch ein Aufwand einem Fotoforum angemessen ist.

Für das DSLR-Forum sicherlich nicht.

Jay2k1 · 15 Juni 2013

cps schrieb:
Steht doch da:
Das komplett neue System besteht nun aus:

2x Load-Balancer (6-Kerner, 2,8 GHz, 8GB RAM)
2x Webserver (jeweils 6-Kerner, 3.1 GHz mit 16GB RAM)
2x DB/Storage (jeweils 6-Kerner, 3,1 GHz mit 32 GB RAM und 3,2 TB Plattenplatz)
1x Backupserver (4-Kerner, 3,1 GHz mit 8 GB RAM, 2x 4TB, automatisierte Backups der DB/Storage-Server)

Als kleine Info:
Üblicherweise haben die Loadbalancer in so einer Plattform eine shared Failover-IP-Adresse. Fällt der eine LB aus, wird die IP auf den anderen geswitcht.
Der jeweils aktive LB verteilt die Anfragen auf die beiden Webserver. Optimalerweise ist das System so dimensioniert, dass bei Ausfall eines Webservers der andere den Betrieb auch allein stemmen kann, wenn auch vielleicht nicht mit der gewohnten Performance. Aber wann fällt so ein Server aus?
Am ehesten geht eine Platte kaputt. Das ist kein Problem, denn üblicherweise setzt man RAID-Controller mit einem redundanten RAID-Level ein (5,1,10). Der Server läuft normal weiter, der Controller schlägt Alarm, die Platte wird getauscht, der Controller rebuildet das RAID im Hintergrund und der Anwender merkt es nicht einmal.
Ein Netzteil geht auch mal kaputt - selten, aber ich habe es schon erlebt. Manche Server haben redundante Netzteile, um das abzufangen, aber Server ohne diese Redundanz sind auch nicht gerade unüblich. Dann würde der Server komplett ausfallen. Das merken die Loadbalancer und leiten Anfragen nur noch an den laufenden Webserver weiter. Im Optimalfalle merkt der Anwender das auch nicht, eventuell leidet die Performance der Seite aber etwas.
Die DB-Server werden mit einer Datenbankreplikation arbeiten und für das gemeinsame Storage wird ein Clusterdateisystem zum Einsatz kommen. Auch hier ist das System so ausgelegt, dass die Anwendung weiterlaufen kann, wenn einer der Server ausfällt.
Sollte ein wichtiger Dienst auf einem der Server nicht innerhalb einer festgelegten Zeitspanne antworten, greift das sog. Fencing. Das bedeutet, der Cluster schaltet den Server, auf dem es aus irgend welchen Gründen gerade Probleme gibt, z.B. per IP-Steckdose ab, damit es keine Dateninkonsistenzen bzw. Split-Brain-Situationen gibt (auf dem einen Server werden andere Daten geschrieben als auf dem anderen).

Das ganze Konstrukt steht in Rechenzentren, zu denen nur Techniker Zutritt haben, die mit USVs und Generatoren immun gegen stundenlange Stromausfälle sind und die mehrfach, meist aus verschiedenen Himmelsrichtungen, mit verschiedenen Providern ans Internet angebunden sind, so dass selbst ein Bagger, der eine Zuleitung durchbaggert, keine Nichterreichbarkeit der Seite verursacht.

Kombiniert man so eine Plattform mit einem guten Monitoring, welches das Personal auch schnell auf eventuelle Probleme aufmerksam macht, hat man schon eine ziemlich hohe Ausfallsicherheit.
Backups sind natürlich auch wichtig, werden aber - bei solchen vergleichsweise ausfallsicheren Plattformen - nur selten benötigt.

Aber, auch wenn die Wahrscheinlichkeit dafür gering ist, auch RAM geht mal kaputt. Und das kann die merkwürdigsten Symptome nach sich ziehen, z.b. für Datenkorruption sorgen, ohne dass das sofort auffallen würde. ECC (Fehlerkorrektur) kann in gewissem Maße davor schützen, aber wie immer gilt, hundertprozentige Sicherheit gibt es nicht. Und es gibt sicher noch andere Möglichkeiten, wie Datenbankinkonsistenzen schleichend entstehen können, ohne dass das sofort auffallen würde.

Warum schreibe ich das?
Hier haben so viele Leute gemeckert, und einige Äußerungen erweckten den Eindruck, dass deren Autoren weniger Fachkenntnis haben als sie denken.
Dies soll Euch einen kleinen Blick hinter die Kulissen geben und verdeutlichen, dass so eine Plattform schon ein wirklich hohes Maß an Ausfallsicherheit hat.
Dieser jüngste, zweite Ausfall war in meinen Augen (ohne Details darüber zu kennen) vermutlich wirklich richtig, richtig großes Pech. Viel sicherer als mit solch einer Plattform kann man kaum fahren, ohne ein Vielfaches des Geldes in die Hand zu nehmen, und solch ein Ausfall ist in meinen Augen (ohne die Gründe zu kennen) extrem unwahrscheinlich, könnte aber - mit der gleichen geringen Wahrscheinlichkeit - genauso gut ein beliebiges anderes Forum treffen.

A propos: diese Server allein kosten einen Haufen Geld, dazu kommt das Management, was bei solch einem Cluster natürlich auch teurer ist als bei einem einzelnen Server. Unterschätzt diese Kosten nicht!

Mich würde aus fachlicher Sicht wirklich interessieren, woran es denn im Endeffekt gelegen hat, also was für die korrupten Daten in der DB verantwortlich war, aber ich hätte Verständnis, falls diese Info, sobald es sie denn gibt, nicht öffentlich gemacht werden würde.

Aber allen Nörglern sei gesagt: Bitte betrachtet die beiden Ausfälle separat. Sie sind bei verschiedenen Hostern (soweit ich das mitbekommen habe) und auf verschiedenen Systemen passiert und stehen in keinem Zusammenhang. Und aus fachlicher Sicht kann ich sagen, mit Blick auf die Plattform, das ist keine exotische Konfiguration; eine solche Plattform ist ein übliches Konzept.

Und bitte schlagt euch den Gedanken aus dem Kopf, man könne da einfach eine zusätzliche Festplatte anschließen und dann sei alles sicher. Das ist in etwa so als würdet ihr sagen, ich baue bei dem Auto einfach noch einen zusätzlichen Zylinder in den Motor und kann dann schneller fahren. Ja, so absurd ist es.

me_too · 15 Juni 2013

fewe · 15 Juni 2013

Jay2k1 schrieb:
Dieser jüngste, zweite Ausfall war in meinen Augen (ohne Details darüber zu kennen) vermutlich wirklich richtig, richtig großes Pech.

Ohne mich damit tiefer auszukennen, sehe ich das auch so. Beim vorigen Mal war es einfach das Problem, dass die Anhänge überhaupt nicht gesichert waren. Die Datenbank war ja ziemlich verlustfrei letztens; eben bis auf die Anhänge, die komplett weg waren.

Wenn ich ein Forum übernehme und weiß, dass davon regelmäßig Backups angefertigt werden, würde ich ehrlichgesagt nicht auf die Idee kommen, dass wesentliche Teile davon überhaupt nie gesichert werden.

Diesmal war das Problem ein Fehler an der Datenbank, der sich über mehrere Wochen hinweg gezogen hatte und der erst bemerkt wurde, als nichts mehr ging. Dass daher nur ein Backup verwendet werden kann, das vor dem ersten Fehler an der Datenbank zurückliegt leuchtet mir jedenfalls ein.

Sofern ich das einigermaßen richtig verstehe liegt also diesmal das Problem nicht darin, dass die Backups nicht funktionieren würden, sondern dass offenbar eine Kontrolle fehlt, die eine Beschädigung der Datenbanken erkennt. Meinem laienhaften Verständnis nach wäre das aber eine Aufgabe der Forumssoftware und hat mit den Backups an sich nichts zu tun.

Wie auch immer: Zweimal einfach Pech und beides hat miteinander wohl nichts zu tun.

HaT · 15 Juni 2013

... ich denke mittlerweile auch, dass der Fehler lediglich durch ein Überwachungssystem hätte vorzeitig entdeckt werden können. Da stellt sich gleichzeitig die Frage, was und wie umfangreich überwacht man wie aufwändig und überwacht man diese Systeme auch wieder, um an Sicherheit zu gewinnen? Das wird eine Endlosschleife; klar würde diese Schleife immer sicherer machen, aber lassen wir doch die Kirche im Dorf. Auch eine zeitlich und örtlich getrennte Sicherung bringt nicht zwangsläufig den gewünschten Erfolg. Selbst auf ständig wechselnden Medien nicht. Auch da beginnt die Schleife irgendwann von vorne. Hätte man also tatsächlich eine solch aufwändige Sicherung besessen, stellte sich weiter die Frage, wie aufwändig man wieviele Datensätze hätte rekonstrktieren können, wieviel Handarbeit wäre nötig gewesen, gegebenenfalls Datensatz für Datensatz händisch kontrollieren müssen. ... und nun mal ehrlich, wir sind hier in einem Forum und nicht in einer Bank, einer Buchhaltung oder einer Steuerabteilung. Also wie systemrelevant waren die Daten tatsächlich?

Ärgerlich ist es sicher für all diejenigen, die konstruktive Beiträge verfasst hatten, aber waren die tatsächlich systemrelevant? Mit Sicherheit gingen wieder einige sehr gute Beiträge flöten bei denen viele nicht mehr den Nerv und die Zeit investieren werden wollen, diese neu zu verfassen; ist wohl auch stellenweise überflüssig, da sie einfach aus dem Zusammenhang gerissen wären. Und nu? Verlässt man sein Haus/Wohnung, nur weil zwei Tapeten von der Wand hängen und genau diese beiden Tapeten irreparabel zerrissen sind? ... nur weil im anderen Zimmer vor einem viertel Jahr der Putz von den Wänden fiel?

Gast_89328 · 15 Juni 2013

Jetzt geht es weiter mit vernünftigen, durchdachten/kompetenten:

Jay2k1 schrieb:
Und bitte schlagt euch den Gedanken aus dem Kopf, man könne da einfach eine zusätzliche Festplatte anschließen und dann sei alles sicher. Das ist in etwa so als würdet ihr sagen, ich baue bei dem Auto einfach noch einen zusätzlichen Zylinder in den Motor und kann dann schneller fahren. Ja, so absurd ist es.

"systemrelevanten" Beiträge von Usern, die das nicht alles so bierernst sehen, vor allem dies hier z.B. von HaT (punktgenau sehe ich das auch so) Zitat von Hat, auch wenn's oben schon steht:

wir sind hier in einem Forum und nicht in einer Bank, einer Buchhaltung oder einer Steuerabteilung. Also wie systemrelevant waren die Daten tatsächlich?

Ärgerlich ist es sicher für all diejenigen, die konstruktive Beiträge verfasst hatten, aber waren die tatsächlich systemrelevant? Mit Sicherheit gingen wieder einige sehr gute Beiträge flöten bei denen viele nicht mehr den Nerv und die Zeit investieren werden wollen, diese neu zu verfassen; ist wohl auch stellenweise überflüssig, da sie einfach aus dem Zusammenhang gerissen wären. Und nu? Verlässt man sein Haus/Wohnung, nur weil zwei Tapeten von der Wand hängen und genau diese beiden Tapeten irreparabel zerrissen sind? ... nur weil im anderen Zimmer vor einem viertel Jahr der Putz von den Wänden fiel?

Ich wünsche denen, die sich darüber den Kopf zerbrechen müssen viel Geduld und Erfolg.

sou · 15 Juni 2013

Jay2k1 schrieb:
Kombiniert man so eine Plattform mit einem guten Monitoring, welches das Personal auch schnell auf eventuelle Probleme aufmerksam macht, hat man schon eine ziemlich hohe Ausfallsicherheit.

Was voraussetzt, dass das Personal auch erreichbar ist. Und nicht wie im Fall von InterNetX: "Im Januar 2010 war InterNetX einem Hackerangriff ausgesetzt, bei dem durch einen Distributed Denial of Service die Nameserver des Unternehmens überlastet und außer Betrieb gesetzt wurden, obwohl sich InterNetX nach eigenen Angaben gesondert gegen solche Angriffe gewappnet hat. Das Unternehmen konnte den Angriff nur schleppend beheben, da wegen des Feiertags nicht ausreichend viele Mitarbeiter im Rechenzentrum waren. Die Attacke hatte einen Ausfall der Erreichbarkeit fast aller bei InterNetX registrierten Domains zur Folge." Quelle: Wikipedia.

Bitte betrachtet die beiden Ausfälle separat. Sie sind bei verschiedenen Hostern (soweit ich das mitbekommen habe) und auf verschiedenen Systemen passiert und stehen in keinem Zusammenhang.

M.W. wurde der Hoster zwischen dem Verlust aller Anhänge und dem aktuellen Crash nicht gewechselt. Ich hatte das weiter vorne schon erwähnt und mir wurde nicht widersprochen.

cucama · 15 Juni 2013

Dass an Feiertagen nur sehr eingeschränkter Support geleistet wird, ist nicht ungewöhnlich... Dass die Schichten schmaler besetzt sind und der 2nd level teilweise nur auf Call-Out Basis arbeitet, ist völlig normal - das kommt auch bei renommierten Unternehmen vor, wie sie in diesem Thread ja schon zu Hunderten vorkamen.

sou · 15 Juni 2013

cucama schrieb:
Dass an Feiertagen nur sehr eingeschränkter Support geleistet wird, ist nicht ungewöhnlich... Dass die Schichten schmaler besetzt sind und der 2nd level teilweise nur auf Call-Out Basis arbeitet, ist völlig normal - das kommt auch bei renommierten Unternehmen vor, wie sie in diesem Thread ja schon zu Hunderten vorkamen.

Schlecht ist nur wenn dadurch fast 3 Millionen Domains nicht erreichbar sind. Der Ausfall bezog sich übrigens auf die DNS Server. Vielleicht ist genau das der Grund warum das DSLR-Forum zwar bei InterNetX gehostet ist, jedoch Nameserver von Thomas Heil, dem ehemaligen Betreiber, verwendet. Diese wiederum befinden sich in verschiedenen Providernetzen.

cucama · 15 Juni 2013

sou schrieb:
Schlecht ist nur wenn dadurch fast 3 Millionen Domains nicht erreichbar sind. Der Ausfall bezog sich übrigens auf die DNS Server. Vielleicht ist genau das der Grund warum das DSLR-Forum zwar bei InterNetX gehostet ist, jedoch Nameserver von Thomas Heil, dem ehemaligen Betreiber, verwendet. Diese wiederum befinden sich in verschiedenen Providernetzen.

Wie dem auch sei... Die Qualität eines Providers daran fest zu machen, wie stark das RZ an Feiertagen besetzt ist, ist nicht unbedingt sinnvoll oder aussagekräftig. Warum gerade die DNS Server von extern betrieben werden, ist mir nicht ganz klar. Gerade DNS Server sind gegen DDoS Angriffe sehr anfällig... Das kann jeden treffen.

s3chaos · 15 Juni 2013

ich hätte eine Frage an die IT-Experten hier
Wie kann ich einen eigenen Thread sichern.
Mit allen eigenen Postings eigenen Bildern und allen Antworten darauf.
Die Bilder würden nur im Text eingebunden sein nicht direkt hier hochgeladen.
Wenn ich mir die Landschaftthreads anschauen restaurieren die TO das händisch die Antworten fehlen dann natürlich.
Danke für eine Antwort ob das irgendwie möglich wäre

cucama · 15 Juni 2013

Ich denke nicht, dass es dafür eine automatisierte Export/Import Funktion in vBulletin gibt (jedenfalls nicht für normale User). Man kann Threads und deren Inhalte aus der Datenbank exportieren, aber dazu hast Du keinen Zuriff. Ein simples Copy&Paste in Word z.B. Könnte funktionieren - muss dann allerdings seitenweise und komplett manuell erfolgen.

Alternativ kannst Du dir z.B. Mal HTTrack anschauen.

sou · 15 Juni 2013

s3chaos schrieb:
Wie kann ich einen eigenen Thread sichern.
Mit allen eigenen Postings eigenen Bildern und allen Antworten darauf.
Die Bilder würden nur im Text eingebunden sein nicht direkt hier hochgeladen.

Wenn es dir nur um den Text inkl. der Links geht und du auf die Formatierung verzichten kannst: Druckansicht. Die ist allerdings auf max. 100 Beiträge pro Seite beschränkt.

seppo.b · 15 Juni 2013

Ich hab sowas! Allerdings auf eine spezielle Seite gemünzt und nicht selbst gemacht.
Verwendet wurden Excel Makros.

sou · 15 Juni 2013

seppo.b schrieb:
Ich hab sowas! Allerdings auf eine spezielle Seite gemünzt und nicht selbst gemacht.
Verwendet wurden Excel Makros.

Kannst du das mal irgendwo hochladen?

PS: Wäre evtl. sinnvoll wenn dieses Thema in einen separaten Thread ausgelagert wird.

seppo.b · 15 Juni 2013

sou schrieb:
Kannst du das mal irgendwo hochladen?

PS: Wäre evtl. sinnvoll wenn dieses Thema in einen separaten Thread ausgelagert wird.

Müsste ich erst mal wieder finden und natürlich bräuchte es die Erlaubnis der Programmiererin - also keinesfalls vor Montag.

und schon wieder Datencrash...

Gast_89328

Guest