Gumo oder sowas ...... also bin jetzt auf so ca 17 GB sieht bei mir ganz gut aus konnte eben kleinen test machen ohne auf lücken zu stossen. Muss jetzt aber erstmal Arbeiten oder zumindest den Anschein erwecken .
Glück Auf !
Gumo oder sowas ...... also bin jetzt auf so ca 17 GB sieht bei mir ganz gut aus konnte eben kleinen test machen ohne auf lücken zu stossen. Muss jetzt aber erstmal Arbeiten oder zumindest den Anschein erwecken .
Glück Auf !
Attachments dürften weitgehend komplett fehlen bei allen inkl. mir die als Gast crawlen - die meisten Attachments sind nicht eingeloggten Usern nicht zugänglich. Ein paar Tausend gehen aber -warum auch immer- doch. Die noch vorhandenen Attachments belaufen sich allerdings eher so um die 20k+ Stück.
Mal sehen...
Zwischenstand bei mir:
Attachments als Gast: ~5300 , 1.33GB (warum die gehen ist mir unklar, evtl. kaputte attachment-ansicht rechte pro unterforum für gäste/jeder)
Attachments mit meinem User*: 19800 , 6.3 GB
(*wenn in den aktiven internen Bereichen 500 Attachments sind ist das IMO schon hoch geschätzt, der Unterschied zu einem normalen eingeloggten User dürfte minimal sein.)
aber auch: 524x Error 404, 6181x Error 503
-> da hier grade haufenweise Crawler den Server hämmern ist es schwer zu sagen welche der 503s wirklich nicht mehr da sind, und welche durch "forum meckert sessiontabelle voll, ergo verzieh dich" sind , das gibt nämlich auch nen Error 503
Ich werd wohl mit Grimthar später mal die downloads abgleichen
15-16G threaddaten mit grob 140k resultierenden dateien, wobei ich da nochmal nen durchlauf mache, das hatte mir zuviele errors.
(Ich gleich dann hinterher alle downloads vom selben script ab da die fehler grade bei überlastung bei mehreren durchläufen nicht bei denselben threads auftreten)
und knapp 500mb fürs reine html nur vom boardindex mit den threadlisten, wovon vermutlich 95% und mehr alleine auf Archiv>Alt-Archiv und co. entfallen.
Ein paar Prozent kann man noch rauskratzen bei den Threads und noch ein paar Attachments, aber im großen und ganzen dürfts das sein.
Also grob 25G unkomprimiert.
Halbblut: Bedank dich beim Grimthar der da noch eine funktionierende Version seines Scripts zusammengeklöppelt hat. Ich benutz das Ding ja auch nur.
HTTrack ist zwar wohl hübscher, aber um Größenordnungen langsamer und benötigt über die Exclusion Rules viel mehr Einschränkungen damit es nicht versucht das halbe Internet gleich mit zu laden - ich hab ja selbst viel damit probiert die letzten paar Tage.
~5min für den boardindex, ~3h für die threads und nochmal 3-4h für die attachments sofern der Server mitspielt - Gefangene macht das Script allerdings keine und haut dauerhaft 30+ Verbindungen raus (ich hab jetzt auch nicht geschaut ob der Webserver bei der Menge pro IP schon abblockt, aber wenn man zu sehr hämmert produziert man eh nur 503 weil die Sessiontabelle des Forums wieder vollläuft)
Nur mal so ne Frage Saito (sry sollte das irgendwo weiter vorn schon stehn und ich habs überlesen)
Ist geplant, das Ganze dann irgendwo greifbar für alle zu hinterlegen? Online? Eventuell auf Rom-Welten oder so um das dann verlinken zu können?
Fände ich persöhnlich sehr reizvoll da man dann sämtlichste Festivalguides,.... bei Fragen direkt wieder hier ins Forum reinschmeißen kann.
Geplant ja, aber grade bei dem großen Haufen Attachments muss ich erstmal durchgucken was da alles bei ist und wo das stand.
Die reinen Thread-HTMLs die ich als Gastuser gecrawlt habe könnte ich zippen und zu romwelten schicken.
Das ganze als Pseudo-Archiv-Forum hosten ist vermutlich nicht so prickelnd, eher als Datendump zum drin rumwühlen und Dinge raussuchen die noch ins Forum müssen.
Zwischenstand bei mir 22 GB und es geht deutlich langsamer voran .....
Glück Auf !
Edit : jetzt geht gar nix mehr ......
Edit 2 : Forum schon weg oder wurde der Zugriff erhöht ?
Ich glaube ich muss mich an dieser Stelle mal entschuldigen für meine 3620 Beiträge (1,12 Beiträge pro Tag) und meine 1598 Dateianhänge mit insgesamt 1,09 GB.
Oder vielleicht auch nicht.
Edit 2 : Forum schon weg oder wurde der Zugriff erhöht ?
Nein, das Forum ist noch nicht weg und der Zugriff wurde auch nicht erhöht.
Dass das Forum derzeit nicht erreichbar ist, ist ein bekanntes Problem. Es sollte demnächst aber wieder erreichbar sein.
Edit 2 : Forum schon weg oder wurde der Zugriff erhöht ?
Nein, das Forum ist noch nicht weg und der Zugriff wurde auch nicht erhöht.
Dass das Forum derzeit nicht erreichbar ist, ist ein bekanntes Problem. Es sollte demnächst aber wieder erreichbar sein.
die jetzt nicht vorhandene zeit kann man ja hinten ran hängen
thx dann mach ich mal kaffee
Edit : jetzt ist es auch mir bekannt .
Also Ich vermute mal selbst wenn das alte Forum noch für mich bis zu seiner endgültigen Hinnrichtung noch den ein odere anderen Beitrag hinterläßt wird es immer noch sehr Lückenhaft
Muss dann mal schauen ob ich es als RAR Datei oder so auf OCH zum Abgleich bekomme ich vermute mal das ich die 22 oder sollten es mehr werden zum ersten mal schneller hoch als downgeloaded habe
Ist geplant, das Ganze dann irgendwo greifbar für alle zu hinterlegen? Online? Eventuell auf Rom-Welten oder so um das dann verlinken zu können?
Fände ich persöhnlich sehr reizvoll da man dann sämtlichste Festivalguides,.... bei Fragen direkt wieder hier ins Forum reinschmeißen kann.
Das ganze als Pseudo-Archiv-Forum hosten ist vermutlich nicht so prickelnd, eher als Datendump zum drin rumwühlen und Dinge raussuchen die noch ins Forum müssen.
Solange es da keine (urheber)rechtlichen Probleme gibt fände ich den Dump super, falls das nicht geht könnte man auch eine Art "Request-Thread" machen in dem man nach bestimmten Threads fragen kann (halt schon recht konkret) und einer der Leute die Downloads haben könnten den entsprechenden Beitrag dann posten. Sollten ja nicht so viele sein, hat aber den Nachteil dass man nicht etwas suchen kann.
Ich glaube ich muss mich an dieser Stelle mal entschuldigen für meine 3620 Beiträge (1,12 Beiträge pro Tag) und meine 1598 Dateianhänge mit insgesamt 1,09 GB.
Oder vielleicht auch nicht.
Das ist echt ne beeindruckende Beitrags- und Anhangsrate, Kletterkunst lässt grüßen?
Und ne, du musst dich nicht entschuldigen, danke für die ganzen guten Beiträge, sonst hätten wir ja nix zu kopieren
Nach einiger Überzeugungsarbeit an den Server (ein Euphemismus für "brutale Gewalt" ) hats heute nacht wohl nochmal mehr oder weniger nen kompletten Dump gecrawlt und diesmal hats ~25000 Attachments rausgezogen, plus 618x 404 und 6815 Error 503.
Insbesondere die Attachments würd ich gern mit jemandem abgleichen der auch viele runtergezogen hat falls mir da noch welche durch die Lappen gegangen sind - solange das eingesetzte Tool die Originaldateinamen behält die das Forum für die Attachments beim Download auswirft statt sie "attachment-ID.dateiendung" zu nennen sollte das gehen. Ne Dateinamen-Liste zum abgleichen würde mir reichen. Freiwillige vor.
25.000 statt vorher 20.000 Attachments ... meisjustme , das warst bestimmt auch du, oder? Gibs zu
Ich versuche grade noch einen letzten Durchlauf zu schaffen bevor die IT das Forum tötet - mit etwas eingeschränkteren Daten (nur alle öffentlichen Foren (samt archiv) als eingeloggter User) - solange er mir da noch die Threads als HTML rauszieht bin ich zufrieden, die Attachment Dateien kann man problemlos mit mehreren Leuten zusammenlegen.
Fun Fact: Wenn man Archiv>Alt-Archiv und Archiv>Trash Bin ausklammert dauert der Download der Attachments länger als das Crawlen der Threads
Und noch einen:
Falls wer noch jemand last-minute probieren möchte ob er was runtergeladen kriegt das mir fehlte, hier ist das Errorlog von den Attachments.
Viel Erfolg.
Hau dich rein Saito. Wir glaube alle ganz dolle an dich
Insbesondere die Attachments würd ich gern mit jemandem abgleichen der auch viele runtergezogen hat falls mir da noch welche durch die Lappen gegangen sind - solange das eingesetzte Tool die Originaldateinamen behält die das Forum für die Attachments beim Download auswirft statt sie "attachment-ID.dateiendung" zu nennen sollte das gehen. Ne Dateinamen-Liste zum abgleichen würde mir reichen. Freiwillige vor.
Sorry, ich bin raus. Heute morgen hab ich nen chkdsk bekommen und danach war die Platte leer (bis auf 3 Dateien) ...
Weiterleitung ist jetzt da.
Läuft das alte Forum noch im Hintergrund (IP Addresse?) oder ist das auch abgeschaltet?
Endstand bei mir 22 GB bin seit gestern Abend nicht mehr ins Forum reingekommen .
Werde nächste Woche versuchen es verfügbar zu machen
Allen Crunchern .... sry falsches Forum .. allen Crawllern ... danke..... vor allen für Tips .
Glück Auf und erholsames WE !
Gott gebs und dir auchn schönes WE