Noch nicht kopierte, wichtige Threads aus dem alten Forum

  • Hallo,


    aus aktuellem Anlass habe ich mal meine Lesezeichen durchgeschaut und mir sind ein paar Threads aufgefallen, die für's neue Forum interessant wären. Ich habe leider gerade keine Zeit das selbst zu kopieren (Klausurphase :(), aber ich wollte wenigstens mal die Links hier lassen:

    (Nur grob geordnet, ich finde die Linkliste in 1. und alle Links darin am wichtigsten).


    1. Wichtige Links by bouncepotato, einer der besten Threads im alten Forum, eigentlich müssten wir den und alles was der verlinkt kopieren
      http://board.eu.runesofmagic.g…ge=Thread&threadID=519280
    2. Woran du erkennst, dass du zuviel RoM spielst? http://board.eu.runesofmagic.g…age=Thread&threadID=99712
    3. Guide: Fuchsspurenhöhle: http://board.eu.runesofmagic.g…age=Thread&threadID=29817
    4. Instanzenübersicht mit Guide-Links: http://board.eu.runesofmagic.g…age=Thread&threadID=47597
    5. Verschiedene Threads und Posts zur Schadens- oder Heilungsberechnung etc. Hier hab ich leider keine Lesezeichen, hatte immer danach gegooglet...
    1. Verschiedene Makro-Sammlung Threads: Sind einige Überschneidungen und zum Teil auch schon hier vorhanden, also nicht so wichtig
      http://board.eu.runesofmagic.g…age=Thread&threadID=67010
      http://board.eu.runesofmagic.g…age=Thread&threadID=11432
      http://board.eu.runesofmagic.g…age=Thread&threadID=79974
    2. Geschenkbeutel Übersicht
      http://board.eu.runesofmagic.g…ge=Thread&threadID=136501
    3. Die Geschichte von Taborea
      http://board.eu.runesofmagic.g…age=Thread&threadID=51027
      PS: Weiß jemand wo der Inhalt hiervon gelandet ist? http://www.runesofmagic.com/de/geschichte.html
    4. Titelsammlung http://board.eu.runesofmagic.g…age=Thread&threadID=35303

    Wieso die Nummerierung jetzt kaputt is weiß ich auch nicht...



    Das war alles was ich auf die Schnelle gefunden habe, falls ihr mehr habt könnt ihr das ja auch hier posten, vielleicht finden sich ja ein paar die Zeit haben etwas zu kopieren :)

    Vielen Dank auch an die Spieler, die schon seit längerm fleißig Posts kopieren :thumbup:

    The ships hung in the sky in much the same way that bricks don’t.


    Douglas Adams in The Hitchhiker's Guide to the Galaxy

  • Gibt es eine Möglichkeit, das gesamte alte Forum zu sichern, z.B. auf eine Serverplatte? Ich bin leider EDV-Laie, würde es aber bis zum Freitag noch versuchen. Eine 3 Terrabyte große Festplatte ist vorhanden.

    Schurke (100), Kundi (100), Magier (100), Krieger (100), Ritter (75)


    Wissen ist Macht, nichts wissen macht nichts. 8o8o8o

  • https://www.httrack.com


    Quote

    Wiki sagt:


    HTTrack Website Copier – kurz „HTTrack“ genannt – ist eine Software, mit deren Hilfe Kopien ganzer Websites in einem lokalen Verzeichnis, z. B. auf einer Festplatte, erstellt werden können. Die Struktur der Verlinkungbleibt dabei funktionsfähig.

    Ich hab schon ein paar dieser Tools versucht, allerdings habe ich meistens das Problem, dass sie entweder nur einzelne Seiten herunterladen oder sich an rekursiven Links aufhängen (und dann immer das gleiche, sowas wie Login-Seiten runterladen).


    Auch archive.org sichert nur die "Frontpage" also nur die Übersicht, nicht die einzelnen Threads soweit ich das sehe.

    The ships hung in the sky in much the same way that bricks don’t.


    Douglas Adams in The Hitchhiker's Guide to the Galaxy

  • Einer unserer Leute hat das Forum komplett mit Httrack kopiert.

    Kannst du evt. sagen (oder ne PN schreiben) ob er da besondere Einstellungen benutzt hat und wie viel Speicherplatz das in etwa belegt?



    Edit: As a comparison, with the default settings I download some weird sites which are not threads (although it actually works better than I thought) but now I got about 3000 threads within 1:15h and about 600 MB.

    b) 176 435 threads - 1 633 623 posts. (that is, with my usergroup, mind you, your numbers in the footer may differ).

    So I need about 60 times that amount assuming everything works fine and linearly - I think it slows down after some time.

    The ships hung in the sky in much the same way that bricks don’t.


    Douglas Adams in The Hitchhiker's Guide to the Galaxy

    Edited once, last by Rynak ().

  • Nur weil HTTrack behauptet es ist fertig hat es noch lange nicht das gesamte Forum kopiert, vor allem wenns beim EU forum bequem innerhalb von nem halben Tag oder weniger durchgelaufen ist.


    Die Userprofilseiten zu blocken ist dringend zu empfehlen denn wenn er jedes Userprofil mitnimmt geht er von jedem Userprofil aus auch auf die Suche ALLER Posts von dem jeweiligen User zusätztlich dazu das er jedem ThreadID Link und postID link einzeln folgt weil das HTML jeweils ein bisschen unterschiedlich ist.


    Ebenso versucht er auch gerne mal den RoM Client herunterzuladen da im Forum ja an mehreren Stellen auf die Originaldownloads verlinkt wird, und 10GB an Files sind mit den harten Speedlimits von HTTRack eher unlustig.


    Am einfachsten wäre vermutlich: "lade http://board.eu.runesofmagic.gameforge.com/index.php?page=Thread&threadID= 1 ... 541397 und folge gar keinen weiteren Links, weder intern noch extern"


    Die dann ~300k gleichgroßen "Existiert nicht oder hast keinen Zugriff" drauf HTML files kann man hinterher immer noch wegwerfen.


    http://board.eu.runesofmagic.gameforge.com/index.php?page=PostsFeed&threadID=XXXXXX ginge auch, aber der RSS Feed scheint mir extrem langsam.

    Vorteil: Ist schon lesbarer Plaintext. RSS Feed taugt nicht, nach 30-40 posts liefert er nix mehr. (getestet am "Equip viel zu teuer" Thread der 400+ Posts hat)



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear

  • Es hat knappe 5 Tage gedauert die Website herunterzuladen (fast vollständig - 800GB (habe einige Sachen durch Filtereinstellungen gefiltert).

    Ob bei den ganzen Files wirklich alles dabei ist kann ich nicht sagen, die Datendichte ist groß und bisher bin ich auf keine Seite getroffen welche nicht funktioniert hätte.

    Kritparade - Rath

    Druide/Schurke (100/70)

    Druide/Bewahrer (100/100)

    Druide/Kundschafter (100/60)

    inaktiv

  • Fast 1 TERAByte fürn bisschen Text? Ernsthaft? :D


    die <downloadordner>/hts-cache/winprofile.ini wäre interessant denn die hat die Einstellungen samt aller Filter.


    Oder eben die Einträge die du bei "Scan Rules" selbst eingetragen hast und die Einstellungen vom "Limits" und "Links" tab.



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear

  • Die ganzen Bilder Saito.... hab das ein bisschen unterschätzt was da alles drinnen ist^^

    Kritparade - Rath

    Druide/Schurke (100/70)

    Druide/Bewahrer (100/100)

    Druide/Kundschafter (100/60)

    inaktiv

  • Am einfachsten wäre vermutlich: "lade http://board.eu.runesofmagic.g…php?page=Thread&threadID= 1 ... 541397 und folge gar keinen weiteren Links, weder intern noch extern"

    Genau das war meine erste Idee (bzw. bei mir sowas wie for i in ... do wget ...threadID), habe aber nach 30k Threads aufgegeben. Da habe ich halt keinerlei Ordnung drin und die Suchfunktion ist auch eher manuell / grep. Wenn ich das mit HTTrack mache, sollte ich (ohne weiteren Aufwand) auch kein Inhaltsverzeichnis (~Forum Frontpage) bekommen denke ich.


    Außerdem fehlen mir dann die Seiten 2...N von allen Threads die mehr als 1 Seite haben. Wenn ich allerdings alle postIDs stattdessen nehme dauert es natürlich ungleich länger (bis zu 20 posts pro Seite oder so, ist ja dann alles doppelt geladen).



    Es hat knappe 5 Tage gedauert die Website herunterzuladen (fast vollständig - 800GB

    Dann wird das bei mir wohl nix, habe leider keine Zeit mich jetzt ein paar Stunden mit den entsprechenden Filtern rumzuschlagen um das schneller & kleiner zu machen. Aber danke für die Abschätzung. Mein HTTrack lief jetzt ca. 10h und hat 26k Dateien (insges. gut 5 GB) heruntergeladen.


    Ich hatte eigentlich gehofft, wir haben den Sommer über Zeit das Forum zu kopieren, aber ... ne.

    The ships hung in the sky in much the same way that bricks don’t.


    Douglas Adams in The Hitchhiker's Guide to the Galaxy

  • Ich lass auch mal einfach weiterlaufen, und versuche mich nicht weiter- um auch diese viel zu kurze Ankündigung - vom Ende........ negieren zu lassen .


    Ein Versuch mehr als das was ich Einzeln sichern konnte kann ich noch machen , mal schauen wo und wie es endet .


    Erstmal Danke allen noch Hilfswilligen .... Verrückten ....



    Respekt :!:

  • Ja das mit der Vorlaufzeit hat auch anderweitig für gute Laune gesorgt ...



    Miua: Deine .ini Datei vom HTTrack Projekt wäre dennoch interessant. Ich vermute mal bei knapp 1TB hast du da sehr viel doppelt und dreifach und auch viel von vielen externen Hosts.


    Nach Hinweis ausm IRC:


    einfach nur stur die threadid= URLs abgrasen bringt nur die erste Seite.


    threadid=*&pageNo=* bringt die Seiten. Da Threads mit nur einer Seite keinen Link mit pageNo produzieren braucht man wohl beide Einträge, die eventuell doppelte Seite 1 (URL ohne pageNo und mit pageNo) bei mehrseitigen Threads dürfte zu verschmerzen sein.


    Ich versuch daher nochmal mal folgende Config (alles für HTTrack):

    BasisURL als Ausgangspunkt ist natürlich http://board.eu.runesofmagic.com/index.php?page=Index


    Die Forenstruktur selbst ist weitgehend uninteressant, aber die boardID URLs fressen ja kein Brot.


    Userprofile und die riesigen Seiten von "Alle Posts des Users anzeigen" sind uninteressant.

    Memberliste ist uninteressant.

    Alles was nicht im Forum selbst ist ist uninteressant, die LINKS nach extern sind ja im HTML vorhanden, da muss man nicht jede x-beliebige Datei die irgendwer mal irgendwo seit 2008 verlinkt hat, runterladen.


    Bisher siehts aus als ob dadurch mit dem -* Parameter auch die einzelnen "postID" URLs blockiert sind, jedenfalls laut Logfile.


    Haken:

    Das Forum produziert offenbar auch Sch...e ala http://board.eu.runesofmagic.gameforge.com/index.php?page=Thread&threadID=519960&l=5&l=14&l=14&l=15&styleID=14&styleID=14


    den Parameter für die Forensprache UND den Style mehrfach an die URL hängen? seriously? -_- Ich versuch das mal auch noch zu blocken, siehe oben mit den Verboten für &l= und styleID= ... der defaultstyle ist eh der RoM redesign.


    PS: 80%+ des Forums befinden sich sowieso in Archiv>Alt-Archiv und Archiv>Trash Bin (70k von 101.5k threads des öffentlich sichtbaren DE bereichs)


    Und weiter im Text...


    Rynak: Geschichte Taboreas auf der RoM Homepage ... uhm... http://de.runesofmagic.gameforge.com/game/index/history das ?



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear

  • kleiner Zwischenstand bei mir : Über Nacht ist wohl was schief gelaufen laut HT hatte ich irgendwas um 7 GB war aber nur die Frontpage ... yep genau so Dumm habe ich dann auch geguckt ..habe Neu gestartet dann wohl mehr mit den Standarteinstellungen und hab jetzt so um die 10 GB und auch schon mal reingeschaut .. Ich kann jetzt auf meinem PC im Archiv stöbern ..weiß aber natürlich noch nicht wieviel noch fehlt .

    Habe jetzt den 2 Durchgang gestartet und wohl ne Menge ...also wirklich eine Menge ... Fehlermeldungen .....werde diese aber Ignorieren ....



    Glück Auf alle Verrückten

  • Da laufen aktuell 10-13 Crawler um die Wette und das Forum wirft regelmässig Error 503 weil die Sessiontabelle voll ist - denke nicht das das Ergebnis am Ende zufriedenstellend sein wird, aber man weiss ja nie.



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear

  • Da laufen aktuell 10-13 Crawler um die Wette und das Forum wirft regelmässig Error 503 weil die Sessiontabelle voll ist - denke nicht das das Ergebnis am Ende zufriedenstellend sein wird, aber man weiss ja nie.

    Yep. Gestern Abend hab ich nochmal versucht alle Threads nach URL und Nummer herunterzuladen - dachte oh, das ging ja schnell, dann ist mir aufgefallen das der Großteil Fehlermeldungen (503) waren.


    HT hab ich jetzt mit ähnlichen Einstellungen wie Saito versucht, 30k Dateien, 7 GB in 11h. Gerade lade ich sowas wie /index.php?page=Thread&threadID=535927&s=5ccaaf7bbeafdceeaacc87cbe202dc7fbda21183 runter, hoffentlich sind das nicht auch alles doppelte...


    Edit /index.php?page=Board&boardID=2003&pageNo=1&sortField=lastPostTime&sortOrder=DESC&daysPrune=1000&status=&prefix=&languageID=0&tagID=0 - Sind die so im Board verlinkt oder missbraucht HT gerade die Sortierfuntkion? ^^


    Edit2: Also obwohl ich HT relativ früh abgebrochen habe, finde ich bei einigen Stichprobem einige Threads. Es scheint also, dass die fehlenden Threads eher die schwer zu erreichenden (Archiv?) und so sind die man jetzt evt nicht ganz so dringend braucht. Und ich hab im Log nachgeschaut, es sind ca. 10% Fehler, wie Saito sagt 503 Service Unavailable.

    The ships hung in the sky in much the same way that bricks don’t.


    Douglas Adams in The Hitchhiker's Guide to the Galaxy

    Edited 6 times, last by Rynak ().

  • irgendwo wirds den link geben und wenns ein "Sortieren nach..."button ist ... das ist ja der Haken an der Sache.


    müsste man eigentlich die Excludelist noch um index.php*sort* erweitern ...


    Edit: &s=<blafasel> ist im übrigen nur die session-ID. die Crawler arbeiten ja nicht als eingeloggter Nutzer. Die "Sort" URLs dagegen könnten für Dubletten sorgen weil das angezeigte HTML dann wieder im Zweifel nicht mit dem Original identisch ist obwohl der Seiteninhalt gleich ist.



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear

  • Für die Leute die 90er Jahre Werbung noch kennen:


    Während in Villa-HTTracker noch an den Threads herumschrubbt, nuckelt Villa-<spezialscript vom lieben Grimthar> bereits langsam aber stetig alle Attachments herunter :D

    Ich hab die Threads nicht einzeln gezählt aber es behauptet zumindest alle erwischt zu haben. Wir werden sehen.


    Das wird zwar vermutlich am Ende nicht hübsch - aber hoffentlich halbwegs komplett. Übrigens weit entfernt von 800GB, eher so 25 - inklusive Attachments.



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear

  • Doch eher ein Lichtblick die Aktion von Grimthar und für die Infos würde auch zur Not reiner Schreibmaschinentext (ja ich kenn die noch) reichen, alles besser als weg!

    Lucy und andere Wanderer, Sammler und Rätselsucher aus alter Zeit.

  • Ich hätte ja einen ganz anderen Lösungs Vorschlag gemacht unter der Annahme das Gameforge mal 10min Arbeit mit einbringen würde..

    Wie wäre es wenn einfach mal ein Mitarbeiter dieser Firma die Datenbank des alten Forums nehmen würde, alle Persönlichen Daten (Passwörter etc. die ja sowieso eigentlich verschlüsselt sind aber sei es drum) komplett raus löscht und dann die Datenbank zum Download anbietet, somit wären noch alle Daten vorhanden und wer auch immer sich die Mühe machen möchte, könnte dann auch besser damit arbeiten.


  • Das zu machen ist wohl um einige Größenordnungen einfacher als es genehmigt zu kriegen ....:)


    relevantes Referenz-Video:



    [This user speaks English on a near native level.]

    [This user speaks German on a native level.]

    [This user can curse in a variety of languages.]


    In the beginning the Universe was created.

    This has made a lot of people very angry and been widely regarded as a bad move.



    Trust me, I'm an engineer.....with epic skill and epic gear