Zum Inhalt springen

Umstrukturierung des Forums


Empfohlene Beiträge

  • Antworten 143
  • Erstellt
  • Letzte Antwort

Top-Benutzer in diesem Thema

Ich weiß ja nicht, ob es hier hin gehört, aber könnte man evtl. in diesem Zuge die fehlerhaften 'named entities' alter Postings begradigen? Da tauchen oft ' ', '&' und '"' im Text auf, die beim lesen stören...

 

Ich denke nicht, dass das möglich ist, diese Änderungen müssten von Hand vorgenommen werden, da es sich ja um Überreste alter Forumsversionen handelt!

 

 

Mfg Yon

 

Das ließe sich durchaus automatisiert bewerkstelligen. Man muss "höchstens" aufpassen, dass man nicht "zuviel" erwischt. Es ginge dabei um eine Volltextsuche über den kompletten Posting-Bestand -- wird wohl einiges an (Rechen-)Zeit in Anspruch nehmen.

Es dürfte sich um passende SQL Kommandos auf über 1 Millionen Einträge handelt. Ich denke schon, dass das in vertretbarer Zeit machbar ist. Es muss halt nur jemand machen.

 

Viele Grüße

Harry

 

Also schon   liefert bei Google für das Forum folgende Ausgabe:

Ergebnisse 1 - 10 von ungefähr 11.300 aus midgard-forum.de für  
, d.h. hier von Hand ran zu gehen ist wirklich illusorisch. Leider kenne ich mich mit SQL nicht aus, sonst würde ich mich vl hinsetzen und sowas schreiben.

Gibt es jemand anderen, der das machen könnte?

 

 

Mfg Yon

Link zu diesem Kommentar
Also schon   liefert bei Google für das Forum folgende Ausgabe:
Ergebnisse 1 - 10 von ungefähr 11.300 aus midgard-forum.de für  
, d.h. hier von Hand ran zu gehen ist wirklich illusorisch. Leider kenne ich mich mit SQL nicht aus, sonst würde ich mich vl hinsetzen und sowas schreiben.

Gibt es jemand anderen, der das machen könnte?

Die größte Schwierigkeit ist herauszufinden, ob das wirklich ' ' steht oder ' ', entsprechend '&amp' für '&amp' und '<span ...>' für '<span ...>'. Das bedeutet, bevor man die SQL Kommandos adäquat absetzen kann, muss man erst mal schauen, wie so ein Beitrag im Quelltext überhaupt aussieht. Erst nach der Analyse kann man die passenden SQL Kommandos schreiben.

 

Ich bin mir allerdings nicht sicher, ob man mit SQL Stringoperationen durchführen kann. Wenn nicht, müsste man das zum Beispiel in PHP schreiben.

 

Viele Grüße

Harry

Link zu diesem Kommentar

Das haben wir schonmal versucht. Rana hat ein Programm gschrieben, das diese HTML-Schnipsel wieder in BB-Codes umgsetzt hat. Das Ganze hat sich aber bei Testläufen als zu Komplex herausgestellt, sodass wir unsere Versuche abgebrochen haben.

 

Das Programm müßte ineinander verschachtelte Quotes verstehen, Font-Anweisungen etc. (sagte ich schon, dass all das noch ineinander verschachtelt sein kann?).

 

Das Hauptproblem war, dass ich nur raten kann welche HTML-Anweisung genau für welchen BB-Code steht. Es gibt immer einen Fall, den das Progamm nicht abdeckt und dshalb ganze Beiträge zerschießt.

 

Wie will man das kontrollieren? Wer schaut sich die Beiträge an um festzustellen, dass wieder der alte DB-Stand zurückgesichert werden muss? Vor allem muss das Zeitnah erfolgen. Die Prüfung muss abgeschlossen sein bevor das Forum wieder online geht.

 

Viele Grüße

hj

Link zu diesem Kommentar
Also schon   liefert bei Google für das Forum folgende Ausgabe:
Ergebnisse 1 - 10 von ungefähr 11.300 aus midgard-forum.de für  
, d.h. hier von Hand ran zu gehen ist wirklich illusorisch. Leider kenne ich mich mit SQL nicht aus, sonst würde ich mich vl hinsetzen und sowas schreiben.

Gibt es jemand anderen, der das machen könnte?

Die größte Schwierigkeit ist herauszufinden, ob das wirklich ' ' steht oder ' ', entsprechend '&amp' für '&amp' und '<span ...>' für '<span ...>'. Das bedeutet, bevor man die SQL Kommandos adäquat absetzen kann, muss man erst mal schauen, wie so ein Beitrag im Quelltext überhaupt aussieht. Erst nach der Analyse kann man die passenden SQL Kommandos schreiben.

 

Ich bin mir allerdings nicht sicher, ob man mit SQL Stringoperationen durchführen kann. Wenn nicht, müsste man das zum Beispiel in PHP schreiben.

 

Viele Grüße

Harry

 

Ob man das in SQL machen kann: das kommt auf viele Faktoren an. Welches DBMS wird eingesetzt, von welchem Typ sind die betreffenden Spalten (CLOB, BLOB, ...), ...

Link zu diesem Kommentar
Das haben wir schonmal versucht. Rana hat ein Programm gschrieben, das diese HTML-Schnipsel wieder in BB-Codes umgsetzt hat. Das Ganze hat sich aber bei Testläufen als zu Komplex herausgestellt, sodass wir unsere Versuche abgebrochen haben.

 

Das Programm müßte ineinander verschachtelte Quotes verstehen, Font-Anweisungen etc. (sagte ich schon, dass all das noch ineinander verschachtelt sein kann?).

Vielleicht können wir mal Gehirnschmalz zusammenschmeißen.

 

Viele Grüße

Harry

Link zu diesem Kommentar
Das haben wir schonmal versucht. Rana hat ein Programm gschrieben, das diese HTML-Schnipsel wieder in BB-Codes umgsetzt hat. Das Ganze hat sich aber bei Testläufen als zu Komplex herausgestellt, sodass wir unsere Versuche abgebrochen haben.

 

Das Programm müßte ineinander verschachtelte Quotes verstehen, Font-Anweisungen etc. (sagte ich schon, dass all das noch ineinander verschachtelt sein kann?).

 

Das Hauptproblem war, dass ich nur raten kann welche HTML-Anweisung genau für welchen BB-Code steht. Es gibt immer einen Fall, den das Progamm nicht abdeckt und dshalb ganze Beiträge zerschießt.

 

Wie will man das kontrollieren? Wer schaut sich die Beiträge an um festzustellen, dass wieder der alte DB-Stand zurückgesichert werden muss? Vor allem muss das Zeitnah erfolgen. Die Prüfung muss abgeschlossen sein bevor das Forum wieder online geht.

 

Viele Grüße

hj

 

So ganz verstehe ich das nicht. Was muss in BB-Codes umgesetzt werden? "Von außen" sieht das Problem so aus, als würde normalerweise z. B. das '&' so in der DB stehen und 'on-the-fly' (durch die Foren-Software oder eine PHP-Funktion) zu einem '&' transformiert. Zu einem früheren Zeitpunkt sind aber wohl die named entities in die DB geschrieben worden. Die werden jetzt fälschlicherweise "escaped" und damit fehlerhaft dargestellt.

Link zu diesem Kommentar
Nee, das sind echte HTML-Schnipsel. Die stammen noch auch der Zeit, als wir hier Ikonboard als Forumssoftware verwendet haben.

 

Ikonboard hat in der Datenbank BB-Codes wie z.B. FONT, QUOTE, IMG, sogar die Anzeige von Smilies in HTML-Code umgewandelt und so gespeichert.

 

Viele Grüße

hj

 

Ok, ich glaube dann haben wir ein wenig aneinander vorbeigeredet. Es wäre sicherlich schön, wenn man alle Altlasten begradigen könnte, aber da habe ich mir von vornherein keine Hoffnungen gemacht (also z.B. bzgl. kaputte Quotes und fehlerhafte Schriftformatierungen). Ich hatte zunächst an eine Ersetzung der named entities gedacht ...

Link zu diesem Kommentar
Als nächstes steht übrigens die Umstellung des Forums nach UTF8 an. Im Moment abeitet das Forum nicht ordentlich mit dem CMS zusammen, weil das CMS mit UTF8 arbeitet, das Forum mit latin1. Das führt dazu, dass Benutzer mit Umlauten sich nicht anmelden können. :disgust:

 

Viele Grüße

hj

 

Da gibt es sehr schön diffizile Längenbeschränkungen bei MySQL im Zusammenhang im UTF-8. Viel Spaß dabei ;)

 

Achja, als Tipp: falls die Konvertierungsfunktion von MySQL nicht will, kann es hilfreich sein einen SQL-Export zu machen und dann die Daten mit INSERTs wieder reinzupumpen (in die "neue" UTF-8 Tabelle).

Bearbeitet von Gast
EDIT: Tipp hinzu
Link zu diesem Kommentar
Also ich kann meine AWK Kenntnisse anbieten. Falls es wirklich so komplex ist, wie HJ sagt, würden wir um eine vollwertige yacc/bison Implementierung nicht herumkommen.

Das schwierige ist weniger die Umsetzung. Das hatte Rana ganz gut im Griff. Das Problem war die Identifizierung der umzusetzenden Kombinationen.

 

Viele Grüße

hj

Link zu diesem Kommentar

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde Dich hier an.

Jetzt anmelden
×
×
  • Neu erstellen...