Benutzer Diskussion:UT-Bot/Archiv/2020

Letzter Kommentar: vor 3 Jahren von Udo T. in Abschnitt z.B. Dammriss
Archiv Diese Seite ist ein Archiv abgeschlossener Diskussionen. Ihr Inhalt sollte daher nicht mehr verändert werden. Benutze bitte die aktuelle Diskussionsseite, auch um eine archivierte Diskussion weiterzuführen.
Um einen Abschnitt dieser Seite zu verlinken, klicke im Inhaltsverzeichnis auf den Abschnitt und kopiere dann Seitenname und Abschnittsüberschrift aus der Adresszeile deines Browsers, beispielsweise
[[Benutzer Diskussion:UT-Bot/Archiv/2020#Abschnittsüberschrift]]
oder als „externer“ WikiLink
[http://de.wiktionary.org/wiki/Benutzer_Diskussion:UT-Bot/Archiv/2020#Abschnittsüberschrift]

z.B. Dammriss

Lieber fleißiger UT-Bot, du bist doch bei den Substantiven nun schon bei Nudelsuppe angelangt. Findest du z. B. einen Dammriss zu eklig, um ihn zu bearbeiten? Kommt der später dran? Ist da was komisch? Hauptfrage: Was soll ich machen, wenn ich den Artikel zufällig offen habe: Canoo rauslöschen oder nicht? --Seidenkäfer (Diskussion) 13:03, 7. Mai 2020 (MESZ)

Hallo Seidenkäfer, tja, das ist nun wirklich interessant... Im Eintrag „Dammriss“ steht Ref-Canoo ganz unten und es kommt danach auch kein "Quellen", "Ähnlichkeiten" oder eine Kategorie. Das ist der eigentliche Grund, warum ich diese Einträge bei diesem ersten Bot-Lauf nicht erfassen kann. Das Problem dabei: Der Bot muss ja die komplette Zeile mit Ref-Canoo suchen und entfernen, also auch den Zeilenumbruch (in der regex mittels \n dargestellt). Ansonsten würde dort unten Ref-Canoo zwar entfernt werden, die Leerzeile würde dann aber bleiben, was wohl nicht so toll wäre...
Wenn man das Bearbeitungsfenster für „Dammriss“ öffnet und ganz nach unten geht, dann erscheint dort zwar eine Leerzeile unterhalb von Ref-Canoo, aber in Wirklichkeit scheint diese Leerzeile offensichtlich nicht wirklich (also in der Datenbank) vorhanden zu sein.
Ich finde auf die Schnelle auch keine Möglichkeit, solche Spezialfälle in der Datenbank zu suchen, denn wenn ich den Zeilenumbruch bei der Suche weglasse, dann erhalte ich natürlich alle (also wirklich alle) Einträge. Ich werde dann also nach dem 20.05.2020 (nächster DB-Dump) erneut suchen gehen müssen. Dabei dürften dann nur noch die Fälle wie „Dammriss“ auftauchen, die ich halt dann erst korrigieren kann. Ich nehme aber mal schwer an, dass solche Fälle (Ref-Canoo ganz unten und danach rein gar nichts mehr) nicht sehr oft vorkommen. Von daher mache ich mir deswegen nicht allzu viele Sorgen und werde nach dem 20.05.2020 einfach erneut suchen, was noch übrig ist und dass dann im Anschluss korrigieren.
Du kannst natürlich gerne schon vorher solche Fälle bereinigen; ist überhaupt kein Problem. Dann sind es nach dem 20.05.2020 halt weniger Treffer... ;o)
Gruß --Udo T. (Diskussion) 13:40, 7. Mai 2020 (MESZ)
Ok. Danke! --Seidenkäfer (Diskussion) 13:43, 7. Mai 2020 (MESZ)
Hallo Udo T.
Wenn ich mich richtig erinnere, habe ich das mit dem vorhandenen/nicht vorhandenen Zeilenumbruch in der letzten Zeile im Eintrag mal so gelöst, dass ich die Suche in regex nicht mit \n sondern mit dem EndOfLine-Zeichen $ abgeschlossen habe. Vielleicht hilft das weiter. LG --Betterknower (Diskussion) 00:09, 8. Mai 2020 (MESZ)
Hallo Betterknower, ich muss bei diesen Bot-Lauf replace.py ja mit dem Parameter -multiline laufen lassen und um die "Ref-Canoo"-Zeile unten bei den Referenzen komplett wegzubekommen, musste ich die regex mit '^…$\n' angeben und die so gefundenen Treffer mit nichts (also '') ersetzen. Ich hab das mehrfach ausprobiert und nur so hat das wirklich sicher funktioniert. Bis halt auf diese Ausnahmen wenn die "Ref-Canoo"-Zeile ganz unten steht und danach gar nichts mehr kommt, wie ich nach dem Hinweis von Seidenkäfer erfahren musste. Aber wie schon oben geschrieben, verkopfe ich mich da jetzt überhaupt nicht. Mein Bot hat jetzt dann fast die Hälfte durch und ich bin mir ziemlich sicher, dass es nicht viele solcher Fälle wie in „Dammriss“ geben wird. Nach dem 20.05.2020 suche ich dann einfach im Singleline-Modus und ohne das \n am Ende und erledige so diese verbliebenen Ausnahmefälle dann auch noch. Gruß --Udo T. (Diskussion) 01:09, 8. Mai 2020 (MESZ)
P.S.: Hm, aber vielleicht hätte es mit '\n^…$' funktioniert. Muss ich mir morgen mal genauer anschauen und wenn es das sein sollte, für die Zukunft merken. --Udo T. (Diskussion) 01:12, 8. Mai 2020 (MESZ)

Hallo Betterknower, das hat mir jetzt doch keine Ruhe gelassen. Ich hätte in der Tat (wie oben im P.S. noch vermutet) anstatt '^…$\n' einfach nur '\n^…$' nehmen müssen. Ich habe nun schnell die Differenz ermittelt (doch knapp über 1.000 Einträge), diese in das Inputfile eingefügt, die Regex angepasst (also nun mit '\n^…$') und neu gestartet. Damit sollten dann auch alle Einträge erfasst werden, in denen Ref-Canoo ganz unten vorkommt und danch nichts mehr. Hätte ich eigentlich gleich draufkommen müssen/sollen, aber ich war der festen Meinung, dass die Leerzeile, die man im Bearbeitenfenster sieht, auch im XML-Dump enthalten ist. Gruß --Udo T. (Diskussion) 02:08, 8. Mai 2020 (MESZ)

Archivierung dieses Abschnittes wurde gewünscht von: Udo T. (Diskussion) 21:38, 22. Dez. 2020 (MEZ)
Zurück zur Benutzerseite von „UT-Bot/Archiv/2020“.