Benutzer Diskussion:UT-Bot/Duden-Link-Check/täglich

Letzter Kommentar: vor 2 Jahren von Udo T. in Abschnitt Dokumentation

Hinweise

Zu den Korrekturen:

  • Manchmal kommt es vor, dass Ref-Duden bei uns in einem Eintrag steht, obwohl duden.de den Begriff gar nicht führt. Dann ist natürlich Ref-Duden zu entfernen, siehe z. B. hier
ergibt
Im Quelltext bei uns steht dann oft nur {{Ref-Duden}} oder aber (am Beispiel „Schar“) nur {{Ref-Duden|Schar}}.
Dies ist (am Beispiel „Schar“) dann zu
  • {{Ref-Duden|Schar_Gruppe_Menge|Schar (Gruppe, Menge)}} und
  • {{Ref-Duden|Schar_Pflugschar|Schar (Pflugschar)}}
zu korrigieren, wie das z. B. hier geschehen ist.
Für den 1. Parameter in Ref-Duden nimmt man dazu den hinteren Teil der URLs zu duden.de, die in den obigen Beispielen fett markiert wurden.
Für den 2. Parameter in Ref-Duden sollte man dann nach Möglichkeit immer eine etwas sprechendere Bezeichnung wählen und ggf. außerdem Umlaute (ue, ae, oe) sowie das sz korrekt wiedergeben.
  • Es kann auch vorkommen, dass zum Zeitpunkt des Korrigierens nur eine Bedeutung bei uns im Eintrag steht. Dann kann man die Vorlage {{Wortart fehlt}} ergänzen. Das ist sehr häufig bei Einwohnerbezeichnungen der Fall, die aber auch gleichzeitig als Adjektiv verwendet werden, siehe z. B. Schweizer
Dann korrigiert man (am Beispiel „Rostocker“) unter den Referenzen:
  • Ref-Duden zu {{Ref-Duden|Rostocker_Einwohner_Rostock|Rostocker (Einwohner aus Rostock)}}
  • und trägt oben nach der Ebene-2-Überschrift {{Wortart fehlt|Adjektiv|W=j|anm={{Ref-Duden|Rostocker_Adjektiv_Rostock|Rostocker (Adjektiv Rostock)}}}} ein, siehe diese Korrektuer
Handelt es sich bei dem noch fehlenden Abschnitt um ein Substantiv, dann sähe die Ergänzung für {{Wortart fehlt}} z. B. so aus: {{Wortart fehlt|Substantiv|zus=, {{m}}|anm={{Ref-Duden|Schur_Verdruss_Plage|Schur (Verdruss, Plage)}}}}, siehe hier
  • Bei eher „ausgefalleneren“ Wörtern kann es sich auch lohnen, die anderen Referenzen zu überprüfen, vor allem, wenn es deren viele sind.

Dokumentation

Es ist geplant, zukünftig neben ca. 2 - 3 x im Jahr stattfindenden kompletten Suchläufen über alle Seiten mit einem Link zu duden.de auch einen täglichen Suchlauf (nach 02:00 Uhr, da die Wikimedia-Datenbanken die UTC-Zeit speichern) über Einträge zu machen, die entweder am vorherigen Tag neu angelegt oder bearbeitet wurden und die einen Link zu duden.de enthalten.

Dadurch bleibt das Wiktionary noch aktueller, was die Links zu duden.de anbetrifft und außerdem wird es dann bei den ca. 2 - 3 x im Jahr stattfindenden kompletten Suchläufen auch weniger Treffer und damit weniger zu korrigieren geben.

SQL

Es ändert sich dafür eigentlich nur das SQL:

select /* SLOW_OK */
    distinct concat("[[", convert(rc.rc_title, char(255)), "]] —> ",
           concat(replace(el.el_to_domain_index, '//de.duden.www.', '//www.duden.de')),el.el_to_path)
from recentchanges rc,
     externallinks el
where rc.rc_namespace = 0
  and rc.rc_timestamp >= concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'00')
  and rc.rc_timestamp <= concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'99')
  and rc.rc_bot = 0
  and el.el_from = rc.rc_cur_id
  and el.el_to_domain_index like 'https://de.duden.www.%'
  and el.el_to_path like '/rechtschreibung/%'
order by rc.rc_title;

Wobei die beiden rc.rc_timestamp dann natürlich variabel übergeben werden müssen. Das concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'00') erzeugt dabei einen '2022021900' (ausgehend vom 20.02.22 also einen Tag zurück) und das concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'99') dann einen '2022021999'.

Es wird außerdem auch nur nach Bearbeitungen von Menschen (and rc.rc_bot = 0) gesucht.

python

Es wird dasselbe python-Skript wie unter Benutzer Diskussion:UT-Bot/Duden-Link-Check#python verwendet, außer dass andere Dateinamen verwendet werden:

#[...]

# bitte bei Bedarf in den 2 folgenden Parametern den kompletten Pfad ergänzen!!
linkfilename = "duden_links_taeglich.txt"
logfilename = "duden_taeglich.log"

#[...]

Im Normalfall gibt es selten mehr wie 200 Bearbeitungen an Einträgen mit einem Link zu duden.de. Das Script sollte also max. 10 - 15 Minuten brauchen.

Sofern überhaupt fehlerhafte Links gefunden wurden, wird der Inhalt von duden_taeglich.log dann mittels add_text.py umseitig (also auf Benutzer:UT-Bot/Duden-Link-Check/täglich) mit dem jeweiligen aktuellem Datum als Überschrift abgespeichert.

Wer dann beim täglichen Korrigieren mitmachen will, setzt Benutzer:UT-Bot/Duden-Link-Check/täglich einfach auf seine BEO (Achtung: die Seite wird aber immer von einem Bot aktualisiert!!). Wer dann zuerst kommt, mahlt zuerst. Sehr viel kann da in Zukunft sowieso nicht mehr zusammenkommen.

Ich muss mir dann noch etwas überlegen, was man machen kann, wenn duden.de nachts ab 01:00 Uhr eine Wartung laufen lässt oder sonstwie offline ist...

(t. b. c)

--Udo T. (Diskussion) 21:53, 21. Feb. 2022 (MEZ)Beantworten

Zurück zur Benutzerseite von „UT-Bot/Duden-Link-Check/täglich“.