Benutzer Diskussion:UT-Bot/Duden-Link-Check/täglich
Hinweise
Zu den Korrekturen:
- Manchmal kommt es vor, dass Ref-Duden bei uns in einem Eintrag steht, obwohl duden.de den Begriff gar nicht führt. Dann ist natürlich Ref-Duden zu entfernen, siehe z. B. hier
- Meistens aber hat ein Begriff bei duden.de mehrere Einträge und duden führt diese Einträge mit unterschiedlichen Verlinkungen, siehe z. B. diese Suche nach „Schar“, die die beiden URLS
- ergibt
- Im Quelltext bei uns steht dann oft nur
{{Ref-Duden}}
oder aber (am Beispiel „Schar“) nur{{Ref-Duden|Schar}}
.
- Dies ist (am Beispiel „Schar“) dann zu
{{Ref-Duden|Schar_Gruppe_Menge|Schar (Gruppe, Menge)}}
und{{Ref-Duden|Schar_Pflugschar|Schar (Pflugschar)}}
- zu korrigieren, wie das z. B. hier geschehen ist.
- Für den 1. Parameter in Ref-Duden nimmt man dazu den hinteren Teil der URLs zu duden.de, die in den obigen Beispielen fett markiert wurden.
- Für den 2. Parameter in Ref-Duden sollte man dann nach Möglichkeit immer eine etwas sprechendere Bezeichnung wählen und ggf. außerdem Umlaute (ue, ae, oe) sowie das sz korrekt wiedergeben.
- Es kann auch vorkommen, dass zum Zeitpunkt des Korrigierens nur eine Bedeutung bei uns im Eintrag steht. Dann kann man die Vorlage {{Wortart fehlt}} ergänzen. Das ist sehr häufig bei Einwohnerbezeichnungen der Fall, die aber auch gleichzeitig als Adjektiv verwendet werden, siehe z. B. Schweizer
- Dann korrigiert man (am Beispiel „Rostocker“) unter den Referenzen:
- Ref-Duden zu
{{Ref-Duden|Rostocker_Einwohner_Rostock|Rostocker (Einwohner aus Rostock)}}
- und trägt oben nach der Ebene-2-Überschrift
{{Wortart fehlt|Adjektiv|W=j|anm={{Ref-Duden|Rostocker_Adjektiv_Rostock|Rostocker (Adjektiv Rostock)}}}}
ein, siehe diese Korrektuer
- Handelt es sich bei dem noch fehlenden Abschnitt um ein Substantiv, dann sähe die Ergänzung für {{Wortart fehlt}} z. B. so aus:
{{Wortart fehlt|Substantiv|zus=, {{m}}|anm={{Ref-Duden|Schur_Verdruss_Plage|Schur (Verdruss, Plage)}}}}
, siehe hier
- Ref-Duden zu
- Bei eher „ausgefalleneren“ Wörtern kann es sich auch lohnen, die anderen Referenzen zu überprüfen, vor allem, wenn es deren viele sind.
- z. B. bei amateurwissenschaftlich
Dokumentation
Es ist geplant, zukünftig neben ca. 2 - 3 x im Jahr stattfindenden kompletten Suchläufen über alle Seiten mit einem Link zu duden.de auch einen täglichen Suchlauf (nach 02:00 Uhr, da die Wikimedia-Datenbanken die UTC-Zeit speichern) über Einträge zu machen, die entweder am vorherigen Tag neu angelegt oder bearbeitet wurden und die einen Link zu duden.de enthalten.
Dadurch bleibt das Wiktionary noch aktueller, was die Links zu duden.de anbetrifft und außerdem wird es dann bei den ca. 2 - 3 x im Jahr stattfindenden kompletten Suchläufen auch weniger Treffer und damit weniger zu korrigieren geben.
SQL
Es ändert sich dafür eigentlich nur das SQL:
select /* SLOW_OK */
distinct concat("[[", convert(rc.rc_title, char(255)), "]] —> ",
concat(replace(el.el_to_domain_index, '//de.duden.www.', '//www.duden.de')),el.el_to_path)
from recentchanges rc,
externallinks el
where rc.rc_namespace = 0
and rc.rc_timestamp >= concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'00')
and rc.rc_timestamp <= concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'99')
and rc.rc_bot = 0
and el.el_from = rc.rc_cur_id
and el.el_to_domain_index like 'https://de.duden.www.%'
and el.el_to_path like '/rechtschreibung/%'
order by rc.rc_title;
Wobei die beiden rc.rc_timestamp dann natürlich variabel übergeben werden müssen.
Das concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'00')
erzeugt dabei einen '2022021900' (ausgehend vom 20.02.22 also einen Tag zurück) und das concat(DATE_FORMAT(DATE_SUB(NOW(), INTERVAL 1 DAY), '%Y%m%d'),'99')
dann einen '2022021999'.
Es wird außerdem auch nur nach Bearbeitungen von Menschen (and rc.rc_bot = 0
) gesucht.
python
Es wird dasselbe python-Skript wie unter Benutzer Diskussion:UT-Bot/Duden-Link-Check#python verwendet, außer dass andere Dateinamen verwendet werden:
#[...]
# bitte bei Bedarf in den 2 folgenden Parametern den kompletten Pfad ergänzen!!
linkfilename = "duden_links_taeglich.txt"
logfilename = "duden_taeglich.log"
#[...]
duden_taeglich.log -> Benutzer:UT-Bot/Duden-Link-Check/täglich
Im Normalfall gibt es selten mehr wie 200 Bearbeitungen an Einträgen mit einem Link zu duden.de. Das Script sollte also max. 10 - 15 Minuten brauchen.
Sofern überhaupt fehlerhafte Links gefunden wurden, wird der Inhalt von duden_taeglich.log dann mittels add_text.py umseitig (also auf Benutzer:UT-Bot/Duden-Link-Check/täglich) mit dem jeweiligen aktuellem Datum als Überschrift abgespeichert.
Wer dann beim täglichen Korrigieren mitmachen will, setzt Benutzer:UT-Bot/Duden-Link-Check/täglich einfach auf seine BEO (Achtung: die Seite wird aber immer von einem Bot aktualisiert!!). Wer dann zuerst kommt, mahlt zuerst. Sehr viel kann da in Zukunft sowieso nicht mehr zusammenkommen.
Ich muss mir dann noch etwas überlegen, was man machen kann, wenn duden.de nachts ab 01:00 Uhr eine Wartung laufen lässt oder sonstwie offline ist...
(t. b. c)