Benutzer:BetterkBot/Botläufe und Botprogrammierung/Archiv 201401
Bot: {Silbentrennung} -> {Worttrennung}, Form
Bearbeiten- ab Datum: 8.4.2012
- Beispiele: Unterseeboot, Polen, infinitesimal, klieben, Berg, choose, Hörensagen, Teilchenbeschleuniger, Kuhmilch
- user-fixes.py:
#{{Silbentrennung}} -> {{Worttrennung}} (ur'{Silbentrennung}} ??', u'{Worttrennung}}'), #verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)', u'\\1\n|\\3'), #entlinke Bspwörter wie [[jak]] oder [[nie#nie_(Polnisch)|Nie]], ausgenommen [[w: [[:w: [[q: [[s: (WP, wikiquote, wikisource) #erkennt max nur je 10 Links in {Beispiele}; Leerzeile markiert Ende der {Beispiele} (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), ... 10x (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), ... 10x #enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entferne die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'), #enthält {Ref-Grimm} ein 'ßäöüÄÖÜ' und 3 Pkte, ersetze es durch 'sz|ae|oe|ue|Ae|Oe|Ue' und entferne die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ß([a-zA-Z-]*?)\|\.\.\.}}', u'\\1sz\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ae\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ue\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ae\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Oe\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ue\\2}}'), #entferne {Ähnlichkeiten}, falls leer (ur'(\s\n){{Ähnlichkeiten}}\s\n[\n|\s][\n|\s]', u'\\1'), (ur'\s\n{{Ähnlichkeiten}}\s\n:[\n|\s][\n|\s]', u''), #entferne Kommentar, Kategorie (ur'<!-- /(Flexions|Dialekt)tabelle\s?\n/-->', u''), (ur'(Ähnlichkeiten}})<!-- tot beim Eintrag von Tod\, und umgekehrt -->\s', u'\\1'), (ur'<!-- Links/Rechts -->', u''), (ur'<!-- Unterbegriffe absteigend nach Größe sortiert -->', u''), (ur'\s\n\[\[Kategorie:(Audio-Datei|Vorname|Toponym)\]\]\s\n', u''), #''f'' -> {{f}} (ur'} \'\'([fmn])\'\'', u'} {{\\1}}'), #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'), #-> genau eine Zeile vor Textbausteinen sowie vor Flexvorl der wichtigsten Sprachen, nicht mehr und nicht weniger (ur'\s*?\n{{(Anmerkung|Alternative Schreibweisen|Nebenformen|Silbentrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle|Deutsch|Englisch|Italienisch|Französisch|Polnisch|Katalanisch|Lateinisch|Okzitanisch|Tschechisch|Spanisch|Ungarisch)', u'\n\n{{\\1'), #entferne Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #ersetze Diverses (ur'<br clear="all"( /)?>', u'{{Absatz}}'), (ur' [pS]\.( | )(\d)', u' Seite \\2'), (ur'(<br)/??>', u'\\1 />'), (ur'Wikipedia-Artikel „\[\[:?w:([^\|]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'),
- Aufruf:
python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120321-pages-articles.xml" -excepttitle:: -excepttitle:ation\) -fix:Worttrg
- Änderung am Bot:
(ur'Wikipedia-Artikel „\[\[:?w:([^\|:]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'), (ur'(Isländischer )??Wikipedia-Artikel „\[\[:?w:is:([^\|]*?)\|[^\]]*?\]\]“', u'Isländischer {{Wikipedia2|is|\\2}}'), (ur'(Färöischer )??Wikipedia-Artikel „\[\[:?w:fo:([^\|]*?)\|[^\]]*?\]\]“', u'Färöischer {{Wikipedia2|fo|\\2}}'), (ur'(Englischer )??Wikipedia-Artikel „\[\[:?w:en:([^\|]*?)\|[^\]]*?\]\]“', u'Englischer {{Wikipedia2|en|\\2}}'), (ur'(Russischer )??Wikipedia-Artikel „\[\[:?w:ru:([^\|]*?)\|[^\]]*?\]\]“', u'Russischer {{Wikipedia2|ru|\\2}}'), (ur'(Italienischer )??Wikipedia-Artikel „\[\[:?w:it:([^\|]*?)\|[^\]]*?\]\]“', u'Italienischer {{Wikipedia2|it|\\2}}'), (ur'(Schwedischer )??Wikipedia-Artikel „\[\[:?w:sv:([^\|]*?)\|[^\]]*?\]\]“', u'Schwedischer {{Wikipedia2|sv|\\2}}'), (ur'(Lateinischer )??Wikipedia-Artikel „\[\[:?w:la:([^\|]*?)\|[^\]]*?\]\]“', u'Lateinischer {{Wikipedia2|la|\\2}}'),
- Änderung am Bot:
#schreibe S. aus und klammere Zitate (mit AnfZeichen unten beginnend) aus; siehe [[passim]] (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'),
- Änderung am Bot, 4.5.2012:
#entferne alle {Ähnlichkeiten} die leer sind, egal ob mit oder ohne Doppelpkt in der Folgezeile (ur'^{{Ähnlichkeiten}}\r?\n:?\s*?\r?\n\s*$', u''),
Bot: {Silbentrennung} -> {Worttrennung}, Formatvorlagen
Bearbeiten- user-fixes.py:
(ur'{Silbentrennung}}', u'{Worttrennung}}'),
- Aufruf: python replace.py -ns:10 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120427-pages-articles.xml" -titleregex:Vorlage:Formatvorlage -fix:Test
- Start: 12.4.2012
- Beispiele: Vorlage:Formatvorlage Italienisch (Verb)
Bot: eliminiere {Fremdsprachige Beispiele} und <br />, Form
Bearbeiten- user-fixes.py:
#eliminiere {Fremdsprachige Beispiele} und <br /> (Lyrik); nacheinander abgearbeitet! (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5\n::\\6\n::\\7\n::\\8'), #1Bsp 5ZUmbr (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5\n::\\6\n::\\7'), #1Bsp 4ZUmbr (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5\n::\\6'), #1Bsp 3ZUmbr (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5'), #1Bsp 2ZUmbr (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4'), #1Bsp 1ZUmbr (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3'), #ohne ZUmbr #verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)', u'\\1\n|\\3'), #entlinke Bspwörter wie [[jak]] oder [[nie#nie_(Polnisch)|Nie]], ausgenommen [[w: [[:w: [[q: [[s: (WP, wikiquote, wikisource) #erkennt max nur je 10 Links in {Beispiele}; Leerzeile markiert Ende der {Beispiele} (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), #enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entferne die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'), #enthält {Ref-Grimm} ein 'ßäöüÄÖÜ' und 3 Pkte, ersetze es durch 'sz|ae|oe|ue|Ae|Oe|Ue' und entferne die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ß([a-zA-Z-]*?)\|\.\.\.}}', u'\\1sz\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ae\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ue\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ae\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Oe\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ue\\2}}'), #entferne {Ähnlichkeiten}, falls leer (ur'^{{Ähnlichkeiten}}\r?\n:?\s*?\r?\n\s*$', u''), #entferne Kommentar, Kategorie (ur'<!-- /(Flexions|Dialekt)tabelle\s?\n/-->', u''), (ur'(Ähnlichkeiten}})<!-- tot beim Eintrag von Tod\, und umgekehrt -->', u'\\1'), (ur'<!-- Links/Rechts -->', u''), (ur'<!-- Unterbegriffe absteigend nach Größe sortiert -->', u''), (ur'\s\n\[\[Kategorie:(Audio-Datei|Vorname|Toponym)\]\]\s\n', u''), #''f'' -> {{f}} (ur'} \'\'([fmn])\'\'', u'} {{\\1}}'), #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'), #-> genau eine Zeile vor Textbausteinen sowie vor Flexvorl der wichtigsten Sprachen, nicht mehr und nicht weniger (ur'\s*?\n{{(Anmerkung|Alternative Schreibweisen|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle|Deutsch|Englisch|Italienisch|Französisch|Polnisch|Katalanisch|Lateinisch|Okzitanisch|Tschechisch|Spanisch|Ungarisch)', u'\n\n{{\\1'), #entferne Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #ersetze Diverses (ur'^:\[1[-—–]2\]', u':[1, 2]'), (ur'<br clear="all"( /)?>', u'{{Absatz}}'), (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'), (ur'Wikipedia-Artikel „\[\[:?w:([^\|:]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'), (ur'(Englischer )??Wikipedia-Artikel „\[\[:?w:en:([^\|]*?)\|[^\]]*?\]\]“', u'Englischer {{Wikipedia2|en|\\2}}'), (ur'(Russischer )??Wikipedia-Artikel „\[\[:?w:ru:([^\|]*?)\|[^\]]*?\]\]“', u'Russischer {{Wikipedia2|ru|\\2}}'), (ur'(Italienischer )??Wikipedia-Artikel „\[\[:?w:it:([^\|]*?)\|[^\]]*?\]\]“', u'Italienischer {{Wikipedia2|it|\\2}}'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:FremdBspBr -transcludes:"Fremdsprachige Beispiele"
- Start: 7.6.2012
- Beispiele: Zypressenhain, Algieria, Steert, stochen, ależ
Bot: eliminiere Vorl {Fremdsprachige Beispiele} 1, Form
Bearbeiten- user-fixes.py:
#ersetze Vorl {Fremdspr Bsp} mit 1 Bsp (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\| ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)\s\n^\|??}}', u':\\1 \\2\n::\\3'), #verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)', u'\\1\n|\\3'), #entlinke Bspwörter wie [[jak]] oder [[nie#nie_(Polnisch)|Nie]], ausgenommen [[w: [[:w: [[q: [[s: (WP, wikiquote, wikisource) #erkennt max nur je 10 Links in {Beispiele}; Leerzeile markiert Ende der {Beispiele} (ur'(eispiele}}[^{=]*?)\[\[([a-z])\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), #[[i]] -> i (ur'(eispiele}}[^{=]*?)\[\[w\|W(e??)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1W\\2\\3'), #[[w|W]] -> W, [[w|We]] -> We (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), #enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entferne die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'), #enthält {Ref-Grimm} ein 'ßäöüÄÖÜ' und 3 Pkte, ersetze es durch 'sz|ae|oe|ue|Ae|Oe|Ue' und entferne die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ß([a-zA-Z-]*?)\|\.\.\.}}', u'\\1sz\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ae\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ue\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ae\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Oe\\2}}'), (ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ue\\2}}'), #entferne {Ähnlichkeiten}, falls leer (ur'^{{Ähnlichkeiten}}\r?\n:?\s*?\r?\n\s*$', u''), #entferne Kommentar, Kategorie (ur'<!-- /(Flexions|Dialekt)tabelle\s?\n/-->', u''), (ur'(Ähnlichkeiten}})<!-- tot beim Eintrag von Tod\, und umgekehrt -->', u'\\1'), (ur'<!-- Links/Rechts -->', u''), (ur'<!-- Unterbegriffe absteigend nach Größe sortiert -->', u''), (ur'\s\n\[\[Kategorie:(Audio-Datei|Vorname|Toponym)\]\]\s\n', u''), #''f'' -> {{f}} (ur'} \'\'([fmn])\'\'', u'} {{\\1}}'), #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'), #-> genau eine Zeile vor Textbausteinen sowie vor Flexvorl der wichtigsten Sprachen, nicht mehr und nicht weniger (ur'\s*?\n{{(Anmerkung|Alternative Schreibweisen|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle|Deutsch|Englisch|Italienisch|Französisch|Polnisch|Katalanisch|Lateinisch|Okzitanisch|Tschechisch|Spanisch|Ungarisch)', u'\n\n{{\\1'), #entferne Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #ersetze Diverses (ur'^:\[1[-—–]2\]', u':[1, 2]'), (ur'<br clear="all"( /)?>', u'{{Absatz}}'), (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'), (ur'(<br)/??>', u'\\1 />'), (ur'Wikipedia-Artikel „\[\[:?w:([^\|:]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'), (ur'(Englischer )??Wikipedia-Artikel „\[\[:?w:en:([^\|]*?)\|[^\]]*?\]\]“', u'Englischer {{Wikipedia2|en|\\2}}'), (ur'(Russischer )??Wikipedia-Artikel „\[\[:?w:ru:([^\|]*?)\|[^\]]*?\]\]“', u'Russischer {{Wikipedia2|ru|\\2}}'), (ur'(Italienischer )??Wikipedia-Artikel „\[\[:?w:it:([^\|]*?)\|[^\]]*?\]\]“', u'Italienischer {{Wikipedia2|it|\\2}}'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:FremdBsp -transcludes:"Fremdsprachige Beispiele"
- Start: 18.6.2012
- Beispiele: biologie, dudek, kalendarz, oiseau
Bot: eliminiere Vorl {Fremdsprachige Beispiele} 2, Form
Bearbeiten- user-fixes.py:
#ersetze Vorl {Fremdspr Bsp} mit 2 Bsp (ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\| ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)\s\n^\| ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6'), Rest wie oben
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:FremdBsp2 -transcludes:"Fremdsprachige Beispiele" -transcludes:"Fremdsprachige Beispiele"
- Start: 22.6.2012
- Beispiele: biologie, nie, Ksenia
Bot: eliminiere Vorl {Fremdsprachige Beispiele} 3, Form
Bearbeiten- user-fixes.py:
#ersetze Vorl {Fremdspr Bsp} mit 3 bis 6 Bsp (1-6 Bsp) (ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3'), #1Bp (ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6'), #2Bsp (ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9'), #3Bsp (ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9\n:\\10 \\11\n::\\12'), #4Bsp (ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9\n:\\10 \\11\n::\\12\n:\\13 \\14\n::\\15'), #5Bsp (ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9\n:\\10 \\11\n::\\12\n:\\13 \\14\n::\\15\n:\\16 \\17\n::\\18'), #6Bsp Rest wie oben
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:FremdBsp3 -transcludes:"Fremdsprachige Beispiele"
- Start: 23.6.2012
- Beispiele: schenken, artykuł, persuadere, państwo, καί, nabídka, open, síť
Bot: ɔ̹ -> ɔ, Form
Bearbeiten- user-fixes.py:
#ersetze in ipa in cs Einträgen ɔ̹ durch ɔ (ur'({{Lautschrift\|[^\n]*?)ɔ̹', u'\\1ɔ'), (ur'({{Lautschrift\|[^\n]*?)ɔ̹', u'\\1ɔ'), (ur'(eispiele}}[^{=]*?)\[\[([a-z])\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), #[[i]] -> i (ur'(eispiele}}[^{=]*?)\[\[([a-z])\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), (ur'(eispiele}}[^{=]*?)\[\[w\|W(e??)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1W\\2\\3'), #[[w|W]] -> W, [[w|We]] -> We Rest wie oben
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:ipacs -cat:"Tschechisch" -excepttitle:: -excepttitle:tion\)
- Start: 29.6.2012
- Beispiele: brokolice, fazole, fialový, aby
Bot: {Adj-Tabelle} -> {Deutsch Adj Übersicht}; Grundform -> Positiv...
Bearbeiten- user-fixes.py:
#nacheinander abgearbeitet! {{Adjektiv-Tabelle}} und {{Adjektiv-Tabelle (Deklination)}} -> {{Deutsch Adjektiv Übersicht}} #Grundform -> Positiv, 1. Steigerung -> Komparativ, 2. Steigerung -> Superlativ #mit Großbuchstaben beginnend: keine weiteren Formen=ja #(ur'^{{Adjektiv-Tabelle( \(Deklination\))? ??(\|\r?\n|\r?\n\|) ??Grundform ??= ??([A-ZÄÖÜ][^\n]*?)\r?\n\| ??1. Steigerung ??= ??([^\n]*?)\r?\n\| ??2. Steigerung ??= ??([^\n]*)', u'{{Deutsch Adjektiv Übersicht\n|Positiv=\\3\n|Komparativ=\\4\n|Superlativ=\\5\n|keine weiteren Formen=ja') #{{fehlend}} -> — #(ur'^{{Adjektiv-Tabelle( \(Deklination\))? ??(\|\r?\n|\r?\n\|) ??Grundform ??= ??([^\n]*?)\r?\n\| ??1. Steigerung ??= ??{{fehlend}}\r?\n\| ??2. Steigerung ??= ??{{fehlend}}', u'{{Deutsch Adjektiv Übersicht\n|Positiv=\\3\n|Komparativ=—\n|Superlativ=—') #mit Bildern #(ur'^{{Adjektiv-Tabelle( ??\(Deklination\))? ??(\|\r?\n|\r?\n\|)\|??( ??Bild[^}]*?) ??Grundform ??= ??([^\n]*?)\r?\n ??\| ??1. Steigerung ??= ??([^\n]*?)\r?\n\| ??2. Steigerung ??= ??([^\n]*?)', u'{{Deutsch Adjektiv Übersicht\n|\\3Positiv=\\4\n|Komparativ=\\5\n|Superlativ=\\6') #Rest (ur'^{{Adjektiv-Tabelle( ??\(Deklination\))? ??(\|\r?\n|\r?\n\|)\|?? ??Grundform ??= ??([^\n]*?)\r?\n ??\| ??1. Steigerung ??= ??([^\n]*?)\r?\n\| ??2. Steigerung ??= ??([^\n]*?)', u'{{Deutsch Adjektiv Übersicht\n|Positiv=\\3\n|Komparativ=\\4\n|Superlativ=\\5')
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120705-pages-articles.xml" -fix:adjtab
- Start: 15.7.2012
- Beispiele: Tiroler, Moskauer, osmotisch, pittoresk, blümerant, gesprenkelt, homöostatisch
Bot: {Ref-wissen.de|Lexikon}, {Ref-wissen.de|Wörterbuch}
Bearbeiten- user-fixes.py:
#nacheinander abgearbeitet! #{Ref-wissen.de|xy -> {Ref-wissen.de|Lexikon|xy #(ur'({{Ref-wissen.de\|)([^\|\}\n]*?)}}', u'\\1Lexikon|\\2}}') # Ampel, Häsling (Haesling) Uml sind schon ersetzt, Söldner, Abdomen #{Ref-wissen.de|Frostmusterböden|1104022 -> {Ref-wissen.de|Lexikon|Frostmusterboeden|Frostmusterböden #(ur'({{Ref-wissen.de\|)([^\|\}\n]*?)ö([^\|\}\n]*?)\|\d*?}}', u'\\1Lexikon|\\2oe\\3|\\2ö\\3}}') # Frostmusterboden #{Ref-wissen.de|xy|1104022 -> {Ref-wissen.de|Lexikon|xy #(ur'({{Ref-wissen.de\|)([^\|\}\n]*?)\|\d*?}}', u'\\1Lexikon|\\2}}') # Aerobiologie, per os, Bilge #{Ref-WBwissen.de|mäandrisch -> {Ref-wissen.de|Wörterbuch|maeandrisch|mäandrisch #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ä([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1ae\\2|\\1ä\\2}}') # mäandrisch, maikäfern, Zeidelbär #{Ref-WBwissen.de|Schmöker -> {Ref-wissen.de|Wörterbuch|Schmoeker|Schmöker #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ö([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1oe\\2|\\1ö\\2}}') # Schmöker, skandalös #{Ref-WBwissen.de|Bürgerkrieg -> {Ref-wissen.de|Wörterbuch|Buergerkrieg|Bürgerkrieg #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ü([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1ue\\2|\\1ü\\2}}') # Bürgerkrieg, Flüchtlingswelle #{Ref-WBwissen.de|Linksaußen -> {Ref-wissen.de|Wörterbuch|Linksaussen|Linksaußen #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ß([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1ss\\2|\\1ß\\2}}') # Linksaußen #{Ref-WBwissen.de|Gebrechen -> {Ref-wissen.de|Wörterbuch|Gebrechen #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1}}') # Gebrechen, Rennpferd #{Ref-WBwissen.de|Freistoss|Freistoß -> {Ref-wissen.de|Wörterbuch|Freistoss|Freistoß (ur'{{Ref-WBwissen.de\|([^\|\}\n]+?)\|([^\}\n]+?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1|\\2}}') # Freistoß, Lamäng
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120705-pages-articles.xml" -fix:wiss
- Start: 21.7.2012
- Beispiele: Abdomen, Frostmusterboden, Bilge, maikäfern, Flüchtlingswelle, Rennpferd, Flächenbrand
Bot: Form, Form.
Bearbeiten- user-fixes.py:
#verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)', u'\\1\n|\\3'), #enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entf die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'), #enthält {Ref-Grimm} ein 'ö' und 3 Pkte, ersetze es durch 'oe' und entf die Pkte (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'), #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'), #genau eine Zeile vor Textbausteinen, nicht mehr und nicht weniger (ur'(\r?\n)+?{{(Anmerkung|Alternative Schreibweisen|Alte Rechtschreibung|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle)', u'\n\n{{\\2'), #genau eine Zeile vor Flexvorl häufiger Sprachen, nicht mehr und nicht weniger (Achtung: schopný) (ur'=(\r?\n)+?{{(Dänisch|Deutsch|Englisch|Französisch|Irisch|Isländisch|Italienisch|Katalanisch|Lateinisch|Niederländisch|Okzitanisch|Polnisch|Russisch|Spanisch|Tschechisch|Ungarisch)', u'=\n\n{{\\2'), #entf [[Kategorie:Illustration]] wenn Bild oder Bild 1 in Vorl (ur'(\|Bild( 1)??=.*?)\[\[Kategorie:Illustration\]\]', u'\\1'), # Wegerich, Gefriertruhe #entf [[Kategorie:Arabisch]] wenn {{Sprache|Arabisch}} (auch jede andere Spr sowie Umschrift) (ur'({{Sprache\|(?P<Spr>[^\}]*?)}}.*?)\[\[Kategorie:(?P=Spr)\]\]', u'\\1'), # du, ekwan, باب #entf [[Kategorie:Nachname]] wenn {{Wortart|Nachname|Sprache}} (auch jede andere Wortart) (ur'({{Wortart\|(?P<WArt>[^\|]*?)\|[^\}]*?}}.*?)\[\[Kategorie:(?P=WArt)\]\]', u'\\1'), # Montag, dieser, P, SMS (ur'({{Wortart\|(?P<WArt>[^\|]*?)\|(?P<Spr>[^}]*?)}}.*?)\[\[Kategorie:(?P=WArt) \((?P=Spr)\)\]\]', u'\\1'), # Albanien, Grenadinen #entf überzählige Leerst zw {Pl.} und {Lautschrift} (ur'{{Pl.}} +?{{Lautschrift\|', u'{{Pl.}} {{Lautschrift|'), # Polizei #entf Leerst nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #entf Leerst in ÜbersetzgsVorl vor }} und nach | (ur'({{Ü\|[a-z-]*?\|[^\|}]*?) }}', u'\\1}}'), (ur'({{Ü\|[a-z-]*?\|) ([^\|}]*?)}}', u'\\1\\2}}'), #entf überzählige Leerst in Überschr vor === (ur'^ *?==', u'=='), # szegénység (ur' ==', u' =='), # billion, zwirnen #erg fehlende Leerst in Überschr vor === und == (ur'([})])((=){2,3})\r?\n', u'\\1 \\2\n'), # sein, Rand #erg fehlende Leerst in Überschr nach === und == (ur'^==([^ =])', u'== \\1'), # Ethylen (ur'^(== [^(]*?) ??\({', u'\\1 ({'), # Aufschneider (ur'^==={', u'=== {'), # breakfast #''f'' -> {{f}} (ur' \'\'([fmn])\'\'', u' {{\\1}}'), (ur' \'\'m/f\'\'', u' {{mf}}'), #[1-2] -> [1, 2] (ur'^:\[1[-—–]2\]', u':[1, 2]'), (ur'<br clear="all"( /)??(br)??>', u'{{Absatz}}'), #S. oder p. -> Seite (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'), # ausgen Zitate (ur'(S\.|Seite)( | )([0-9-]*?[.;,] )Zitat S\.( | )(\d)', u'Seite \\3Zitat Seite \\5'), # Gentleman, Umlaut (ur' [pS]\.( | )((\d)*?\. ISBN)', u' Seite \\2'), # Sonagramm, Isotopie #-> <br /> (ur'(<br)/??>', u'\\1 />'), (ur'{{PAGENAME}}', u'{{subst:PAGENAME}}'), # Бојан, papír (ur'…', u'…'), # Hoffnung #IPA vor Hörbsp (ur'((<!--)??:{{Hörbeispiele}}[^\n]*?)\r?\n(:{{IPA}}[^\n]*?)\r?\n', u'\\3\n\\1\n'), # currus, akker #''kein Plural'' -> {{kPl.}} (ur'({{Pl\.}} )??\'\'kein Plural\'\'', u'{{kPl.}}'), # Korsika, Minsk #... -> … (…), sofern in [] oder nach Lautschrift| # scheint nun doch Konsens in der Community zu geben (ur'(\[|{{Lautschrift\|)\.\.\.(\]|}})', u'\\1…\\2'), # Gabel, Bönhase #Satzzeichen nach kursivem Wort ebenfalls kursiv, ausgen ''m'', ''mf'' (ur'(\'\'[^\'\s][^\'\s][^\'\s][^\'\s]*?)\'\'([.,!?:])([^\.\]\[\'"“<«])', u'\\1\\2\'\'\\3'), # er, Meer #entf Leerst am Zeilenende, ausgen nach [1] (ur'([^\d].) +?\r?\n', u'\\1\n'), # Varietas, Hand #entf <!--{{Abkürzungen}}--> usw. (ur'<!-- ??{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Verkleinerungsformen|Oberbegriffe|Unterbegriffe|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Ähnlichkeiten|----)}} ??-->', u''), #entf div Kommentare (ur'<!--( Bedeutung \[1\], andere Bedeutung \[2\],\.\.\. angeben - möglichst kurze Erklärung ??|-*?| hinter jedem oder vor allen Synonymen angegen, auf welche Bedeutung es/sie sich bezieht/en | Oberbegriffe aufsteigend nach Größe sortiert | für Bedeutung \[1\], andere Bedeutung \[2\], usw\. | Oberbegriffe aufsteigend nach Größe sorchent | Unterbegriffe absteigend nach Größe sorchent | Hier kannst du weitere Bausteine einsetzen, zum Beispiel für Synonyme Ober- oder Unterbegriffe. Eine Auswahl solcher Bausteine findest du über diesem Bearbeitungsfenster! | /Übersetzungstabelle |alphabetisch sortiert| tot beim Eintrag von Tod\, und umgekehrt | Links/Rechts | /(Flexions|Dialekt|Übersetzungs)tabelle(\r?\n)??/ ??| vor jedem Synonym angeben, auf welche Bedeutung es sich bezieht | Einträge üblicher Nachbarworte insbesondere gebräuchlicher Kombinationen \(was man sofort damit verbindet\)| vor jedem Synonym angeben, auf welche Bedeutung es sich bezieht )-->', u''), # Hering, Seidenschwanz, friend, drängen, Geschützturm, zulässig (ur'<!--( Trennzeichen "·"|{{----}}|- Substantiv Tabelle -)-->', u''), # contributo, Erbspüree, pische #entf in Überschr {{Wortart|Wortverbg}}, aber nur wenn auch {{Wortart|Redewendung}} (ur'({{Wortart\|Redewendung\|[^}]*?}}), {{Wortart\|Wortverbindung\|[^}]*?}}', u'\\1'), # Hals- und Beinbruch (ur'{{Wortart\|Wortverbindung\|[^}]*?}}, ({{Wortart\|Redewendung\|[^}]*?}})', u'\\1'), # auf der Nase herumtanzen #entf in Überschr {{Wortart|Eigenname}}, aber nur wenn {{Wortart|Toponym}} folgt # mit lookahead assertion: [http://docs.python.org/py3k/library/re.html#regular-expression-syntax] (ur'{{Wortart\|Eigenname\|[^}]*?}}, (?={{Wortart\|Top)', u''), # Skottland #entf leere ÜbersetzungsVorl, ausgen en fr it es (ur'\*{{(ar|ca|cs|da|eo|fi|fo|hu|is|ja|ko|la|nl|oc|pl|pt|ro|ru|sq|sr|tr|zh)}}: \[(1)??\] ??({{Ü\|\w\w\|}})??( {{}})??\r?\n', u''), # Tafelente, Olfaktorius, principio #entf Tabelle Dialektausdrücke falls leer (ur'{{Dialektausdrücke \(Deutsch\)\|\r?\n\*Alemannisch: ??\r?\n\*Bairisch: ??\r?\n\|\r?\n\*({{nds}}|Niedersächsisch): ??\r?\n\*Ostmitteldeutsch: ??\r?\n}}\r?\n', u''), (ur'{{Dialektausdrücke \(Deutsch\)\|\r?\n\*Berlinerisch: \[\] ??\r?\n\*Elsässisch: \[\] ??\r?\n\|\r?\n\*Kölsch: \[\] ??\r?\n\*Schwäbisch: \[\] ??\r?\n}}\r?\n', u''), # Pulverschnee (ur'{{Dialektausdrücke \(Deutsch\)\|\r?\n\*Bairisch: \[\] \[\[\]\] ??\r?\n\*Elsässisch: \[\] \[\[\]\] ??\r?\n\|\r?\n\*Kölsch: \[\] \[\[\]\] ??\r?\n\*Schwäbisch: \[\] \[\[\]\] ??\r?\n}}\r?\n', u''), # Anastazja #verlinke Sachgebiet (ur'({{Bedeutungen}}\r?\n: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Note, violin, Rückgrat #entf einsamen Doppelpkt, wenn davor und danach 1 Leerz (ur'\r?\n\r?\n:\r?\n\r?\n', u'\n'), # Erbspüree #entf überflüssige Leerz, max 1 Leerz (=2 newlines) untereinander (ur'(\r?\n){3,}', u'\n\n'), #entf leere Kommentartags (ur'(\r?\n)*?<!--(\r?\n)+?-->(\r?\n)*?', u''), # heimur, Erdmaus #entkommentiere {Beispiele} (ur'(\r?\n)*?<!--(\r?\n)*?({{Beispiele}}\r?\n:\[1\])(\r?\n)*?-->(\r?\n)*?', u'\n\n\\3\n'), # Portúgal, байрактар #entf (leere) Bausteine, wenn Folgezeile(n) leer und die darauffolgende Zeile nicht mit Doppelpkt beginnt (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Oberbegriffe|Unterbegriffe|Namensvarianten|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe)}}(\r?\n){2,}([^:])', u'\n\\3'), # Saksa, valere #entf (leere) Bausteine, sofern in Folgezeile : oder :[1] oder :[1] [[]] steht; diese Zeile hier darf nicht weiter oben stehen (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Weibliche Wortformen|Männliche Wortformen|Verkleinerungsformen|Oberbegriffe|Unterbegriffe|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Ähnlichkeiten)}}\r?\n:( ??\[1\] ??)?( ??\[\[\]\])?\r?\n([^:])', u'\\4'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120714-pages-articles.xml" -fix:form -excepttitle:: -excepttitle:tion\) -xmlstart:
- Aufruf.: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120714-pages-articles.xml" -fix:form -excepttitle:: -excepttitle:tion\) -excepttext:Grammatische -xmlstart:
- Start: 29.7.2012
- Start.: 13.9.2012
- Beispiele: siehe oben, jeweils nach den Funktionen
Bot: {veraltet} -> {va.}
Bearbeiten- user-fixes.py:
(ur'{{veraltet}}', u'{{va.}}'), # Greißler (ur'{{veraltet(\|[:,;])}}', u'{{va.\\1}}'), # Zelebrität
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"veraltet" -fix:veraltet
- Start: 9.11.2012
Bot: Form 2
Bearbeiten- user-fixes.py:
(ur'Hawaianisch', u'Hawaiianisch'), # hekau, aka (ur'hawaianisch', u'hawaiianisch'), # aa #entf auskommentierte Texte (Maori) (ur'<!--{{Silbentrennung}} *?\r?\n:·(\r?\n)?-->\r?\n\r?\n', u''), # Fabrisíus, Αριστοφάνης (ur'<!--{{Silbentrennung}} *?\r?\n:, {{Pl\.}} -->\r?\n\r?\n', u''), # honi (ur'{{(Ober|Unter)begriffe}}\r?\n<!-- (Ober|Unter)begriffe a(uf|b)steigend nach Größe sortiert\r?\n:(\[1\])??\r?\n-->\r?\n\r?\n', u''), # honi, pepakonu (ur'{{Synonyme}}\r?\n<!-- hinter jedem oder vor allen Synonymen angegen, auf welche Bedeutung es/sie sich bezieht/en\r?\n:\[1\] *?\r?\n(\r?\n)?-->\r?\n\r?\n', u''), # quiell, tatanga (ur'<!-- hinter jedem oder vor allen Synonymen angegen, auf welche Bedeutung es/sie sich bezieht/en-->\r?\n', u''), (ur'{{Beispiele}}\r?\n<!-- für Bedeutung \[1\], andere Bedeutung \[2\], usw\.\r?\n:\[1\] *?\r?\n(\r?\n)?-->\r?\n', u'{{Beispiele}}\n:[1]\n'), # honi, uaua (ur'{{Charakteristische Wortkombinationen}}\r?\n<!-- Einträge üblicher Nachbarworte insbesondere gebräuchlicher Kombinationen \(was man sofort damit verbindet\)\r?\n:\[1\] *?\r?\n(\r?\n)?-->\r?\n\r?\n', u''), # honi, uaua (ur'{{Abgeleitete Begriffe}}\r?\n<!-- Abgeleitete Begriffe alphabetisch sortiert \(z\.B\. Wörterbuch, wortgewandt\) :\[1\] *?\r?\n\r?\n(\r?\n)?-->', u''), # vene, quiell (ur'<!-- ??{{Alternative Schreibweise}} ??-->', u''), # pōpokorua, whakakai (ur' ??<!--\(Bild\)\|\r?\nBild=\?\?\?\.jpg\|210px\|1\|\?\?\?-->', u''), # jannarzu, marché de Noël #verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)', u'\\1\n|\\3'), #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'), #genau eine Zeile vor Textbausteinen, nicht mehr und nicht weniger ###(ur'(\r?\n)+?{{(Anmerkung|Alternative Schreibweisen|Alte Rechtschreibung|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten)}}', ### u'\n\n{{\\2}}'), # Emblem, agat (ur'(\r?\n)+?{{(Adjektiv-Tabelle|Verb-Tabelle)', u'\n\n{{\\2'), # kurzweilen #genau eine Zeile vor Flexvorl häufiger Sprachen, nicht mehr und nicht weniger (Achtung: schopný) (ur'=(\r?\n)+?{{(Dänisch|Deutsch|Englisch|Französisch|Irisch|Isländisch|Italienisch|Katalanisch|Lateinisch|Niederländisch|Okzitanisch|Polnisch|Russisch|Spanisch|Tschechisch|Ungarisch)', u'=\n\n{{\\2'), #neue Zeile nach Worttrg (ur'({{Worttrennung}}): ', u'\\1\n:'), # Eysturríki (ur'({{Worttrennung}})(\S[^-])', u'\\1\n:\\2'), #pona, marchew #entf [[Kategorie:Illustration]] wenn Bild oder Bild 1 in Vorl (ur'(\|Bild( 1)??=.*?)\[\[Kategorie:Illustration\]\]', u'\\1'), # Wegerich, Gefriertruhe #entf Leerst nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #entf Leerst in ÜbersetzgsVorl vor }} und nach | (ur'({{Ü\|[a-z-]*?\|[^\|}]*?) }}', u'\\1}}'), (ur'({{Ü\|[a-z-]*?\|) ([^\|}]*?)}}', u'\\1\\2}}'), #entf überzählige Leerst in Überschr vor === (ur' ==', u' =='), # billion, zwirnen #erg fehlende Leerst in Überschr vor === und == (ur'([})])((=){2,3})\r?\n', u'\\1 \\2\n'), # sein, Rand #erg fehlende Leerst in Überschr nach === und == (ur'^==([^ =])', u'== \\1'), # Ethylen (ur'^(== [^(]*?) ??\({', u'\\1 ({'), # Aufschneider (ur'^==={', u'=== {'), # breakfast #''f'' -> {{f}} (ur' \'\'([fmn])\'\'([^-])', u' {{\\1}}\\2'), (ur' \'\'m/f\'\'', u' {{mf}}'), #[1-2] -> [1, 2] (ur'^:\[1[-—–]2\]', u':[1, 2]'), (ur'<br clear="all"( /)??(br)??>', u'{{Absatz}}'), #S. oder p. -> Seite (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'), # ausgen Zitate (ur'(S\.|Seite)( | )([0-9-]*?[.;,] )Zitat S\.( | )(\d)', u'Seite \\3Zitat Seite \\5'), # Gentleman, Umlaut (ur' [pS]\.( | )((\d)*?\. ISBN)', u' Seite \\2'), # Sonagramm, Isotopie #-> <br /> (ur'(<br)/??>', u'\\1 />'), (ur'{{PAGENAME}}', u'{{subst:PAGENAME}}'), # Бојан, papír (ur'…', u'…'), # Hoffnung #''kein Plural'' -> {{kPl.}} (ur'({{Pl\.}} )??\'\'kein Plural\'\'', u'{{kPl.}}'), # Korsika, Minsk #... -> … (…), sofern in [] oder nach Lautschrift| (ur'(\[|{{Lautschrift\|)\.\.\.(\]|}})', u'\\1…\\2'), # Gabel, Bönhase #Satzzeichen nach kursivem Wort ebenfalls kursiv, ausgen ''m'', ''mf'' #vorerst auskommentiert, s. Disku zu WT:Typografie ###(ur'(\'\'[^\'\s][^\'\s][^\'\s][^\'\s]*?)\'\'([.,!?:])([^\.\]\[\'"“<«])', u'\\1\\2\'\'\\3'), # er, Meer #entf Leerst am Zeilenende, ausgen nach [1] (ur'([^\d].) +?\r?\n', u'\\1\n'), # Varietas, Hand #entf in Überschr {{Wortart|Wortverbg}}, aber nur wenn auch {{Wortart|Redewendung}} (ur'({{Wortart\|Redewendung\|[^}]*?}}), {{Wortart\|Wortverbindung\|[^}]*?}}', u'\\1'), # Hals- und Beinbruch (ur'{{Wortart\|Wortverbindung\|[^}]*?}}, ({{Wortart\|Redewendung\|[^}]*?}})', u'\\1'), # auf der Nase herumtanzen #entf in Überschr {{Wortart|Eigenname}}, aber nur wenn {{Wortart|Toponym}} folgt # mit lookahead assertion: [http://docs.python.org/py3k/library/re.html#regular-expression-syntax] (ur'{{Wortart\|Eigenname\|[^}]*?}}, (?={{Wortart\|Top)', u''), # Skottland #entf leere ÜbersetzungsVorl, ausgen en fr it es (ur'\*{{(ar|ca|cs|da|eo|fi|fo|hu|is|ja|ko|la|nl|oc|pl|pt|ro|ru|sq|sr|tr|zh)}}: \[(1)??\] ??({{Ü\|\w\w\|}})??( {{}})??\r?\n', u''), # Tafelente, Olfaktorius, principio #verlinke Sachgebiet (ur'({{Bedeutungen}}\r?\n: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Note, violin, Rückgrat #entf einsamen Doppelpkt, wenn davor und danach 1 Leerz (ur'\r?\n\r?\n:\r?\n\r?\n', u'\n'), # Erbspüree #entf überflüssige Leerz, max 1 Leerz (=2 newlines) untereinander ###(ur'(\r?\n){3,}', u'\n\n'), #entf leere Kommentartags (ur'(\r?\n)*?<!--(\r?\n)+?-->(\r?\n)*?', u''), # heimur, Erdmaus #entkommentiere {Beispiele} (ur'(\r?\n)*?<!--(\r?\n)*?({{Beispiele}}\r?\n:\[1\])(\r?\n)*?-->(\r?\n)*?', u'\n\n\\3\n'), # Portúgal, байрактар #entf (leere) Bausteine, wenn Folgezeile(n) leer und die darauffolgende Zeile nicht mit Doppelpkt beginnt (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Oberbegriffe|Unterbegriffe|Namensvarianten|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe)}}(\r?\n){2,}([^:])', u'\n\\3'), # Saksa, valere #entf (leere) Bausteine, sofern in Folgezeile : oder :[1] oder :[1] [[]] steht; diese Zeile hier darf nicht weiter oben stehen (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Weibliche Wortformen|Männliche Wortformen|Verkleinerungsformen|Oberbegriffe|Unterbegriffe|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Ähnlichkeiten)}}\r?\n:( ??\[1\] ??)?( ??\[\[\]\])?\r?\n([^:])', u'\\4'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20121102-pages-articles.xml" -fix:Form2 -xmlstart:
- Start: 10.11.2012
Bot: Form 3
Bearbeiten- user-fixes.py:
#Ortsnamen-Grundwort -> Ortsnamengrundwort (ur'\[\[Ortsnamen-Grundwort\]\]', u'[[Ortsnamengrundwort]]'), # Hain (ur'Wortart\|Ortsnamen-Grundwort', u'Wortart|Ortsnamengrundwort'), # -bach, -by #füge fehlende Leerst zw Komma und {{Wortart| ein (ur',{{Wortart\|', u', {{Wortart|'), # -möle, Meksîk #ers auskommentierte [[Hilfe:Hörbeispiele|Hörbeispiele]] und [[Hilfe:IPA|IPA]] (ur'<!--(\r?\n)+?{{(Silben|Wort)trennung}}\r?\n:, {{Pl\.}}\r?\n\r?\n{{Aussprache}}\r?\n:\[\[Hilfe:Hörbeispiele\|Hörbeispiele\]\]: {{fehlend}}, {{Pl\.}} {{fehlend}}\r?\n:\[\[Hilfe:IPA\|IPA\]\]: {{Lautschrift\|…}}, {{Pl\.}} {{Lautschrift\|…}}\r?\n-->', u'{{Worttrennung}}\n:, {{Pl.}}\n\n{{Aussprache}}\n:{{IPA}} {{Lautschrift|…}}, {{Pl.}} {{Lautschrift|…}}\n:{{Hörbeispiele}} {{fehlend}}, {{Pl.}} {{fehlend}}'), # sólskjálftafræði, mačka #entf Müll (ur'\r?\n<!-- Abgeleitete Begriffe alphabetisch sortiert \(z\.B\. Wörterbuch, wortgewandt\) :\[1\] ??(\r?\n)+?-->\r?\n', u'\n\n'), # honi, pepakonu #entf aus Vorl {{Wikipedia|}} Leerst nach | und vor }} (ur'({{Wikipedia\|) +([^}]+?) +}}', u'\\1\\2}}'), # cervogia, pepakonu (ur'({{Wikipedia\|spr=([^\|]+?)\|) +([^}]+?) +}}', u'\\1\\3}}'), # reo, hōʻikeʻike #{Abkürzungen} vor {Herkunft}; erkennt leider keine fremden Schriften (ur'({{(Anker\|)??Herkunft}}\r?\n[-=:\w\d \'\[\]\|<>(){}„“/.,;!?"#]*?\r?\n\r?\n)({{Abkürzungen}}.+?\r?\n\r?\n)', u'\\3\\1'), # Grundstück, Achill #weiterer Botlauf mit -excepttext:{{----}} -excepttext:{{2x----}} #(ur'({{Herkunft}}.+?\r?\n\r?\n)({{Abkürzungen}}.+?\r?\n\r?\n)', u'\\2\\1'), (ur'{{veraltet}}', u',{{va.}}'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20121115-pages-articles.xml" -fix:Form3 -xmlstart:
- Start: 25.11.2012
Bot: GrammM
Bearbeiten- user-fixes.py:
#korr Reihenfolge der Formen: zuerst Sg, dann Pl #(ur'({{Grammatische Merkmale}}\r?\n)(\*Nominativ Plural des Su[^\n]*?\r?\n)(\*Genitiv Singular des Su[^\n]*?\r?\n)(\*Genitiv Plural des Su[^\n]*?\r?\n)(\*Dativ Singular des Su[^\n]*?\r?\n)(\*Dativ Plural des Su[^\n]*?\r?\n)(\*Akkusativ Singular des Su[^\n]*?\r?\n)(\*Akkusativ Plural des Su[^\n]*?\r?\n)', u'\\1\\3\\5\\7\\2\\4\\6\\8'), # Buchfinken, Athleten (ur'({{Grammatische Merkmale}}\r?\n)(\*Nominativ Plural des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n(\*Genitiv Plural des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n(\*Dativ Singular des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n(\*Akkusativ Plural des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n', u'\\1\\6\'\'\'\\7\'\'\'\n\\2\'\'\'\\3\'\'\'\n\\4\'\'\'\\5\'\'\'\n\\8\'\'\'\\9\'\'\'\n'), # Ballaste, Astronyme
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20121115-pages-articles.xml" -fix:GrammM -xmlstart:
- Start: 3.1.2013
Bot: VerbUbers
Bearbeiten- user-fixes.py:
#Vorlagenname: {{Tschechisch Verb Übersicht Imperf/Perf -> imperfektiv/perfektiv}}. Entf Leerst in Vorl (ur'{{Tschechisch Verb Übersicht Imperf', u'{{Tschechisch Verb Übersicht imperfektiv'), # vařit, trvat (ur'{{Tschechisch Verb Übersicht Perf', u'{{Tschechisch Verb Übersicht perfektiv'), (ur'(\|imperfektiv) +?=', u'\\1='), (ur'(\|perfektiv) +?=', u'\\1='), (ur'(\|\d\. Person Singular) +?=', u'\\1='), (ur'(\|\d\. Person Plural) +?=', u'\\1='), (ur'(\|Präteritum Femininum) +?=', u'\\1='), (ur'(\|Partizip Perfekt) +?=', u'\\1='), (ur'(\|Partizip Passiv) +?=', u'\\1='), (ur'(\|Imperativ Singular) +?=', u'\\1='),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20130209-pages-articles.xml" -fix:VerbUbers -requiretitle:"Sprache\|Tschechisch"
- Start: 14.2.2013
Bot: CHLI
Bearbeiten- user-fixes.py:
#Bot findet keine Lemmata mit mehreren verlinkten Wörtern im Titel #schreibe alle Eintr in Kat:S&L_Schreibweise in Datei _CHLI.txt (1701 Eintr) #(ur'==\r?\n', u'== \n'), #_CHLI.txt: entf Eintr, wo in Lemma ss mehrmals vorkommt: Begrüssungskuss, Fliessgewässer, Reissverschluss, # Weissrusse, Weisswasser etc.; alle ss -> ß #danach lese Eintr aus Datei _CHLI.txt und ergänze: {{Alternative Schreibweisen}}\n:{{CH&LI}} [[xy]], falls nicht vorhanden. #{{CH&LI}} zw {{Wortart}} und {{Worttrennung}} (ur'== +?(([^[(]+?)(?:\[\[)??ß([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alternative Schreibweisen}}\r?\n:{{CH&LI}} +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alternative Schreibweisen}}\n:{{CH&LI}} [[\\2ss\\3]]\n\n\\6'), #Gliedermaßstäbe, grüße, Glatzer Neiße, Fehler: Großer Bär, Weißer Sonntag #{{CH&LI}} zw {{Flextabelle}} und {{Worttrennung}} (ur'== +?(([^[(]+?)(?:\[\[)??ß([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?{{(?:Deutsch Substantiv Üb|Deutsch Adjektiv Üb|Deutsch adjekt|Verb-Tab)[^}]+?}}(?:\r?\n)+?))({{Alternative Schreibweisen}}\r?\n:{{CH&LI}} +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alternative Schreibweisen}}\n:{{CH&LI}} [[\\2ss\\3]]\n\n\\6'), # anreißen, Abbildungsmaßstab, dreißigste, Außenstehende, lichtes Maß #{{CH&LI}} zw {{Wortart}} und {{Nebenformen}} (ur'== +?(([^[(]+?)(?:\[\[)??ß([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alternative Schreibweisen}}\r?\n:{{CH&LI}} +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Nebenfor)', u'== \\1{{Alternative Schreibweisen}}\n:{{CH&LI}} [[\\2ss\\3]]\n\n\\6'), # Dreikantmaßstabes
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:CHLI -excepttitle:: -excepttitle:tion\) -save:_CHLI.txt -cat:"Schweizer und Liechtensteiner Schreibweise"
- Aufruf2: python replace.py -ns:0 -dotall -regex -multiline -fix:CHLI -excepttitle:: -excepttitle:tion\) -file:_CHLI.txt
- Start: 31.3.2013, 335 pages changed
Bot: AlteSch
Bearbeiten- user-fixes.py:
#Bot findet nur Fälle ß -> ss und keine Lemmata mit mehreren verlinkten Wörtern im Titel #schreibe alle Eintr in Kat:Alte_Schreibweise_(Deutsch) in Datei _AlteSch.txt (1705 Eintr) #(ur'==\r?\n', u'== \n'), #_AlteSch.txt: entf Eintr, wo in Lemma ss 2x vorkommt: Baßschlüssel, Begrüßungskuss, Renaissanceschloss #alle ß -> ss #danach lese Eintr aus Datei _AlteSch.txt und ergänze: {{Alte Rechtschreibung}}\n:[[xy]], falls nicht vorhanden. #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:AlteSch -excepttitle:: -excepttitle:tion\) -file:_AlteSch.txt #{{Alte Rechtschreibung}} zw {{Wortart}} und {{Worttrennung}} (ur'== +?(([^[(]+?)(?:\[\[)??ss([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alte Rechtschreibung}}\r?\n: +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alte Rechtschreibung}}\n:[[\\2ß\\3]]\n\n\\6'), # zusammengepasst #{{Alte Rechtschreibung}} zw {{Flextabelle}} und {{Worttrennung}} (ur'== +?(([^[(]+?)(?:\[\[)??ss([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?{{(?:Deutsch Substantiv Üb|Deutsch Adjektiv Üb|Deutsch adjekt|Verb-Tab)[^}]+?}}(?:\r?\n)+?))({{Alte Rechtschreibung}}\r?\n: +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alte Rechtschreibung}}\n:[[\\2ß\\3]]\n\n\\6'), # Zündschloss #{{Alte Rechtschreibung}} zw {{Wortart}} und {{Nebenformen}} (ur'== +?(([^[(]+?)(?:\[\[)??ss([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alte Rechtschreibung}}\r?\n: +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Nebenfor)', u'== \\1{{Alte Rechtschreibung}}\n:[[\\2ß\\3]]\n\n\\6'), # Messwerte, mit einem Schisslaweng
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:AlteSch -excepttitle:: -excepttitle:tion\) -save:_AlteSch.txt -cat:"Alte Schreibweise (Deutsch)"
- Aufruf2: python replace.py -ns:0 -dotall -regex -multiline -fix:AlteSch -excepttitle:: -excepttitle:tion\) -file:_AlteSch.txt
- Start: 1.4.2013, 235 pages changed
Bot: Ref-cs-volny vereinfacht
Bearbeiten- user-fixes.py:
#ersetze in {Ref-cs-volny} ANSI durch UTF8 (ur'(-volny\|[^\}]*?)%E1', u'\\1á'), (ur'(-volny\|[^\}]*?)%E1', u'\\1á'), (ur'(-volny\|[^\}]*?)%E1', u'\\1á'), (ur'(-volny\|[^\}]*?)%E1', u'\\1á'), (ur'(-volny\|[^\}]*?)%E9', u'\\1é'), (ur'(-volny\|[^\}]*?)%E9', u'\\1é'), (ur'(-volny\|[^\}]*?)%E9', u'\\1é'), (ur'(-volny\|[^\}]*?)%E9', u'\\1é'), (ur'(-volny\|[^\}]*?)%ED', u'\\1í'), (ur'(-volny\|[^\}]*?)%ED', u'\\1í'), (ur'(-volny\|[^\}]*?)%ED', u'\\1í'), (ur'(-volny\|[^\}]*?)%ED', u'\\1í'), (ur'(-volny\|[^\}]*?)%F3', u'\\1ó'), (ur'(-volny\|[^\}]*?)%FA', u'\\1ú'), (ur'(-volny\|[^\}]*?)%FA', u'\\1ú'), (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'), (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'), (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'), (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'), (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'), (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'), (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'), (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'), (ur'(-volny\|[^\}]*?)%9A', u'\\1š'), (ur'(-volny\|[^\}]*?)%9A', u'\\1š'), (ur'(-volny\|[^\}]*?)%9A', u'\\1š'), (ur'(-volny\|[^\}]*?)%9A', u'\\1š'), (ur'(-volny\|[^\}]*?)%E8', u'\\1č'), (ur'(-volny\|[^\}]*?)%E8', u'\\1č'), (ur'(-volny\|[^\}]*?)%E8', u'\\1č'), (ur'(-volny\|[^\}]*?)%E8', u'\\1č'), (ur'(-volny\|[^\}]*?)%F8', u'\\1ř'), (ur'(-volny\|[^\}]*?)%F8', u'\\1ř'), (ur'(-volny\|[^\}]*?)%9E', u'\\1ž'), (ur'(-volny\|[^\}]*?)%9E', u'\\1ž'), (ur'(-volny\|[^\}]*?)%9E', u'\\1ž'), (ur'(-volny\|[^\}]*?)%F9', u'\\1ů'), (ur'(-volny\|[^\}]*?)%F9', u'\\1ů'), (ur'(-volny\|[^\}]*?)%F2', u'\\1ň'), (ur'(-volny\|[^\}]*?)%EF', u'\\1ď'), (ur'(-volny\|[^\}]*?)%9D', u'\\1ť'), (ur'(-volny\|[^\}]*?)%9D', u'\\1ť'), (ur'(-volny\|[^\}]*?)%D8', u'\\1Ř'), (ur'(-volny\|[^\}]*?)%8A', u'\\1Š'), (ur'(-volny\|[^\}]*?)%DA', u'\\1Ú'), (ur'(-volny\|[^\}]*?)%C8', u'\\1Č'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-cs-volny" -fix:volny
- Start: 29.6.2013, 1798 pages changed
Bot: Vorlagen Ref-Canoo, Ref-UniLeipzig, Ref-Grimm
Bearbeiten- user-fixes.py:
#ersetze {{Ref-Canoo| durch {{Ref-CanooT|, aber nur wenn danach ein % steht (ur'{{Ref-Canoo(\|[^\|}]*?%[^\|}]*?[\|}])', u'{{Ref-CanooT\\1'), #ersetze in {Ref-UniLeipzig} ANSI durch UTF8 #?UniLeipzig hat Probleme mit zweibuchstabigen Wörtern mit Umlaut beginnend: Öl (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'), #füge in {Ref-Grimm} id= vor die id ein (ur'({{Ref-Grimm\|[^\|]+?\|)(\w\w\d{2,6}}})', u'\\1id=\\2'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-Canoo" -transcludes:"Ref-UniLeipzig" -transcludes:"Ref-Grimm" -fix:RefVorlagen
- Start: 30.6.2013
Bot: entf Ref-CanooT, kennt keine Leerzeichen
Bearbeiten- user-fixes.py:
#[[Vorlage Diskussion:Ref-Canoo]] #ers {{Ref-CanooT| durch {{Ref-Canoo| und gleichzeitig ANSI (egal ob Groß- od Kleinschreibung) durch UTF8 (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]0', u'\\1\\2à'), (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]9', u'\\1\\2é'), ##entf Ref-Canoo, wenn mit Leerzeichen. Ref-Canoo kennt keine Wortkombis (ur':\[[12\*\?]\] {{Ref-Canoo\|[^\|}]*? [^\|}]*?}}\r?\n', u''), #Glatzer Kessel ##entf Ref-Canoo, wenn + enthält. Ref-Canoo kennt keine Wortkombis (ur':\[[1234\*\?]\] {{Ref-Canoo\|[^\|}]*?\+[^\|}]*?}}\r?\n', u''), #Ausnahme: Futur II, dicht machen #spazieren gehen, entweder...oder ##ers 3 Pkte in Ref-Canoo, Ref-DWDS, Ref-UniLeipzig durch Seitentitel (ur'(== +?([^\(]*?) +?\(.*?{{Ref-Canoo\|)\.\.\.', u'\\1\\2'), #aufgeweckt (ur'(== +?([^\(]*?) +?\(.*?{{Ref-DWDS\|)\.\.\.', u'\\1\\2'), (ur'(== +?([^\(]*?) +?\(.*?{{Ref-UniLeipzig\|)\.\.\.', u'\\1\\2'), ##damit es schneller geht, auch Uni-Leipzig: (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]4', u'\\1ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Cc]4', u'\\1Ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff]6', u'\\1ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd]6', u'\\1Ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff][Cc]', u'\\1ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Cc]', u'\\1Ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Ff]', u'\\1ß'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]4', u'\\1ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Cc]4', u'\\1Ä'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff]6', u'\\1ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd]6', u'\\1Ö'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff][Cc]', u'\\1ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Cc]', u'\\1Ü'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Ff]', u'\\1ß'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]0', u'\\1à'), (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]9', u'\\1é'), ##%20 -> + (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'), (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'), (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'), (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'), (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'), (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'), #schließlich neuer Botlauf: {{Ref-CanooT| -> {{Ref-Canoo| (ur'(== +?([^\(]*?) +?\(.*?{{Ref-Canoo\|)\.\.\.', u'\\1\\2'), (ur'{{Ref-CanooT\|', u'{{Ref-Canoo|'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130717-pages-articles.xml" -fix:Canoo -xmlstart:
- Start: 11.7.2013
Bot: Ref-Grimm: ersetze äöüß, entferne id=
Bearbeiten- user-fixes.py:
#[[WT:TS:Vorlage:Ref-Grimm]] #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-Grimm" -fix:Grimm -save:_Grimm.txt #speichere alle Eintr mit id in Ref-Grimm in Datei _Grimm.txt (6129 titles saved), außer Komma enthaltend, aber incl. äöüÄÖÜß #{{Ref-Grimm|wasser, ''n.''}}, {{Ref-Grimm|berg, ''m.''|id=GB04143}}, {{Ref-Grimm|Öl, Öhl|id=GO01443}}, #(ur'({{Ref-Grimm\|[^},]*?id=[^}]*?})', u'\\1xy'), #Wörter, auf die mit Grimm mit zumindest 2 verschiedenen id´s im Eintrag verlinkt wird: #er, Bruch, Wetter, Benachrichtigung, Löffel, Ball, Tor, Streber, Hut?, mir, sieben, Steuer, wollen, zwirnen, Neffe, Kiefer, Schote, Gewerk, Stift, #acht, Weihe, Stelze, schier, Kunde, Scheide?, Kegel, Enkel, Band, (sondern), Tau, (Taube), Reis, Kapelle, Leiter, Gericht, wiegen, Nähe, Troll, #offen, Zimt, Pricke?, Lahnung, ergeben, folgen, fest, Gicht, Krätze, Ried, losen, hinter, Bund, rein, Rabatz, Golf, endlich, albern, ziepen, #Krause?, reinigen, Pinke, Borg, Eimer, tönen, verhaspeln, bereiten, Muff, ok Buckel, erschrecken, brüderlich, Schütz, Otter, #Matte, striezen, weichen, Fund, Kluft, rotten, erzen, wahrlich, recht, recht haben, Funk, eichen, tuchen, ledern, schwofen, Schopf, #Wacke, nieder, Knäuel, Rotte, stutzen, Schotte, strippen, Völle, einleben, eh, la, Ficke, Säckel, geren, ausschaffen, #wissen, Wissen #entf manuell alle Wörter in obiger Liste aus Datei _Grimm.txt #scheint ein Fehler bei Grimm vorzuliegen, id ist nötig: Deckel, Münze, überraschen, Stätte #ersetze äöüÄÖÜß durch ae oe ue Ae Oe Ue sz, entf |id=wwddddd #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:Grimm -excepttitle:: -excepttitle:tion\) -file:_Grimm.txt (ur'({{Ref-Grimm\|[^\|}]*?)ä', u'\\1ae'), (ur'({{Ref-Grimm\|[^\|}]*?)ö', u'\\1oe'), (ur'({{Ref-Grimm\|[^\|}]*?)ü', u'\\1ue'), (ur'({{Ref-Grimm\|[^\|}]*?)Ä', u'\\1Ae'), (ur'({{Ref-Grimm\|[^\|}]*?)Ö', u'\\1Oe'), (ur'({{Ref-Grimm\|[^\|}]*?)Ü', u'\\1ue'), (ur'({{Ref-Grimm\|[^\|}]*?)ß', u'\\1sz'), (ur'({{Ref-Grimm\|[^\|}]*?)ä', u'\\1ae'), (ur'({{Ref-Grimm\|[^\|}]*?)ö', u'\\1oe'), (ur'({{Ref-Grimm\|[^\|}]*?)ü', u'\\1ue'), (ur'({{Ref-Grimm\|[^\|}]*?)Ä', u'\\1Ae'), (ur'({{Ref-Grimm\|[^\|}]*?)Ö', u'\\1Oe'), (ur'({{Ref-Grimm\|[^\|}]*?)Ü', u'\\1ue'), (ur'({{Ref-Grimm\|[^\|}]*?)ß', u'\\1sz'), (ur'({{Ref-Grimm\|[^\|}]*?)ä', u'\\1ae'), (ur'({{Ref-Grimm\|[^\|}]*?)ö', u'\\1oe'), (ur'({{Ref-Grimm\|[^\|}]*?)ü', u'\\1ue'), (ur'({{Ref-Grimm\|[^\|}]*?)Ä', u'\\1Ae'), (ur'({{Ref-Grimm\|[^\|}]*?)Ö', u'\\1Oe'), (ur'({{Ref-Grimm\|[^\|}]*?)Ü', u'\\1ue'), (ur'({{Ref-Grimm\|[^\|}]*?)ß', u'\\1sz'), (ur'({{Ref-Grimm\|[^\|}]*?)\|id=[^}]*?}', u'\\1}'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-Grimm" -fix:Grimm -save:_Grimm.txt
- Aufruf2: python replace.py -ns:0 -dotall -regex -multiline -fix:Grimm -excepttitle:: -excepttitle:tion\) -file:_Grimm.txt
- Start: 7.7.2013
Bot: {Siehe auch} entfernt
Bearbeiten- user-fixes.py:
#entf {{Siehe auch|Grundform (Deklination|Konjugation)]]}} in Eintr flektierter Formen #[[WT:TS:Vorlage für Verweis auf Flexionsseiten bei Einträgen zu flektierten Formen]] (ur'{{Siehe auch\|\[\[[^\|}]*?\([^\|}]*?\)\]\]}}\r?\n\r?\n', u''), # braver, seiend
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130717-pages-articles.xml" -fix:SieheAuch -xmlstart:
- Start: 22.7.2013
Bot: Ref-Grimm, Ref-Duden: konvertiere nach äöüß
Bearbeiten- user-fixes.py:
#[[BD:Betterknower#Modul]] #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:Umlaute -transcludes:"Ref-Grimm" -transcludes:"Ref-Duden" -save:_Umlaute.txt -xmlstart: #speichere alle Eintr in _Umlaute.txt #entf aus Umlaute.txt alle Sonderfälle: Feuer, Quelle, Statue, Konfluenz, Baguette, Taekwondo, Maestro, Konstituente, # Jahreszeit, Tierkreiszeichen, sexuell, bauen, Israel, oszillieren,.. #Die Rückauflösung der Umlaute, sowie des Unterstrichs in die Satz/Sonderzeichen ist per Bot nicht zuverlässig machbar. #Aufruf: python replace.py -dotall -regex -multiline -fix:Umlaute -file:_Umlaute.txt #ers in {Ref-Grimm} und {Ref-Duden} ae oe ue Ae Oe Ue sz durch ä ö ü Ä Ö Ü ß (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'), #Wärmezähler (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'), #Pförtner (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'), (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'),
- Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:Umlaute -transcludes:"Ref-Grimm" -transcludes:"Ref-Duden" -save:_Umlaute.txt -xmlstart:
- Aufruf2: python replace.py -dotall -regex -multiline -fix:Umlaute -file:_Umlaute.txt
- Start: 15.8.2013, 3095 pages changed
Migration des Bots nach pywikibot/core
Bearbeiten- Systemsteuerung/Wartung/System/Erweitert/Umgebungsvariablen: Pfad ergänzt: "C:\Dokumente und Einstellungen\User\core\pywikibot"
- tools.wmflabs.org/pywikibot/core.tar.gz downgeloaded. Inhalt kopiert nach C:\d+e\User\core
- default user directory: C:\d+e\User\core
- user-config.py und user-fixes.py nach \core verschoben
- Änderung bei Aufruf: python pwb.py replace, pwb weiß, wo die Pythonbefehle zu finden sind
- Änderung bei Pfad: C:\d+e\User\core\user-fixes.py
- Problem: Wenn man bei pywikibot (pwb core) im Kommandozeileninterpreter (DOS-Fenster) 'python login.py', 'python replace.py', oder einen anderen Befehl eingibt, gibt es keine Reaktion.
- Lösung: 'python pwb.py login' eingeben.
Bot: Ref-DWDS: + -> Leerzeichen
Bearbeiten- user-fixes.py:
#ers in Vorl Ref-DWDS Pluszeichen durch Leerzeichen (ur'({{Ref-DWDS\|[^\|}]*?)\+([^\|}]*?}})', u'\\1 \\2'), (ur'({{Ref-DWDS\|[^\|}]*?)\+([^\|}]*?}})', u'\\1 \\2'),
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:DWDS
- Start: 14.9.2013, 113 pages changed
Bot: Kommentar entf
Bearbeiten- user-fixes.py:
### ACHTUNG (\r?\n)*? am Ende der ur-Zeile funzt nicht (vor Interwikilinks) -> \r?\n{0,} (ur'\r?\n{0,}<!-- Weitere Homonyme?? können durch "{{subst:Formatvorlage}}" eingefügt werden\.\r?\nÜberzählige Überschriften \(z\.B\. gleiche?? Sprache?? wie vorherige Eintragung\) löschen\. -->\r?\n{0,}', u'\n\n'), #31 S. Fabeltier, EKG, APO, APPD (ur'\r?\n{0,}<!-- {{Ähnlichkeiten}} tot beim Eintrag von Tod\, und umgekehrt -->\r?\n{0,}', u'\n\n'), #3 S. Fabeltier, HP, französ. (ur'<!-------- Spielte ich nur\, dann \.\.\. -------->\r?\n', u''), #mehr als 100 S. anästhesieren belagern zutragen
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:KommentarEntf
- Start: 4.10.2013
Bot: Lit-Drosdowski -> Lit-Duden
Bearbeiten- user-fixes.py:
(ur'{{Lit-Drosdowski: Vornamen', u'{{Lit-Duden: Lexikon der Vornamen'),
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -fix:Drosd -transcludes:"Lit-Drosdowski: Vornamen"
- Start: 7.10.2013, 273 pages changed
Bot: S. -> Seite, Ref-Duden, Ref-Grimm, Ref-wissen.de vereinfacht
Bearbeiten- user-fixes.py:
#ers nach LitVorlagen S. od p. durch Seite (ur'({{Lit-[^<]*? )[pS]\.( | )((\d)[^<]*?</ref)', u'\\1Seite \\3'), #in ref-tags: Achill, Laura (ur'({{Lit-[^\n]*? )[pS]\.( | )((\d)[^<\n]*?\r?\n{0,})', u'\\1Seite \\3'), #Afghane, Alexander, Hacke, Anhänger #Ref-Duden: entf 2. Parameter falls mit 1. Parameter identisch (lookahead assertion) (ur'({{Ref-Duden\|(?P<Wort>[^\|]*?))\|(?P=Wort)}}', u'\\1}}'), #Ampel, Gründer #Ref-wissen.de: entf 2. Parameter (nur ohne Ziffer am Ende) falls 3. Parameter (Umlaut enthaltend) existiert (ur'({{Ref-wissen\.de\|\w*?\|)\w*?\D\|(\w*?[äöüÄÖÜß]\w*?}})', u'\\1\\2'), #Anwältin, Dreikäsehoch, (sonst Problem: Freya, Silk, Westbank) #Ref-Grimm, Ref-Duden: wenn 2. Parameter = Seitentitel -> entf 3. Parameter #(ur'^== +?(?P<Titel>[^\(=]*?) +?\([^=]*?==$', u'\\1'), ## !!Ermittlung des Seitentitels und Speichern in "Titel"!! ## (ur'(^== +?(?P<Titel>[^\(=]*?) +?\([^=]*?==$.*?{{Ref-Grimm\|(?P=Titel))\|[^}]*?\D}}', u'\\1}}'), #Bild, Igel|, stad, (para3 nicht id=xyxyZiffer) (ur'(^== +?(?P<Titel>[^\(=]*?) +?\([^=]*?==$.*?{{Ref-Duden\|(?P=Titel))\|[^}]*?\D}}', u'\\1}}'), #Füller {{Ref-Duden|Füller|s=Füller}}, Lüge
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Lit-
- Start: 10.10.2013
Bot: {Beispiele fehlen|spr=de}
Bearbeiten- user-fixes.py:
#[[WT:Bots/Anträge auf Bearbeitungen#erweitern Beispiele → Beispiele fehlen]] #ers {erweitern|Beispiele|Deutsch} durch {Beispiele fehlen|spr=de} (ur'{{erweitern\|Beispiele\|Deutsch}}(?:\r?\n)(.*?{{Beispiele}}(?:\r?\n):\[1\]) *?\r?\n', u'\\1 {{Beispiele fehlen|spr=de}}\n'), #Intralogistik, Bellevue, Huk
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:BspFehlen
- Start: 14.10.2013
Bot: Ref-Goethe
Bearbeiten- user-fixes.py:
#entf 2. Parameter, falls vorhanden (ur'({{Ref-Goethe\|[^\|}]*?)\|[^}]*?}}', u'\\1}}'), #paddeln, geil, Achtung:Akt, wenn Para2=... existiert meist das Lemma bei Goethe nicht
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Goethe
- Start: 17.10.2013
Bot: Ref-Vorlagen vereinfacht, Ref-Lexer ergänzt
Bearbeiten- user-fixes.py:
#entf in Ref-Grimm ... (ur'({{Ref-Grimm)\|\.\.\.\|\.\.\.}}', u'\\1}}'), #Omi #entf 2. Param, falls mit 1. Param identisch, egal ob dahinter benannter Param id= steht oder nicht (ur'({{Ref-(Pfälzisch|Grimm|Elsässisch|Goethe|Lothringisch|Pfälzisch|Rheinisch|Rheinisch2|Wander|Adelung|Duden)\|(?P<Wort>[^\|]*?))\|(?P=Wort)(\||})', u'\\1\\4'), #Bauch, Eichelheher, mööte, Kontinuum, Achtung:Alp # füge id= vor ID-Nr. ein (ur'({{Ref-(Meyers|Meyer|Lexer|Grimm|Wander|Pfälzisch|Adelung)\|[^\|}]*?\|)(\w\w\d{5}}})', u'\\1id=\\3'), #Wegwarte, Weißer, kalfatern
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Ref-
- Start: 20.10.2013
Bot: Ref-Meyer -> Ref-Meyers
Bearbeiten- user-fixes.py:
(ur'({{Ref-Meyer)\|', u'\\1s|'), #Problem bei Ref-Meyer1905: manchmal gibt es einen Eintrag in Zeno.org, jedoch bei Meyers keinen: Sakramentskapelle, Apothema
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Meyers
- Start: 20.10.2013
Bot: Kat-Listen: Bindestrich -> Gedankenstrich
Bearbeiten- user-fixes.py:
#[[WT:Bots/Anträge auf Bearbeitungen#Typographie]] (ur'(\[\[Kategorie:Tschechisch )-( Listen\, Übersichten und Verzeichnisse)', u'\\1–\\2'), #35 pages: WT:Tschechisch/Übersicht der Zahlen (ur'(\[\[Kategorie:Deutsch )-( Listen\, Übersichten und Verzeichnisse)', u'\\1–\\2'), #89 pages: WT:Deutsch/Erikativ
- Aufruf: python pwb.py replace -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Kat
- Start: 24.10.2013
Bot: {{Ref-dictcc eingefügt
- user-fixes.py:
#[[BD:Betterknower#Bot-Auftrag]] (ur' *?\[http://deeo\.dict\.cc/\?s=(\w+?) dict\.cc Deutsch-Esperanto-Wörterbuch\]', u' {{Ref-dictcc|eo|\\1}}'), #baki #zweiter Botlauf: #alternativer Aufruf, wenn Dump nicht aktuell: python pwb.py replace -ns:0 -dotall -regex -multiline -fix:deeo -excepttitle:: -transcludes:"Ref-dictcc" #ers {{Ref-dictcc|eo|<deutsches Wort>}} durch {{Ref-dictcc|eo|<pagename>}} falls dort nicht schon <pagename> steht (ur'(^==) +((?P<Titel>[^\(=]*?) +?\([^=]*?==$.*?{{Ref-dictcc\|eo\|)((?P=Titel)|[^}]*?)}}', u'\\1 \\2\\3}}'), #balai, alegorio, desegni
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131020-pages-articles.xml" -fix:deeo
- Start: 24.10.2013, 104 pages changed, 25.10.2013, 107 pages changed
Bot: {{Ref-BMZ angepasst
- user-fixes.py:
#{{Ref-MittelhochdeutschBMZ -> {{Ref-BMZ und setze vor die id 'id=' falls id vorhanden (ur'{{Ref-MittelhochdeutschBMZ(\|[^\|}]*?)}}', u'{{Ref-BMZ\\1}}'), #Kunkel (ur'{{Ref-MittelhochdeutschBMZ(\|[^\|]*?\|)(\w\w\d{5})}}', u'{{Ref-BMZ\\1id=\\2}}'), #slüpfen
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131020-pages-articles.xml" -fix:Ref-BMZ
- Start: 2.11.13
Bot: [Kat:Wortverbindungen] entfernt
Bearbeiten- user-fixes.py:
#entf [[Kat:Wortverbindung]] wenn Sprichwort od Redewendung (ur'\n\n\[\[Kategorie:Wortverbindung\]\]', u''), #aller guten Dinge sind drei, alles in einen Topf werfen, am Ball bleiben
- Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -fix:KatWortverb -cat:Sprichwort -cat:Redewendung
- Start: 21.11.13
Bot: Ü-links -> Ü-Tabelle, Verbtabelle, Form
Bearbeiten- user-fixes.py:
#2 Läufe, zuerst Dialektausdrücke, dann Rest; jeweils mit Formsachen #1. Lauf: #[[WT:Bots/Anträge auf Bearbeitungen#neue Übersetzungstabelle]], [[BD:BetterkBot#Neue Aufgaben]] #ers {{Ü-links}} mit {{Dialektausdrücke durch {{Ü-Tabelle= usw. (ur'^{{Ü-links}}(.+?)^{{Ü-Abstand}}(.+?)^{{Ü-rechts}} ??( ??<!-- für weitere Sprachkürzel siehe den Link (rechts )??unterhalb des Editierfensters -->)?(?:\r?\n{1,})^{{Dialektausdrücke \([^\)]*?\)\|([^\|]*?)^\|(.*?^}})', u'{{Ü-Tabelle|Ü-links=\\1|Ü-rechts=\\2|Dialekttabelle=\\5|D-Rechts=\\6'), #Aal, Teilchenbeschleuniger, sein, abattre, Hammer, Erdbeere #entf überflüssige Leerzeilen, max 1 Leerz (=2 newlines) untereinander (ur'(\r?\n){3,}', u'\n\n'), #verstehen #entf Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #[d-d] -> [d, d] (ur'^:\[1[-—–]2\]', u':[1, 2]'), #titulieren (ur'^:\[2[-—–]3\]', u':[2, 3]'), #Aufladesystem, Burgunder #setze richtigen Bindestrich (ur'(^:\[\d)-(\d\])', u'\\1–\\2'), #Austernfischer, Brot (ur'(^:\[\d)-(\d\, \d\])', u'\\1–\\2'), #tief #[d,d] -> [d, d] (ur'^(:\[\d\,)(\d\])', u'\\1 \\2'), #Umluft, Kanal, Korsar #[1,2,3] -> [1–3] (ur'^:\[1 ??\,2 ??\,3\]', u':[1–3]'), #Lichtstock, fence #entf Leerzeichen am Zeilenende (ur'([^\d].) +?\r?\n', u'\\1\n'), (ur'{{Verb-Tabelle', u'{{Deutsch Verb Übersicht'), #ausbrechen #Befehl_du -> Imperativ Singular (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_du(=[^\n]*?\n.*?^}})', u'\\1Imperativ Singular\\3'), #verbrechen, liegen #Befehl_ihr -> Imperativ Plural (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_ihr(=[^\n]*?\n.*?^}})', u'\\1Imperativ Plural\\3'), #sprechen, wiegen #Flexbox: |Bild= ans Ende (ur'(^{{(?:Verb-Tabelle|[^Ü\n]+? [^Ü\n]+? Übersicht\r?\n)[^}]*?)(^\|Bild[^}]+?)(^\|[^B][^}]+?)}}', u'\\1\\3\\2}}'), #Auto, Baum, Amphibie, arbeiten #Beispiele: entf Leerzeichen zw “ und <ref> (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), #Lüftung, Apostel, B2B, Modul?! (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), #entf {Ähnlichkeiten} falls leer (ur'^{{Ähnlichkeiten}}\r?\n\r?\n', u''), #Elektrochemie, Gjermani #Hörbsp: {fehlend} -> {Audio|} (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), #August, Hallo, aloofness (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), #verlinke Sachgebiet, Doppelpkt kursiv (ur'(^{{Bedeutungen}}\n^: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Allabreve, Andromeda, depravation #ers {{AE}} durch {{amer.}}, ebenso {{BE}} durch {{brit.}} (ur'{{AE((\|.)+?}})', u'{{amer.\\1'), #Aquarellmaler, 1 (ur'{{BE((\|.)+?}})', u'{{brit.\\1'), #Billion #Hörbsp: schreibe AussprLand aus (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'), #abattoir, cat, Amazon (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'), #chilly (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'), #Armbanduhr, Hinweis (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'), #erg Vorl {Audio|En-us- um (amerikanisch) (ur'{{Audio\|En-us-([^}]*?)\.ogg}}', u'{{Audio|En-us-\\1.ogg|\\1 (amerikanisch)}}'), #huzza #entf {{----}} und {{2x----}} (ur'(^[^\n]+?$)\n\n??^{{----}}\n\n??(^=== {{Wortart)', u'\\1\n\n\\2'), #Kohl, Bug, Adorf, (ur'(^[^\n]+?$)\n\n??^{{2x----}}\n\n??(^== [^\(]+?\({{Sprache)', u'\\1\n\n\\2'), #April, Andreas, Jeremane ###-> Ref-canoo, noch allgemeinen Konsens abwarten ###(ur'{{Ref-Canoo', u'{{Ref-canoo'), #Hahn #2. Lauf: #Ü-links, 0 oder mehr Zeilen entweder mit {{Übers umleiten oder *{{de}}:, Ü-rechts. Entf des Sprachkürzelkommentars (ur'^{{Ü-links}} ??((?:\r?\n{1,})(?:(?:^[\*: ]*?{{Übersetzungen umleiten[^\n]*?\r?\n)*?|(?:^[\*: ]*?{{[a-z-]+?}} ??:[^\n]*?\r?\n)*?))(?:\r?\n)*?^ ??{{Ü-rechts}}(?: ??<!-- ??für weitere Sprachkürzel siehe den Link (?:rechts )??unterhalb des (?:Editier|Bearbeitungs)fensters ??-->)?', u'{{Ü-Tabelle|Ü-links=\\1|Ü-rechts=\n}}'), #Bayern, Hannibal, Repertoire, Venus #Ü-links, 0 oder mehr Zeilen entweder mit {{Übers umleiten oder *{{de}}:, Ü-Abstand, 0 oder mehr Zeilen entweder mit {{Übers umleiten oder *{{de}}:, Ü-rechts. Entf gleichzeitig Sprachkürzelkommentar (ur'^{{Ü-links}} ??((?:\r?\n{1,})(?:(?:^[\*: ]*?{{Übersetzungen umleiten[^\n]*?\r?\n)*?|(?:^[\*: ]*?{{[a-z-]+?}} ??:[^\n]*?\r?\n)*?))(?:\r?\n)*?^ ??{{Ü-Abstand}} ??((?:\r?\n{1,})(?:(?:^[\*: ]*?{{Übersetzungen umleiten[^\n]*?\r?\n)*?|(?:^[\*: ]*?{{[a-z-]+?}} ??:[^\n]*?\r?\n)*?))(?:\r?\n)*?^ ??{{Ü-rechts}}(?: ??<!-- ??für weitere Sprachkürzel siehe den Link (?:rechts )??unterhalb des (?:Editier|Bearbeitungs)fensters ??-->)?', u'{{Ü-Tabelle|Ü-links=\\1|Ü-rechts=\\2}}'), #Aal, Bank, Mensch, Polen #entf überflüssige Leerzeilen, max 1 Leerz (=2 newlines) untereinander (ur'(\r?\n){3,}', u'\n\n'), #entf Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'), #[d-d] -> [d, d] (ur'^:\[1[-—–]2\]', u':[1, 2]'), (ur'^:\[2[-—–]3\]', u':[2, 3]'), #setze richtigen Bindestrich (ur'(^:\[\d)-(\d\])', u'\\1–\\2'), (ur'(^:\[\d)-(\d\, \d\])', u'\\1–\\2'), (ur'(^:\[\d\, \d)-(\d\])', u'\\1–\\2'), #sitzen #[d,d] -> [d, d] (ur'^(:\[\d\,)(\d\])', u'\\1 \\2'), #[1,2,3] -> [1–3] (ur'^:\[1 ??\,2 ??\,3\]', u':[1–3]'), #entf Leerzeichen am Zeilenende (ur'([^\d].) +?\r?\n', u'\\1\n'), (ur'{{Verb-Tabelle', u'{{Deutsch Verb Übersicht'), #Befehl_du -> Imperativ Singular (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_du(=[^\n]*?\n.*?^}})', u'\\1Imperativ Singular\\3'), #Befehl_ihr -> Imperativ Plural (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_ihr(=[^\n]*?\n.*?^}})', u'\\1Imperativ Plural\\3'), #Flexbox: |Bild= ans Ende (ur'(^{{(?:Verb-Tabelle|[^Ü\n]+? [^Ü\n]+? Übersicht\r?\n)[^}]*?)(^\|Bild[^}]+?)(^\|[^B][^}]+?)}}', u'\\1\\3\\2}}'), #Beispiele: entf Leerzeichen zw “ und <ref> (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), #erg Leerzeichen vor {{Beispiele fehlen}} (von Fisch21 mit AWB) (ur'(^:\[\d\]) ??({{Beispiele fehlen)', u'\\1 \\2'), #hangya, gjalpë, platina #PAGENAME -> Seitentitel (hat im Eintragsnamensraum nichts verloren) (ur'{{PAGENAME}}', u'{{subst:PAGENAME}}'), #Abilio, ti #entf {Ähnlichkeiten} falls leer (ur'^{{Ähnlichkeiten}}\r?\n\r?\n', u''), #Hörbsp: {fehlend} -> {Audio|} (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), #verlinke Sachgebiet, Doppelpkt kursiv (ur'(^{{Bedeutungen}}\n^: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Allabreve, Andromeda, depravation #ers {{AE}} durch {{amer.}}, ebenso {{BE}} durch {{brit.}} (ur'{{AE((\|.)+?}})', u'{{amer.\\1'), (ur'{{BE((\|.)+?}})', u'{{brit.\\1'), #Hörbsp: schreibe AussprLand aus (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'), (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'), #erg Vorl {Audio|En-us- um (amerikanisch) (ur'{{Audio\|En-us-([^}]*?)\.ogg}}', u'{{Audio|En-us-\\1.ogg|\\1 (amerikanisch)}}'), #entf {{----}} und {{2x----}}, deaktiviert bis allgemeiner Konsens ###(ur'(^[^\n]+?$)\n\n??^{{----}}\n\n??(^=== {{Wortart)', u'\\1\n\n\\2'), ###(ur'(^[^\n]+?$)\n\n??^{{2x----}}\n\n??(^== [^\(]+?\({{Sprache)', u'\\1\n\n\\2'), #ers div (ur'(\.|te) Aufl\.', u'\\1 Auflage'), #Alfanzerei, Phrase (ur'{{W(\|[^}]+?}})', u'{{WP\\1'), #Hof, Konsum (ur'{{Lautschrift\|\.\.\.}}', u'{{Lautschrift|…}}'), #DDP, Eva (ur'({{Lateinisch Substantiv Übersicht) 2', u'\\1'), #Aulonia, abactus (ur'{{Alte Rechtschreibung}}', u'{{Veraltete Schreibweisen}}'), #Kreuz (ur'^{{Silbentrennung}}', u'{{Worttrennung}}'), #Bazyli #entf Kommentar (ur'(^{{Ähnlichkeiten}}) ??<!--[^>]+?>', u'\\1'), #Haase, Ingrid, Rot (ur'^<!--- {{Ü-links}} ??\r?\n^\*{{de}}: \[1\] ??\r?\n^\*{{en}}: \[1\] {{Ü\|en\|}} ??\r?\n^{{Ü-Abstand}} ??\r?\n^\*{{fr}}: \[1\] {{Ü\|fr\|}} ??\r?\n^\*{{es}}: \[1\] {{Ü\|es\|}} ??\r?\n^{{Ü-rechts}} --> ??\r?\n\r?\n', u''), #forner (ur'<!-- :{{Übersetzungen umleiten\|1\|\|1}} -->\n', u''), #hombrillo, burdo, sifrino #ab Liste Fisch21: hombrillo #nach Ähnl Neuzeile (ur'(^{{Ähnlichkeiten}}) ??[^\n-]', u'\\1\n:'), #Az., Hemi, Achtung:Egeusz #{Herkunft fehlt -> {QS Herkunft (ur'{{Herkunft fehlt\|belegen}}', u'{{QS Herkunft|unbelegt}}'), #Adverb. Kommentar erst beim nächsten Botlauf (ur'{{Herkunft fehlt}}', u'{{QS Herkunft|unzureichend}}'), #Alligator
- Aufruf1: python pwb.py replace -ns:0 -dotall -regex -multiline -fix:UeTabelle -excepttitle:: -excepttitle:tion\) -transcludes:"Dialektausdrücke (Deutsch)" -transcludes:"Dialektausdrücke (Arabisch)" -transcludes:"Dialektausdrücke (Irisch)" -transcludes:"Dialektausdrücke (Französisch)"
- Aufruf2: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20140104-pages-articles.xml" -fix:UeTabelle
- Start: 21.11.13