Benutzer:BetterkBot/Botläufe und Botprogrammierung/Archiv 201401

Bot: {Silbentrennung} -> {Worttrennung}, Form

Bearbeiten
#{{Silbentrennung}} -> {{Worttrennung}}
(ur'{Silbentrennung}} ??', u'{Worttrennung}}'),
#verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile
(ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)',
u'\\1\n|\\3'),
#entlinke Bspwörter wie [[jak]] oder [[nie#nie_(Polnisch)|Nie]], ausgenommen [[w: [[:w: [[q: [[s: (WP, wikiquote, wikisource)
#erkennt max nur je 10 Links in {Beispiele}; Leerzeile markiert Ende der {Beispiele}
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
... 10x
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
... 10x
#enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entferne die Pkte
(ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'),
#enthält {Ref-Grimm} ein 'ßäöüÄÖÜ' und 3 Pkte, ersetze es durch 'sz|ae|oe|ue|Ae|Oe|Ue' und entferne die Pkte
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ß([a-zA-Z-]*?)\|\.\.\.}}', u'\\1sz\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ae\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ue\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ae\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Oe\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ue\\2}}'),
#entferne {Ähnlichkeiten}, falls leer
(ur'(\s\n){{Ähnlichkeiten}}\s\n[\n|\s][\n|\s]', u'\\1'),
(ur'\s\n{{Ähnlichkeiten}}\s\n:[\n|\s][\n|\s]', u''),
#entferne Kommentar, Kategorie
(ur'<!-- /(Flexions|Dialekt)tabelle\s?\n/-->', u''),
(ur'(Ähnlichkeiten}})<!-- tot beim Eintrag von Tod\, und umgekehrt -->\s', u'\\1'),
(ur'<!-- Links/Rechts -->', u''),
(ur'<!-- Unterbegriffe absteigend nach Größe sortiert -->', u''),
(ur'\s\n\[\[Kategorie:(Audio-Datei|Vorname|Toponym)\]\]\s\n', u''),
#''f'' -> {{f}}
(ur'} \'\'([fmn])\'\'', u'} {{\\1}}'),
#in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes
(ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'),
#-> genau eine Zeile vor Textbausteinen sowie vor Flexvorl der wichtigsten Sprachen, nicht mehr und nicht weniger
(ur'\s*?\n{{(Anmerkung|Alternative Schreibweisen|Nebenformen|Silbentrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle|Deutsch|Englisch|Italienisch|Französisch|Polnisch|Katalanisch|Lateinisch|Okzitanisch|Tschechisch|Spanisch|Ungarisch)',
u'\n\n{{\\1'),
#entferne Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
(ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
#ersetze Diverses
(ur'<br clear="all"( /)?>', u'{{Absatz}}'),
(ur' [pS]\.( | )(\d)', u' Seite \\2'),
(ur'(<br)/??>', u'\\1 />'),
(ur'Wikipedia-Artikel „\[\[:?w:([^\|]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'),
  • Aufruf:
python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120321-pages-articles.xml" -excepttitle:: -excepttitle:ation\) -fix:Worttrg
  • Änderung am Bot:
(ur'Wikipedia-Artikel „\[\[:?w:([^\|:]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'),
(ur'(Isländischer )??Wikipedia-Artikel „\[\[:?w:is:([^\|]*?)\|[^\]]*?\]\]“', u'Isländischer {{Wikipedia2|is|\\2}}'),
(ur'(Färöischer )??Wikipedia-Artikel „\[\[:?w:fo:([^\|]*?)\|[^\]]*?\]\]“', u'Färöischer {{Wikipedia2|fo|\\2}}'),
(ur'(Englischer )??Wikipedia-Artikel „\[\[:?w:en:([^\|]*?)\|[^\]]*?\]\]“', u'Englischer {{Wikipedia2|en|\\2}}'),
(ur'(Russischer )??Wikipedia-Artikel „\[\[:?w:ru:([^\|]*?)\|[^\]]*?\]\]“', u'Russischer {{Wikipedia2|ru|\\2}}'),
(ur'(Italienischer )??Wikipedia-Artikel „\[\[:?w:it:([^\|]*?)\|[^\]]*?\]\]“', u'Italienischer {{Wikipedia2|it|\\2}}'),
(ur'(Schwedischer )??Wikipedia-Artikel „\[\[:?w:sv:([^\|]*?)\|[^\]]*?\]\]“', u'Schwedischer {{Wikipedia2|sv|\\2}}'),
(ur'(Lateinischer )??Wikipedia-Artikel „\[\[:?w:la:([^\|]*?)\|[^\]]*?\]\]“', u'Lateinischer {{Wikipedia2|la|\\2}}'),
  • Änderung am Bot:
#schreibe S. aus und klammere Zitate (mit AnfZeichen unten beginnend) aus; siehe [[passim]]
(ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'),
  • Änderung am Bot, 4.5.2012:
#entferne alle {Ähnlichkeiten} die leer sind, egal ob mit oder ohne Doppelpkt in der Folgezeile
(ur'^{{Ähnlichkeiten}}\r?\n:?\s*?\r?\n\s*$', u''),


Bot: {Silbentrennung} -> {Worttrennung}, Formatvorlagen

Bearbeiten
  • user-fixes.py:
(ur'{Silbentrennung}}', u'{Worttrennung}}'),

Bot: eliminiere {Fremdsprachige Beispiele} und <br />, Form

Bearbeiten
  • user-fixes.py:
#eliminiere {Fremdsprachige Beispiele} und <br /> (Lyrik); nacheinander abgearbeitet!
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5\n::\\6\n::\\7\n::\\8'), #1Bsp 5ZUmbr
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5\n::\\6\n::\\7'), #1Bsp 4ZUmbr
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5\n::\\6'), #1Bsp 3ZUmbr
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4\n::\\5'), #1Bsp 2ZUmbr
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)<br ??/??>([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3\n::\\4'), #1Bsp 1ZUmbr
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[[^\]]*?\])\s$\n^\| ??([^\n]*?)\s$\n^\| ??([^\n]*?)\s$\n^\|?}} ??', u':\\1 \\2\n::\\3'), #ohne ZUmbr
#verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile
(ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)',
u'\\1\n|\\3'),
#entlinke Bspwörter wie [[jak]] oder [[nie#nie_(Polnisch)|Nie]], ausgenommen [[w: [[:w: [[q: [[s: (WP, wikiquote, wikisource)
#erkennt max nur je 10 Links in {Beispiele}; Leerzeile markiert Ende der {Beispiele}
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
#enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entferne die Pkte
(ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'),
#enthält {Ref-Grimm} ein 'ßäöüÄÖÜ' und 3 Pkte, ersetze es durch 'sz|ae|oe|ue|Ae|Oe|Ue' und entferne die Pkte
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ß([a-zA-Z-]*?)\|\.\.\.}}', u'\\1sz\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ae\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ue\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ae\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Oe\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ue\\2}}'),
#entferne {Ähnlichkeiten}, falls leer
(ur'^{{Ähnlichkeiten}}\r?\n:?\s*?\r?\n\s*$', u''),
#entferne Kommentar, Kategorie
(ur'<!-- /(Flexions|Dialekt)tabelle\s?\n/-->', u''),
(ur'(Ähnlichkeiten}})<!-- tot beim Eintrag von Tod\, und umgekehrt -->', u'\\1'),
(ur'<!-- Links/Rechts -->', u''),
(ur'<!-- Unterbegriffe absteigend nach Größe sortiert -->', u''),
(ur'\s\n\[\[Kategorie:(Audio-Datei|Vorname|Toponym)\]\]\s\n', u''),
#''f'' -> {{f}}
(ur'} \'\'([fmn])\'\'', u'} {{\\1}}'),
#in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes
(ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'),
#-> genau eine Zeile vor Textbausteinen sowie vor Flexvorl der wichtigsten Sprachen, nicht mehr und nicht weniger
(ur'\s*?\n{{(Anmerkung|Alternative Schreibweisen|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle|Deutsch|Englisch|Italienisch|Französisch|Polnisch|Katalanisch|Lateinisch|Okzitanisch|Tschechisch|Spanisch|Ungarisch)',
u'\n\n{{\\1'),
#entferne Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
(ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
#ersetze Diverses
(ur'^:\[1[-—–]2\]', u':[1, 2]'),
(ur'<br clear="all"( /)?>', u'{{Absatz}}'),
(ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'),
(ur'Wikipedia-Artikel „\[\[:?w:([^\|:]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'),
(ur'(Englischer )??Wikipedia-Artikel „\[\[:?w:en:([^\|]*?)\|[^\]]*?\]\]“', u'Englischer {{Wikipedia2|en|\\2}}'),
(ur'(Russischer )??Wikipedia-Artikel „\[\[:?w:ru:([^\|]*?)\|[^\]]*?\]\]“', u'Russischer {{Wikipedia2|ru|\\2}}'),
(ur'(Italienischer )??Wikipedia-Artikel „\[\[:?w:it:([^\|]*?)\|[^\]]*?\]\]“', u'Italienischer {{Wikipedia2|it|\\2}}'),


Bot: eliminiere Vorl {Fremdsprachige Beispiele} 1, Form

Bearbeiten
  • user-fixes.py:
#ersetze Vorl {Fremdspr Bsp} mit 1 Bsp
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\| ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)\s\n^\|??}}', u':\\1 \\2\n::\\3'),
#verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile
(ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)',
u'\\1\n|\\3'),
#entlinke Bspwörter wie [[jak]] oder [[nie#nie_(Polnisch)|Nie]], ausgenommen [[w: [[:w: [[q: [[s: (WP, wikiquote, wikisource)
#erkennt max nur je 10 Links in {Beispiele}; Leerzeile markiert Ende der {Beispiele}
(ur'(eispiele}}[^{=]*?)\[\[([a-z])\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), #[[i]] -> i
(ur'(eispiele}}[^{=]*?)\[\[w\|W(e??)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1W\\2\\3'), #[[w|W]] -> W, [[w|We]] -> We
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[([^:][^:][^\|\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[[^:][^:][^\|\]]*?\|([^\]]*?)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
#enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entferne die Pkte
(ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'),
#enthält {Ref-Grimm} ein 'ßäöüÄÖÜ' und 3 Pkte, ersetze es durch 'sz|ae|oe|ue|Ae|Oe|Ue' und entferne die Pkte
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ß([a-zA-Z-]*?)\|\.\.\.}}', u'\\1sz\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ae\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1ue\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ä([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ae\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Oe\\2}}'),
(ur'({{Ref-Grimm\|[a-zA-Z-]*?)Ü([a-zA-Z-]*?)\|\.\.\.}}', u'\\1Ue\\2}}'),
#entferne {Ähnlichkeiten}, falls leer
(ur'^{{Ähnlichkeiten}}\r?\n:?\s*?\r?\n\s*$', u''),
#entferne Kommentar, Kategorie
(ur'<!-- /(Flexions|Dialekt)tabelle\s?\n/-->', u''),
(ur'(Ähnlichkeiten}})<!-- tot beim Eintrag von Tod\, und umgekehrt -->', u'\\1'),
(ur'<!-- Links/Rechts -->', u''),
(ur'<!-- Unterbegriffe absteigend nach Größe sortiert -->', u''),
(ur'\s\n\[\[Kategorie:(Audio-Datei|Vorname|Toponym)\]\]\s\n', u''),
#''f'' -> {{f}}
(ur'} \'\'([fmn])\'\'', u'} {{\\1}}'),
#in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes
(ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'),
#-> genau eine Zeile vor Textbausteinen sowie vor Flexvorl der wichtigsten Sprachen, nicht mehr und nicht weniger
(ur'\s*?\n{{(Anmerkung|Alternative Schreibweisen|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle|Deutsch|Englisch|Italienisch|Französisch|Polnisch|Katalanisch|Lateinisch|Okzitanisch|Tschechisch|Spanisch|Ungarisch)',
u'\n\n{{\\1'),
#entferne Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
(ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
#ersetze Diverses
(ur'^:\[1[-—–]2\]', u':[1, 2]'),
(ur'<br clear="all"( /)?>', u'{{Absatz}}'),
(ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'),
(ur'(<br)/??>', u'\\1 />'),
(ur'Wikipedia-Artikel „\[\[:?w:([^\|:]*?)\|[^\]]*?\]\]“', u'{{Wikipedia|\\1}}'),
(ur'(Englischer )??Wikipedia-Artikel „\[\[:?w:en:([^\|]*?)\|[^\]]*?\]\]“', u'Englischer {{Wikipedia2|en|\\2}}'),
(ur'(Russischer )??Wikipedia-Artikel „\[\[:?w:ru:([^\|]*?)\|[^\]]*?\]\]“', u'Russischer {{Wikipedia2|ru|\\2}}'),
(ur'(Italienischer )??Wikipedia-Artikel „\[\[:?w:it:([^\|]*?)\|[^\]]*?\]\]“', u'Italienischer {{Wikipedia2|it|\\2}}'),


Bot: eliminiere Vorl {Fremdsprachige Beispiele} 2, Form

Bearbeiten
  • user-fixes.py:
#ersetze Vorl {Fremdspr Bsp} mit 2 Bsp
(ur'^{{Fremdsprachige Beispiele[^\n]*?\n^\| ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)\s\n^\| ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6'),
Rest wie oben
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:FremdBsp2 -transcludes:"Fremdsprachige Beispiele" -transcludes:"Fremdsprachige Beispiele"
  • Start: 22.6.2012
  • Beispiele: biologie, nie, Ksenia


Bot: eliminiere Vorl {Fremdsprachige Beispiele} 3, Form

Bearbeiten
  • user-fixes.py:
#ersetze Vorl {Fremdspr Bsp} mit 3 bis 6 Bsp (1-6 Bsp)
(ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3'), #1Bp
(ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6'), #2Bsp
(ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9'), #3Bsp
(ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??\s\n^ ??\|?? ??(\[\d[^\]]*?\]) ??\s\n^ ??\| ??([^\n]*?)\s\n^ ??\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9\n:\\10 \\11\n::\\12'), #4Bsp
(ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9\n:\\10 \\11\n::\\12\n:\\13 \\14\n::\\15'), #5Bsp
(ur'^:??{{Fremdsprachige Beispiele[^\n]*?\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??\s\n^\|?? ??(\[\d[^\]]*?\]) ??\s\n^\| ??([^\n]*?)\s\n^\| ??([^\n]*?)(?: ??\|)??(\s\n^\|??|)}}', u':\\1 \\2\n::\\3\n:\\4 \\5\n::\\6\n:\\7 \\8\n::\\9\n:\\10 \\11\n::\\12\n:\\13 \\14\n::\\15\n:\\16 \\17\n::\\18'), #6Bsp
Rest wie oben


Bot: ɔ̹ -> ɔ, Form

Bearbeiten
  • user-fixes.py:
#ersetze in ipa in cs Einträgen ɔ̹ durch ɔ
(ur'({{Lautschrift\|[^\n]*?)ɔ̹', u'\\1ɔ'),
(ur'({{Lautschrift\|[^\n]*?)ɔ̹', u'\\1ɔ'),
(ur'(eispiele}}[^{=]*?)\[\[([a-z])\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'), #[[i]] -> i
(ur'(eispiele}}[^{=]*?)\[\[([a-z])\]\](.*?\s$\n^\s$\n[^\n])', u'\\1\\2\\3'),
(ur'(eispiele}}[^{=]*?)\[\[w\|W(e??)\]\](.*?\s$\n^\s$\n[^\n])', u'\\1W\\2\\3'), #[[w|W]] -> W, [[w|We]] -> We
Rest wie oben
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:ipacs -cat:"Tschechisch" -excepttitle:: -excepttitle:tion\)
  • Start: 29.6.2012
  • Beispiele: brokolice, fazole, fialový, aby


Bot: {Adj-Tabelle} -> {Deutsch Adj Übersicht}; Grundform -> Positiv...

Bearbeiten
  • user-fixes.py:
#nacheinander abgearbeitet! {{Adjektiv-Tabelle}} und {{Adjektiv-Tabelle (Deklination)}} -> {{Deutsch Adjektiv Übersicht}}
#Grundform -> Positiv, 1. Steigerung -> Komparativ, 2. Steigerung -> Superlativ
#mit Großbuchstaben beginnend: keine weiteren Formen=ja
#(ur'^{{Adjektiv-Tabelle( \(Deklination\))? ??(\|\r?\n|\r?\n\|) ??Grundform ??= ??([A-ZÄÖÜ][^\n]*?)\r?\n\| ??1. Steigerung ??= ??([^\n]*?)\r?\n\| ??2. Steigerung ??= ??([^\n]*)', u'{{Deutsch Adjektiv Übersicht\n|Positiv=\\3\n|Komparativ=\\4\n|Superlativ=\\5\n|keine weiteren Formen=ja')
#{{fehlend}} -> —
#(ur'^{{Adjektiv-Tabelle( \(Deklination\))? ??(\|\r?\n|\r?\n\|) ??Grundform ??= ??([^\n]*?)\r?\n\| ??1. Steigerung ??= ??{{fehlend}}\r?\n\| ??2. Steigerung ??= ??{{fehlend}}', u'{{Deutsch Adjektiv Übersicht\n|Positiv=\\3\n|Komparativ=—\n|Superlativ=—')
#mit Bildern
#(ur'^{{Adjektiv-Tabelle(  ??\(Deklination\))? ??(\|\r?\n|\r?\n\|)\|??( ??Bild[^}]*?) ??Grundform ??= ??([^\n]*?)\r?\n ??\| ??1. Steigerung ??= ??([^\n]*?)\r?\n\| ??2. Steigerung ??= ??([^\n]*?)', u'{{Deutsch Adjektiv Übersicht\n|\\3Positiv=\\4\n|Komparativ=\\5\n|Superlativ=\\6')
#Rest
(ur'^{{Adjektiv-Tabelle(  ??\(Deklination\))? ??(\|\r?\n|\r?\n\|)\|?? ??Grundform ??= ??([^\n]*?)\r?\n ??\| ??1. Steigerung ??= ??([^\n]*?)\r?\n\| ??2. Steigerung ??= ??([^\n]*?)', u'{{Deutsch Adjektiv Übersicht\n|Positiv=\\3\n|Komparativ=\\4\n|Superlativ=\\5')


Bot: {Ref-wissen.de|Lexikon}, {Ref-wissen.de|Wörterbuch}

Bearbeiten
  • user-fixes.py:
        #nacheinander abgearbeitet!
        #{Ref-wissen.de|xy -> {Ref-wissen.de|Lexikon|xy
        #(ur'({{Ref-wissen.de\|)([^\|\}\n]*?)}}', u'\\1Lexikon|\\2}}') # Ampel, Häsling (Haesling) Uml sind schon ersetzt, Söldner, Abdomen
        #{Ref-wissen.de|Frostmusterböden|1104022 -> {Ref-wissen.de|Lexikon|Frostmusterboeden|Frostmusterböden
        #(ur'({{Ref-wissen.de\|)([^\|\}\n]*?)ö([^\|\}\n]*?)\|\d*?}}', u'\\1Lexikon|\\2oe\\3|\\2ö\\3}}') # Frostmusterboden
        #{Ref-wissen.de|xy|1104022 -> {Ref-wissen.de|Lexikon|xy
        #(ur'({{Ref-wissen.de\|)([^\|\}\n]*?)\|\d*?}}', u'\\1Lexikon|\\2}}') # Aerobiologie, per os, Bilge 
        #{Ref-WBwissen.de|mäandrisch -> {Ref-wissen.de|Wörterbuch|maeandrisch|mäandrisch
        #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ä([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1ae\\2|\\1ä\\2}}') # mäandrisch, maikäfern, Zeidelbär
        #{Ref-WBwissen.de|Schmöker -> {Ref-wissen.de|Wörterbuch|Schmoeker|Schmöker
        #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ö([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1oe\\2|\\1ö\\2}}') # Schmöker, skandalös
        #{Ref-WBwissen.de|Bürgerkrieg -> {Ref-wissen.de|Wörterbuch|Buergerkrieg|Bürgerkrieg
        #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ü([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1ue\\2|\\1ü\\2}}') # Bürgerkrieg, Flüchtlingswelle
        #{Ref-WBwissen.de|Linksaußen -> {Ref-wissen.de|Wörterbuch|Linksaussen|Linksaußen
        #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)ß([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1ss\\2|\\1ß\\2}}') # Linksaußen
        #{Ref-WBwissen.de|Gebrechen -> {Ref-wissen.de|Wörterbuch|Gebrechen
        #(ur'{{Ref-WBwissen.de\|([^\|\}\n]*?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1}}') # Gebrechen, Rennpferd
        #{Ref-WBwissen.de|Freistoss|Freistoß -> {Ref-wissen.de|Wörterbuch|Freistoss|Freistoß
        (ur'{{Ref-WBwissen.de\|([^\|\}\n]+?)\|([^\}\n]+?)}}', u'{{Ref-wissen.de|Wörterbuch|\\1|\\2}}') # Freistoß, Lamäng


Bot: Form, Form.

Bearbeiten
  • user-fixes.py:
        #verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile
        (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)',
         u'\\1\n|\\3'),
        #enthält {Ref-Grimm} 3 Pkte und kein ßäöüÄÖÜ, entf die Pkte
        (ur'({{Ref-Grimm\|[a-zA-Z-]+?)\|\.\.\.}}', u'\\1}}'),
        #enthält {Ref-Grimm} ein 'ö' und 3 Pkte, ersetze es durch 'oe' und entf die Pkte
        (ur'({{Ref-Grimm\|[a-zA-Z-]*?)ö([a-zA-Z-]*?)\|\.\.\.}}', u'\\1oe\\2}}'),
        #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes
        (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'),
        #genau eine Zeile vor Textbausteinen, nicht mehr und nicht weniger
        (ur'(\r?\n)+?{{(Anmerkung|Alternative Schreibweisen|Alte Rechtschreibung|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten|Adjektiv-Tabelle|Verb-Tabelle)',
         u'\n\n{{\\2'),
        #genau eine Zeile vor Flexvorl häufiger Sprachen, nicht mehr und nicht weniger (Achtung: schopný)
        (ur'=(\r?\n)+?{{(Dänisch|Deutsch|Englisch|Französisch|Irisch|Isländisch|Italienisch|Katalanisch|Lateinisch|Niederländisch|Okzitanisch|Polnisch|Russisch|Spanisch|Tschechisch|Ungarisch)',
         u'=\n\n{{\\2'),
        #entf [[Kategorie:Illustration]] wenn Bild oder Bild 1 in Vorl
        (ur'(\|Bild( 1)??=.*?)\[\[Kategorie:Illustration\]\]', u'\\1'), # Wegerich, Gefriertruhe
        #entf [[Kategorie:Arabisch]] wenn {{Sprache|Arabisch}} (auch jede andere Spr sowie Umschrift)
        (ur'({{Sprache\|(?P<Spr>[^\}]*?)}}.*?)\[\[Kategorie:(?P=Spr)\]\]', u'\\1'), # du, ekwan, باب
        #entf [[Kategorie:Nachname]] wenn {{Wortart|Nachname|Sprache}} (auch jede andere Wortart)
        (ur'({{Wortart\|(?P<WArt>[^\|]*?)\|[^\}]*?}}.*?)\[\[Kategorie:(?P=WArt)\]\]', u'\\1'), # Montag, dieser, P, SMS
        (ur'({{Wortart\|(?P<WArt>[^\|]*?)\|(?P<Spr>[^}]*?)}}.*?)\[\[Kategorie:(?P=WArt) \((?P=Spr)\)\]\]', u'\\1'), # Albanien, Grenadinen
        #entf überzählige Leerst zw {Pl.} und {Lautschrift}
        (ur'{{Pl.}} +?{{Lautschrift\|', u'{{Pl.}} {{Lautschrift|'), # Polizei
        #entf Leerst nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
        (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
        #entf Leerst in ÜbersetzgsVorl vor }} und nach |
        (ur'({{Ü\|[a-z-]*?\|[^\|}]*?) }}', u'\\1}}'),
        (ur'({{Ü\|[a-z-]*?\|) ([^\|}]*?)}}', u'\\1\\2}}'),
        #entf überzählige Leerst in Überschr vor ===
        (ur'^ *?==', u'=='), # szegénység
        (ur'  ==', u' =='), # billion, zwirnen
        #erg fehlende Leerst in Überschr vor === und ==
        (ur'([})])((=){2,3})\r?\n', u'\\1 \\2\n'), # sein, Rand
        #erg fehlende Leerst in Überschr nach === und ==
        (ur'^==([^ =])', u'== \\1'), # Ethylen
        (ur'^(== [^(]*?) ??\({', u'\\1 ({'), # Aufschneider
        (ur'^==={', u'=== {'), # breakfast
        #''f'' -> {{f}}
        (ur' \'\'([fmn])\'\'', u' {{\\1}}'),
        (ur' \'\'m/f\'\'', u' {{mf}}'),
        #[1-2] -> [1, 2]
        (ur'^:\[1[-—–]2\]', u':[1, 2]'),
        (ur'<br clear="all"( /)??(br)??>', u'{{Absatz}}'),
        #S. oder p. -> Seite
        (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'), # ausgen Zitate
        (ur'(S\.|Seite)( | )([0-9-]*?[.;,] )Zitat S\.( | )(\d)', u'Seite \\3Zitat Seite \\5'), # Gentleman, Umlaut
        (ur' [pS]\.( | )((\d)*?\. ISBN)', u' Seite \\2'), # Sonagramm, Isotopie
        #-> <br />
        (ur'(<br)/??>', u'\\1 />'),
        (ur'{{PAGENAME}}', u'{{subst:PAGENAME}}'), # Бојан, papír
        (ur'…', u'…'), # Hoffnung
        #IPA vor Hörbsp
        (ur'((<!--)??:{{Hörbeispiele}}[^\n]*?)\r?\n(:{{IPA}}[^\n]*?)\r?\n', u'\\3\n\\1\n'), # currus, akker
        #''kein Plural'' -> {{kPl.}}
        (ur'({{Pl\.}} )??\'\'kein Plural\'\'', u'{{kPl.}}'), # Korsika, Minsk
        #... -> … (…), sofern in [] oder nach Lautschrift| # scheint nun doch Konsens in der Community zu geben
        (ur'(\[|{{Lautschrift\|)\.\.\.(\]|}})', u'\\1…\\2'), # Gabel, Bönhase
        #Satzzeichen nach kursivem Wort ebenfalls kursiv, ausgen ''m'', ''mf''
        (ur'(\'\'[^\'\s][^\'\s][^\'\s][^\'\s]*?)\'\'([.,!?:])([^\.\]\[\'"“<«])', u'\\1\\2\'\'\\3'), # er, Meer
        #entf Leerst am Zeilenende, ausgen nach [1]
        (ur'([^\d].) +?\r?\n', u'\\1\n'), # Varietas, Hand
        #entf <!--{{Abkürzungen}}--> usw.
        (ur'<!-- ??{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Verkleinerungsformen|Oberbegriffe|Unterbegriffe|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Ähnlichkeiten|----)}} ??-->', u''),
        #entf div Kommentare
        (ur'<!--( Bedeutung \[1\], andere Bedeutung \[2\],\.\.\. angeben - möglichst kurze Erklärung ??|-*?| hinter jedem oder vor allen Synonymen angegen, auf welche Bedeutung es/sie sich bezieht/en | Oberbegriffe aufsteigend nach Größe sortiert | für Bedeutung \[1\], andere Bedeutung \[2\], usw\. | Oberbegriffe aufsteigend nach Größe sorchent | Unterbegriffe absteigend nach Größe sorchent | Hier kannst du weitere Bausteine einsetzen, zum Beispiel für Synonyme Ober- oder Unterbegriffe. Eine Auswahl solcher Bausteine findest du über diesem Bearbeitungsfenster! | /Übersetzungstabelle |alphabetisch sortiert| tot beim Eintrag von Tod\, und umgekehrt | Links/Rechts | /(Flexions|Dialekt|Übersetzungs)tabelle(\r?\n)??/ ??| vor jedem Synonym angeben, auf welche Bedeutung es sich bezieht | Einträge üblicher Nachbarworte insbesondere gebräuchlicher Kombinationen \(was man sofort damit verbindet\)| vor jedem Synonym angeben, auf welche Bedeutung es sich bezieht )-->', u''), # Hering, Seidenschwanz, friend, drängen, Geschützturm, zulässig
        (ur'<!--( Trennzeichen "·"|{{----}}|- Substantiv Tabelle -)-->', u''), # contributo, Erbspüree, pische
        #entf in Überschr {{Wortart|Wortverbg}}, aber nur wenn auch {{Wortart|Redewendung}}
        (ur'({{Wortart\|Redewendung\|[^}]*?}}), {{Wortart\|Wortverbindung\|[^}]*?}}', u'\\1'), # Hals- und Beinbruch
        (ur'{{Wortart\|Wortverbindung\|[^}]*?}}, ({{Wortart\|Redewendung\|[^}]*?}})', u'\\1'), # auf der Nase herumtanzen
        #entf in Überschr {{Wortart|Eigenname}}, aber nur wenn {{Wortart|Toponym}} folgt
        # mit lookahead assertion: [http://docs.python.org/py3k/library/re.html#regular-expression-syntax]
        (ur'{{Wortart\|Eigenname\|[^}]*?}}, (?={{Wortart\|Top)', u''), # Skottland
        #entf leere ÜbersetzungsVorl, ausgen en fr it es
        (ur'\*{{(ar|ca|cs|da|eo|fi|fo|hu|is|ja|ko|la|nl|oc|pl|pt|ro|ru|sq|sr|tr|zh)}}: \[(1)??\] ??({{Ü\|\w\w\|}})??( {{}})??\r?\n', u''), # Tafelente, Olfaktorius, principio
        #entf Tabelle Dialektausdrücke falls leer
        (ur'{{Dialektausdrücke \(Deutsch\)\|\r?\n\*Alemannisch: ??\r?\n\*Bairisch: ??\r?\n\|\r?\n\*({{nds}}|Niedersächsisch): ??\r?\n\*Ostmitteldeutsch: ??\r?\n}}\r?\n', u''),
        (ur'{{Dialektausdrücke \(Deutsch\)\|\r?\n\*Berlinerisch: \[\] ??\r?\n\*Elsässisch: \[\] ??\r?\n\|\r?\n\*Kölsch: \[\] ??\r?\n\*Schwäbisch: \[\] ??\r?\n}}\r?\n', u''), # Pulverschnee
        (ur'{{Dialektausdrücke \(Deutsch\)\|\r?\n\*Bairisch: \[\] \[\[\]\] ??\r?\n\*Elsässisch: \[\] \[\[\]\] ??\r?\n\|\r?\n\*Kölsch: \[\] \[\[\]\] ??\r?\n\*Schwäbisch: \[\] \[\[\]\] ??\r?\n}}\r?\n', u''), # Anastazja
        #verlinke Sachgebiet
        (ur'({{Bedeutungen}}\r?\n: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Note, violin, Rückgrat
        #entf einsamen Doppelpkt, wenn davor und danach 1 Leerz
        (ur'\r?\n\r?\n:\r?\n\r?\n', u'\n'), # Erbspüree
        #entf überflüssige Leerz, max 1 Leerz (=2 newlines) untereinander
        (ur'(\r?\n){3,}', u'\n\n'),
        #entf leere Kommentartags
        (ur'(\r?\n)*?<!--(\r?\n)+?-->(\r?\n)*?', u''), # heimur, Erdmaus
        #entkommentiere {Beispiele}
        (ur'(\r?\n)*?<!--(\r?\n)*?({{Beispiele}}\r?\n:\[1\])(\r?\n)*?-->(\r?\n)*?', u'\n\n\\3\n'), # Portúgal, байрактар
        #entf (leere) Bausteine, wenn Folgezeile(n) leer und die darauffolgende Zeile nicht mit Doppelpkt beginnt
        (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Oberbegriffe|Unterbegriffe|Namensvarianten|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe)}}(\r?\n){2,}([^:])', u'\n\\3'), # Saksa, valere
        #entf (leere) Bausteine, sofern in Folgezeile : oder :[1] oder :[1] [[]] steht; diese Zeile hier darf nicht weiter oben stehen
        (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Weibliche Wortformen|Männliche Wortformen|Verkleinerungsformen|Oberbegriffe|Unterbegriffe|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Ähnlichkeiten)}}\r?\n:( ??\[1\] ??)?( ??\[\[\]\])?\r?\n([^:])', u'\\4'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120714-pages-articles.xml" -fix:form -excepttitle:: -excepttitle:tion\) -xmlstart:
  • Aufruf.: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20120714-pages-articles.xml" -fix:form -excepttitle:: -excepttitle:tion\) -excepttext:Grammatische -xmlstart:
  • Start: 29.7.2012
  • Start.: 13.9.2012
  • Beispiele: siehe oben, jeweils nach den Funktionen


Bot: {veraltet} -> {va.}

Bearbeiten
  • user-fixes.py:
        (ur'{{veraltet}}', u'{{va.}}'), # Greißler
        (ur'{{veraltet(\|[:,;])}}', u'{{va.\\1}}'), # Zelebrität
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"veraltet" -fix:veraltet
  • Start: 9.11.2012


Bot: Form 2

Bearbeiten
  • user-fixes.py:
        (ur'Hawaianisch', u'Hawaiianisch'), # hekau, aka
        (ur'hawaianisch', u'hawaiianisch'), # aa
        #entf auskommentierte Texte (Maori)
        (ur'<!--{{Silbentrennung}} *?\r?\n:·(\r?\n)?-->\r?\n\r?\n', u''), # Fabrisíus, Αριστοφάνης
        (ur'<!--{{Silbentrennung}} *?\r?\n:, {{Pl\.}} -->\r?\n\r?\n', u''), # honi
        (ur'{{(Ober|Unter)begriffe}}\r?\n<!-- (Ober|Unter)begriffe a(uf|b)steigend nach Größe sortiert\r?\n:(\[1\])??\r?\n-->\r?\n\r?\n', u''), # honi, pepakonu
        (ur'{{Synonyme}}\r?\n<!-- hinter jedem oder vor allen Synonymen angegen, auf welche Bedeutung es/sie sich bezieht/en\r?\n:\[1\] *?\r?\n(\r?\n)?-->\r?\n\r?\n', u''), # quiell, tatanga
        (ur'<!-- hinter jedem oder vor allen Synonymen angegen, auf welche Bedeutung es/sie sich bezieht/en-->\r?\n', u''),
        (ur'{{Beispiele}}\r?\n<!-- für Bedeutung \[1\], andere Bedeutung \[2\], usw\.\r?\n:\[1\] *?\r?\n(\r?\n)?-->\r?\n', u'{{Beispiele}}\n:[1]\n'), # honi, uaua
        (ur'{{Charakteristische Wortkombinationen}}\r?\n<!-- Einträge üblicher Nachbarworte insbesondere gebräuchlicher Kombinationen \(was man sofort damit verbindet\)\r?\n:\[1\] *?\r?\n(\r?\n)?-->\r?\n\r?\n', u''), # honi, uaua
        (ur'{{Abgeleitete Begriffe}}\r?\n<!-- Abgeleitete Begriffe alphabetisch sortiert \(z\.B\. Wörterbuch, wortgewandt\) :\[1\] *?\r?\n\r?\n(\r?\n)?-->', u''), # vene, quiell
        (ur'<!-- ??{{Alternative Schreibweise}} ??-->', u''), # pōpokorua, whakakai
        (ur' ??<!--\(Bild\)\|\r?\nBild=\?\?\?\.jpg\|210px\|1\|\?\?\?-->', u''), # jannarzu, marché de Noël
        #verschiebe Pipe nach 'Sprache Subst/Adj/Verb/Adv Übersicht, VerbTab' an Anf der nächsten Zeile
        (ur'({{[^\n]*?(Substantiv Übersicht|Adjektiv Übersicht|Verb Übersicht|Adverb Übersicht|Verb-Tabelle)) *?\| *?\s\n *?(\w)',
         u'\\1\n|\\3'),
        #in Flexvorl: des Kind(e)s -> des Kinds<br />des Kindes
        (ur'(\|[\w]*? (Singular|Plural)=)([^\n]*?)\(e\)([\w]*)', u'\\1\\3\\4<br />\\3e\\4'),
        #genau eine Zeile vor Textbausteinen, nicht mehr und nicht weniger
        ###(ur'(\r?\n)+?{{(Anmerkung|Alternative Schreibweisen|Alte Rechtschreibung|Nebenformen|Worttrennung|Aussprache|Bedeutungen|Abkürzungen|Herkunft|Synonyme|Gegenwörter|Oberbegriffe|Unterbegriffe|Beispiele|Redewendungen|Sprichwörter|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Referenzen}|Grammatische Merkmale|Grundformverweis|Quellen|Ähnlichkeiten)}}',
        ### u'\n\n{{\\2}}'), # Emblem, agat
        (ur'(\r?\n)+?{{(Adjektiv-Tabelle|Verb-Tabelle)',
         u'\n\n{{\\2'), # kurzweilen
        #genau eine Zeile vor Flexvorl häufiger Sprachen, nicht mehr und nicht weniger (Achtung: schopný)
        (ur'=(\r?\n)+?{{(Dänisch|Deutsch|Englisch|Französisch|Irisch|Isländisch|Italienisch|Katalanisch|Lateinisch|Niederländisch|Okzitanisch|Polnisch|Russisch|Spanisch|Tschechisch|Ungarisch)',
         u'=\n\n{{\\2'),
        #neue Zeile nach Worttrg
        (ur'({{Worttrennung}}): ', u'\\1\n:'), # Eysturríki
        (ur'({{Worttrennung}})(\S[^-])', u'\\1\n:\\2'), #pona, marchew
        #entf [[Kategorie:Illustration]] wenn Bild oder Bild 1 in Vorl
        (ur'(\|Bild( 1)??=.*?)\[\[Kategorie:Illustration\]\]', u'\\1'), # Wegerich, Gefriertruhe
        #entf Leerst nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
        (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
        #entf Leerst in ÜbersetzgsVorl vor }} und nach |
        (ur'({{Ü\|[a-z-]*?\|[^\|}]*?) }}', u'\\1}}'),
        (ur'({{Ü\|[a-z-]*?\|) ([^\|}]*?)}}', u'\\1\\2}}'),
        #entf überzählige Leerst in Überschr vor ===
        (ur'  ==', u' =='), # billion, zwirnen
        #erg fehlende Leerst in Überschr vor === und ==
        (ur'([})])((=){2,3})\r?\n', u'\\1 \\2\n'), # sein, Rand
        #erg fehlende Leerst in Überschr nach === und ==
        (ur'^==([^ =])', u'== \\1'), # Ethylen
        (ur'^(== [^(]*?) ??\({', u'\\1 ({'), # Aufschneider
        (ur'^==={', u'=== {'), # breakfast
        #''f'' -> {{f}}
        (ur' \'\'([fmn])\'\'([^-])', u' {{\\1}}\\2'),
        (ur' \'\'m/f\'\'', u' {{mf}}'),
        #[1-2] -> [1, 2]
        (ur'^:\[1[-—–]2\]', u':[1, 2]'),
        (ur'<br clear="all"( /)??(br)??>', u'{{Absatz}}'),
        #S. oder p. -> Seite
        (ur'^([^„]*? )[pS]\.( | )(\d)', u'\\1Seite \\3'), # ausgen Zitate
        (ur'(S\.|Seite)( | )([0-9-]*?[.;,] )Zitat S\.( | )(\d)', u'Seite \\3Zitat Seite \\5'), # Gentleman, Umlaut
        (ur' [pS]\.( | )((\d)*?\. ISBN)', u' Seite \\2'), # Sonagramm, Isotopie
        #-> <br />
        (ur'(<br)/??>', u'\\1 />'),
        (ur'{{PAGENAME}}', u'{{subst:PAGENAME}}'), # Бојан, papír
        (ur'…', u'…'), # Hoffnung
        #''kein Plural'' -> {{kPl.}}
        (ur'({{Pl\.}} )??\'\'kein Plural\'\'', u'{{kPl.}}'), # Korsika, Minsk
        #... -> … (…), sofern in [] oder nach Lautschrift|
        (ur'(\[|{{Lautschrift\|)\.\.\.(\]|}})', u'\\1…\\2'), # Gabel, Bönhase
        #Satzzeichen nach kursivem Wort ebenfalls kursiv, ausgen ''m'', ''mf''
        #vorerst auskommentiert, s. Disku zu WT:Typografie
        ###(ur'(\'\'[^\'\s][^\'\s][^\'\s][^\'\s]*?)\'\'([.,!?:])([^\.\]\[\'"“<«])', u'\\1\\2\'\'\\3'), # er, Meer
        #entf Leerst am Zeilenende, ausgen nach [1]
        (ur'([^\d].) +?\r?\n', u'\\1\n'), # Varietas, Hand
        #entf in Überschr {{Wortart|Wortverbg}}, aber nur wenn auch {{Wortart|Redewendung}}
        (ur'({{Wortart\|Redewendung\|[^}]*?}}), {{Wortart\|Wortverbindung\|[^}]*?}}', u'\\1'), # Hals- und Beinbruch
        (ur'{{Wortart\|Wortverbindung\|[^}]*?}}, ({{Wortart\|Redewendung\|[^}]*?}})', u'\\1'), # auf der Nase herumtanzen
        #entf in Überschr {{Wortart|Eigenname}}, aber nur wenn {{Wortart|Toponym}} folgt
        # mit lookahead assertion: [http://docs.python.org/py3k/library/re.html#regular-expression-syntax]
        (ur'{{Wortart\|Eigenname\|[^}]*?}}, (?={{Wortart\|Top)', u''), # Skottland
        #entf leere ÜbersetzungsVorl, ausgen en fr it es
        (ur'\*{{(ar|ca|cs|da|eo|fi|fo|hu|is|ja|ko|la|nl|oc|pl|pt|ro|ru|sq|sr|tr|zh)}}: \[(1)??\] ??({{Ü\|\w\w\|}})??( {{}})??\r?\n', u''), # Tafelente, Olfaktorius, principio
        #verlinke Sachgebiet
        (ur'({{Bedeutungen}}\r?\n: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Note, violin, Rückgrat
        #entf einsamen Doppelpkt, wenn davor und danach 1 Leerz
        (ur'\r?\n\r?\n:\r?\n\r?\n', u'\n'), # Erbspüree
        #entf überflüssige Leerz, max 1 Leerz (=2 newlines) untereinander
        ###(ur'(\r?\n){3,}', u'\n\n'),
        #entf leere Kommentartags
        (ur'(\r?\n)*?<!--(\r?\n)+?-->(\r?\n)*?', u''), # heimur, Erdmaus
        #entkommentiere {Beispiele}
        (ur'(\r?\n)*?<!--(\r?\n)*?({{Beispiele}}\r?\n:\[1\])(\r?\n)*?-->(\r?\n)*?', u'\n\n\\3\n'), # Portúgal, байрактар
        #entf (leere) Bausteine, wenn Folgezeile(n) leer und die darauffolgende Zeile nicht mit Doppelpkt beginnt
        (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Oberbegriffe|Unterbegriffe|Namensvarianten|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe)}}(\r?\n){2,}([^:])', u'\n\\3'), # Saksa, valere
        #entf (leere) Bausteine, sofern in Folgezeile : oder :[1] oder :[1] [[]] steht; diese Zeile hier darf nicht weiter oben stehen
        (ur'{{(Alternative Schreibweisen|Abkürzungen|Herkunft|Synonyme|Gegenworte|Gegenwörter|Weibliche Wortformen|Männliche Wortformen|Verkleinerungsformen|Oberbegriffe|Unterbegriffe|Bekannte Namensträger|Redewendungen|Charakteristische Wortkombinationen|Abgeleitete Begriffe|Ähnlichkeiten)}}\r?\n:( ??\[1\] ??)?( ??\[\[\]\])?\r?\n([^:])', u'\\4'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20121102-pages-articles.xml" -fix:Form2 -xmlstart:
  • Start: 10.11.2012


Bot: Form 3

Bearbeiten
  • user-fixes.py:
        #Ortsnamen-Grundwort -> Ortsnamengrundwort
        (ur'\[\[Ortsnamen-Grundwort\]\]', u'[[Ortsnamengrundwort]]'), # Hain
        (ur'Wortart\|Ortsnamen-Grundwort', u'Wortart|Ortsnamengrundwort'), # -bach, -by
        #füge fehlende Leerst zw Komma und {{Wortart| ein
        (ur',{{Wortart\|', u', {{Wortart|'), # -möle, Meksîk
        #ers auskommentierte [[Hilfe:Hörbeispiele|Hörbeispiele]] und [[Hilfe:IPA|IPA]]
        (ur'<!--(\r?\n)+?{{(Silben|Wort)trennung}}\r?\n:, {{Pl\.}}\r?\n\r?\n{{Aussprache}}\r?\n:\[\[Hilfe:Hörbeispiele\|Hörbeispiele\]\]: {{fehlend}}, {{Pl\.}} {{fehlend}}\r?\n:\[\[Hilfe:IPA\|IPA\]\]: {{Lautschrift\|…}}, {{Pl\.}} {{Lautschrift\|…}}\r?\n-->', u'{{Worttrennung}}\n:, {{Pl.}}\n\n{{Aussprache}}\n:{{IPA}} {{Lautschrift|…}}, {{Pl.}} {{Lautschrift|…}}\n:{{Hörbeispiele}} {{fehlend}}, {{Pl.}} {{fehlend}}'), # sólskjálftafræði, mačka
        #entf Müll
        (ur'\r?\n<!-- Abgeleitete Begriffe alphabetisch sortiert \(z\.B\. Wörterbuch, wortgewandt\) :\[1\] ??(\r?\n)+?-->\r?\n', u'\n\n'), # honi, pepakonu
        #entf aus Vorl {{Wikipedia|}} Leerst nach | und vor }}
        (ur'({{Wikipedia\|) +([^}]+?) +}}', u'\\1\\2}}'), # cervogia, pepakonu
        (ur'({{Wikipedia\|spr=([^\|]+?)\|) +([^}]+?) +}}', u'\\1\\3}}'), # reo, hōʻikeʻike
        #{Abkürzungen} vor {Herkunft}; erkennt leider keine fremden Schriften 
        (ur'({{(Anker\|)??Herkunft}}\r?\n[-=:\w\d \'\[\]\|<>(){}„“/.,;!?"#]*?\r?\n\r?\n)({{Abkürzungen}}.+?\r?\n\r?\n)', u'\\3\\1'), # Grundstück, Achill
        #weiterer Botlauf mit -excepttext:{{----}} -excepttext:{{2x----}}
        #(ur'({{Herkunft}}.+?\r?\n\r?\n)({{Abkürzungen}}.+?\r?\n\r?\n)', u'\\2\\1'),
        (ur'{{veraltet}}', u',{{va.}}'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20121115-pages-articles.xml" -fix:Form3 -xmlstart:
  • Start: 25.11.2012


Bot: GrammM

Bearbeiten
  • user-fixes.py:
        #korr Reihenfolge der Formen: zuerst Sg, dann Pl
        #(ur'({{Grammatische Merkmale}}\r?\n)(\*Nominativ Plural des Su[^\n]*?\r?\n)(\*Genitiv Singular des Su[^\n]*?\r?\n)(\*Genitiv Plural des Su[^\n]*?\r?\n)(\*Dativ Singular des Su[^\n]*?\r?\n)(\*Dativ Plural des Su[^\n]*?\r?\n)(\*Akkusativ Singular des Su[^\n]*?\r?\n)(\*Akkusativ Plural des Su[^\n]*?\r?\n)', u'\\1\\3\\5\\7\\2\\4\\6\\8'), # Buchfinken, Athleten
        (ur'({{Grammatische Merkmale}}\r?\n)(\*Nominativ Plural des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n(\*Genitiv Plural des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n(\*Dativ Singular des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n(\*Akkusativ Plural des Substantivs )(?:\'\'\')?([^\n]*?)(?:\'\'\')?\r?\n', u'\\1\\6\'\'\'\\7\'\'\'\n\\2\'\'\'\\3\'\'\'\n\\4\'\'\'\\5\'\'\'\n\\8\'\'\'\\9\'\'\'\n'), # Ballaste, Astronyme
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20121115-pages-articles.xml" -fix:GrammM -xmlstart:
  • Start: 3.1.2013


Bot: VerbUbers

Bearbeiten
  • user-fixes.py:
        #Vorlagenname: {{Tschechisch Verb Übersicht Imperf/Perf -> imperfektiv/perfektiv}}. Entf Leerst in Vorl
        (ur'{{Tschechisch Verb Übersicht Imperf', u'{{Tschechisch Verb Übersicht imperfektiv'), # vařit, trvat
        (ur'{{Tschechisch Verb Übersicht Perf', u'{{Tschechisch Verb Übersicht perfektiv'),
        (ur'(\|imperfektiv) +?=', u'\\1='),
        (ur'(\|perfektiv) +?=', u'\\1='),
        (ur'(\|\d\. Person Singular) +?=', u'\\1='),
        (ur'(\|\d\. Person Plural) +?=', u'\\1='),
        (ur'(\|Präteritum Femininum) +?=', u'\\1='),
        (ur'(\|Partizip Perfekt) +?=', u'\\1='),
        (ur'(\|Partizip Passiv) +?=', u'\\1='),
        (ur'(\|Imperativ Singular) +?=', u'\\1='),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20130209-pages-articles.xml" -fix:VerbUbers -requiretitle:"Sprache\|Tschechisch"
  • Start: 14.2.2013


Bot: CHLI

Bearbeiten
  • user-fixes.py:
        #Bot findet keine Lemmata mit mehreren verlinkten Wörtern im Titel
        #schreibe alle Eintr in Kat:S&L_Schreibweise in Datei _CHLI.txt (1701 Eintr)
        #(ur'==\r?\n', u'== \n'),
        #_CHLI.txt: entf Eintr, wo in Lemma ss mehrmals vorkommt: Begrüssungskuss, Fliessgewässer, Reissverschluss,
        # Weissrusse, Weisswasser etc.; alle ss -> ß
        #danach lese Eintr aus Datei _CHLI.txt und ergänze: {{Alternative Schreibweisen}}\n:{{CH&LI}} [[xy]], falls nicht vorhanden.
        #{{CH&LI}} zw {{Wortart}} und {{Worttrennung}}
        (ur'== +?(([^[(]+?)(?:\[\[)??ß([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alternative Schreibweisen}}\r?\n:{{CH&LI}} +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alternative Schreibweisen}}\n:{{CH&LI}} [[\\2ss\\3]]\n\n\\6'), #Gliedermaßstäbe, grüße, Glatzer Neiße, Fehler: Großer Bär, Weißer Sonntag
        #{{CH&LI}} zw {{Flextabelle}} und {{Worttrennung}}
        (ur'== +?(([^[(]+?)(?:\[\[)??ß([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?{{(?:Deutsch Substantiv Üb|Deutsch Adjektiv Üb|Deutsch adjekt|Verb-Tab)[^}]+?}}(?:\r?\n)+?))({{Alternative Schreibweisen}}\r?\n:{{CH&LI}} +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alternative Schreibweisen}}\n:{{CH&LI}} [[\\2ss\\3]]\n\n\\6'), # anreißen, Abbildungsmaßstab, dreißigste, Außenstehende, lichtes Maß
        #{{CH&LI}} zw {{Wortart}} und {{Nebenformen}}
        (ur'== +?(([^[(]+?)(?:\[\[)??ß([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alternative Schreibweisen}}\r?\n:{{CH&LI}} +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Nebenfor)', u'== \\1{{Alternative Schreibweisen}}\n:{{CH&LI}} [[\\2ss\\3]]\n\n\\6'), # Dreikantmaßstabes
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:CHLI -excepttitle:: -excepttitle:tion\) -save:_CHLI.txt -cat:"Schweizer und Liechtensteiner Schreibweise"
  • Aufruf2: python replace.py -ns:0 -dotall -regex -multiline -fix:CHLI -excepttitle:: -excepttitle:tion\) -file:_CHLI.txt
  • Start: 31.3.2013, 335 pages changed


Bot: AlteSch

Bearbeiten
  • user-fixes.py:
        #Bot findet nur Fälle ß -> ss und keine Lemmata mit mehreren verlinkten Wörtern im Titel
        #schreibe alle Eintr in Kat:Alte_Schreibweise_(Deutsch) in Datei _AlteSch.txt (1705 Eintr)
        #(ur'==\r?\n', u'== \n'),
        #_AlteSch.txt: entf Eintr, wo in Lemma ss 2x vorkommt: Baßschlüssel, Begrüßungskuss, Renaissanceschloss
        #alle ß -> ss
        #danach lese Eintr aus Datei _AlteSch.txt und ergänze: {{Alte Rechtschreibung}}\n:[[xy]], falls nicht vorhanden.
        #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:AlteSch -excepttitle:: -excepttitle:tion\) -file:_AlteSch.txt
        #{{Alte Rechtschreibung}} zw {{Wortart}} und {{Worttrennung}}
        (ur'== +?(([^[(]+?)(?:\[\[)??ss([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alte Rechtschreibung}}\r?\n: +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alte Rechtschreibung}}\n:[[\\2ß\\3]]\n\n\\6'), # zusammengepasst
        #{{Alte Rechtschreibung}} zw {{Flextabelle}} und {{Worttrennung}}
        (ur'== +?(([^[(]+?)(?:\[\[)??ss([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?{{(?:Deutsch Substantiv Üb|Deutsch Adjektiv Üb|Deutsch adjekt|Verb-Tab)[^}]+?}}(?:\r?\n)+?))({{Alte Rechtschreibung}}\r?\n: +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Worttr)', u'== \\1{{Alte Rechtschreibung}}\n:[[\\2ß\\3]]\n\n\\6'), # Zündschloss
        #{{Alte Rechtschreibung}} zw {{Wortart}} und {{Nebenformen}}
        (ur'== +?(([^[(]+?)(?:\[\[)??ss([^(]*?) \(([^=]+?==(?:\r?\n)+?=== +?{{Wortart\|[^\|]+?\|Deutsch}}[^=]+?===(?:\r?\n)+?))({{Alte Rechtschreibung}}\r?\n: +?\[\[-[^\|]+?\]\](?:\r?\n)+?)?({{Nebenfor)', u'== \\1{{Alte Rechtschreibung}}\n:[[\\2ß\\3]]\n\n\\6'), # Messwerte, mit einem Schisslaweng
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:AlteSch -excepttitle:: -excepttitle:tion\) -save:_AlteSch.txt -cat:"Alte Schreibweise (Deutsch)"
  • Aufruf2: python replace.py -ns:0 -dotall -regex -multiline -fix:AlteSch -excepttitle:: -excepttitle:tion\) -file:_AlteSch.txt
  • Start: 1.4.2013, 235 pages changed


Bot: Ref-cs-volny vereinfacht

Bearbeiten
  • user-fixes.py:
        #ersetze in {Ref-cs-volny} ANSI durch UTF8
        (ur'(-volny\|[^\}]*?)%E1', u'\\1á'),
        (ur'(-volny\|[^\}]*?)%E1', u'\\1á'),
        (ur'(-volny\|[^\}]*?)%E1', u'\\1á'),
        (ur'(-volny\|[^\}]*?)%E1', u'\\1á'),
        (ur'(-volny\|[^\}]*?)%E9', u'\\1é'),
        (ur'(-volny\|[^\}]*?)%E9', u'\\1é'),
        (ur'(-volny\|[^\}]*?)%E9', u'\\1é'),
        (ur'(-volny\|[^\}]*?)%E9', u'\\1é'),
        (ur'(-volny\|[^\}]*?)%ED', u'\\1í'),
        (ur'(-volny\|[^\}]*?)%ED', u'\\1í'),
        (ur'(-volny\|[^\}]*?)%ED', u'\\1í'),
        (ur'(-volny\|[^\}]*?)%ED', u'\\1í'),
        (ur'(-volny\|[^\}]*?)%F3', u'\\1ó'),
        (ur'(-volny\|[^\}]*?)%FA', u'\\1ú'),
        (ur'(-volny\|[^\}]*?)%FA', u'\\1ú'),
        (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'),
        (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'),
        (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'),
        (ur'(-volny\|[^\}]*?)%FD', u'\\1ý'),
        (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'),
        (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'),
        (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'),
        (ur'(-volny\|[^\}]*?)%EC', u'\\1ě'),
        (ur'(-volny\|[^\}]*?)%9A', u'\\1š'),
        (ur'(-volny\|[^\}]*?)%9A', u'\\1š'),
        (ur'(-volny\|[^\}]*?)%9A', u'\\1š'),
        (ur'(-volny\|[^\}]*?)%9A', u'\\1š'),
        (ur'(-volny\|[^\}]*?)%E8', u'\\1č'),
        (ur'(-volny\|[^\}]*?)%E8', u'\\1č'),
        (ur'(-volny\|[^\}]*?)%E8', u'\\1č'),
        (ur'(-volny\|[^\}]*?)%E8', u'\\1č'),
        (ur'(-volny\|[^\}]*?)%F8', u'\\1ř'),
        (ur'(-volny\|[^\}]*?)%F8', u'\\1ř'),
        (ur'(-volny\|[^\}]*?)%9E', u'\\1ž'),
        (ur'(-volny\|[^\}]*?)%9E', u'\\1ž'),
        (ur'(-volny\|[^\}]*?)%9E', u'\\1ž'),
        (ur'(-volny\|[^\}]*?)%F9', u'\\1ů'),
        (ur'(-volny\|[^\}]*?)%F9', u'\\1ů'),
        (ur'(-volny\|[^\}]*?)%F2', u'\\1ň'),
        (ur'(-volny\|[^\}]*?)%EF', u'\\1ď'),
        (ur'(-volny\|[^\}]*?)%9D', u'\\1ť'),
        (ur'(-volny\|[^\}]*?)%9D', u'\\1ť'),
        (ur'(-volny\|[^\}]*?)%D8', u'\\1Ř'),
        (ur'(-volny\|[^\}]*?)%8A', u'\\1Š'),
        (ur'(-volny\|[^\}]*?)%DA', u'\\1Ú'),
        (ur'(-volny\|[^\}]*?)%C8', u'\\1Č'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-cs-volny" -fix:volny
  • Start: 29.6.2013, 1798 pages changed


Bot: Vorlagen Ref-Canoo, Ref-UniLeipzig, Ref-Grimm

Bearbeiten
  • user-fixes.py:
        #ersetze {{Ref-Canoo| durch {{Ref-CanooT|, aber nur wenn danach ein % steht
        (ur'{{Ref-Canoo(\|[^\|}]*?%[^\|}]*?[\|}])', u'{{Ref-CanooT\\1'),
        #ersetze in {Ref-UniLeipzig} ANSI durch UTF8
        #?UniLeipzig hat Probleme mit zweibuchstabigen Wörtern mit Umlaut beginnend: Öl
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%E4', u'\\1ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%C4', u'\\1Ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%F6', u'\\1ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%D6', u'\\1Ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%FC', u'\\1ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DC', u'\\1Ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%DF', u'\\1ß'),
        #füge in {Ref-Grimm} id= vor die id ein
        (ur'({{Ref-Grimm\|[^\|]+?\|)(\w\w\d{2,6}}})', u'\\1id=\\2'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-Canoo" -transcludes:"Ref-UniLeipzig" -transcludes:"Ref-Grimm" -fix:RefVorlagen
  • Start: 30.6.2013


Bot: entf Ref-CanooT, kennt keine Leerzeichen

Bearbeiten
  • user-fixes.py:
        #[[Vorlage Diskussion:Ref-Canoo]]
        #ers {{Ref-CanooT| durch {{Ref-Canoo| und gleichzeitig ANSI (egal ob Groß- od Kleinschreibung) durch UTF8
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]4', u'\\1\\2ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Cc]4', u'\\1\\2Ä'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff]6', u'\\1\\2ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd]6', u'\\1\\2Ö'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ff][Cc]', u'\\1\\2ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Cc]', u'\\1\\2Ü'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Dd][Ff]', u'\\1\\2ß'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]0', u'\\1\\2à'),
        (ur'({{Ref-Canoo)T??(\|[^\|}]*?)%[Ee]9', u'\\1\\2é'),
        ##entf Ref-Canoo, wenn mit Leerzeichen. Ref-Canoo kennt keine Wortkombis
        (ur':\[[12\*\?]\] {{Ref-Canoo\|[^\|}]*? [^\|}]*?}}\r?\n', u''), #Glatzer Kessel
        ##entf Ref-Canoo, wenn + enthält. Ref-Canoo kennt keine Wortkombis
        (ur':\[[1234\*\?]\] {{Ref-Canoo\|[^\|}]*?\+[^\|}]*?}}\r?\n', u''), #Ausnahme: Futur II, dicht machen
          #spazieren gehen, entweder...oder
        ##ers 3 Pkte in Ref-Canoo, Ref-DWDS, Ref-UniLeipzig durch Seitentitel
        (ur'(== +?([^\(]*?) +?\(.*?{{Ref-Canoo\|)\.\.\.', u'\\1\\2'), #aufgeweckt
        (ur'(== +?([^\(]*?) +?\(.*?{{Ref-DWDS\|)\.\.\.', u'\\1\\2'),
        (ur'(== +?([^\(]*?) +?\(.*?{{Ref-UniLeipzig\|)\.\.\.', u'\\1\\2'),
        ##damit es schneller geht, auch Uni-Leipzig:
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]4', u'\\1ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Cc]4', u'\\1Ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff]6', u'\\1ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd]6', u'\\1Ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff][Cc]', u'\\1ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Cc]', u'\\1Ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Ff]', u'\\1ß'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]4', u'\\1ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Cc]4', u'\\1Ä'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff]6', u'\\1ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd]6', u'\\1Ö'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ff][Cc]', u'\\1ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Cc]', u'\\1Ü'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Dd][Ff]', u'\\1ß'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]0', u'\\1à'),
        (ur'({{Ref-UniLeipzig\|[^\}]*?)%[Ee]9', u'\\1é'),
        ##%20 -> +
        (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'),
        (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'),
        (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'),
        (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'),
        (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'),
        (ur'({{Ref-UniLeipzig\|[^\|}]*?)%20([^\|}]*?[\|}])', u'\\1+\\2'),
        #schließlich neuer Botlauf: {{Ref-CanooT| -> {{Ref-Canoo|
        (ur'(== +?([^\(]*?) +?\(.*?{{Ref-Canoo\|)\.\.\.', u'\\1\\2'),
        (ur'{{Ref-CanooT\|', u'{{Ref-Canoo|'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130717-pages-articles.xml" -fix:Canoo -xmlstart:
  • Start: 11.7.2013


Bot: Ref-Grimm: ersetze äöüß, entferne id=

Bearbeiten
  • user-fixes.py:
        #[[WT:TS:Vorlage:Ref-Grimm]]
        #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-Grimm" -fix:Grimm -save:_Grimm.txt
        #speichere alle Eintr mit id in Ref-Grimm in Datei _Grimm.txt (6129 titles saved), außer Komma enthaltend, aber incl. äöüÄÖÜß
        #{{Ref-Grimm|wasser, ''n.''}}, {{Ref-Grimm|berg, ''m.''|id=GB04143}}, {{Ref-Grimm|Öl, Öhl|id=GO01443}}, 
        #(ur'({{Ref-Grimm\|[^},]*?id=[^}]*?})', u'\\1xy'),

        #Wörter, auf die mit Grimm mit zumindest 2 verschiedenen id´s im Eintrag verlinkt wird:
        #er, Bruch, Wetter, Benachrichtigung, Löffel, Ball, Tor, Streber, Hut?, mir, sieben, Steuer, wollen, zwirnen, Neffe, Kiefer, Schote, Gewerk, Stift,
        #acht, Weihe, Stelze, schier, Kunde, Scheide?, Kegel, Enkel, Band, (sondern), Tau, (Taube), Reis, Kapelle, Leiter, Gericht, wiegen, Nähe, Troll,
        #offen, Zimt, Pricke?, Lahnung, ergeben, folgen, fest, Gicht, Krätze, Ried, losen, hinter, Bund, rein, Rabatz, Golf, endlich, albern, ziepen,
        #Krause?, reinigen, Pinke, Borg, Eimer, tönen, verhaspeln, bereiten, Muff, ok Buckel, erschrecken, brüderlich, Schütz, Otter,
        #Matte, striezen, weichen, Fund, Kluft, rotten, erzen, wahrlich, recht, recht haben, Funk, eichen, tuchen, ledern, schwofen, Schopf,
        #Wacke, nieder, Knäuel, Rotte, stutzen, Schotte, strippen, Völle, einleben, eh, la, Ficke, Säckel, geren, ausschaffen,
        #wissen, Wissen

        #entf manuell alle Wörter in obiger Liste aus Datei _Grimm.txt
        #scheint ein Fehler bei Grimm vorzuliegen, id ist nötig: Deckel, Münze, überraschen, Stätte
        #ersetze äöüÄÖÜß durch ae oe ue Ae Oe Ue sz, entf |id=wwddddd
        #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -fix:Grimm -excepttitle:: -excepttitle:tion\) -file:_Grimm.txt
        (ur'({{Ref-Grimm\|[^\|}]*?)ä', u'\\1ae'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ö', u'\\1oe'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ü', u'\\1ue'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ä', u'\\1Ae'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ö', u'\\1Oe'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ü', u'\\1ue'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ß', u'\\1sz'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ä', u'\\1ae'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ö', u'\\1oe'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ü', u'\\1ue'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ä', u'\\1Ae'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ö', u'\\1Oe'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ü', u'\\1ue'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ß', u'\\1sz'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ä', u'\\1ae'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ö', u'\\1oe'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ü', u'\\1ue'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ä', u'\\1Ae'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ö', u'\\1Oe'),
        (ur'({{Ref-Grimm\|[^\|}]*?)Ü', u'\\1ue'),
        (ur'({{Ref-Grimm\|[^\|}]*?)ß', u'\\1sz'),
        (ur'({{Ref-Grimm\|[^\|}]*?)\|id=[^}]*?}', u'\\1}'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -transcludes:"Ref-Grimm" -fix:Grimm -save:_Grimm.txt
  • Aufruf2: python replace.py -ns:0 -dotall -regex -multiline -fix:Grimm -excepttitle:: -excepttitle:tion\) -file:_Grimm.txt
  • Start: 7.7.2013


Bot: {Siehe auch} entfernt

Bearbeiten
  • user-fixes.py:
        #entf {{Siehe auch|Grundform (Deklination|Konjugation)]]}} in Eintr flektierter Formen
        #[[WT:TS:Vorlage für Verweis auf Flexionsseiten bei Einträgen zu flektierten Formen]]
        (ur'{{Siehe auch\|\[\[[^\|}]*?\([^\|}]*?\)\]\]}}\r?\n\r?\n', u''), # braver, seiend
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130717-pages-articles.xml" -fix:SieheAuch -xmlstart:
  • Start: 22.7.2013


Bot: Ref-Grimm, Ref-Duden: konvertiere nach äöüß

Bearbeiten
  • user-fixes.py:
        #[[BD:Betterknower#Modul]]
        #Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:Umlaute -transcludes:"Ref-Grimm" -transcludes:"Ref-Duden" -save:_Umlaute.txt -xmlstart:
        #speichere alle Eintr in _Umlaute.txt
        #entf aus Umlaute.txt alle Sonderfälle: Feuer, Quelle, Statue, Konfluenz, Baguette, Taekwondo, Maestro, Konstituente,
        # Jahreszeit, Tierkreiszeichen, sexuell, bauen, Israel, oszillieren,..
        #Die Rückauflösung der Umlaute, sowie des Unterstrichs in die Satz/Sonderzeichen ist per Bot nicht zuverlässig machbar.
        #Aufruf: python replace.py -dotall -regex -multiline -fix:Umlaute -file:_Umlaute.txt
        #ers in {Ref-Grimm} und {Ref-Duden} ae oe ue Ae Oe Ue sz durch ä ö ü Ä Ö Ü ß
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'), #Wärmezähler
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'), #Pförtner
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ae', u'\\1ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)oe', u'\\1ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)ue', u'\\1ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ae', u'\\1Ä'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Oe', u'\\1Ö'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)Ue', u'\\1Ü'),
        (ur'({{Ref-(Grimm|Duden)\|[^\|}]*?)sz', u'\\1ß'),
  • Aufruf: python replace.py -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:Umlaute -transcludes:"Ref-Grimm" -transcludes:"Ref-Duden" -save:_Umlaute.txt -xmlstart:
  • Aufruf2: python replace.py -dotall -regex -multiline -fix:Umlaute -file:_Umlaute.txt
  • Start: 15.8.2013, 3095 pages changed


Migration des Bots nach pywikibot/core

Bearbeiten
  • Systemsteuerung/Wartung/System/Erweitert/Umgebungsvariablen: Pfad ergänzt: "C:\Dokumente und Einstellungen\User\core\pywikibot"
  • tools.wmflabs.org/pywikibot/core.tar.gz downgeloaded. Inhalt kopiert nach C:\d+e\User\core
  • default user directory: C:\d+e\User\core
  • user-config.py und user-fixes.py nach \core verschoben
  • Änderung bei Aufruf: python pwb.py replace, pwb weiß, wo die Pythonbefehle zu finden sind
  • Änderung bei Pfad: C:\d+e\User\core\user-fixes.py
Problem: Wenn man bei pywikibot (pwb core) im Kommandozeileninterpreter (DOS-Fenster) 'python login.py', 'python replace.py', oder einen anderen Befehl eingibt, gibt es keine Reaktion.
Lösung: 'python pwb.py login' eingeben.

Bot: Ref-DWDS: + -> Leerzeichen

Bearbeiten
  • user-fixes.py:
        #ers in Vorl Ref-DWDS Pluszeichen durch Leerzeichen
        (ur'({{Ref-DWDS\|[^\|}]*?)\+([^\|}]*?}})', u'\\1 \\2'),
        (ur'({{Ref-DWDS\|[^\|}]*?)\+([^\|}]*?}})', u'\\1 \\2'),
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:DWDS
  • Start: 14.9.2013, 113 pages changed


Bot: Kommentar entf

Bearbeiten
  • user-fixes.py:
        ### ACHTUNG  (\r?\n)*? am Ende der ur-Zeile funzt nicht (vor Interwikilinks) -> \r?\n{0,}
        (ur'\r?\n{0,}<!--  Weitere Homonyme?? können durch "{{subst:Formatvorlage}}" eingefügt werden\.\r?\nÜberzählige Überschriften \(z\.B\. gleiche?? Sprache?? wie vorherige Eintragung\) löschen\. -->\r?\n{0,}', u'\n\n'), #31 S. Fabeltier, EKG, APO, APPD
        (ur'\r?\n{0,}<!-- {{Ähnlichkeiten}} tot beim Eintrag von Tod\, und umgekehrt -->\r?\n{0,}', u'\n\n'), #3 S. Fabeltier, HP, französ.
        (ur'<!-------- Spielte ich nur\, dann \.\.\. -------->\r?\n', u''), #mehr als 100 S. anästhesieren belagern zutragen
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20130808-pages-articles.xml" -fix:KommentarEntf
  • Start: 4.10.2013


Bot: Lit-Drosdowski -> Lit-Duden

Bearbeiten
  • user-fixes.py:
        (ur'{{Lit-Drosdowski: Vornamen', u'{{Lit-Duden: Lexikon der Vornamen'),
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -fix:Drosd -transcludes:"Lit-Drosdowski: Vornamen"
  • Start: 7.10.2013, 273 pages changed


Bot: S. -> Seite, Ref-Duden, Ref-Grimm, Ref-wissen.de vereinfacht

Bearbeiten
  • user-fixes.py:
        #ers nach LitVorlagen S. od p. durch Seite
        (ur'({{Lit-[^<]*? )[pS]\.( | )((\d)[^<]*?</ref)', u'\\1Seite \\3'), #in ref-tags: Achill, Laura
        (ur'({{Lit-[^\n]*? )[pS]\.( | )((\d)[^<\n]*?\r?\n{0,})', u'\\1Seite \\3'), #Afghane, Alexander, Hacke, Anhänger
        #Ref-Duden: entf 2. Parameter falls mit 1. Parameter identisch (lookahead assertion)
        (ur'({{Ref-Duden\|(?P<Wort>[^\|]*?))\|(?P=Wort)}}', u'\\1}}'), #Ampel, Gründer
        #Ref-wissen.de: entf 2. Parameter (nur ohne Ziffer am Ende) falls 3. Parameter (Umlaut enthaltend) existiert
        (ur'({{Ref-wissen\.de\|\w*?\|)\w*?\D\|(\w*?[äöüÄÖÜß]\w*?}})', u'\\1\\2'), #Anwältin, Dreikäsehoch, (sonst Problem: Freya, Silk, Westbank)
        
        #Ref-Grimm, Ref-Duden: wenn 2. Parameter = Seitentitel -> entf 3. Parameter
        #(ur'^== +?(?P<Titel>[^\(=]*?) +?\([^=]*?==$', u'\\1'), ## !!Ermittlung des Seitentitels und Speichern in "Titel"!! ##
        (ur'(^== +?(?P<Titel>[^\(=]*?) +?\([^=]*?==$.*?{{Ref-Grimm\|(?P=Titel))\|[^}]*?\D}}', u'\\1}}'), #Bild, Igel|, stad, (para3 nicht id=xyxyZiffer)
        (ur'(^== +?(?P<Titel>[^\(=]*?) +?\([^=]*?==$.*?{{Ref-Duden\|(?P=Titel))\|[^}]*?\D}}', u'\\1}}'), #Füller {{Ref-Duden|Füller|s=Füller}}, Lüge
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Lit-
  • Start: 10.10.2013


Bot: {Beispiele fehlen|spr=de}

Bearbeiten
  • user-fixes.py:
        #[[WT:Bots/Anträge auf Bearbeitungen#erweitern Beispiele → Beispiele fehlen]]
        #ers {erweitern|Beispiele|Deutsch} durch {Beispiele fehlen|spr=de}
        (ur'{{erweitern\|Beispiele\|Deutsch}}(?:\r?\n)(.*?{{Beispiele}}(?:\r?\n):\[1\]) *?\r?\n', u'\\1 {{Beispiele fehlen|spr=de}}\n'), #Intralogistik, Bellevue, Huk
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:BspFehlen
  • Start: 14.10.2013


Bot: Ref-Goethe

Bearbeiten
  • user-fixes.py:
        #entf 2. Parameter, falls vorhanden
        (ur'({{Ref-Goethe\|[^\|}]*?)\|[^}]*?}}', u'\\1}}'), #paddeln, geil, Achtung:Akt, wenn Para2=... existiert meist das Lemma bei Goethe nicht
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Goethe
  • Start: 17.10.2013


Bot: Ref-Vorlagen vereinfacht, Ref-Lexer ergänzt

Bearbeiten
  • user-fixes.py:
        #entf in Ref-Grimm ...
        (ur'({{Ref-Grimm)\|\.\.\.\|\.\.\.}}', u'\\1}}'), #Omi
        #entf 2. Param, falls mit 1. Param identisch, egal ob dahinter benannter Param id= steht oder nicht
        (ur'({{Ref-(Pfälzisch|Grimm|Elsässisch|Goethe|Lothringisch|Pfälzisch|Rheinisch|Rheinisch2|Wander|Adelung|Duden)\|(?P<Wort>[^\|]*?))\|(?P=Wort)(\||})', u'\\1\\4'), #Bauch, Eichelheher, mööte, Kontinuum, Achtung:Alp
        # füge id= vor ID-Nr. ein
        (ur'({{Ref-(Meyers|Meyer|Lexer|Grimm|Wander|Pfälzisch|Adelung)\|[^\|}]*?\|)(\w\w\d{5}}})', u'\\1id=\\3'), #Wegwarte, Weißer, kalfatern
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Ref-
  • Start: 20.10.2013


Bot: Ref-Meyer -> Ref-Meyers

Bearbeiten
  • user-fixes.py:
        (ur'({{Ref-Meyer)\|', u'\\1s|'),
        #Problem bei Ref-Meyer1905: manchmal gibt es einen Eintrag in Zeno.org, jedoch bei Meyers keinen: Sakramentskapelle, Apothema
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Meyers
  • Start: 20.10.2013


Bot: Kat-Listen: Bindestrich -> Gedankenstrich

Bearbeiten
  • user-fixes.py:
        #[[WT:Bots/Anträge auf Bearbeitungen#Typographie]]
        (ur'(\[\[Kategorie:Tschechisch )-( Listen\, Übersichten und Verzeichnisse)', u'\\1–\\2'), #35 pages: WT:Tschechisch/Übersicht der Zahlen
        (ur'(\[\[Kategorie:Deutsch )-( Listen\, Übersichten und Verzeichnisse)', u'\\1–\\2'), #89 pages: WT:Deutsch/Erikativ
  • Aufruf: python pwb.py replace -dotall -regex -multiline -xml:"C:\Pfad\dewiktionary-20131005-pages-articles.xml" -fix:Kat
  • Start: 24.10.2013


Bot: {{Ref-dictcc eingefügt

  • user-fixes.py:
        #[[BD:Betterknower#Bot-Auftrag]]
        (ur' *?\[http://deeo\.dict\.cc/\?s=(\w+?) dict\.cc Deutsch-Esperanto-Wörterbuch\]', u' {{Ref-dictcc|eo|\\1}}'), #baki
        #zweiter Botlauf:
        #alternativer Aufruf, wenn Dump nicht aktuell: python pwb.py replace -ns:0 -dotall -regex -multiline -fix:deeo -excepttitle:: -transcludes:"Ref-dictcc"
        #ers {{Ref-dictcc|eo|<deutsches Wort>}} durch {{Ref-dictcc|eo|<pagename>}} falls dort nicht schon <pagename> steht
        (ur'(^==) +((?P<Titel>[^\(=]*?) +?\([^=]*?==$.*?{{Ref-dictcc\|eo\|)((?P=Titel)|[^}]*?)}}', u'\\1 \\2\\3}}'), #balai, alegorio, desegni
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131020-pages-articles.xml" -fix:deeo
  • Start: 24.10.2013, 104 pages changed, 25.10.2013, 107 pages changed


Bot: {{Ref-BMZ angepasst

  • user-fixes.py:
        #{{Ref-MittelhochdeutschBMZ -> {{Ref-BMZ und setze vor die id 'id=' falls id vorhanden
        (ur'{{Ref-MittelhochdeutschBMZ(\|[^\|}]*?)}}', u'{{Ref-BMZ\\1}}'), #Kunkel
        (ur'{{Ref-MittelhochdeutschBMZ(\|[^\|]*?\|)(\w\w\d{5})}}', u'{{Ref-BMZ\\1id=\\2}}'), #slüpfen
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -xml:"C:\Pfad\dewiktionary-20131020-pages-articles.xml" -fix:Ref-BMZ
  • Start: 2.11.13


Bot: [Kat:Wortverbindungen] entfernt

Bearbeiten
  • user-fixes.py:
        #entf [[Kat:Wortverbindung]] wenn Sprichwort od Redewendung
        (ur'\n\n\[\[Kategorie:Wortverbindung\]\]', u''), #aller guten Dinge sind drei, alles in einen Topf werfen, am Ball bleiben
  • Aufruf: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -fix:KatWortverb -cat:Sprichwort -cat:Redewendung
  • Start: 21.11.13


Bearbeiten
  • user-fixes.py:
        #2 Läufe, zuerst Dialektausdrücke, dann Rest; jeweils mit Formsachen
        #1. Lauf:
        #[[WT:Bots/Anträge auf Bearbeitungen#neue Übersetzungstabelle]], [[BD:BetterkBot#Neue Aufgaben]]
        #ers {{Ü-links}} mit {{Dialektausdrücke durch {{Ü-Tabelle= usw.
        (ur'^{{Ü-links}}(.+?)^{{Ü-Abstand}}(.+?)^{{Ü-rechts}} ??( ??<!-- für weitere Sprachkürzel siehe den Link (rechts )??unterhalb des Editierfensters -->)?(?:\r?\n{1,})^{{Dialektausdrücke \([^\)]*?\)\|([^\|]*?)^\|(.*?^}})', u'{{Ü-Tabelle|Ü-links=\\1|Ü-rechts=\\2|Dialekttabelle=\\5|D-Rechts=\\6'), #Aal, Teilchenbeschleuniger, sein, abattre, Hammer, Erdbeere
        #entf überflüssige Leerzeilen, max 1 Leerz (=2 newlines) untereinander
        (ur'(\r?\n){3,}', u'\n\n'), #verstehen
        #entf Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
        (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
        #[d-d] -> [d, d]
        (ur'^:\[1[-—–]2\]', u':[1, 2]'), #titulieren
        (ur'^:\[2[-—–]3\]', u':[2, 3]'), #Aufladesystem, Burgunder
        #setze richtigen Bindestrich
        (ur'(^:\[\d)-(\d\])', u'\\1–\\2'), #Austernfischer, Brot
        (ur'(^:\[\d)-(\d\, \d\])', u'\\1–\\2'), #tief
        #[d,d] -> [d, d]
        (ur'^(:\[\d\,)(\d\])', u'\\1 \\2'), #Umluft, Kanal, Korsar
        #[1,2,3] -> [1–3]
        (ur'^:\[1 ??\,2 ??\,3\]', u':[1–3]'), #Lichtstock, fence
        #entf Leerzeichen am Zeilenende
        (ur'([^\d].) +?\r?\n', u'\\1\n'),
        (ur'{{Verb-Tabelle', u'{{Deutsch Verb Übersicht'), #ausbrechen
        #Befehl_du -> Imperativ Singular
        (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_du(=[^\n]*?\n.*?^}})', u'\\1Imperativ Singular\\3'), #verbrechen, liegen
        #Befehl_ihr -> Imperativ Plural
        (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_ihr(=[^\n]*?\n.*?^}})', u'\\1Imperativ Plural\\3'), #sprechen, wiegen
        #Flexbox: |Bild= ans Ende
        (ur'(^{{(?:Verb-Tabelle|[^Ü\n]+? [^Ü\n]+? Übersicht\r?\n)[^}]*?)(^\|Bild[^}]+?)(^\|[^B][^}]+?)}}', u'\\1\\3\\2}}'), #Auto, Baum, Amphibie, arbeiten
        #Beispiele: entf Leerzeichen zw “ und <ref>
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'), #Lüftung, Apostel, B2B, Modul?!
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        #entf {Ähnlichkeiten} falls leer
        (ur'^{{Ähnlichkeiten}}\r?\n\r?\n', u''), #Elektrochemie, Gjermani
        #Hörbsp: {fehlend} -> {Audio|}
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'), #August, Hallo, aloofness
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        #verlinke Sachgebiet, Doppelpkt kursiv
        (ur'(^{{Bedeutungen}}\n^: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Allabreve, Andromeda, depravation
        #ers {{AE}} durch {{amer.}}, ebenso {{BE}} durch {{brit.}}
        (ur'{{AE((\|.)+?}})', u'{{amer.\\1'), #Aquarellmaler, 1
        (ur'{{BE((\|.)+?}})', u'{{brit.\\1'), #Billion
        #Hörbsp: schreibe AussprLand aus
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'), #abattoir, cat, Amazon
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'), #chilly
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'), #Armbanduhr, Hinweis
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'),
        #erg Vorl {Audio|En-us- um (amerikanisch)
        (ur'{{Audio\|En-us-([^}]*?)\.ogg}}', u'{{Audio|En-us-\\1.ogg|\\1 (amerikanisch)}}'), #huzza
        #entf {{----}} und {{2x----}}
        (ur'(^[^\n]+?$)\n\n??^{{----}}\n\n??(^=== {{Wortart)', u'\\1\n\n\\2'), #Kohl, Bug, Adorf,
        (ur'(^[^\n]+?$)\n\n??^{{2x----}}\n\n??(^== [^\(]+?\({{Sprache)', u'\\1\n\n\\2'), #April, Andreas, Jeremane
        ###-> Ref-canoo, noch allgemeinen Konsens abwarten
        ###(ur'{{Ref-Canoo', u'{{Ref-canoo'), #Hahn

        #2. Lauf:
        #Ü-links, 0 oder mehr Zeilen entweder mit {{Übers umleiten oder *{{de}}:, Ü-rechts. Entf des Sprachkürzelkommentars 
        (ur'^{{Ü-links}} ??((?:\r?\n{1,})(?:(?:^[\*: ]*?{{Übersetzungen umleiten[^\n]*?\r?\n)*?|(?:^[\*: ]*?{{[a-z-]+?}} ??:[^\n]*?\r?\n)*?))(?:\r?\n)*?^ ??{{Ü-rechts}}(?: ??<!--  ??für weitere Sprachkürzel siehe den Link (?:rechts )??unterhalb des (?:Editier|Bearbeitungs)fensters  ??-->)?', u'{{Ü-Tabelle|Ü-links=\\1|Ü-rechts=\n}}'), #Bayern, Hannibal, Repertoire, Venus
        #Ü-links, 0 oder mehr Zeilen entweder mit {{Übers umleiten oder *{{de}}:, Ü-Abstand, 0 oder mehr Zeilen entweder mit {{Übers umleiten oder *{{de}}:, Ü-rechts. Entf gleichzeitig Sprachkürzelkommentar
        (ur'^{{Ü-links}} ??((?:\r?\n{1,})(?:(?:^[\*: ]*?{{Übersetzungen umleiten[^\n]*?\r?\n)*?|(?:^[\*: ]*?{{[a-z-]+?}} ??:[^\n]*?\r?\n)*?))(?:\r?\n)*?^ ??{{Ü-Abstand}} ??((?:\r?\n{1,})(?:(?:^[\*: ]*?{{Übersetzungen umleiten[^\n]*?\r?\n)*?|(?:^[\*: ]*?{{[a-z-]+?}} ??:[^\n]*?\r?\n)*?))(?:\r?\n)*?^ ??{{Ü-rechts}}(?: ??<!--  ??für weitere Sprachkürzel siehe den Link (?:rechts )??unterhalb des (?:Editier|Bearbeitungs)fensters  ??-->)?', u'{{Ü-Tabelle|Ü-links=\\1|Ü-rechts=\\2}}'), #Aal, Bank, Mensch, Polen
        #entf überflüssige Leerzeilen, max 1 Leerz (=2 newlines) untereinander
        (ur'(\r?\n){3,}', u'\n\n'),
        #entf Leerzeichen nach Doppelpkt oder 2 Doppelpkten am Zeilenanf
        (ur'\s\n(:{1,2}) +([^\n])', u'\n\\1\\2'),
        #[d-d] -> [d, d]
        (ur'^:\[1[-—–]2\]', u':[1, 2]'),
        (ur'^:\[2[-—–]3\]', u':[2, 3]'),
        #setze richtigen Bindestrich
        (ur'(^:\[\d)-(\d\])', u'\\1–\\2'),
        (ur'(^:\[\d)-(\d\, \d\])', u'\\1–\\2'),
        (ur'(^:\[\d\, \d)-(\d\])', u'\\1–\\2'), #sitzen
        #[d,d] -> [d, d]
        (ur'^(:\[\d\,)(\d\])', u'\\1 \\2'),
        #[1,2,3] -> [1–3]
        (ur'^:\[1 ??\,2 ??\,3\]', u':[1–3]'),
        #entf Leerzeichen am Zeilenende
        (ur'([^\d].) +?\r?\n', u'\\1\n'),
        (ur'{{Verb-Tabelle', u'{{Deutsch Verb Übersicht'),
        #Befehl_du -> Imperativ Singular
        (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_du(=[^\n]*?\n.*?^}})', u'\\1Imperativ Singular\\3'),
        #Befehl_ihr -> Imperativ Plural
        (ur'({{(Verb-Tabelle|Deutsch Verb Übersicht).*?^\|)Befehl_ihr(=[^\n]*?\n.*?^}})', u'\\1Imperativ Plural\\3'),
        #Flexbox: |Bild= ans Ende
        (ur'(^{{(?:Verb-Tabelle|[^Ü\n]+? [^Ü\n]+? Übersicht\r?\n)[^}]*?)(^\|Bild[^}]+?)(^\|[^B][^}]+?)}}', u'\\1\\3\\2}}'),
        #Beispiele: entf Leerzeichen zw “ und <ref>
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        (ur'(^{{Beispiele}}.*?“) +?(<ref>.*?^{{)', u'\\1\\2'),
        #erg Leerzeichen vor {{Beispiele fehlen}} (von Fisch21 mit AWB)
        (ur'(^:\[\d\]) ??({{Beispiele fehlen)', u'\\1 \\2'), #hangya, gjalpë, platina
        #PAGENAME -> Seitentitel (hat im Eintragsnamensraum nichts verloren)
        (ur'{{PAGENAME}}', u'{{subst:PAGENAME}}'), #Abilio, ti
        #entf {Ähnlichkeiten} falls leer
        (ur'^{{Ähnlichkeiten}}\r?\n\r?\n', u''),
        #Hörbsp: {fehlend} -> {Audio|}
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?){{fehlend}}', u'\\1{{Audio|}}'),
        #verlinke Sachgebiet, Doppelpkt kursiv
        (ur'(^{{Bedeutungen}}\n^: ??\[[^\]]*?\] \'\')\[??\[??(Anatomie|Architektur|Astronomie|Bankwesen|Bauwirtschaft|Bergbau|Bildungswesen|Biologie|Botanik|Chemie|EDV|Elektrotechnik|Energietechnik|Entomologie|Finanzwesen|Gastronomie|Geografie|Geographie|Geologie|Geometrie|Geschichte|Grammatik|Handel|Handelswesen|Ichthyologie|Informatik|Küche|Kunst|Landwirtschaft|Lexikografie|Linguistik|Literatur|Luftfahrt|Marine|Mathematik|Mechanik|Medizin|Meteorologie|Militär|Mineralogie|Musik|Mythologie|Optik|Ornithologie|Pharmazie|Philosophie|Physik|Politik|Psychologie|Raumfahrt|Rechnungswesen|Recht|Rechtswesen|Religion|Seefahrt|Soziologie|Sport|Technik|Theologie|Weinbau|Wirtschaft|Wissenschaft|Zoologie)\]??\]??(\'\':|:\'\')', u'\\1[[\\2]]:\'\''), # Allabreve, Andromeda, depravation
        #ers {{AE}} durch {{amer.}}, ebenso {{BE}} durch {{brit.}}
        (ur'{{AE((\|.)+?}})', u'{{amer.\\1'),
        (ur'{{BE((\|.)+?}})', u'{{brit.\\1'),
        #Hörbsp: schreibe AussprLand aus
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\((US-)??[Aa]merik\.\)', u'\\1(amerikanisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Bb]rit\.\)', u'\\1(britisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'),
        (ur'(^:{{Hörbeispiele}}[^\n]+?)\([Öö]sterr\.\)', u'\\1(österreichisch)'),
        #erg Vorl {Audio|En-us- um (amerikanisch)
        (ur'{{Audio\|En-us-([^}]*?)\.ogg}}', u'{{Audio|En-us-\\1.ogg|\\1 (amerikanisch)}}'),
        #entf {{----}} und {{2x----}}, deaktiviert bis allgemeiner Konsens
        ###(ur'(^[^\n]+?$)\n\n??^{{----}}\n\n??(^=== {{Wortart)', u'\\1\n\n\\2'),
        ###(ur'(^[^\n]+?$)\n\n??^{{2x----}}\n\n??(^== [^\(]+?\({{Sprache)', u'\\1\n\n\\2'),
        #ers div
        (ur'(\.|te) Aufl\.', u'\\1 Auflage'), #Alfanzerei, Phrase
        (ur'{{W(\|[^}]+?}})', u'{{WP\\1'), #Hof, Konsum
        (ur'{{Lautschrift\|\.\.\.}}', u'{{Lautschrift|…}}'), #DDP, Eva
        (ur'({{Lateinisch Substantiv Übersicht) 2', u'\\1'), #Aulonia, abactus
        (ur'{{Alte Rechtschreibung}}', u'{{Veraltete Schreibweisen}}'), #Kreuz
        (ur'^{{Silbentrennung}}', u'{{Worttrennung}}'), #Bazyli
        #entf Kommentar
        (ur'(^{{Ähnlichkeiten}}) ??<!--[^>]+?>', u'\\1'), #Haase, Ingrid, Rot
        (ur'^<!--- {{Ü-links}} ??\r?\n^\*{{de}}: \[1\] ??\r?\n^\*{{en}}: \[1\] {{Ü\|en\|}} ??\r?\n^{{Ü-Abstand}} ??\r?\n^\*{{fr}}: \[1\] {{Ü\|fr\|}} ??\r?\n^\*{{es}}: \[1\] {{Ü\|es\|}} ??\r?\n^{{Ü-rechts}} --> ??\r?\n\r?\n', u''), #forner
        (ur'<!-- :{{Übersetzungen umleiten\|1\|\|1}} -->\n', u''), #hombrillo, burdo, sifrino #ab Liste Fisch21: hombrillo
        #nach Ähnl Neuzeile
        (ur'(^{{Ähnlichkeiten}}) ??[^\n-]', u'\\1\n:'), #Az., Hemi, Achtung:Egeusz
        #{Herkunft fehlt -> {QS Herkunft
        (ur'{{Herkunft fehlt\|belegen}}', u'{{QS Herkunft|unbelegt}}'), #Adverb. Kommentar erst beim nächsten Botlauf
        (ur'{{Herkunft fehlt}}', u'{{QS Herkunft|unzureichend}}'), #Alligator
  • Aufruf1: python pwb.py replace -ns:0 -dotall -regex -multiline -fix:UeTabelle -excepttitle:: -excepttitle:tion\) -transcludes:"Dialektausdrücke (Deutsch)" -transcludes:"Dialektausdrücke (Arabisch)" -transcludes:"Dialektausdrücke (Irisch)" -transcludes:"Dialektausdrücke (Französisch)"
  • Aufruf2: python pwb.py replace -ns:0 -dotall -regex -multiline -excepttitle:: -excepttitle:tion\) -xml:"C:\Pfad\dewiktionary-20140104-pages-articles.xml" -fix:UeTabelle
  • Start: 21.11.13