Vorlage Diskussion:Wortart-Test

möglicher Einbau einer Kategorie:Grundformeintrag (Deutsch) in Vorlage:Wortart Bearbeiten

Hallo zusammen,

ich habe mal in dieser Test-Vorlage eine Erweiterung eingebaut, mit der wir die deutschsprachigen Grundform-Einträge kategorisieren und damit dann auch von der Anzahl her wesentlich genauer erfassen könnten. Bisher gibt es verschiedene Berechnungen dafür, die aber jeweils um einige 10.000 Einträge differieren.

Eingebaut habe ich (direkt nach dem {{#if:{{NAMESPACE}}||) folgendes (siehe Diff):

{{#ifeq: {{{2}}} | Deutsch | {{#switch: {{{1}}}
| Abkürzung
| Adjektiv
| Adverb
| Affix
| Antwortpartikel
| Artikel
| Buchstabe
| Demonstrativpronomen
| Eigenname
| Fokuspartikel
| Formel
| Gebundenes Lexem
| Geflügeltes Wort
| Gradpartikel
| Grußformel
| Indefinitpronomen
| Interjektion
| Interrogativadverb
| Interrogativpronomen
| Konjunktion
| Konjunktionaladverb
| Kontraktion
| Lokaladverb
| Merkspruch
| Modaladverb
| Modalpartikel
| Nachname
| Negationspartikel
| Numerale
| Onomatopoetikum
| Ortsnamengrundwort
| Partikel
| Personalpronomen
| Possessivpronomen
| Postposition
| Pronomen
| Pronominaladverb
| Präfix
| Präfixoid
| Präposition
| Pseudopartizip
| Redewendung
| Reflexivpronomen
| Relativpronomen
| Reziprokpronomen
| Sprichwort
| Straßenname
| Subjunktion
| Substantiv
| Suffix
| Suffixoid
| Temporaladverb
| Toponym
| Verb
| Vergleichspartikel
| Vorname
| Wiederholungszahlwort
| Wortverbindung
| Zahlklassifikator
| Zahlzeichen
| Zirkumposition = [[Kategorie:Grundformeintrag (Deutsch)]]
| #default = 
}} | }}

Gibt es evtl. Wortarten, die Eurer Meinung da nicht mit reingehören würden oder fehlen ggf. noch welche?

Die Kategorie:Grundformeintrag (Deutsch) habe ich bereits angelegt und diese Test-Vorlage in 3 Einträge eingebaut.

Ich pinge mal ganz speziell @Formatierer, @Alexander, @Betterknower und @Gelbrot an. Es dürfen aber natürlich auch alle anderen Stellung dazu nehmen.

Gruß --Udo T. (Diskussion) 16:04, 1. Apr. 2019 (MESZ)Beantworten

Grundsätzlich begrüße ich die Zielsetzung, klare Aussagen über die Anzahl der (deutschen) Grundformeinträge treffen zu können. Denn es existieren viele Einträge, die mehrere Wortarten enthalten, die als Vereinigungsmenge mehr Einträge ergeben, als die mit deiner einzuführenden Kategorie angestrebte Durchschnittsmenge. Denn in solchen Fällen scheint das Lemma nur ein Mal in der neuen Kategorie auf und ermöglicht somit eine korrekte Zählung. Für die Überprüfung der Vollzähligkeit und Richtigkeit der angeführten Wortarten brauche ich noch ein wenig Zeit. Gruß, Alexander Gamauf (Diskussion) 17:12, 1. Apr. 2019 (MESZ)Beantworten
  Info Wie ich in meiner neuen Heimat angesichts meiner Tätigkeit als Mathematiklehrer gelernt habe, heißt die Durchschnittsmenge in Deutschland Schnittmenge. Gruß in die Runde, Peter -- 20:21, 1. Apr. 2019 (MESZ)Beantworten
Nach Durchsicht der Kategorien Deutsch ist mir folgendes aufgefallen:
  1. „Hilfsverb“ tritt stets gemeinsam mit „Verb“ auf und kann daher weggelassen werden
  2. „Demonstrativpronomen“, „Indefinitpronomen“, „Interrogativpronomen“, „Personalpronomen“, „Possessivpronomen“, „Reflexivpronomen“, „Relativpronomen“ und „Reziprokpronomen“ fehlen, da in den Einträgen nicht gleichzeitig auch „Pronomen“ anzugeben ist (Wiktionary:Meinungsbild/Archiv 2012-1/Überschriften-Ergebnisse)
  3. „Substantivierter Infinitiv“ kann weggelassen werden, weil immer gleichzeitig „Substantiv“ angegeben wird
  4. Kategorie:Vergleich (Deutsch) ist nunmehr ohne Eintrag, weil der französische Eintrag „que“ die falsche Kategorie erzeugt hatte. In der Kategorie:Vergleichspartikel (Deutsch) existiert zur Zeit nur ein Eintrag. Es stellt sich die Frage, welche dieser Kategorien aufzulassen sei.
  5. Kategorie:Umschrift (6 Einträge) würde ich wegen der geringen Informationen nicht als Grundformeintrag zählen
Ansonsten würde ich von meiner Seite aus die Ampel auf Grün schalten. Was sagen die anderen von dir Angesprochenen? Gruß, Alexander Gamauf (Diskussion) 20:11, 1. Apr. 2019 (MESZ)Beantworten
  Info: Die Punkte 1., 2. und 3 sind erledigt und oben aktualisiert. Zu Punkt 5.: die Wortart Umschrift habe ich ja bereits von Anfang an weggelassen; sehe ich wie Alexander. Bleibt noch Punkt 4.: hier würde ich eher dazu tendieren, "Vergleichspartikel" zu belassen und "Vergleich" zu eliminieren. "Vergleich" ist in meinen Augen zu nichtssagend. Ich würde es evtl. auch im Eintrag que in der Vorlage K so eintragen. Gruß --Udo T. (Diskussion) 20:32, 1. Apr. 2019 (MESZ)Beantworten
Zuerst mal DANKE Udo für die Realisierung der Idee und Alex für die Verbesserungsvorschläge. Ich sehe kein Hindernis, diese Idee auch umzusetzen. Nun aber doch noch ein Hinweis: wenn alle 'Straßennamen' auch 'Eigennamen' sind, könnte man die Straßennamen nicht rausnehmen? LG --Betterknower (Diskussion) 22:36, 1. Apr. 2019 (MESZ)Beantworten

Hallo Betterknower, ja könnte man schon, aber...: Wer garantiert denn, dass nicht irgendwann mal jemand Einträge mit Straßennamen anlegt und dabei "vergisst", die Wortart Eigenname in der Ebene-3-Überschrift anzugeben? Bis jetzt mag es mit 40 Straßennamen noch überschaubar sein, aber das kann sich im Laufe der Zeit stark ändern. Es schadet ja nicht, wenn im obigen Quell-Text beide (also Wortart Straßenname und Eigenname) drin sind, denn ein Eintrag mit beiden wird natürlich immer nur einmal kategorisiert. So gesehen hätte man ohne Schaden auch das "Hilfsverb" drinlassen können, aber viel mehr wie die bisherigen 4 Hilfsverben werden es wohl kaum werden. Der primäre Zweck dieser Kategorie soll ja letztendlich sein, die Anzahl der deutschsprachigen Grundformeinträge so genau wie nur möglich zu ermitteln. Gruß --Udo T. (Diskussion) 23:10, 1. Apr. 2019 (MESZ)Beantworten
Nachtrag: Jetzt sehe ich gerade, dass noch ein paar Wortarten (3?) fehlen, da diese nicht direkt in Kategorie:Deutsch eingebunden sind, sondern in Kategorie:Eigenname (Deutsch):

  • "Toponym", "Vorname", "Nachname", …

Ich glaube, ich muss mich da nochmal ganz gezielt durch den Kategorien-Baum "hangeln"...

Gruß --Udo T. (Diskussion) 23:33, 1. Apr. 2019 (MESZ)Beantworten

Ok, insg. 12 hab ich noch gefunden und eingebaut:
  • Toponym
  • Vorname
  • Nachname
  • Pseudopartizip
  • Interrogativadverb
  • Pronominaladverb
  • Konjunktionaladverb
  • Lokaladverb
  • Modaladverb
  • Temporaladverb
  • Wiederholungszahlwort
  • Geflügeltes Wort
Gruß --Udo T. (Diskussion) 23:55, 1. Apr. 2019 (MESZ)Beantworten

  Info: Ich habe natürlich auch auf die Profilingdaten des Parsers geachtet: Die leichten Erhöhungen bei 4 bis 5 Parametern sind marginal und liegen alle noch ganz weit im grünen Bereich. Gruß --Udo T. (Diskussion) 00:15, 2. Apr. 2019 (MESZ)Beantworten

Kategorien zählen Seiten, nicht Wörter! Insofern beantwortet die oben genannte Kategorie die Frage: „Wieviele Eintragsseiten existieren, die mindestens eine (deutsche) Grundform enthalten?“ Wenn das die Absicht ist, erfüllt die Kategorie diese. -- Formatierer (Diskussion) 08:05, 2. Apr. 2019 (MESZ)Beantworten

Ok, ist nun in Vorlage:Wortart aktiviert. Es wird natürlich eine Weile dauern, bis die Mediawiki-Software die Kategorisierung abgeschlossen hat. Gruß --Udo T. (Diskussion) 19:30, 2. Apr. 2019 (MESZ)Beantworten

So wie es aussieht, ist die Kategorisierung nun abgeschlossen. Derzeit gibt es demnach 110.872 Grundformeinträge, was erfreulich nahe an dem ist, was ich bisher aufgrund eines früheren Vorschlags von Formatierer verwendet habe; danach wären es derzeit 111.011. Auf Wiktionary:Deutsch werden (derzeit) aber 121.235 angezeigt. Dort werde ich im Anschluss gleich mal mittels {{PAGESINCATEGORY:Grundformeintrag (Deutsch)}} die korrekte Anzahl einbauen.

Wenn wir wollen, könnten wir diese Info auch auf der Hauptseite an geeignter Stelle fest einbauen...

Gruß --Udo T. (Diskussion) 11:06, 3. Apr. 2019 (MESZ)Beantworten

Hallo Alexander, mit dem DB-Scanner vom AWB habe ich noch die 2 Einträge „-“ und „´“ gefunden. Sie enthalten als Wortart „Symbol“ und stecken in der roten Kat Kategorie:Symbol (Deutsch), die früher schon gelöscht wurde. Wie sollen wir mit diesen beiden Einträgen verfahren? Ich würde ja meinen, dass diese beiden Einträge eher in die Sprache „International“ (und damit auch bei der Wortart) umgewandelt werden sollten, denn sie sind ja nicht (typisch) Deutsch. Was meinst Du dazu?

Ansonsten hatte ich noch die 3 Einträge „dessentwegen“, „Befeuchten“ und „Entwässern“ gefunden, die ich aber vorhin entsprechend korrigiert habe. Somit hätten wir m. E. (bis auf die noch fragliche Wortart „Symbol“ bei Sprache „Deutsch“) alle Wortarten erfasst und in Vorlage:Wortart eingebaut. Gruß --Udo T. (Diskussion) 20:49, 4. Apr. 2019 (MESZ)Beantworten

Hallo Udo, punkto Symbol bin ich deiner Ansicht, solche Einträge in der Kategorie:Symbol (International) zu führen. Die derzeit in der Kategorie:Substantivierter Infinitiv (Deutsch) befindlichen 101 Einträge enthalten in der Überschrift – soweit ich stichprobenartig überprüfen konnte – die Angabe {{Wortart|Substantiv|Deutsch}} und eine händische Eintragung zu dieser Subkategorie. Ich war gerade dabei, mir die bewußte zweite Zeile auf der Hauptseite zu überlegen, die den Einwand Formatierer in der Textierung berücksichtigt, dass es sich bei der Zahl um Seiten mit deutschen Grundeinträgen handelt. Denn mit der gewählten Zählmethode berücksichtigen wir nicht jene Fälle, in denen eine Seite nacheinander verschiedene Wortarten enthält. Gruß, Alexander Gamauf (Diskussion) 22:29, 4. Apr. 2019 (MESZ)Beantworten
Zurück zur Seite „Wortart-Test“.