Benutzer Diskussion:Jeuwre/Test

Letzter Kommentar: vor 4 Jahren von Jeuwre

Hallo Jeuwre,

ich antworte mal hier. Laut Kategorie:Wiktionary:Audio-Datei gibt es derzeit im Wiktionary über 144.000 Einträge mit mindestens einem Hörbeispiel.

Du kommst umseitig "nur" auf 108.339 (per 01.06.2019). Gibt es da einen Grund für diese doch erhebliche Differenz zwischen Deiner Berechnungsmethode und dem Zähler in der Kategorie:Wiktionary:Audio-Datei?

Gruß --Udo T. (Diskussion) 15:24, 27. Jun. 2019 (MESZ)Beantworten

Hallo Udo T., englische, französische, tschechische, … Hörbeispiele. Bei mir sind es tatsächlich nur die deutschen Hörbeispiele. Wenn Du magst, schicke ich Dir einen Link, da könntest Du Dir beiden Dateien ansehen, das macht einiges (noch) klarer. Viele Grüße --Jeuwre (Diskussion) 15:31, 27. Jun. 2019 (MESZ)Beantworten
@Udo T., ach so, und ca. 12.000 Hörbeispiele sind seit 1.6. nur von mir dazugekommen. Gruß --Jeuwre (Diskussion) 15:38, 27. Jun. 2019 (MESZ)Beantworten
Der Link für die beiden Dateien (eine Woche abrufbar): [1] --Jeuwre (Diskussion) 15:39, 27. Jun. 2019 (MESZ)Beantworten
Ok, aber wenn wir uns entschließen sollten, eine entsprechende Angabe in "Aktuelles" auf der Hauptseite zu machen, wäre es dann nicht sinnvoller, einfach die Zahl aller Einträge mit Hörbeispielen zu nennen? Wäre ja dann auch deutlich einfacher zu ermittlen. Ich habe die Vorlage {{Audio}} schon mal entsprechend erweitert, damit nur verlinkte Hörbeispiele aus dem Eintrags-NR aufgenommen werden. Gruß --Udo T. (Diskussion) 15:45, 27. Jun. 2019 (MESZ)Beantworten
|Udo T., ob wir das so ermitteln, wie ich beschrieben habe oder ob man das aus einem Verzeichnis einfach ablesen kann, das wäre mir gleich. Im Gegenteil, wenn ich es nicht ermitteln muss, um so besser. Welche Zahl kommt denn bei Deiner Vorlagen-Erweiterung raus? Viele Grüße --Jeuwre (Diskussion) 16:04, 27. Jun. 2019 (MESZ)Beantworten
Ein Unterschied: Mein Ansinnen war, die Anzahl der verlinkten Hörbeispiele zu ermitteln. Aber einige Hörbeispiele wurden in zwei Lemmas eingearbeitet, beispielsweise De-Schmidts.ogg auf Schmitz und Schmidts. Das kriegt man mit Deiner Methode nicht raus. Von diesen Homophonen gibt es noch mehr, ich hatte vor kurzem auf Commons eine heftige Diskussion wegen Gießen (der Stadt und der Substantivierung) und gießen (von Pflanzen). Das wollte dort jemand gleichbehandelt wissen. Es sind nicht so viele, aber ein paar bestimmt .... Viele Grüße --Jeuwre (Diskussion) 16:23, 27. Jun. 2019 (MESZ)Beantworten
Hah, so wenige sind das gar nicht: all die von mir in CWK eingearbeiten Hörbeispiele sind meist doppelt verwendet entsprechend dem Muster Adjektiv + Substantiv -> Verarbeitung im Adjektiv und im Substantiv. --Jeuwre (Diskussion) 16:26, 27. Jun. 2019 (MESZ)Beantworten
Diese Hörbeispiele in den CWK tauchen im oben genannten Verzeichnis gar nicht auf: Beispiel: De-ein mildes Urteil.ogg gibt es in Verzeichnis beginnend mit 'ein' nicht. So kriegen wir die Anzahl der verwendeten Hörbeispiele nicht. --Jeuwre (Diskussion) 17:00, 27. Jun. 2019 (MESZ)Beantworten
Das Hörbeispiel „De-ein mildes Urteil.ogg“ steckt ja auch im Eintrag „Urteil“; einen Eintrag „ein mildes Urteil“ gibt es natürlich nicht. In der Kategorie:Wiktionary:Audio-Datei sind schlicht und einfach alle Einträge enthalten, in denen mindestens einmal (egal wo) die Vorlage {{Audio}} (mit Parameter 1) eingebunden ist. Gruß --Udo T. (Diskussion) 17:07, 27. Jun. 2019 (MESZ)Beantworten
In Urteil gibt es De-Urteil.ogg. Eine Zählung. Die zweite in Urteil (für De-ein mildes Urteil.ogg) fällt unter den Tisch. Genau (wie es die Überschrift auf der Benutzerseite:Jeuwre/Test sagt): Wieviele deutsche Hörbeispiele sind im deutschen Wiktionary verknüpft? De-ein mildes Urteil.ogg ist eine von den gut 100.000 verknüpften Hörbeispielen. Das soll keine Kritik an der Kategorie:Wiktionary:Audio-Datei sein, sie beantwortet halt nicht die Frage. Mein Gedanke war: Wenn wir das 100.000 Hörbeispiel im Mai wirksam verknüpft haben, dann dürfen wir uns ruhig ein bisschen in Aktuelles feiern. Ich habe eine Methode vorgestellt, mit der die Frage relativ zügig beantwortbar ist (der Download und das Entpacken dauern am längesten, die drei Befehle danach sind in einer Minute abgearbeitet). Kritik an der Methode ist trotzdem erwünscht. Gruß --Jeuwre (Diskussion) 18:49, 27. Jun. 2019 (MESZ).Beantworten

Hallo Jeuwre,

  1. also für Dich (und auch für mich) mag Deine Zählmethode ja (relativ) einfach sein. Aber für andere ist sie es ganz sicherlich nicht. Nicht jeder verfügt über einen Linux-Rechner (oder -Server) und kennt sich mit den entsprechenden Befehlen (sed, grep, wc etc.) aus und/oder weiß, woher (und welches) Dump-File er herunterladen soll. Wenn soclhe Informationen auf der Hauptseite angezeigt und in Folge dann auch regelmäßig aktualisiert werden sollen, dann sollte es eine für (nahezu) alle durchführbare Methode geben. Vielleicht haben Du oder ich in einem Jahr keine Lust oder keine Zeit mehr für eine Mitarbeit im Wiktionary und wer sollte es dann weiterführen?
  2. Ich bin mir nicht sicher, ob es es überhaupt sinnvoll wäre, die Zahl nach Deiner Zählmethode anzugeben. Man stelle sich vor, in einem Eintrag sind unter den CWKs 20 Hörbeispiele und 10 Hörbeispiele (von den 20) sind dann noch in einem anderen Eintrag (unter CWKs) und nochmal 5 Hörbeispiele (von den 10) in einem 3. Eintrag (unter CWKs) verlinkt. Dann käme man ja auf 35 und nicht auf 20, da 10 Hörbeispiele doppelt und weitere 5 Hörbeispiele ein 3. Mal gezählt werden.

Gruß --Udo T. (Diskussion) 11:15, 28. Jun. 2019 (MESZ)Beantworten

Hallo Udo,
>Vielleicht haben Du oder ich in einem Jahr keine Lust oder keine Zeit mehr für eine Mitarbeit im Wiktionary und wer sollte es dann weiterführen?
Wir reden aneinander vorbei: Für mich ging und geht es einfach um eine Meldung unter Aktuelles. Beispieltext: Am 31.5.2019 wurde hier das 108.000 deutschsprachige Hörbeispiel verlinkt. Fertig. Vielleicht magst und kannst Du diesen einen Satz besser/klarer/anders formulieren, dann gerne her damit. Die Ermittlungmethode braucht keinen zu interessieren (ausser Dich und mich als Beleg: stimmt). Wenn Du oder ich in einem Jahr keine Lust mehr auf diese Meldung unter Aktuelles haben (kannst Du Dir ein Leben ohne Wiktionary überhaupt vorstellen?), dann nehmen wir die Meldung halt raus und führen sie nicht fort. Solange wir Spaß daran haben, aktualisiere ich die Zahl zweimal im Monat (zu jedem Dump) und aktualisiere auch gerne die Meldung unter Aktuelles.
> Dann käme man ja auf 35 und nicht auf 20, da 10 Hörbeispiele doppelt und weitere 5 Hörbeispiele ein 3. Mal gezählt werden.
Nein, das ist nicht der Fall. Der Befehl grep -Po … | sort | uniq macht folgendes: grep findet alle deutschsprachigen im deutschen Wiktionary verwendeten Hörbeispiele und trennt zwei/drei/vier Hörbeispiele, die in einer Zeile stehen, in zwei/drei/vier Zeilen auf (-> ein Hörbeispiel pro Zeile), das Ergebnis wird gepiped zum alphabetischen Sortieren ('sort'), diese Sortierung wird gepiped zum Löschen/Aussortieren der Doppelten ('uniq'). Es wird nichts doppelt oder dreifach gezählt. Egal wo und wie oft ein Hörbeispiel verwendet wird, es wird nur einmal gezählt. Ich habe die Befehlsfolge (grep … | sort | uniq) schon viele Male benutzt (nicht für diesen Zweck hier), das passt. Du kannst es gerne prüfen: zeige mir in der zweiten Datei (der 2,1 MiB Großen) der unter dem o. g. Link herunterladbaren Arbeitsdateien eine einzige doppelte Nennung …
Viele Grüße --Jeuwre (Diskussion) 14:52, 28. Jun. 2019 (MESZ)Beantworten
P.S.: Ich habe gestern abend angefangen, den 'Fehler' durch die nicht der Namenskonvention folgenden Hörbeispielnamen zu quantifizieren (Alle bei uns verwendeten Hörbeispiele ./. der Englischen, Spanischen, Chinesischen, …, ./. der De-….ogg ./. der deutschen LL-….ogg, was dann übrigbleibt, das hatte ich bisher nicht gezählt): unter 300. Hauptsächlich Städtenamen, ein paar Buchstabe ….ogg und ein paar sonstige. Damit sind dann wirklich alle verlinkten Hörbeispiele erfasst. Ich lasse auf den Dump vom 20.6. heute Abend einmal die Befehle laufen, schaue was rauskommt. Wenn das plausibel ist, veröffentliche ich das hier unter Benutzer:Jeuwre/Test und würde die Meldung unter Aktuelles einstellen. O.K. ?

Naja, vielleicht solltest Du noch vorher die anderen Benutzer (in der Teestube?) fragen, was sie davon halten. Vielleicht hat ja jemand auch noch eine andere Idee? Im Übrigen fände ich persönlich die Information, dass es "seit xx.xx.2019 über 144.000 Einträge mit Hörbeispielen bei uns gibt" wesentlich interessanter. Abgesehen davon, dass sich diese Anzahl auch problemlos aus Kategorie:Wiktionary:Audio-Datei ablesen lässt, enthält diese Anzahl auch Einträge mit fremdsprachigen Hörbeispielen. Die Kategorie ließe sich dann auch bei der Zahlenangabe verlinken, sodass jeder schnell darauf zugreifen und dort dann auch gezielt suchen könnte. Gruß --Udo T. (Diskussion) 15:06, 28. Jun. 2019 (MESZ)Beantworten

Hallo Udo,
> Naja, vielleicht solltest Du noch vorher die anderen Benutzer (in der Teestube?) fragen, was sie davon halten.
Ohne mich. Das ist mir für einen winzigen Satz, der auch nur einen Fakt darstellt, einfach zuviel. Und diese Diskussion stähle mir auch noch die Zeit, mich um Hörbeispiele zu kümmern.
> Vielleicht hat ja jemand auch noch eine andere Idee?
Kann sein. Aber, es tut mir leid, ich stehe zu meiner Idee. Gute Aussage, knackig, eindeutig, die Zahl ist zügig produziert. Es ist genau das, was ich dargestellt sehen möchte. (Auch deswegen mag ich nicht weiter "diskutieren".)
> Im Übrigen fände ich persönlich die Information, dass es "seit xx.xx.2019 über 144.000 Einträge mit Hörbeispielen bei uns gibt" wesentlich interessanter.
Ich finde es gut, dass Du zu Deiner Meinung stehst. Aus meiner sehr subjektiven Sicht finde ich meinen Fakt allerdings spannender: Da können wir nun wieder endlos drüber reden. Ich fürchte, wir würden uns nicht einigen.
Ich glaube zu verstehen, dass Du diesen vorgeschlagenen Satz augenscheinlich nicht akzeptieren magst. O.k., wenn sogar Du schon große Bauchschmerzen mit dem Satz hast - ich rede nicht von "mögen", es muss ja nicht jeder meine Begeisterung dafür teilen, aber akzeptieren, ich dachte, dass das für einen Fakt problemlos möglich wäre -, dann muss ich gestehen, dass ich einfach zu müde dafür bin, für den Satz (hier oder in der Teestube) zu werben. Also lassen wir es einfach, so wichtig ist diese Nachricht anscheinend nicht. Lustig ist, wie ich mich so täuschen konnte: schließlich haben wir soviele echte News ja nicht, als das man auf eine auf dem Silbertablett servierte einfach verzichten sollte. Hatte ich wirklich gedacht. Bitte entschuldige, dass ich Deine Zeit hier verschwendet habe.
Viele Grüße --Jeuwre (Diskussion) 21:01, 28. Jun. 2019 (MESZ)Beantworten
Hallo Jeuwre, einerseits kann ich ja Deinen Unmut über meine zögerliche Haltung und auch meine andere Ansicht verstehen... Aber andererseits solltest Du doch wissen, dass Du und auch ich nicht die Gestaltungshoheit über das haben, was auf der Hauptseite dargestellt werden soll (und was nicht). Das Wiktionary ist ein Gemeinschafts-Projekt und wenn es Dir zu mühsam ist, den anderen Stamm-Benutzern Deine Idee zu präsentieren, dann finde ich das schade. Ich fände die Idee (mal abgesehen davon, was nun genau dargestellt werden sollte) durchaus annehmbar und letzten Endes würde ja auch die Mehrheit darüber entscheiden, ob und was genau unter Aktuelles auf der Hauptseite in Bezug auf die Hörbeispiele angegeben werden soll. Aber wenn Du nicht willst... Gruß --Udo T. (Diskussion) 21:10, 28. Jun. 2019 (MESZ)Beantworten
Abgesehen davon, ob die Anzeige der Zahl der Hörbeispiele für unsere Leser (zufällige oder Stamm-) so wichtig ist, dass sie auf der Hauptseite dargestellt werden soll, könnte man das auch automatisieren: "derzeit gibt es 864.559 Einträge mit Hörbeispielen" (PAGESINCAT:Wiktionary:Audio-Datei, w:Hilfe:Variablen#PAGESINCATEGORY), oder nicht automatisch für deutsche Einträge: am 28.06.2019 119.128 dt. Eintr in der Kat Audio-Datei. Die Anzahl ist einfach abzulesen. Ich bevorzuge vorerst mal alle wiki-internen Möglichkeiten. LG --Betterknower (Diskussion) 22:12, 28. Jun. 2019 (MESZ)Beantworten
Hallo Betterknower, klasse. Schade, dass ich das nicht vor dem Versuch mit dem Dump und den Bash-Befehlen kannte.
> Ich bevorzuge vorerst mal alle wiki-internen Möglichkeiten.
Finde ich auch besser (wenn es denn wirklich stimmt, was ich nicht beurteilen kann, weil ich ja keine Liste der Hörbeispiele sehe, die man zumindest stichprobenmäßig durcharbeiten kann). Danke für Deinen Hinweis, wieder etwas gelernt. Viele Grüße --Jeuwre (Diskussion) 09:11, 29. Jun. 2019 (MESZ)Beantworten
Zurück zur Benutzerseite von „Jeuwre/Test“.