Wiktionary:Projekt:Gesprochenes Wort

Das Projekt Gesprochenes Wort setzt sich zum Ziel, Wikimedia Commons mit hochwertigen Aufnahmen deutscher Worte auszustatten. Dieses Projekt lebt von der Überzeugung, dass die Projekte von Wikimedia, die derzeit vornehmlich von Schriftsprache geprägt sind, von einer Ergänzung durch Audio-Aufnahmen stark profitieren werden.

Das Projekt steht in engem Zusammenhang mit dem wiktionary. Einerseits ist wiktionary eine profunde Wissensquelle, was die Worte, inklusive der Konjugations- und Deklinationsformen, aber auch Aussprache-Hinweise und inhaltliche Angaben betrifft. Andererseits wird wiktionary zunächst auch am meisten von diesem Projekt profitieren, dann nämlich, wenn jedes deutsche Lemma mit entsprechenden Audio-Aufnahmen versehen ist. Genau dies ist das mittelfristige Ziel des Projekts. Auf dem Weg zu diesem Ziel sind einige technische Barrieren zu überwinden, daher werden wir aus dem Community-Budget finanzielle Hilfe beantragen. Aber nicht nur das Wiktionary, sondern auch die anderen WikiMedia-Projekte werden davon profitieren. So können auch in Wikipedia-Artikeln Aussprache-Audiodateien sowohl für fremdsprachige als auch für deutschsprachige Benutzer eine wertvolle Zusatzinformation geben, was der Wikipedia ein Alleinstellungsmerkmal gegenüber Print-Lexika verschafft.

Wenn Du auch glaubst, dass das Projekt eine gute Idee ist, die von WikiMedia Deutschland finanziell gefördert werden sollte, dann unterstütze den Antrag auf Förderung. Wie das geht? – Lies Dir die Idee des Projekts durch, und trage Dich als Mitarbeiter ein, wenn Du das Projekt in einer der vier Phasen unterstützen kannst und willst. Momentan befindet sich das Projekt noch in der Vorbereitungs- und Planungsphase 0.

Phase 0: Antrag auf Förderung durch das Community-Budget

Zur Zeit sind wir dabei, Förderung durch die WikiMedia aus dem Topf des Community-Budgets zu beantragen. Du kannst unseren Antrag unterstützen, indem Du Deine Absicht erklärst, für das Projekt, vornehmlich in der Phase 3 (s. u.), aktiv zu werden. Wenn schon vor der Förderungsbewilligung eine relevante Anzahl von Wikimedia-Mitarbeitern ihre Unterstützung zusichern, ist das Projekt stärker abgesichert, und es ist gesichert, dass das Geld sinnvoll investiert wird. Andere Kommentare, Hinweise, Kritikpunkte u. Ä. sind natürlich ebenso willkommen.

Phase 1: Projektierung und Programmierung der Software

Folgende Aufgaben fallen an:

1) Wortschatzliste erstellen

a) Erstellen einer Liste aller deutschen Einträge, die noch nicht oder nicht vollständig mit Audio-Dateien versorgt sind. Hier gilt es Homographe (z. B. umreißen im Sinne von skizzieren oder im Sinne von ausreißen) mit Vorsicht zu behandeln.
b) Ermitteln aller Flexionsformen aus den Einträgen

2) Erstellung und zentrale Vergabe von Arbeitspaketen. Hierbei sollen zunächst häufig benutzte Worte (bzw. deren Lemmata) bearbeitet werden, etwa nach dieser Liste.
3) Programm zur Aufnahme der benötigten Wörter. Dabei soll dem User die im Artikel vorhandene phonetische Transkription bzw. eine kurze Beschreibung angezeigt werden, die von der Software unter 1) aus dem betreffenden Lemma herausgezogen werden.
4) Einspeisung der Audio-Dateien in Commons nach den dort geltenden Richtlinien für Sprachdateien.
5) Bot zur Einspeisung der commons-Dateien in das Wiktionary.

Die Punkte 1) bis 3) erfordern die Programmierung neuer Software. Der (oder ggf. die) Programmierer soll aus dem Projektbudget bezahlt werden. Die Ausschreibung des Programmierauftrags soll auf viel frequentierten Seiten von Wikimedia, Wikipedia und Wiktionary erfolgen. Punkt 4), das Hochladen nach Commons, soll in Absprache und mit Hilfe von z. B. Benutzer:Duesentrieb erfolgen. Die Einspeisung der commons-Dateien in das Wiktionary wird Aufgabe eines Bots sein. Für de.wikt erledigt Benutzer:DerbethBot diese Aufgabe. Die größten anderen Wiktionarys sollen ebenfalls angeregt werden, ähnliche Bots anzuwenden bzw. zu kreieren.

Phase 2: Diskussion der Anforderungen an die Aussprache-Dateien

Eine massive Erhöhung der Zahl der eingesprochenen Lemmata, wie wir sie von diesem Projekt erhoffen, wird eine Diskussion über die Qualitätskriterien dieser Aufnahmen in Gang setzen. Diese Diskussion sollte nach der Fertigstellung des Programms, aber vor dem Beginn der Einsprechphase geführt werden und in Meinungsbildern befestigt werden, damit nicht später viele der eingesprochenen Wörter neu eingesprochen werden müssen und so sinnlos doppelte Arbeit verrichtet werden muss.

In der Machbarkeitsstudie wurden die Infinitive von ungefähr 300 Verben eingesprochen. Hierbei wurde ein Mikro vom Typ "H2 Handy" verwendet. In der Pilotphase wurden die Dateien anschließend nicht weiter bearbeitet. Eine Nachbearbeitung mit Hilfe der freien Software Audacity verbessert die Aufnahmequalität spürbar und soll später immer angewendet werden (Beispiel: vorher, nachher). Die Zulässigkeit dialekteler Schwankungen in den Aufnahmen wird ebenfalls diskutiert werden müssen.

Phase 3: Einsprechen der Dateien

Wir wollen, nachdem mit dem Programm der Grundstein für das systematische Einsprechen von Audio-Dateien gelegt ist, einige regelmäßige Mitarbeiter am Projekt gewinnen. Potentielle Addressaten sind Teilnehmer des Projekts Gesprochene Wikipedia und Mitarbeiter von Wiktionary. Von Letzteren kam während der Machbarkeitsstudie bereits positive Resonanz.

Aus dem Projekttopf sollen sowohl geeignete Mikros gekauft werden als auch die entstehenden Kosten des Versands und Rückversands der Mikros an die teilnehmenden Einsprecher bezahlt werden. Damit können auch Leute das Projekt unterstützen, die kein teures Mikrophon besitzen.