Sonnenblume
Sonnenblume

Hallo Manny!

Herzlich willkommen im Wiktionary. Es freut mich, dass du zu uns gestoßen bist. Wenn du dich fragen solltest, was das Wiktionary ausmacht, wie es funktioniert und worin es sich von anderen Wörterbüchern im Internet unterscheidet, dann könnte ein Blick auf die »Häufig gestellten Fragen« einige Antworten liefern. Allgemeine Hilfestellungen sind auf der »Hilfeseite« zusammengestellt, die sich allerdings noch im Aufbau befindet. Fragen zum Wiktionary stellst du am besten auf der Seite »Fragen zum Wiktionary«, du kannst dich aber auch direkt an einen anderen Benutzer wenden – ich und die meisten anderen helfen gerne. Wenn du eine Frage zur deutschen Sprache allgemein haben solltest, wende dich am besten an die »Auskunft«. Für neue Ideen und Tipps und deren Diskussion steht die »Teestube« zur Verfügung. Und wenn du mal etwas ausprobieren willst, dann ist die »Spielwiese« der richtige Platz. Uns allen liegt daran, dass dir der Einstieg erfolgreich gelingt - deshalb auch noch dieser Tipp: »Sei mutig«!

Um dich besser kennen zu lernen, ist deine Schritt für Schritt aufgebaute Benutzerseite sehr nützlich. Das Wichtigste daran ist deine Babel-Box.

Wichtige Seiten:

Liebe Grüße und auf gute Zusammenarbeit, Baisemain (Diskussion) 10:23, 14. Feb 2010 (MEZ)

Don't speak German? Post {{User de-0}} on your user page or put it into your Babel box.

Falsche Genera

Bearbeiten

Hallo Manny!

Aus purer Neugier und Freude: Wie findest Du die fehlerhaften Genusangaben? --Baisemain (Diskussion) 12:28, 15. Feb 2010 (MEZ)

Hi! Ich hab den letzten Dump runtergeladen und einen meiner Parser drübergejagt, der die Wörter in meine lokale Datenbank ablegt. Substantive auf '-ung sind ja bekanntlich ziemlich gute Kandidaten für den femininen Genus; eher durch Zufall hab ich darauf bei einer meiner lokalen Abfragen ein paar Substantive mit Endung -ung entdeckt, wo der Genus nicht f lautet. -- Manny (Diskussion) 12:32, 15. Feb 2010 (MEZ)
Fantastisch! Was hast Du denn für Parser? Ich frage, da ich selbst ein wenig an solchen Dinge bastele. Lieben Gruß --Baisemain (Diskussion) 12:34, 15. Feb 2010 (MEZ)
Das ist eine in .NET/C# 3.5 geschriebene Eigenentwicklung. Ich geb sie allerdings (im Moment) ungern her, weil er erst im Zuge der letzten Tage gebastelt worden ist und dementsprechend noch ein paar merkliche Schwächen aufweist. -- Manny (Diskussion) 12:50, 15. Feb 2010 (MEZ)
Verstehe ich gut. Kannst Du vielleicht eine kleine Liste mit den Funktionen hier umreißen? Was können diese Parser? Nur so grob, muss wahrlich nicht detailliert sein. Ich würde mich sehr freuen. Gruß --Baisemain (Diskussion) 12:53, 15. Feb 2010 (MEZ)
Nachtrag: Ich freue mich sehr über die Korrekturen, die Du vornimmst. Die Fehler wurden jahrelang übersehen, was etwas schade ist. Falls Du noch mehr solcher Inkonsistenzen aufspüren kannst, wäre das super! --Baisemain (Diskussion) 12:59, 15. Feb 2010 (MEZ)
Da steckt nicht wirklich viel dahinter. Er geht im Wesentlichen alle Artikel durch, schreibt sich die wichtigsten Details auf, die er mit regulären Ausdrücken im Quelltext finden kann. Bei Substantive ist das der Inhalt der Substantiv-Tabelle-Vorlage sowie der Genus; bei regelmäßigen Verben der Inhalt der Verb-Tabelle; bei Adjektiven Positiv, Komparativ und Superlativ (im Folgeschritt dekliniert er es auch nach allen drei Adjektivdeklinationstabellen durch) soweit vorhanden.
Summa summarum, am besten eignet es sich momentan dazu ein Wörterbuch für Natural Language Processing zu erzeugen; dass dabei Dinge aufscheinen wie "die Wörter" in der Substantiv-Tabelle, oder eigenwillige Genusinterpretationen sind dann eher zufällige Nebenprodukte. Ich korregier das aber natürlich gern hier, wo es mir auffällt; letztenendes ist das ja meine Datenbasis, mit der ich beim nächsten Wiktionary-Dump wieder weiterarbeite :-) -- Manny (Diskussion) 13:06, 15. Feb 2010 (MEZ)
Was hast Du denn damit am Ende vor? Das klingt alles sehr spannend. Dass Deine Korrekturen an "unserer" Datenbasis nur ein Abfallprodukt sind, schmälert meine Freude keineswegs. Arbeitest Du auf dem XML-Dump? Neugierige Grüße --Baisemain (Diskussion) 13:14, 15. Feb 2010 (MEZ)
Ja, ich verwende initial den XML-Dump. Der erste Schritt meines Parsers besteht allerdings darin diese Daten aus Performance- und Strukturgründen in meinen lokalen SQL Server zu übertragen und dort erst richtig loszulegen. Was ich letztlich damit mache... kann ich ehrlich gesagt selbst noch nicht konkret sagen. Aller Wahrscheinlichkeit nach wird daraus eine Grundlage für einen NLP-Tagger. -- Manny (Diskussion) 13:22, 15. Feb 2010 (MEZ)
Sehr interessant. Ich könnte mir da einen Gedankenaustausch vorstellen, wobei ich von .NET/C# keine Ahnung habe. Ich würde mich auch freuen, wenn Du berichten würdest, welche Art Formatierung oder Ähnliches Dir Schwierigkeiten bereitet. Ich persönlich würde das Wiktionary gern auch für automatisierte Weiterverarbeitung optimieren, wobei der menschliche Leser und Autor immer Vorrang haben wird. Aber im Rahmen der Möglichkeiten kann man ja die Hürden dennoch abbauen. Ich möchte Dich auch recht herzlich in den WT:Chat einladen. --Baisemain (Diskussion) 13:26, 15. Feb 2010 (MEZ)

Lieber Manny!

Könntest Du versuchen, die Bedeutungsangabe bei Bewältigung etwas genauer zu formulieren und die Referenzen prüfen? Die Bedeutung ist etwas schwammig. --Baisemain (Diskussion) 23:37, 15. Feb 2010 (MEZ)

Parsing

Bearbeiten

Hallo Manny!

Ich arbeite auch ab und zu auf einen Parser für die deutsche Wiktionary. Es geht ziemlich langsam, wegen den vielen Fehlern und der Unvereinbarkeit, und auch weil es nur ein Hobby ist. Ich verbringe mehr Zeit mit der Autokorrektur als mit dem Parsing selbst. Es würde mich interessieren ob du immer noch daran arbeitest oder ob du schon aufgegeben hast :). Mein Parser ist auf python. -- Gyroidben (Diskussion) 23:04, 1. Mai 2010 (MESZ)Beantworten

Auch, ich habe meinen Parser eben bei http://code.google.com/p/wiktionary-parser/ veröffentlicht, aber es ist immer noch sehr unfähig und undokumentiert.--Gyroidben (Diskussion) 00:01, 2. Mai 2010 (MESZ)Beantworten
Ja, ich arbeite noch daran. Das mit der Unvereinbarkeit und den Fehlern ist natürlich ein Problem, aber ich kann mit dem einen oder anderen Fehler (oder nicht importierten Datensatz) leben. Größtes Sorgenkind sind natürlich die Verben, respektive die Konjugationsinformationen. Wenn ich mal wieder Zeit habe, dann werd ich die Baustelle noch einmal besuchen. (Pro-)Nomen, Adjektive und Adverbien funktionieren aber recht gut; es sind allerdings auch die von der Komplexität her einfachsten Wortkategorien. Geschrieben wurde das Ding in C#/.Net Framework 3.5, die Datenpersistenz überlasse ich dem Microsoft SQL Server 2008; ich portiere es nebenher gerade auf 4.0 wegen den Vorzügen der Task Parallel Library, und update auch meine anderen dazugehörigen Projekte -- unter anderem importiere und indiziere ich auch die dt. Wikipedia, weil ich dann wild Derivationsregeln auf die Worteinträge abfeuere, um Wortkandidaten zu generieren, und überprüfe dann mit den Textbeständen der Wikipedia, ob es das eben generierte Wort überhaupt gibt. Damit expandiere ich die lokalen Wortbestände sogar noch einmal um ein gutes Stück :-) -- Manny (Diskussion) 10:59, 4. Mai 2010 (MESZ)Beantworten

Dein Konto wird umbenannt

Bearbeiten

23:49, 17. Mär. 2015 (MEZ)

Umbenannt

Bearbeiten

w

06:01, 19. Apr. 2015 (MESZ)