Manny~dewiktionary
{{User de-0}}
on your user page or put it into your Babel box.Falsche Genera
BearbeitenHallo Manny!
Aus purer Neugier und Freude: Wie findest Du die fehlerhaften Genusangaben? --Baisemain (Diskussion) 12:28, 15. Feb 2010 (MEZ)
- Hi! Ich hab den letzten Dump runtergeladen und einen meiner Parser drübergejagt, der die Wörter in meine lokale Datenbank ablegt. Substantive auf '-ung sind ja bekanntlich ziemlich gute Kandidaten für den femininen Genus; eher durch Zufall hab ich darauf bei einer meiner lokalen Abfragen ein paar Substantive mit Endung -ung entdeckt, wo der Genus nicht f lautet. -- Manny (Diskussion) 12:32, 15. Feb 2010 (MEZ)
- Fantastisch! Was hast Du denn für Parser? Ich frage, da ich selbst ein wenig an solchen Dinge bastele. Lieben Gruß --Baisemain (Diskussion) 12:34, 15. Feb 2010 (MEZ)
- Das ist eine in .NET/C# 3.5 geschriebene Eigenentwicklung. Ich geb sie allerdings (im Moment) ungern her, weil er erst im Zuge der letzten Tage gebastelt worden ist und dementsprechend noch ein paar merkliche Schwächen aufweist. -- Manny (Diskussion) 12:50, 15. Feb 2010 (MEZ)
- Verstehe ich gut. Kannst Du vielleicht eine kleine Liste mit den Funktionen hier umreißen? Was können diese Parser? Nur so grob, muss wahrlich nicht detailliert sein. Ich würde mich sehr freuen. Gruß --Baisemain (Diskussion) 12:53, 15. Feb 2010 (MEZ)
- Nachtrag: Ich freue mich sehr über die Korrekturen, die Du vornimmst. Die Fehler wurden jahrelang übersehen, was etwas schade ist. Falls Du noch mehr solcher Inkonsistenzen aufspüren kannst, wäre das super! --Baisemain (Diskussion) 12:59, 15. Feb 2010 (MEZ)
- Da steckt nicht wirklich viel dahinter. Er geht im Wesentlichen alle Artikel durch, schreibt sich die wichtigsten Details auf, die er mit regulären Ausdrücken im Quelltext finden kann. Bei Substantive ist das der Inhalt der Substantiv-Tabelle-Vorlage sowie der Genus; bei regelmäßigen Verben der Inhalt der Verb-Tabelle; bei Adjektiven Positiv, Komparativ und Superlativ (im Folgeschritt dekliniert er es auch nach allen drei Adjektivdeklinationstabellen durch) soweit vorhanden.
- Summa summarum, am besten eignet es sich momentan dazu ein Wörterbuch für Natural Language Processing zu erzeugen; dass dabei Dinge aufscheinen wie "die Wörter" in der Substantiv-Tabelle, oder eigenwillige Genusinterpretationen sind dann eher zufällige Nebenprodukte. Ich korregier das aber natürlich gern hier, wo es mir auffällt; letztenendes ist das ja meine Datenbasis, mit der ich beim nächsten Wiktionary-Dump wieder weiterarbeite :-) -- Manny (Diskussion) 13:06, 15. Feb 2010 (MEZ)
- Was hast Du denn damit am Ende vor? Das klingt alles sehr spannend. Dass Deine Korrekturen an "unserer" Datenbasis nur ein Abfallprodukt sind, schmälert meine Freude keineswegs. Arbeitest Du auf dem XML-Dump? Neugierige Grüße --Baisemain (Diskussion) 13:14, 15. Feb 2010 (MEZ)
- Ja, ich verwende initial den XML-Dump. Der erste Schritt meines Parsers besteht allerdings darin diese Daten aus Performance- und Strukturgründen in meinen lokalen SQL Server zu übertragen und dort erst richtig loszulegen. Was ich letztlich damit mache... kann ich ehrlich gesagt selbst noch nicht konkret sagen. Aller Wahrscheinlichkeit nach wird daraus eine Grundlage für einen NLP-Tagger. -- Manny (Diskussion) 13:22, 15. Feb 2010 (MEZ)
- Sehr interessant. Ich könnte mir da einen Gedankenaustausch vorstellen, wobei ich von .NET/C# keine Ahnung habe. Ich würde mich auch freuen, wenn Du berichten würdest, welche Art Formatierung oder Ähnliches Dir Schwierigkeiten bereitet. Ich persönlich würde das Wiktionary gern auch für automatisierte Weiterverarbeitung optimieren, wobei der menschliche Leser und Autor immer Vorrang haben wird. Aber im Rahmen der Möglichkeiten kann man ja die Hürden dennoch abbauen. Ich möchte Dich auch recht herzlich in den WT:Chat einladen. --Baisemain (Diskussion) 13:26, 15. Feb 2010 (MEZ)
Lieber Manny!
Könntest Du versuchen, die Bedeutungsangabe bei Bewältigung etwas genauer zu formulieren und die Referenzen prüfen? Die Bedeutung ist etwas schwammig. --Baisemain (Diskussion) 23:37, 15. Feb 2010 (MEZ)
Parsing
BearbeitenHallo Manny!
Ich arbeite auch ab und zu auf einen Parser für die deutsche Wiktionary. Es geht ziemlich langsam, wegen den vielen Fehlern und der Unvereinbarkeit, und auch weil es nur ein Hobby ist. Ich verbringe mehr Zeit mit der Autokorrektur als mit dem Parsing selbst. Es würde mich interessieren ob du immer noch daran arbeitest oder ob du schon aufgegeben hast :). Mein Parser ist auf python. -- Gyroidben (Diskussion) 23:04, 1. Mai 2010 (MESZ)
- Auch, ich habe meinen Parser eben bei http://code.google.com/p/wiktionary-parser/ veröffentlicht, aber es ist immer noch sehr unfähig und undokumentiert.--Gyroidben (Diskussion) 00:01, 2. Mai 2010 (MESZ)
- Ja, ich arbeite noch daran. Das mit der Unvereinbarkeit und den Fehlern ist natürlich ein Problem, aber ich kann mit dem einen oder anderen Fehler (oder nicht importierten Datensatz) leben. Größtes Sorgenkind sind natürlich die Verben, respektive die Konjugationsinformationen. Wenn ich mal wieder Zeit habe, dann werd ich die Baustelle noch einmal besuchen. (Pro-)Nomen, Adjektive und Adverbien funktionieren aber recht gut; es sind allerdings auch die von der Komplexität her einfachsten Wortkategorien. Geschrieben wurde das Ding in C#/.Net Framework 3.5, die Datenpersistenz überlasse ich dem Microsoft SQL Server 2008; ich portiere es nebenher gerade auf 4.0 wegen den Vorzügen der Task Parallel Library, und update auch meine anderen dazugehörigen Projekte -- unter anderem importiere und indiziere ich auch die dt. Wikipedia, weil ich dann wild Derivationsregeln auf die Worteinträge abfeuere, um Wortkandidaten zu generieren, und überprüfe dann mit den Textbeständen der Wikipedia, ob es das eben generierte Wort überhaupt gibt. Damit expandiere ich die lokalen Wortbestände sogar noch einmal um ein gutes Stück :-) -- Manny (Diskussion) 10:59, 4. Mai 2010 (MESZ)
Dein Konto wird umbenannt
BearbeitenHallo!
Das Entwicklungsteam der Wikimedia Foundation führt einige Änderungen durch, die die Funktionsweise von Benutzerkonten betreffen. Dies geschieht als Teil unserer kontinuierlichen Bemühungen, neue und bessere Werkzeuge (wie Wiki-übergreifende Benachrichtigungen) für unsere Benutzer anbieten zu können. Diese Änderungen bedingen, dass du überall denselben Benutzernamen hast. Dadurch können wir dir neue Funktionen zur Verfügung stellen, die das Bearbeiten und Diskutieren erleichtern und flexiblere Benutzerrechte für Tools ermöglichen. Eine Bedingung dafür ist, dass Benutzerkonten nun über alle 900 Wikimedia-Wikis hinweg eindeutig sein müssen. Weitere Informationen findest du in dieser Ankündigung.
Leider benutzt auch eine andere Person denselben Benutzernamen Manny wie du. Um sicherzustellen, dass ihr beide weiterhin auf allen Wikimedia-Projekten arbeiten könnt, haben wir für dich das global eindeutige Benutzerkonto Manny~dewiktionary reserviert, das nur dir gehört. Sollte dir dieser Name gefallen, musst du keine weitere Änderung durchführen. Wenn du jedoch einen anderen Benutzernamen wünschst, kannst du auf dieser Seite einen neuen Namen wählen.
Dein Konto wird weiterhin wie gewohnt funktionieren und du wirst als Urheber all deiner bisherigen Bearbeitungen genannt werden, jedoch wirst du beim Login den neuen Benutzernamen verwenden müssen.
Bitte entschuldige die Unannehmlichkeiten. Bei Fragen oder Problemen kannst du dich gern auch an die beiden Stewards DerHexer und Hoo man wenden.
Viele Grüße,
Keegan Peterzell
Community Liaison, Wikimedia Foundation
23:49, 17. Mär. 2015 (MEZ)
Umbenannt
Bearbeitenw
Dieses Benutzerkonto wurde im Rahmen der Single-User Login Finalisation umbenannt. Wenn du im Besitz dieses Kontos bist, kannst du dich mit deinem alten Benutzernamen und Passwort anmelden, um mehr Informationen zu erhalten. Solltest du mit deinem neuen Benutzernamen nicht einverstanden sein, kannst du dir nach dem Anmelden einen neuen aussuchen, hier: Spezial:Globale Umbenennungsanfrage. -- Keegan (WMF) (Diskussion)
06:01, 19. Apr. 2015 (MESZ)