4. September 2024
In den letzten Wochen gab es hier keine Nachrichten, trotzdem ist viel im Hintergrund passiert. Viele zusätzliche Prüfungen und manuelle Korrekturen wurden für die vorhandenen Daten durchgeführt. Da die automatische Erkennung auch einen Wert ausgibt, aus dem man die Verlässlichkeit der Daten ableiten kann, ist es möglich die schlecht erkannten Einträge manuell nachzuarbeiten. In den letzten Monaten habe ich für praktisch alle Personeneinträge die Vornamen korrigiert und auch die für die weitere Erkennung wichtigen Postbezirke sind jetzt für nahezu alle Einträge korrekt. Aktuell werden die Straßennamen korrigiert.
Parallel wird an den Familiennamen, die mit S beginnen gearbeitet. Da dieser Buchstabe der umfangreichste ist, habe ich mich entschieden, die Namen von Sa bis Sch schon vor Fertigstellung des ganzen Buchstabens hochzuladen. Das sind 78.000 neue Personeneinträge, darunter viele Familiennamen mit mehr als 1000 Namensträgern: Schmidt, Schulz, Schulze, Schröder, Schneider, Scholz, Schwarz, Schubert, Schäfer und Schultze. Hier sind die oben genannten Nachbesserungen noch nicht umgesetzt, das folgt jeweils nach dem Import. Damit sind nun insgesamt 699.404 Personeneinträge mit 97.117 Familiennamen online, das entspricht 82% aller Seiten des Berliner Adressbuchs von 1919.
breaking_news15. Juli 2024
Während parallel die Qualität der Vornamen und Postbezirke der vorhandenen Einträge verbessert wird, wurden heute die Personen mit Familiennamen, die mit R beginnen hinzugefügt (50.000 neue Einträge). Insgesamt sind jetzt 621.259 Personeneinträge mit 89.548 Familiennamen online. Damit sind nun 73% aller Seiten des Adressbuchs von 1919 online.
breaking_news22. Juni 2024
Aktuell arbeite ich weiter auch an der Verbesserung der vorhandenen Einträge. Da zur Erkennung des Berufs und der Straße der korrekte Postbezirk wichtig ist, konzentriere ich mich darauf. Trotzdem gibt es nun heute auch neue Daten: Die Personen mit den Anfangsbuchstaben P und Q. Das sind insgesamt 40.000 neue Personen. Insgesamt sind jetzt 572.128 Personeneinträge mit 82.964 Familiennamen online. Damit sind nun 67% aller Seiten des Adressbuchs von 1919 online.
Der Postbezirk trennt immer den Beruf (links) vom Straßennamen (rechts). Da es nur eine sehr begrenzte Zahl an Postbezirken gibt, ist dies ein wichtiger Schritt zur Erkennung des gesamten Eintrags. Bei der Analyse der fehlerhaft erkannten Einträge stößt man auch auf allerhand fehlerhafte Einträge:
Neuöklln statt Neukölln.
Schönbeg. statt Schönebg.
Charllottenbg. statt Charlottenbg.
Neuköln statt Neukölln.
breaking_news1. Juni 2024
Diesmal gibt keine neuen Einträge sondern Überarbeitungen der bereits vorhandenen. Bisher
wurde die Reihenfolge der Personen (innerhalb eines Familiennamens kommen immer zuerst die Männer, dann die Frauen)
nicht von mir beachtet. Auch bestimmte Frauen- und Männerberufe deuten auf bestimmte Vornamen hin. Das alles wird
jetzt erstmals geprüft und dabei musste ich viele Einträge manuell korrigieren. Die neuen Einträge der Familiennamen,
die mit P starten, werden sich daher noch ein wenig verzögern.
Beispiele:
Hier wurde ein Ernst als Erna erkannt, da die Druckqualität nicht so gut ist.
Hier wurde eine Anna fälschlicherweise als Arno erkannt. Das erste n ist auf dem Scan nicht gut als solches zu erkennen.
Hier wurde ein Julius fälschlicherweise als Julia erkannt. Wieder ist die Qualität des Scans schlecht.
Manchmal findet die Überprüfung aber auch Kuriositäten, wie diese Witwe namens Paul. Wahrscheinlich handelt es sich um einen Druckfehler, möglicherweise fehlt einfach ein Punkt (Paul. für Pauline).
breaking_news8. Mai 2024
Das nächste kleine Update: Zwei weitere Anfangsbuchstaben (N und O) sind jetzt online (27.000 neue Personen). Insgesamt sind jetzt 532.764 Personeneinträge mit 77.024 Familiennamen online. Damit sind nun 63% aller Seiten des Adressbuchs von 1919 online.
breaking_news22. April 2024
Ein weiteres kleines Update: Die Personen mit dem Anfangsbuchstaben M sind nun online (55.000 neue Personen). Damit sind nun insgesamt mehr als eine halbe Million Personen (505.290) mit 72.516 Familiennamen online. Teil dieses Updates ist auch der Familienname Müller, der sich mit fast 9000 Namensträgern auf Platz 1 der Familiennamen gesetzt hat (mit großem Abstand).
breaking_news29. März 2024
Zu Ostern noch ein kleines Update: Die Personen mit dem Anfangsbuchstaben L. Damit sind jetzt mehr als die Hälfte aller Seiten erfasst! Insgesamt sind nun 450.575 Personen mit 64.885 Familiennamen online.
breaking_news22. März 2024
Diesmal gibt es keine neuen Daten, aber die Liste der Familiennamen wurde überarbeitet. Sie ist nun filter- und sortierbar. Standardmäßig ist sie jetzt absteigend nach der Anzahl der Einträge sortiert. Die häufigsten Familiennamen bisher (die Anfangsbuchstaben A bis K sind aktuell verfügbar) sind Krüger, Hoffmann und Krause. Bei der Erstellung ist mir aufgefallen, dass die bisherigen Angaben zur Anzahl der Familiennamen auf dieser Neuigkeiten-Seite fehlerhaft war. Statt knapp unter 57.000 Familiennamen sind es schon 58.827. Namen, die sich nur an einem Umlaut unterschieden, wurden bisher zusammen gezählt.
breaking_news16. März 2024
Heute wurden alle Personen, deren Familienname mit K beginnt, eingespielt. Das sind 88.000 neue Personeneinträge. Damit sind jetzt fast die Hälfte aller Seiten erfasst (47,8%). Auch an den Vornamen der bereits bestehenden Einträge wurde weiter gearbeitet. Insgesamt sind nun 404.375 Personen mit 56.911 Familiennamen online.
breaking_news2. Februar 2024
Heute wurden ein größeres Update eingespielt. Zum einen wurde weiter an der Verbesserung der Vornamenerkennung gearbeitet und es konnte die Anzahl der Einträge ohne erkannten Vornamen reduziert werden. Aktuell haben ca. 2% der Einträge keinen erkannten Vornamen. Dies liegt oft an Fehlern im Scan und eine automatische Erkennung ist dann schwierig. Die verbliebenen Fälle gehe ich daher nach und nach manuell durch. Das ist auch nötig, da manchmal die Erkennung, was überhaupt ein Eintrag ist, fehlerhaft sein kann. Dies liegt zum Teil auch an Satzfehlern. Bei folgendem Beispiel gibt es zwar einen Spiegelstrich als ob ein neuer Eintrag beginnt, der Inhalt gehört aber zum vorherigen Eintrag:
Beim nächsten Beispiel handelt es sich um einen Eintrag mit einem neuen Familiennamen, aber es wurde fälschlich ein Spiegelstrich gesetzt als ob der Eintrag zum vorherigen Familiennamen gehört und Jurkowitz der Vorname ist:
Auf vielen Seiten ist aber auch einfach die Scanqualität sehr schlecht:
Neben den Vornamens-Verbesserungen wurden die Einträge mit den Familiennamen, die mit den Buchstaben H, I und J beginnen, hinzugefügt. Das sind rund 88.000 neue Einträge. Insgesamt sind nun 316.058 Personeneinträge online (bei 44.729 verschiedenen Familiennamen).
breaking_news30. Dezember 2023
Zum Abschluss des Jahres nochmal ein Update. Diesmal sind die Einträge des Familiennamens G hinzugekommen (50.000 neue Einträge). Auch für einige schon vorhandene Einträge konnte die Qualität weiter verbessert werden (diesmal vor allem im Bereich der Vornamen). Insgesamt sind inzwischen 227.694 Personeneinträge online (bei 34.222 verschiedenen Familiennamen).
breaking_news13. Dezember 2023
Heute wurden weitere Updates eingespielt. Es konnten alle Einträge deren Familienname mit E und F beginnt hinzugefügt werden (50.000 neue Einträge), sodass nun insgesamt 177.325 Personeneinträge online sind (mit 26.524 verschiedenen Familiennamen).
breaking_news16. November 2023
Heute wurden weitere Updates eingespielt. Aktuell werden Firmeneinträge noch nicht weiter auf Namen analysiert (das ist für die Zukunft geplant), trotzdem kann man sich beim Durchklicken durch das Adressbuch natürlich auch diese Einträge anschauen. Daher wurde die Anzeige dieser Einträge auf dieser Seite und die Berechnung dieser Einträge verbessert. Zusätzlich konnten alle Einträge deren Familienname mit D beginnt hinzugefügt werden (25.000 neue Einträge), sodass nun insgesamt 127.861 Personeneinträge online sind (mit 20.599 verschiedenen Familiennamen).
breaking_news24. Oktober 2023
Heute wurde das erste Update eingespielt. Zum einen konnte die Qualität der ersten Einträge nochmal ein wenig erhöht werden, zum anderen kamen 23.000 weitere Einträge hinzu. Somit sind nun alle Personen mit den Familiennamen-Anfangsbuchstaben A bis C online, insgesamt 102.803 Personeneinträge (15.400 verschiedene Familiennamen).
breaking_news6. Oktober 2023
Es ist soweit: Die erste Version ist online gestellt!
Noch sind nur wenige Daten des Berliner Adressbuchs von 1919 verfügbar (79.690 Personeneinträge; Anfangsbuchstaben A-Br),
aber ich möchte nicht warten, bis alle Daten fertig sind.
Die Qualität der Adressbuch-Scans ist leider sehr schlecht. Eine vollautomatische Ermittlung der Familiennamen ist
zu fehleranfällig, um sie ohne Prüfung online zu stellen. Der begrenzende Faktor ist daher derzeit die manuelle
Prüfung aller Familiennamen (aktuell schon 10.600 verschiedene Namen). Dieser Prozess muss hoffentlich nur
für ein Adressbuch komplett manuell gemacht werden, für kommende Adressbücher können diese Daten
zum Abgleich genutzt werden. Insgesamt hat das Berliner Adressbuch von 1919 schätzungsweise 820.000 Einträge.