3   
 H      SiSiSi v3.19        .
 H K  F                   ( 
                 ( S I C H E R E                       (                    (                    ( 1      S I N N E N T S P R E C H E N D E                                       (                    (                   ( 1            S I L B E N T R E N N U N G                                         (                   DFr automatische, fehlerlose Silbentrennung in Textverarbei                                             tungssystemen.                           (                  ( 
                 ( 
                  ( Algorithmus(1):                            ( 
               ( 1 Schritt:              &          ( 0              ( :Jedes zusammengesetzte Wort wird zuerst in seine                                          %Einzelwrter zerlegt, z. B.                                    (                 8 (Text = verarbeitungs = systeme                                       8 2An den Wortfugen erhlt man dadurch die                                                   8 !Haupt = trenn = stellen       2            /                 (                 (                 ( Algorithmus(2):                           ( 2. Schritt              &          ( 0              ( <Innerhalb eines jeden Einzelwortes werden mgliche                                          :Trennstellen hinter den Vorsilben und vor den End                                           =silben (z. B. -heit, -lich) bestimmt; ebenso werden                                       6in den verbleibenden Teilen, die aus Stamm/En                                        =dungen/Fugenzeichen bestehen, mgliche Trennstellen                                     /nach den Dudenregeln ermittelt, z. B.                                     8 -Text = ver-ar-bei-tungs = sy-ste-me                                 ( oder                  8 Ver-bind-lich-kei-ten                      ( 9Diese Trennstellen in einem Einzelwort sind die                                                        8  Ne-bentrennstel-len  "" """""""""""" """             ( 
               (                 ( Algorithmus(3):                          ( Worttabelle:    % 0  /                ( 8Der Algorithmus bentigt eine Tabelle aller ato                                     ;maren Bestandteile der Wrter: Stmme, Vorsilben,                                           ,Endsilben, Endungen, Fugenzeichen.                                         ( :Ungefhr 6000 Eintragungen gengen zur Erfassung                                         <der deutschen Sprache, einschlielich der gngigen                                              Fremdwrter.                       (                 ( Algorithmus(4):                          ( 6Beim Aufspalten der Wrter sind die zuerst er                                        ;mittelten Zerlegungsstellen zwischen den atomaren           / /    %   /                  / /    Bestandteilen, z. B.  /    %  1                     8 (Text/ver/arbeit/ung/s/system/e                                  ( 7zu unterscheiden von den zum Teil spter ermit                                        =telten mglichen Trennstellen, die im Zeilenumbruch         / /         %   /                       &benutzt werden knnen, z. B.                                     8 )Text=ver-ar-bei-tungs=sy-ste-me                             ( 9In den Wortteilen "Stamm/Endungen/Fugenzeichen"                                          5stimmen beide im allgemeinen nicht berein.                                              ( 
             (                   ( Lesbarkeit:                       ( ,Durch die Unterscheidung zwischen                                             8 &Haupt- und Nebentrennstellen             /  %    %   /                 ( 7kann ein Textsystem die Trennung an den Fugen                                           <zwischen den Einzelwrtern bevorzugen, wodurch die                                           :Lesbarkeit des Textes eher gefrdert wird, also                                                       ( !Bonus fr                /                        $           ;         Spiel             9automaten                          (                    ( 6Benachteiligt wird aber das Zerhacken der Ein                                       ;zelwrter, wodurch die Lesbarkeit unter Umstnden                                           <stark erschwert wird, also Malus fr                                         /                        $           :      Spielau           5tomaten                    
              (                 ( Sicherheit:                       ( 9Es darf nie eine falsche Trennstelle auftreten!              /     /         %   /            <Lieber soll einmal eine unsichere nicht ausgenutzt                                            werden.                    ( :Der Algorithmus sucht alle mglichen Zerlegungen                     /     / /       / /  /    :eines Wortes. Wenn mehrere gefunden werden, sind                                           6Trennstellen unter Umstnden unsicher, z. B.                                                  8 &Bau = mast oder Baum = ast ?                                           ( oder                  8 ,Wach = stu-be oder Wachs = tu-be ?                                          =Trennstellen, die nicht in allen Zerlegungen gleich     %   /                   /      / /  /           4sind, werden nicht automatisch ausgenutzt.         /           / / /        / /                                    9Bei Mehrdeutigkeiten kann der Benutzer aber die                                           'passende Zerlegung aussuchen:                                0                                      ,Messerattentat               
              (                (                 ( :Die Spezialitten der deutschen Sprache bereiten                                           keine Schwierigkeiten:                                 ( 
              ( )ck - Trennung:                                     &           Zuckerbcker                                  (                                                              )Drei Konsonanten :                                           &        Schiffahrt Kennummer                                       (                 ( :Anpassung des Wortschatzes an spezielle Bedrfnis                                       se:                 ( ;Durch Eintragen spezieller Stmme in die Worttabel                                         ;le kann man den Silbentrennungsalgorithmus leicht                                            <an spezielle Bedrfnisse anpassen. In Frage kommen                                                       8 .Fremdwrter   Namen   Stdte   . . .                                               ( 
               ( :Nachdem Sie einen neuen Stamm in die Worttabelle                                            :eingetragen haben, werden alle Wortzusammensetzun                      /      % 0  /  %  (  /=gen, die diesen Stamm enthalten, korrekt behandelt.                                                           ( =Beispiel: Nach dem Eintragen von Acetyl und Salicyl                                     werden auch                        8 0Acetylengas   und   Acetylsalicylsure                                   ( korrekt getrennt.                            (                 ( ;Tragen wir die beiden neuen Stmme ein und betrach                                            *ten wir uns die Auswirkungen auf                                          ( Acetylengas             ( und                ( "Acetylsalicylsure                             ( 5Automatisches Erzeugen des Spaltenumbruchs:                                        	        ( 9Bei jeder Korrektur knnen neue Trennstellen, be                                         ;sonders in den langen zusammengesetzten Wortunget                                       =men entstehen. Diese sollten automatisch eingesetzt                           / / /               :werden, der Autor sollte nicht damit belastet wer                                          9den. Besonders bei schmalen Zeitungsspalten ist                      /      /    %   /        :dieses Problem interessant. Erzeugen wir daher ei                                        :nen neuen Zeilenumbruch fr diesen Absatz mit kr                                          ;zeren Zeilen; die neuen Umbruchstellen hat der Sil                                           7bentrennungsalgorithmus alle selbst gefunden.                                                 (                 ( $Optimierung der Anordnung:                            ( =Es gibt einen Algorithmus, der eine Optimierung des                                     =Zeilenumbruchs durchfhrt. Er sucht dabei aus allen                                               ;mglichen, legalen Anordnungen eines Absatzes die                                         7"schnste" aus, das ist die mit den wenigsten                                            9Strafpunkten, sogenannten "penalties". Bestraft                          :werden gestreckte Wortzwischenrume, die aus dem                                           =Randausgleich resultieren, sowie Nebentrennstellen.                                                        
             (                 ( Grammatiken(1):                          ( 'Mit der einfachsten Grammatik                                       ( &Zusammengesetztes Wort                       
         ( <= beliebig lange Folge von Einzelwrtern                                               ( Einzelwort            
          ( .= beliebig viele Vorsilben                                    ( ein Stamm                      ( Bbeliebig viele Endungen/-silben/Fugenzeichen                                                 ( +ist man "auf der sicheren Seite":                   /  /      /                  6Die gewnschte "richtige" Zerlegung ent                                6spricht der Grammatik und wird daher ge                                   :funden. Eventuell werden noch weitere Zerle                                   :gungen gefunden, die nach dieser Grammatik                                      :legal sind, mgen sie unsinnig sein oder ei                                +nen (anderen) Sinn ergeben.                                    (                 ( 6Daraus folgt fr diese einfachste Grammatik:                                                  ( :Vorteil: Es tritt nie eine falsche Trennstel                                       :le auf, denn die "richtige" Zerlegung wurde                                        8ja mit allen ihren Trennstellen gefunden.                                     =Die Trennstellen mglicher anderer Zerlegungen                                       ;sind unsicher, wenn sie mit diesen nicht ber      / /                                  ;einstimmen und werden dann nicht ausgenutzt.                                                      =Nachteil: Es werden unter Umstnden nicht alle                                       /   :richtigen Trennstellen ausgenutzt, weil sie    / /                                  ;nicht mit denen anderer (unsinniger) Zerlegun                             ;gen bereinstimmen und daher unsicher sind.                                                   (                   ( Grammatiken(2):                           :Mit einer genaueren Grammatik, die Wortbildungsre                                 %  1    % 0=geln der deutschen Sprache bercksichtigt, kann man                                                9die Menge der "legalen" Wrter gegenber der ein                                         ;fachsten Grammatik einschrnken, indem man unsinni                                     <ge Zusammensetzungen atomarer Bestandteile erkennt                                       :und eliminiert. Dadurch werden unter Umstnden un                                         :sichere richtige Trennstellen zu sicheren und kn                            /  /           nen ausgenutzt werden.                                (                 ( 4Wichtigste Punkte der genaueren Grammatik:                                              ( :1. Stmme klassifizieren und zugehrige Endungen                                       !einschrnken, z. B.                           ( %und: keine Endung                          ( 2Atom: nur Deklinationsendungen                        ( 52. Folgen von Morphemen einschrnken, z. B.                                         ( <nach -keit nur noch Deklinationsendungen                            =nach einer Konjugationsendung nichts mehr                                      :Dabei aber immer auf der sicheren Seite bleiben,                         /  /      /           9d.h. die Regeln so eng fassen, da nie eine sinn                                          /volle Zerlegung ausgeschlossen wird!                                              ,  