sed/perl Ausdruck gesucht

Message

Fulter · #1 Post by **Fulter** » 13. Feb 2009 11:35

Hallo,

ich suche eine Möglichkeit, in einem Textdokument, alles, was sich zwischen den Tags <desc> und </desc> befindet, zu löschen. Der Einfachheit halber, liegen beide Tags immer in einer Zeile.

So also jemand Spaß an regulären Ausdrücken hat, darf er (oder sie) sich gerne austoben

Fulter · #2 Post by **Fulter** » 13. Feb 2009 11:48

Kleine Korrektur:

Aus jeder Zeile, die mit <desc> (und beliebigen Tabs und/oder Leerzeichen davor) beginnt, den Inhalt zwischen <desc> und löschen, sowie den Inhalt zwischen und </desc>

Die fortgeschrittene Version, aber das würde ich nur wirklich süchtigen oder Gefahrensuchern ans Herz legen:

Alles, was zwischen
1) <desc> und liegt,
2) zwischen und , aber nur, wenn nach dem das nächste Zeichen kein < ist, wobei dazwischen natürlich beliebige Leerzeichen liegen können
3) Zwischen und </desc>, aber auch nur, wenn nach dem das nächste Zeichen wieder kein < ist, abgesehen von beliebigen Leerzeichen.

Fulter · #3 Post by **Fulter** » 13. Feb 2009 13:20

Schon einen Schritt weiter:

Code: Select all

cat Datei.txt | sed -e 's/<desc>.*\&lt\;strong>/<desc>\ /'

Das Problem ist, das der Ziel-String in der Zeile mehrfach vorkommt und sed die letzte Instanz nimmt, ich ihm aber beipulen muß, alles zwischen <desc> und dem ersten Auftauchen von zu löschen, nicht zwischen <desc> und dem Letzten.

Janka · #4 Post by **Janka** » 15. Feb 2009 20:39

Dein Problem lässt sich mit regulären Ausdrücken allein nur mit "non-greedy-quantifiers" lösen. Die kann sed meines Wissens aber nicht. In Tcl sieht das so aus:

Code: Select all

#!/usr/bin/tclsh
regsub -all &#123;<desc>.*?<strong>&#125; &#91;read stdin&#93; &#123;&#125; OUTPUT
regsub -all &#123;</strong>.*?</desc>&#125; $OUTPUT &#123;&#125; OUTPUT
puts -nonewline $OUTPUT

.*? ist die "non-greedy"-Variante von .*, die immer das kleinste mögliche Match auswählt.

Janka