Pro-Linux.de

Pro-Linux

Pro-Linux Diskussions- und Hilfeforum
Aktuelle Zeit: 11. Dez 2018 5:21

Alle Zeiten sind UTC+01:00




Ein neues Thema erstellen  Auf das Thema antworten  [ 5 Beiträge ] 
Autor Nachricht
BeitragVerfasst: 03. Feb 2006 18:53 
Offline
prolinux-forum-admin
Benutzeravatar

Registriert: 05. Mai 2004 7:35
Beiträge: 1238
Ich versuche aus HTML-Dateien den reinen Text herauszuziehen. Leider funktioniert das nicht ganz so, wie ich es mir denke:
Code:
echo "<a href=\"_blank\">leere seite</a>" | sed -e 's/<*>//g'
<a href="_blank"leere seite</a
Code:
echo "<a href=\"_blank\">leere seite</a>" | awk ' &#123; gsub&#40;"<*>", ""&#41;; print &#125; '
<a href="_blank"leere seite</a
Was mache ich falsch?


Zuletzt geändert von Lateralus am 04. Feb 2006 11:15, insgesamt 1-mal geändert.

Nach oben
   
 Betreff des Beitrags:
BeitragVerfasst: 03. Feb 2006 23:51 
Offline
prolinux-forum-admin

Registriert: 26. Jun 2004 21:18
Beiträge: 1444
Seit anderthalb Stunden frickel ich rum. Warum zum *grmpf#§!argh!%#* das nicht will... Falls es nicht unbedingt sed oder awk sein sollen:
lynx -dump bar.htm >foo.txt

ps. Wieso spielst du mit scripten rum, ich denke du lernst? *Zeigefinger erheb*


Gruß, Klopskuchen

_________________
When all else fails, read the instructions .


Nach oben
   
 Betreff des Beitrags:
BeitragVerfasst: 04. Feb 2006 10:50 
Offline
prolinux-forum-admin
Benutzeravatar

Registriert: 14. Jan 2000 15:37
Beiträge: 699
Wohnort: Jülich
Hi,

es ist der Reguläre Ausdruck, der Dir (Euch?) Sorgen bereitet.
Code:
<*>
übersetzt sich in "Beliebig viele < (auch 0 < erlaubt), gefolgt von >". Das ist sicher nicht, was ihr wollt. Nehmt statt dessen besser
Code:
<&#91;^>&#93;*>
Das steht für "Genau ein <, gefolgt von beliebige vielen beliebigen Zeichem die aber kein > sein dürfen, gefolgt von genau einem >". Damit sollten alle Tags herausgeschmissen werden - ob mit sed oder awk ist dann einerlei.

Es könnte aber Fälle geben, wo ihr damit immer noch Probleme habt - JavaScript oder Inline-CSS im HTML könnten Euch einen Strich durch die Rechnung machen. Aber für eine erste Näherung reicht's.

Jochen

_________________
Die grösste Lüge der EDV? "Mal eben..."


Nach oben
   
 Betreff des Beitrags:
BeitragVerfasst: 04. Feb 2006 11:11 
Offline
prolinux-forum-admin
Benutzeravatar

Registriert: 05. Mai 2004 7:35
Beiträge: 1238
@klopskuchen
Man wird sich ja wohl hin und wieder ein bisschen Zeit für Hobbys nehmen dürfen. ;-) Ganz ehrlich: Ich hätte mit diesem Skript nicht anfangen sollen; es lässt mir keine Ruhe mehr.

@Jochen
Vielen Dank. Es geht nur um die Seiten-Indices von www.kernel.org/pub/linux/kernel und darunter. Da klappt das auf jeden Fall.


Nach oben
   
 Betreff des Beitrags:
BeitragVerfasst: 17. Feb 2006 19:38 
tach

Um mehrere Tags zu entfernen, empfielt es sich, eine Schlaufe zu verwenden:
Code:
sed -e '&#58;a s/<&#91;^>&#93;*>//g;/</N;//ba'

greetz by
Marco


Nach oben
   
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Ein neues Thema erstellen  Auf das Thema antworten  [ 5 Beiträge ] 

Alle Zeiten sind UTC+01:00


Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste


Sie dürfen keine neuen Themen in diesem Forum erstellen.
Sie dürfen keine Antworten zu Themen in diesem Forum erstellen.
Sie dürfen Ihre Beiträge in diesem Forum nicht ändern.
Sie dürfen Ihre Beiträge in diesem Forum nicht löschen.
Sie dürfen keine Dateianhänge in diesem Forum erstellen.

Suche nach:
Gehe zu:  
Powered by phpBB® Forum Software © phpBB Limited
Deutsche Übersetzung durch phpBB.de