html dateien mit awk bearbeiten, suche dringend hilfe!

Post Reply
Message
Author
munch
Posts: 1
Joined: 06. Jun 2003 23:49

html dateien mit awk bearbeiten, suche dringend hilfe!

#1 Post by munch »

Nun guten Abend alle zusammen <img src="http://www.pl-forum.de/UltraBoard/Images/Happy.gif" border="0" align="middle">
Ich habe ein grosses Problem mit awk. Ich bin total neu auf Linux umgestiegen und hatte schon auf Windows ein Riesenproblem mit html dateien. Also ich habe Zehntausende von html Dokumenten und wollte die mit html2txt tools nur noch auf Text schrumpfen.
Es gibt ja viele Tools die html zu normalem Text machen, aber es bleibt trozdem ein riesen Chaos. Und für die Verarbeitung von Texten soll awk ja gut sein. Jetzt habe ich mir überlegt, das es viel zu kompliziert wäre, wenn man ja jeden einzelnen htmltag der gelöschen werden soll programmieren muss, darum wäre es doch am besten, wenn awk einfach die gesamte Datei löscht ausser gewisse Daten in gewünschten htmltags. Das daraus wirklich nur das kommt, was auch kommen soll. Mein grosses Problem ist einfach das ich nicht Programmieren kann und jetzt wollte ich euch fragen, ob ihr mir helfen könntet. Ich mache euch nun
noch ein Beispiel dazu:


<html>

<head>
<meta http-equiv="Content-Language" content="de">
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<title>Testdokument</title>
</head>

<body>
<hr>
<p>&nbsp;</p>

<p><font face="Arial">Dies ist ein Test</font></p>

</body>

</html>


Wenn ich beispielsweise nur den Text zwischen <font face="Arial"> und </font> will und alles andere gelöscht werden soll.
Könnt ihr mir helfen?


Vielen dank schon im voraus <img src="http://www.pl-forum.de/UltraBoard/Images/Happy.gif" border="0" align="middle">

User avatar
hjb
Pro-Linux
Posts: 3264
Joined: 15. Aug 1999 16:59
Location: Bruchsal
Contact:

Re: html dateien mit awk bearbeiten, suche dringend hilfe!

#2 Post by hjb »

Hi!

awk ist obsolet außer vielleicht für kleinste Aufgaben. Nimm Perl. Ich kann dir hier jetzt aber keine Anleitung geben. Vielleicht hat jemand anderes ein passendes Skript oder die Zeit, eines zu machen...

Warum beläßt du es nicht bei HTML? Du mußt nur das <font face="alrial"> und das </font> löschen, dann ist es korrektes HTML...

Gruß,
hjb
Pro-Linux - warum durch Fenster steigen, wenn es eine Tür gibt?

Munch

Re: html dateien mit awk bearbeiten, suche dringend hilfe!

#3 Post by Munch »

So einfach ist es eben nicht. Es ist ein totales Chaos!

Scory

Re: html dateien mit awk bearbeiten, suche dringend hilfe!

#4 Post by Scory »

Nimm PHP4, da gibt es eine Funktion strip_tags() (siehe http://de3.php.net/manual/en/function.strip-tags.php), das bekommst Du auch als Anfänger schnell hin. Wird ein Miniminiprogramm.

MfG
Scory

Post Reply