特殊文字2 サンプル集

 HTMLタグの削除

 

<("[^"]*"|'[^']*'|[^'">])*>

 

 解説

 htmlタグ、
<p class="bk1"><a href="index.html">TOP</a></p>
<p class="bk2"><a href="page0101.html">特殊文字</a></p>
<p class="bk3"><a href="page0201.html">数字の検索</a></p>
<!--///////////////*  ページタイトル ここから  *///////////////-->
<div id="pagetitle">

<h3>正規表現とは?</h3>

 

例えば、このサイトのHTMLタグですが、ここから本文だけ取り出したい、
そんな時に使用する正規表現です

ちょっとめんどくさいですが、順番に解説していきましょう。

前後の < >これはすぐに分かりますね。HTMLタグは<>で囲まれています。
当然、先頭は< 末尾は > になるわけです。

 大きく ( ) で囲っています。これは | で区切られている3つのパターンを
(  )* と記述することによって、いずれかの繰り返し、という意味になっています

では、その3パターンをそれぞれ見ていきましょう

"[^"]*"

 " で始まり、" 以外の連続、そして、" で終わる

'[^']*'

 ' で始まり、' 以外の連続、そして、' で終わる

[^'">] 

 これはそのまま、 ' " > 以外の文字ですね


これらのいずれかが何個かあって、<>で閉じられてるもの、
それらを削除すると、本文だけが抜け出せます


Designed by chocoto
inserted by FC2 system