特殊文字2 サンプル集
HTMLタグの削除
<("[^"]*"|'[^']*'|[^'">])*>
解説
htmlタグ、
<p class="bk1"><a href="index.html">TOP</a></p>
<p class="bk2"><a href="page0101.html">特殊文字</a></p>
<p class="bk3"><a href="page0201.html">数字の検索</a></p>
<!--///////////////* ページタイトル ここから *///////////////-->
<div id="pagetitle">
<h3>正規表現とは?</h3>
例えば、このサイトのHTMLタグですが、ここから本文だけ取り出したい、
そんな時に使用する正規表現です
ちょっとめんどくさいですが、順番に解説していきましょう。
前後の < >これはすぐに分かりますね。HTMLタグは<>で囲まれています。
当然、先頭は< 末尾は > になるわけです。
大きく ( ) で囲っています。これは | で区切られている3つのパターンを
( )* と記述することによって、いずれかの繰り返し、という意味になっています
では、その3パターンをそれぞれ見ていきましょう
"[^"]*"
" で始まり、" 以外の連続、そして、" で終わる
'[^']*'
' で始まり、' 以外の連続、そして、' で終わる[^'">]
これはそのまま、 ' " > 以外の文字ですね
これらのいずれかが何個かあって、<>で閉じられてるもの、
それらを削除すると、本文だけが抜け出せます