A-A+

php使用正则表达式过滤删除标签内容

2017年03月12日 PHP技术文章 暂无评论 阅读 4 views 次

做项目的时候为了省劲,所以搞了好多的垃圾内容在数据库里面,而最近又要进行数据库的优化,所以索性将这些垃圾的内容给剔除掉,也就是将多余的URL给剔除掉,因为这些URL完全是可以写在网页里面的,而没必要插进mysql数据库。

好了,关于冗余的html标签,直接使用如下的代码:

  1. for$i=1;$i<=5;$i++ )  
  2. {  
  3.  $sql ="SELECT * FROM `表名` WHERE `字段` like '<h".$i.">%</h".$i.">%' ";  
  4.    
  5.  $query = mysql_query( $sql ) or die(mysql_error());  
  6.    
  7.  if( mysql_num_rows( $query ) )  
  8.  {  
  9.   while ( $rs = mysql_fetch_array( $query ) )  
  10.   {  
  11.    //print_r($rs);  
  12.       
  13.    $t = stripslashes($rs['字段']);  
  14.    $str = nl2br(strip_tags(addslashes(removelink($t))));  
  15.    $sql ="update 表名 set 字段='$str' where id=".$rs['id'];  
  16.    //www.xiariboke.com  
  17.    if( mysql_query($sql))  
  18.    {  
  19.     echo $rs['id'].'成功<br />';  
  20.    }  
  21.    else  
  22.    {  
  23.     echo mysql_error();  
  24.    }   
  25.   }  
  26.  }  
  27.  else  
  28.  {  
  29.   echo '己更新过没有记录了'.$sql.'<br />';  
  30.  }  
  31. }  
  32.    
  33. function removelink($t)  
  34. {  
  35.  //$str = preg_replace("/<a[^>]*href=[^>]*>|</[^a]*a[^>]*>/i","",$t);  
  36.    
  37.  $str = preg_replace("/(?is)(?<=<h1>).*?(?=</h1>)/i","",$t);  
  38.  $str = preg_replace("/(?is)(?<=<h2>).*?(?=</h2>)/i","",$str);  
  39.  $str = preg_replace("/(?is)(?<=<h3>).*?(?=</h3>)/i","",$str);  
  40.  $str = preg_replace("/(?is)(?<=<h4>).*?(?=</h4>)/i","",$str);  
  41.  $str = preg_replace("/(?is)(?<=<h5>).*?(?=</h5>)/i","",$str);  
  42.  return re_h($str);  
  43. }  
  44. function re_h($str)  
  45. {  
  46.  $str = str_replace('<h1>','',$str);  
  47.  $str = str_replace('<h2>','',$str);  
  48.  $str = str_replace('<h3>','',$str);  
  49.  $str = str_replace('<h4>','',$str);  
  50.  $str = str_replace('<h5>','',$str);  
  51.  $str = str_replace('</h1>','',$str);  
  52.  $str = str_replace('</h2>','',$str);  
  53.  $str = str_replace('</h3>','',$str);  
  54.  $str = str_replace('</h4>','',$str);  
  55.  $str = str_replace('</h5>','',$str);   
  56.  return $str;  
  57. }  

这段代码是将 html 过滤掉,并直接替换成 h1 到 h5 的标签,如果你有这样的需求,可以自行更改一下,上面的代码用到的正则如下:

  1. preg_replace("/(?is)(?<=<h1>).*?(?=</h1>)/i","",$t);  

这是过滤替换的核心代码了,我们稍加修改一下就可以改成为自己的需求代码,比如我们将文本中的 url 超链接去除掉的话,就可以使用如下代码:

  1. $str = preg_replace("/<a[^>]*href=[^>]*>|</[^a]*a[^>]*>/i","",$strhtml);   

好了,关于更多的正则这里就不多说了,下面再给上两个常用的正则例子。

1、删除内容中的超链接,代码如下:

  1. ereg_replace('<a([^>]*)>([^<]*)</a>','<font color="red">\2</font>',$content);  
  2. ereg_replace("<a [^>]*>|</a>","",$content);   

2、消除包含特定词的超链接,代码如下:

  1. $find="this string is my find";  
  2. $string='<font color="red">替换掉了</font>';//将超链接替换成的内容  
  3. echo ereg_replace('<a([^>]*)>([^<]*'.$find.'[^>]*)</a>','<font color="red">\2</font>',$content);  

在PHP中,结合正则表达式来过滤替换内容标签的实例有很多,应用也很广,这类代码不用死记硬背,需要的时候直接从网上搜索就可以了。

给我留言