微信公众号文章内容采集API接口源码

程序源码 阅读 254

微信公众号文章内容采集API接口源码的设计初衷,不仅在于高效整合与提取公众号内的文章数据,还充分考虑到了与各类第三方编辑器的兼容性与扩展性。当您遇到除了默认微信公众号发布平台外,还希望将内容无缝对接至其他功能丰富、操作便捷的第三方编辑器时,该API接口源码提供了灵活的规则配置选项。

具体而言,通过修改或扩展正则表达式规则集,您可以轻松地将更多第三方编辑器的微信公众号文章格式纳入采集范围。这些规则不仅限于文章标题、正文内容的提取,还可能包括图片、视频、音频等多媒体元素的解析与转换,确保内容在迁移过程中保持原有的丰富度和格式一致性。

此外,该API接口源码的设计强调了对微信公众号发布平台原生功能的良好适配,这意味着在大多数情况下,无需额外调整即可直接应用于标准的微信公众号文章采集任务。然而,面对日益多样化的第三方编辑器市场,持续更新和维护正则表达式规则库变得尤为重要,以确保API能够紧跟行业动态,满足用户不断变化的需求。

因此,为了指定目标采集或搬迁到具有可用接口的第三方平台,您只需根据目标平台的文章结构特点,在现有的正则表达式规则中继续添加或调整相应的匹配规则。这一过程不仅提升了API的灵活性和通用性,也为用户提供了更加个性化和定制化的内容采集与迁移解决方案。通过不断优化和扩展API的功能,我们致力于帮助用户更加高效地管理和利用微信公众号内容资源。

微信公众号文章内容采集API接口源码

<?php 
$url = @$_GET['url']?$_GET['url']:"https://mp.weixin.qq.com/s/n-X7v_JBFTSM6kBYyIG5kg"; 
$headers = array( 
'Host' => 'mmbiz.qpic.cn', 
'Connection' => 'keep-alive', 
'Pragma' => 'no-cache', 
'Refererr'=>'http://www.qq.com/', 
'Cache-Control' => 'no-cache', 
'Accept' => 'textml,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8', 
'User-Agent' => 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36', 
'Accept-Encoding' => 'gzip, deflate, sdch', 
'Accept-Language' => 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4' 
); 
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL,$url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); 
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0); 
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0); 
curl_setopt($ch, CURLOPT_HTTPHEADER,$headers); 
$result= curl_exec($ch); 
curl_close($ch); 
preg_match_all('/meta name="author" content="(.*?)"/', $result, $m);   
$nickname = $m[1][0];//公众号昵称 
preg_match_all('/property="og:title" content="(.*?)"/', $result, $m);   
$title = $m[1][0];//公众号文章标题 
preg_match_all('/property="og:image" content="(.*?)"/', $result, $m);   
$titlepic = $m[1][0];//公众号文章标题图片 
preg_match_all('/name="description" content="(.*?)"/', $result, $m);   
$smalltext = $m[1][0];//公众号文章简介 
preg_match_all('/var round_head_img = "(.*?)";/si',$result,$m); 
$head_img = $m[1][0];//公众号头像  
if (!extension_loaded('dom')) {   
die('DOMDocument扩展未加载,请检查PHP配置文件。');   
}   
$dom = new DOMDocument();   
try {   
$dom->loadHTML($result);   
} catch (Exception $e) {   
die('加载HTML时出错:' . $e->getMessage());   
} 
foreach ($dom->getElementsByTagName('*') as $tag) {   
if ($tag->hasAttribute('style')) {   
$tag->removeAttribute('style');   
}   
}   
$newstext = ''; 
$divtext = $dom->getElementById('js_content');  
foreach ($divtext->childNodes as $child) {   
$newstext .=$child->ownerDocument->saveHTML($child); 
} 
$newstext=strip_tags($newstext, "';   
},$newstext);   
$replacement = '<$1$2';   
$newHtml = preg_replace('/<(\/)?(p|span|br)[^>]*style="[^"]*"/i', $replacement, $newnewstext);   
$newHtml = preg_replace('/<p[^>]*style\s*=\s*"\s*[^"]*"\s*>(.*?)<\/p>/i', '$2', $newHtml);  
$newHtml= str_replace(array("<p><br></p>", "<p><br></p>"), '', $newHtml);  
$wechattext =preg_replace('/<\/strong>|■|<strong>|.*免费订阅|.*文学新高地|.*点击上方/i', '',  $newHtml);  //去头部 
$wechattext = preg_replace('~作者简介.*?>|延伸阅读.*|重要公告.*|责任编辑.*|落尘外平台团队.*|作者:.*|</p>香落尘外.*|往期作品回顾.*~', '',$wechattext); //去尾部 
$content = [ 
'status' => 200, 
'msg' => "采集成功", 
'newstext' => $wechattext, 
'nickname' => $nickname, 
'title' => $title, 
'url' => $url, 
'titlepic' => $titlepic, 
'smalltext' => $smalltext, 
'head_img' => $head_img, 
'time' => date("Y-m-d H:i:s"), 
'api_source' => "".$public_r['sitename']."官网地址:".$public_r['add_pcurl']."" 
]; 
$Json=json_encode($content,JSON_PRETTY_PRINT|JSON_UNESCAPED_UNICODE); 
echo stripslashes($Json); 
<< 上一篇 2024-08-16 15:26
下一篇 >> 2024-08-20 09:21

相关推荐

用户留言

尚未登录无法发表查看留言点击登录

HI ! 请登录

立即登录
免费壁纸小程序
免费壁纸小程序