椒图系统 使用说明书
蜘蛛监控与数据推送系统 - 快速部署与使用指南
一、系统概述
椒图系统是一款用于监控网站蜘蛛访问数据、管理爬虫信息,并将采集数据推送至椒图核心系统的工具。系统包含数据采集、登录验证、数据管理、数据推送等核心功能,部署简单,开箱即用。
二、文件结构与功能说明
data.php - 数据库配置文件
作用:存储数据库连接信息,为整个系统提供数据库访问凭证。
<?php
$servername = "127.0.0.1"; // 数据库服务器地址
$username = "jiaotu"; // 数据库用户名
$password = "wanyouhui"; // 数据库密码
$dbname = ".com"; // 数据库名称(需根据实际情况修改)
?>
注意:请将 $dbname 修改为实际的数据库名称,不能为空或仅保留特殊字符。
login.php - 系统登录页面
作用:系统访问的身份验证入口,仅授权用户可进入系统操作。
// 预设账号和密码
$valid_username = 'jiaotu'; // 登录账号
$valid_password = '888888'; // 登录密码
默认登录信息:
账号:jiaotu | 密码:888888
建议:部署后及时修改默认账号密码,提升系统安全性。
spiderbots.php - 数据采集核心文件
作用:负责采集蜘蛛访问数据(IP、爬虫名称、访问时间等),是系统的数据来源核心。
使用方式:需将以下代码嵌入需要监控的页面尾部:
<?php
// 统计连接
include('spiderbots.php');
?>
robots.php - 爬虫数据管理页面
作用:展示采集到的爬虫访问数据,支持数据查看、筛选等操作,可独立运行使用。
pivot.php - 数据透视页面
作用:为 robots.php 提供数据统计、分析依据,展示数据维度分析结果。
push.php - 数据推送页面
作用:将采集到的蜘蛛数据回馈至椒图核心系统,实现数据同步。
三、部署前准备
3.1 数据库表安装
程序运行前需先在MySQL数据库中执行以下SQL语句,创建 robots 数据表:
CREATE TABLE IF NOT EXISTS `robots` (
`id` int(11) NOT NULL COMMENT '主键ID',
`ip_address` varchar(45) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '访问IP',
`crawler_name` varchar(100) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '爬虫/访问者类型',
`full_url` varchar(2048) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '访问完整URL',
`access_time` datetime DEFAULT NULL COMMENT '访问时间',
`operating_system` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '操作系统',
`browser` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '浏览器',
`referrer` varchar(2048) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '来源地址'
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='爬虫/访客访问记录';
执行方式:可通过phpMyAdmin、Navicat等数据库管理工具执行,或通过MySQL命令行执行。
3.2 系统界面展示
椒图-蜘蛛拦截系统截图
椒图-数据透视系统截图
四、部署步骤
- 文件部署:将所有系统文件(data.php、login.php、spiderbots.php、robots.php、pivot.php、push.php)放置在网站根目录下。
- 数据库配置:
- 修改 data.php 中的数据库连接信息($servername、$username、$password、$dbname),确保与实际数据库匹配;
- 确保数据库中已创建对应的数据表(如 robots 表),用于存储爬虫访问数据。
- 数据采集部署:
- 将
include('spiderbots.php') 代码嵌入需要监控的所有页面尾部;
- 确保PHP环境支持 include 函数,且文件路径正确。
- 测试访问:
- 访问 login.php,使用默认账号密码(jiaotu/888888)登录;
- 访问 robots.php 查看是否有数据采集(需先访问嵌入采集代码的页面);
- 访问 push.php 测试数据推送功能是否正常。
五、使用说明
5.1 数据采集
嵌入采集代码的页面被蜘蛛访问时,系统会自动记录:
- 访问IP地址
- 爬虫名称(如百度蜘蛛、谷歌蜘蛛、三星浏览器等)
- 访问时间
- 访问来源页面
5.2 数据查看
登录系统后,访问 robots.php 可查看所有采集到的爬虫数据,支持:
- 按IP筛选爬虫数据
- 按爬虫名称筛选
- 查看最新访问时间
- IP去重展示
5.3 数据推送
访问 push.php 可将采集到的非真人/未知爬虫数据推送至椒图核心系统:
- 支持批量选择数据推送
- 实时展示推送状态(成功/已存在/格式错误等)
- 推送数据包含IP、爬虫名称、访问时间、当前域名等信息
5.4 数据透视
访问 pivot.php 可查看数据统计分析结果,为爬虫数据管理提供依据:
六、注意事项
⚠️ 重要提醒
- 安全防护:及时修改默认登录密码,禁止将配置文件(data.php)暴露在公网可访问路径下;
- 路径正确性:确保 include('spiderbots.php') 的文件路径与实际部署路径一致,避免采集失败;
- 数据库权限:数据库账号需具备增、删、改、查权限,确保数据正常采集和读取;
- 编码一致性:所有文件编码统一为 UTF-8,避免中文乱码;
- 独立使用:robots.php 可单独部署使用,无需依赖其他页面(需确保 data.php 配置正确)。