假如说我有这样一个表,我想往这个表里面插入大量数据
CREATE TABLE IF NOT EXISTS `user_info` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`name` varchar(255) NOT NULL default '' COMMENT '姓名',
`age` int(11) NOT NULL default '0' COMMENT '年龄',
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户信息表';
在往mysql插入少量数据的时候,我们一般用for循环
$arr = [
[
'name' => 'testname1',
'age' => 18,
],
[
'name' => 'testname2',
'age' => 19,
],
[
'name' => 'testname3',
'age' => 18,
],
];
$servername = "localhost";
$port = 3306;
$username = "username";
$password = "password";
$dbname = "mytestdb";
// 创建连接
$conn = new mysqli($servername, $username, $password, $dbname, $port);
// 检测连接
if ($conn->connect_error) {
die("connect failed: " . $conn->connect_error);
}
$costBegin = microtime(true);
foreach($arr as $item) {
$sql = sprintf("INSERT INTO user_info (name, age) VALUES ( '%s', %d);", $item['name'], (int)$item['age']);
if ($conn->query($sql) === TRUE) {
echo "insert success";
} else {
echo "Error: " . $sql . "<br>" . $conn->error;
}
}
$costEnd = microtime(true);
$cost = round($costEnd - $costBegin, 3);
var_dump($cost);
$conn->close();
假如说要批量插入大量数据,如果还用for循环的办法插入是没有问题的,只是时间会比较长。
对比一下插入少量数据与插入大量数据,使用上面的for循环插入耗费的时间:
条数 | 时间(单位:秒) |
---|---|
10 | 0.011 |
1000 | 0.585 |
10000 | 5.733 |
100000 | 60.587 |
mysql里面是可以使用insert语句进行合并插入的,比如INSERT INTO user_info (name, age) VALUES ('name1', 18), ('name2', 19);
表示一次插入两条数据
$arr = [
[
'name' => 'testname1',
'age' => 18,
],
[
'name' => 'testname2',
'age' => 19,
],
[
'name' => 'testname3',
'age' => 18,
],
// 此处省略
……
……
];
$servername = "localhost";
$port = 3306;
$username = "username";
$password = "password";
$dbname = "mytestdb";
// 创建连接
$conn = new mysqli($servername, $username, $password, $dbname, $port);
// 检测连接
if ($conn->connect_error) {
die("connect failed: " . $conn->connect_error);
}
$costBegin = microtime(true);
if (!empty($arr)) {
$sql = sprintf("INSERT INTO user_info (name, age) VALUES ");
foreach($arr as $item) {
$itemStr = '( ';
$itemStr .= sprintf("'%s', %d", $item['name'], (int)$item['age']);
$itemStr .= '),';
$sql .= $itemStr;
}
// 去除最后一个逗号,并且加上结束分号
$sql = rtrim($sql, ',');
$sql .= ';';
if ($conn->query($sql) === TRUE) {
} else {
echo "Error: " . $sql . "<br>" . $conn->error;
}
}
$costEnd = microtime(true);
$cost = round($costEnd - $costBegin, 3);
var_dump($cost);
$conn->close();
下面看一下少量数据与大量数据的时间对比。从总体时间上,可以看出insert合并插入比刚才for循环插入节约了很多时间,效果很明显
条数 | 时间(单位:秒) |
---|---|
10 | 0.006 |
1000 | 0.025 |
10000 | 0.131 |
100000 | 1.23 |
如果你觉得数组太大,想要减少sql错误的风险,也可以使用array_chunk
将数组切成指定大小的块,然后对每个块进行insert合并插入.
最近做的一个项目,需求就是这样,写个功能模块,实现批量导入,为客服省点时间(好吧,需求就是需求)。
好在插入的数据,都是些连续的数字,所以可以利用
foreach循环出这些数据,然后拼接成mysql的insert语句,进行大字段的批量插入。原理就是这么个原理,当然过程中有坑,什么打开扩展限制,暂且只看逻辑方面的吧。框架的话,不是laravel,用的ci,实例代码如下:
/**
* @desc 批量导入百万条数据入库(方法已经写通用,数据最少5000条,最大100W条)
* @date 2020-10-26 20:45:45
* @param [int $start_no 起始号;int $end_no 截止号;string $express_type 类型]
* @return [type]
*/
public function import_million_express_no () {
//基本数据设置
header('Content-Type:text/html;charset=utf-8');
ini_set('memory_limit', '128M');
//设置类型对应数据库中的表名
$express_to_form = [
'test1' => 'from1', //平台1对应的表名
'test2' => 'from2', //平台2对应的表名
];
//获取参数
$start_no = trim($this->input->post('start_no'));
$end_no = trim($this->input->post('end_no'));
$express_type = trim($this->input->post('express_type'));
//判断参数是否存在
if(!$start_no || !$end_no){
echo '<script>alert("录入失败,起始号和截止号不能为空为0");history.back();</script>';
return;
}
//起始单号不能大于等于截止单号,录入数量至少为5000个
if ($start_no >= $end_no) {
echo '<script>alert("起始号不能,大于等于截止号!");history.back();</script>';
return;
} else {
if ($end_no - $start_no < 5000) {
echo '<script>alert("每次录入号不能小于5000个!");history.back();</script>';
return;
}
if ($end_no - $start_no > 1000000) {
echo '<script>alert("每次录入号不能大于1000000个!");history.back();</script>';
return;
}
}
//判断数据类型是否存在
$table_name = $express_to_form[$express_type];
if(!$table_name){
echo '<script>alert("快递类型有误,无法进行打印!");history.back();</script>';
return;
}else{
//判断初始单号,截止单号是否已经录入
$sql1 = "select id from {$table_name} where express_no = {$start_no}";
$res1 = $this->db->query($sql1)->row();
if($res1){
echo '<script>alert("起始号已存在!");history.back();</script>';
return;
}
$sql2 = "select id from {$table_name} where express_no = {$end_no}";
$res2 = $this->db->query($sql2)->row();
if($res2){
echo '<script>alert("截止号已存在!");history.back();</script>';
return;
}
}
/***上面的一系列判断的可以不用看,直接看下面怎么对数据进行逻辑处理***/
//将起始号和截止号进行区间划分
$length = $end_no - $start_no + 1;
$times = floor($length / 5000);
$temp_data = [];
for($i=0;$i<$times;$i++){
$temp_data[$i]['start_no'] = $start_no; //起始编号
$temp_data[$i]['end_no'] = $start_no + 4999; //结束编号
$start_no += 5000; //下一轮循环的起始编号
}
//检验数组最后一组数据,判断是否需要再添加
if($end_no > $temp_data[$times-1]['end_no']){
$temp_data[$times]['start_no'] = $temp_data[$times-1]['end_no'] + 1;
$temp_data[$times]['end_no'] = $end_no;
}
//进行导入数据库sql语句的拼接
$add_time = time();
$add_user = $this->session->userdata['user_name'];
$tmp_val = "('{$add_time}','$add_user',0,'%s',0),";
for($j=0;$j<count($temp_data);$j++){
//循环拼接sql插入语句
$sql = "insert into {$table_name} (field1,field2,field3,field4,field5) values ";
for ($i=$temp_data[$j]['start_no']; $i<=$temp_data[$j]['end_no']; $i++) {
$sql .= sprintf($tmp_val, $i);
}
$sql = trim($sql, ',') . ';';
$bool = $this->db->query($sql);
//执行插入有误,写进日志异常表from3中
if(!$bool){
// 记录日志
$log_info = array();
$log_info['field1'] = time();
$log_info['field2'] = '类型:'.$express_type.'执行有误,单号'.$temp_data[$j]['start_no'].'-'.$temp_data[$j]['end_no'].'执行失败';
$log_info['field3'] = $this->session->userdata['user_name'];
$this->db->insert('from3', $log_info);
//错误日志标志
$err_log_info = TRUE;
}
}
//数据返回
if($err_log_info){
echo '<script>alert("部分号执行失败,请联系管理员解决!");history.back();</script>';
}else{
echo '<script>alert("数据执行成功!!!");history.back();</script>';
}
return;
}
上面就是封装的一个完整的类,参数验证什么的,可以不用看了,直接看sql语句拼接,其实最后发现吧,做出来也没啥。经过测试,基本耗时在10s左右徘徊
【转自公众号php自学中心】
推荐