利用Celery实现Django博客PV统计功能详解
发布时间 - 2026-01-11 01:00:57 点击率:次前言

前几天给网站的文章增加了pv统计,之前只有uv统计。之前没加pv统计是觉得每个用户每访问一次文章,我都需要数据库写操作实在是有损性能,毕竟从用户在the5fire博客的的一次访问来看,只需要从数据库里拿到对应的文章(通常情况下是从缓存中拿),然后返回给浏览器。写操作无意义。之前的uv,也是针对每个用户24小时内只会有一次写操作。
不过话说回来,就对于the5fire博客这么个小站点来说,就算每次访问我写十几次数据库都没啥影响,毕竟量小的可怜。但是咱们码农不是得有颗抗亿级流量的心嘛。
对于不理解的同学,可以出门调研下,看看别人家的网站。对,就是那些访问量上亿,十亿,百亿的网站,看看他们是怎么处理用户写入的,比如留言。
PV的意义
说完原因,再说业务。所有的网站都会有pv,uv这样的统计。甚至是停留时长,各类型页面转换率等等各方各面的统计。我在搜狐的工作,大白话来说就是做网站。关注的业务指标就是流量相关的东西。同时作为站长这么多年,也会参考百度统计里的一些指标来做些调整。
不过这次只说pv,一篇文章的pv。
单纯的说价值没啥感觉,古人不是说了吗,价值能换几斗米。(我胡诌的)
拿现在的所有新闻网站/媒体平台来说,pv是可以和¥划等号的。流量越大,意味着能够有更多的收入,无论是来自广告的收入,还是把流量释放到其他渠道。有时候我也考虑,一切的目标真的是更好的理解用户,给用户推送他想看的东西吗?或许是吧,但是始终绕不开的一个问题是,构建一个商业模式,让广告主和投资人为用户的停留时长买单。让用户更多的停留在平台上,消费更多的时间。(纯属个人观点,明辨之,慎思之)
再拿另外一个更直接的例子,现在自媒体盛行,多少人想要100000+,一个好的公众号,可以根据以往文章的浏览量(或者粉丝量)来定价广告/软文等各种类型合作的价格。其实你到微播易或者易赞看看就知道了。
这么看来pv是不是变得有吸引力了。
统计的方式
对于网站来说,the5fire了解到的pv,uv的统计方式有这么几种
- 像the5fire早期的做法:用户每访问一篇文章,文章pv+1,uv+1。傻大粗的做法。
- the5fire博客现在的做法,写一个分布式的任务服务,然后在业务代码中调用。
- 页面埋点,标签,或者引用js来发送数据到统计服务器上。
- 收集nginx access-log(如果是用nginx的话),当然,格式需要自定义,起码得加上user_id,然后做离线统计、汇总。
前两种都是耦合比较重的实现方式,需要在具体页面里插代码。后两种也类似,本质上都是收集nginx日志,但是收集的阶段不同,第三种是页面完全打开之后,nginx才会收到日志。而第四种是只要访问页面,并且upstream返回状态码为200就算成功,那怕最终用户并未看到页面。
总之,各有利弊,可以相互参考。
博客实现的方式
上面也说了,主要也是为了用下celery这个分布式任务队列。在Django中使用是比较简单的事情。
在Django中使用Celery,需要Celery运行时能够使用这个Django项目的各个模块,因此首先要指明settings模块。我用的Django版本为1.11。在wsgi.py同级目录下增加celery.py,代码如下:
# coding:utf-8
from __future__ import absolute_import, unicode_literals
import os
from celery import Celery
PROFILE = os.environ.get('DJANGO_SELFBLOG_PROFILE', 'develop') # 我是把settings.py拆成了:develop.py,product.py
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "django_selfblog.settings.%s" % PROFILE)
app = Celery('selfblog', broker="redis://127.0.0.1:6666/2")
app.config_from_object('django.conf:settings', namespace='CELERY')
# Load task modules from all registered Django app configs.
app.autodiscover_tasks()
这里使用了官方并不建议的redis作为broker,而不是Rabbitmq,主要是缓存用的是Redis,为了不引入更多需要维护的系统。
定义好启动文件之后,就需要定义具体的tasks,在app/tasks.py中写具体的任务:
# coding:utf-8
from __future__ import unicode_literals
from django.db.models import F
from .models import Post
from django_selfblog.celery import app
@app.task
def increase_pv(post_id):
return Post.objects.filter(id=post_id).update(pv=F('pv')+1)
@app.task
def increase_uv(post_id):
return Post.objects.filter(id=post_id).update(uv=F('uv')+1)
在访问文章页面的views.py对应位置增加调用:
from .tasks import increase_pv, increase_uv # ....省略上下文 increase_pv.delay(self.post.id) increase_uv.delay(self.post.id)
这样,每次用户访问时计算pv和uv的逻辑就放到分布式的任务管理器中去执行了,不会影响本次访问。
如果你想要查看任务的执行状态,比如通过:
r = increase_pv.delay(self.post.id) print r.ready()
想要这样查看任务是否完成,那就需要引入django-celery-results,使用步骤如下:
pip install django-celery-results- 把django_celery_results放到INSTALLED_APPS中
- 配置
CELERY_RESULT_BACKEND = 'django-db'或者'django-cache' - 如果配置的是django-db,意味着结果需要存储到数据库中,那就要执行
python manage.py migrate django_celery_results来建表
这些配置完成之后,剩下的就是部署了,the5fire博客每次更新完代码重新部署时都是通过fabric来做的 fab re_deploy:master 代码就会部署到服务器上。增加celery之后,只需要增加supervisord的配置,现在毕竟celery的代码也是在博客代码里。
supervisord增加配置:
[program:celery] command=celery -A selfblog worker -P gevent --loglevel=INFO --concurrency=5 directory=/home/the5fire/selfblog/ process_name=%(program_name)s_%(process_num)d umask=022 startsecs=0 stopwaitsecs=0 redirect_stderr=true stdout_logfile=/tmp/log/celery_%(process_num)02d.log numprocs=1 numprocs_start=1 environment=DJANGO_SELFBLOG_PROFILE=product
这样每次重新部署,celery进程也会重新启动。
Django Tips
在Django项目中,性能损耗最多的就是ORM,不熟悉的话很容易被坑。
就拿增加pv来说,用户每次访问一篇文章,pv字段+1,用代码来说就是:
# 绝对不要写这么蠢的代码 post = Post.objects.get(pk=post_id) post.pv = post.pv + 1 post.save()
这是最简单的做法,但是大部分情况,用户访问一篇文章,这篇文章通常会在缓存中,毕竟不需要每次都去数据库中获取。这样的话应该怎么处理呢,直观的做法还是先获取到post,然后+1,save,如上一样。但这样会存在竞争的问题。
比方说,同时100个人访问一篇文章,我是启动了多个线程/进程来处理请求,有可能出现所有进程在同一时刻执行了 post = Post.objects.get(pk=post_id) 假设现在数据库中这篇文章的pv是100,那么此时post.pv就是100。那所有用户执行完post.save()之后,结果均为101,也就是一百次并发访问,可能出现pv只加1的情况。
要解决这个问题,两个办法。
一、加锁,这个据我的了解Django没有提供,需要自己来实现。但是没人会这么做吧。 二、用mysql来执行自增,也就是我上面用到的。
对于方法二,在Django中怎么实现呢。其实翻译为sql就是
UPDATE `blog_post` SET `pv` = (`blog_post`.`pv` + 1) WHERE `blog_post`.`id` = <post_id>;
Django代码就是: Post.objects.filter(id=post_id).update(pv=F('pv')+1) ,关于F表达式可以参考官方文档:https://docs.djangoproject.com/en/1.11/ref/models/expressions/#django.db.models.F
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
# django celery
# django celery 部署
# django celery教程
# 的是
# 都是
# 一篇文章
# 博客
# 这篇文章
# 我是
# 数据库中
# 也会
# 说了
# 两种
# 只需要
# 时计
# 没啥
# 时长
# 这是
# 器上
# 我也
# 离线
# 就会
# 是在
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
图片制作网站免费软件,有没有免费的网站或软件可以将图片批量转为A4大小的pdf?
东莞专业网站制作公司有哪些,东莞招聘网站哪个好?
Laravel如何使用Gate和Policy进行授权?(权限控制)
如何快速搭建高效香港服务器网站?
湖南网站制作公司,湖南上善若水科技有限公司做什么的?
PHP怎么接收前端传的文件路径_处理文件路径参数接收方法【汇总】
Laravel如何使用Telescope进行调试?(安装和使用教程)
如何在云主机快速搭建网站站点?
,南京靠谱的征婚网站?
EditPlus中的正则表达式实战(5)
Laravel怎么使用Blade模板引擎_Laravel模板继承与Component组件复用【手册】
如何在云主机上快速搭建多站点网站?
高防服务器如何保障网站安全无虞?
Laravel怎么使用Collection集合方法_Laravel数组操作高级函数pluck与map【手册】
智能起名网站制作软件有哪些,制作logo的软件?
齐河建站公司:营销型网站建设与SEO优化双核驱动策略
Laravel怎么创建控制器Controller_Laravel路由绑定与控制器逻辑编写【指南】
在centOS 7安装mysql 5.7的详细教程
Gemini怎么用新功能实时问答_Gemini实时问答使用【步骤】
想要更高端的建设网站,这些原则一定要坚持!
Laravel怎么调用外部API_Laravel Http Client客户端使用
C#如何调用原生C++ COM对象详解
如何在IIS中新建站点并配置端口与IP地址?
如何快速搭建高效WAP手机网站?
如何在香港免费服务器上快速搭建网站?
Laravel如何处理CORS跨域问题_Laravel项目CORS配置与解决方案
Laravel怎么配置自定义表前缀_Laravel数据库迁移与Eloquent表名映射【步骤】
JavaScript如何实现音频处理_Web Audio API如何工作?
北京网站制作的公司有哪些,北京白云观官方网站?
Laravel如何清理系统缓存命令_Laravel清除路由配置及视图缓存的方法【总结】
如何用手机制作网站和网页,手机移动端的网站能制作成中英双语的吗?
Android仿QQ列表左滑删除操作
香港服务器租用费用高吗?如何避免常见误区?
今日头条微视频如何找选题 今日头条微视频找选题技巧【指南】
制作ppt免费网站有哪些,有哪些比较好的ppt模板下载网站?
中山网站制作网页,中山新生登记系统登记流程?
详解CentOS6.5 安装 MySQL5.1.71的方法
如何用VPS主机快速搭建个人网站?
怎么用AI帮你设计一套个性化的手机App图标?
Laravel如何实现本地化和多语言支持?(i18n教程)
Edge浏览器提示“由你的组织管理”怎么解决_去除浏览器托管提示【修复】
标准网站视频模板制作软件,现在有哪个网站的视频编辑素材最齐全的,背景音乐、音效等?
Laravel Octane如何提升性能_使用Laravel Octane加速你的应用
如何在建站宝盒中设置产品搜索功能?
Laravel怎么多语言本地化设置_Laravel语言包翻译与Locale动态切换【手册】
Laravel如何发送系统通知_Laravel Notifications实现多渠道消息通知
七夕网站制作视频,七夕大促活动怎么报名?
Win11怎么关闭资讯和兴趣_Windows11任务栏设置隐藏小组件
详解阿里云nginx服务器多站点的配置
Claude怎样写约束型提示词_Claude约束提示词写法【教程】

