第一章 Python 和数据化运营

数据化运营: 指通过数据化的工具, 技术和方法, 对运营过程中的各个环节进行科学分析, 引导和应用, 从而达到优化运营效果和效率, 降低成本, 提高效益的目的;

  1. 辅助决策式数据化运营
  2. 数据驱动式数据化运营

1. 数据驱动式数据化运营工作流程:

2. Python and Jupyter

查看 Jupyter 可用内核 jupyter kernelspec list;

批量到处 Python 的第三方库列表:

pip freeze > requirements.txt

批量安装第三方库列表到新环境中:

pip install -r requirements.txt

查看所有第三方库及其版本列表信息:

pip list

python 导入库两种方式:

  • 直接导入库, import 库名
  • 导入库中的函数, from 库名 import 函数名

3. Python 第三方库

4. OCR

ORC 工具 Tesseract-ocr

下载地址: https://sourceforge.net/projects/tesseract-ocr-alt/files/
github 地址: https://github.com/tesseract-ocr/tesseract

5. 代码

注: 以下代码在 vscode 中运行

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#%%
# 1. 导入库
import pandas as pd
from matplotlib import pyplot as plt
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score

#%%
# 2. 读取数据
raw_data = pd.read_csv('data.txt')

#%%
# 3. 数据预处理
num = int(raw_data.shape[0] * 0.7)
x, y = raw_data[['money']], raw_data[['amount']]
x_train, x_test = x[:num], x[num:]
y_train, y_test = y[:num], y[num:]

#%%
# 4. 探索性数据分析
# 散点图观察
plt.scatter(x_train, y_train)

# %%
# 5. 数据建模
model = linear_model.LinearRegression()
model.fit(x_train, y_train)

#%%
# 6. 模型评估
predict_test_y = model.predict(x_test)
print("Mean squared error: %.0f" % mean_squared_error(y_test, predict_test_y))
print("Variance score: %.2f" % r2_score(y_test, predict_test_y))

# %%
# 7. 线性回归参数
model_coef = model.coef_
model_intercept = model.intercept_
print("coef is: ", model_coef)
print("intercept is: ", model_intercept)

# %%
# 8. 销售预测应用
new_x = 84610
pre_y = model.predict([[new_x]])
print(pre_y)

--------------------本文至此结束  感谢您的阅读--------------------

本文标题:第一章 Python 和数据化运营

文章作者:Memento

发布时间:2020年07月09日 - 23:07

最后更新:2020年07月09日 - 23:07

原始链接:https://memento.net.cn/post/63a6e235.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。