【Python实战因果推断】24_倾向分4

🕗 发布于 2024-07-07 15:58 python 开发语言

遗憾的是，计算 IPW 的标准误差不像线性回归那样简单。获得 IPW 估计值置信区间的最直接方法是使用自举法。使用这种方法，您将反复对数据进行替换重采样，以获得多个 IPW 估计值。然后，您可以计算这些估计值的 2.5 百分位数和 97.5 百分位数，从而得到 95% 的置信区间。

要编写这样的代码，首先要将 IPW 估计值封装到一个可重复使用的函数中。注意我是如何用 sklearn 代替 statsmodels 的。statsmodels 中的 logit 函数比 sklearn 中的逻辑回归模型要慢，因此这一改动将为您节省一些时间。此外，由于你可能不想失去 statsmodels 中公式的便利性，我使用了 patsy 的 dmatrix 函数。该函数基于 R 风格公式设计特征矩阵，就像你目前使用的那些公式一样：

 from sklearn.linear_model import LogisticRegression
 from patsy import dmatrix
 # define function that computes the IPW estimator
 def est_ate_with_ps(df, ps_formula, T, Y):
 
 X = dmatrix(ps_formula, df)
 ps_model = LogisticRegression(penalty="none",
 max_iter=1000).fit(X, df[T])
 ps = ps_model.predict_proba(X)[:, 1]
 
 # compute the ATE
 return np.mean((df[T]-ps) / (ps*(1-ps)) * df[Y])

以下是您将如何使用此函数：

 formula = """tenure + last_engagement_score + department_score
 + C(n_of_reports) + C(gender) + C(role)"""
 T = "intervention"
 Y = "engagement_score"
 est_ate_with_ps(df, formula, T, Y)
 
 0.2659755621752663

现在您已经有了在一个整洁的函数中计算 ATE 的代码，您可以在引导过程中应用它。为了加快速度，我还将并行运行重采样。你只需调用数据帧方法 .sample(frac=1, replace=True)，就能得到一个自举样本。然后，将该样本传递给您之前创建的函数。为了使 bootstrap 代码更通用，它的参数之一是一个估计函数 est_fn，它接收一个数据帧并返回一个数字作为估计值。我使用的是四个工作，但您也可以将其设置为您计算机的内核数。

在每个引导样本中多次运行这个估计器，最后会得到一个估计值数组。最后，要得到 95% CI，只需取该数组的 2.5 和 97.5 百分位数即可：

 from joblib import Parallel, delayed # for parallel processing
 def bootstrap(data, est_fn, rounds=200, seed=123, pcts=[2.5, 97.5]):
 np.random.seed(seed)
 
 stats = Parallel(n_jobs=4)(
 delayed(est_fn)(data.sample(frac=1, replace=True))
 for _ in range(rounds)
 )
 
 return np.percentile(stats, pcts)

我的代码倾向于函数式编程，这可能不是每个人都熟悉的。因此，我将添加注释，解释我使用的一些函数式编程模式，首先是部分函数。

我将使用 partial 来获取 est_ate_with_ps 函数，并部分应用公式、干预和结果参数。这样就可以得到一个以数据帧为唯一输入的函数，并输出 $ATE$ 估计值。然后，我就可以将此函数作为 est_fn 参数传递给我之前创建的 bootstrap 函数：

  from toolz import partial 
print(f"ATE: {est_ate_with_ps(df, formula, T, Y)}")
 est_fn = partial(est_ate_with_ps, ps_formula=formula, T=T, Y=Y)
 print(f"95% C.I.: ", bootstrap(df, est_fn))
 
 ATE: 0.2659755621752663
 95% C.I.: [0.22654315 0.30072595]

这个 95% 的范围与之前线性回归的范围差不多。重要的是要认识到，如果权重较大，倾向得分估计值的方差就会很大。权重大意味着某些单位对最终估计值的影响很大。少数单位对最终估计值的影响很大，这正是造成方差的原因。

如果在倾向得分高的地区只有少数控制单位，或者在倾向得分低的地区只有少数接受治疗的单位，那么权重就会很大。这将导致你只有很少的单位来估计反事实 Y0 和 Y1，这可能会给你带来一个非常嘈杂的结果。

原文地址：https://blog.csdn.net/qq_32146369/article/details/139371380

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：bert-base-chinese模型离线使用案例
下一篇：力扣304.二维区域和检索

第七章：TDengine SHOW 命令大全
SHOW命令用于获取TDengine数据库中的系统信息、元数据、状态等。通过SHOW命令，用户可以方便地查看数据库的各种信息，如数据库列表、表结构、索引、连接信息等。
阅读更多2024-11-18
【Linux内核剖析】深入分析inet_init的处理机制
inet_init是 Linux 内核中用于初始化 TCP/IP 协议栈的函数。它在内核启动时被调用，完成各种协议和数据结构的注册和初始化。
阅读更多2024-11-18
【C++进阶篇】——string类的使用
是 C++ 标准库的一部分，但它不是 STL 容器的一部分。STL 容器是指那些基于模板的容器，如std::list等。提供了类似于 STL 容器的功能，比如动态内存管理、迭代器支持等，但它的设计和实
阅读更多2024-11-18
Javaweb开发核心之应用上下文知识（笔记）
⽐比如：PageContext，ServletRequest，HttpSession，ServletContext；简介:讲解Javaweb作⽤用域对象介绍和ServletContext讲解。就是对象
阅读更多2024-11-18
Web Service 学习笔记
Web Service 即 web 服务，它是一种跨编程语言和跨操作系统平台的远程调用技术。Java 中共有三种 Web Service 规范：- JAX-WS(JAX-RPC): 基于 xml 数据
阅读更多2024-11-18
使用函数的选择法排序
其中a是待排序的数组，n是数组a中元素的个数。该函数用选择法将数组a中的元素按升序排列，结果仍然在数组a中。
阅读更多2024-11-18
Leetcode 3356. Zero Array Transformation II
Leetcode 3356. Zero Array Transformation II
阅读更多2024-11-18
图形最高分
游戏一开始，玩家在每一轮可以合并两个图形，当只有一个图形的时候游戏结束，每个图形都有一个大小，合并完成后的图形的大小为x+y,x和y分别为合并之前的两个图形，与此同时，玩家会获得x*y的分数。现在屏幕
阅读更多2024-11-18
nodejs入门（1）：nodejs的前后端分离
浏览器和前端web服务器交互，前端web服务器和后端web服务器进行交互，前端web服务器向后端的web服务器请求数据，对后端服务器得到请求后将数据传递给前端web服务器，格式化后由浏览器展示。好的，
阅读更多2024-11-18
wife_wife
在下面的信息中加上"__proto__":{"isAdmin":true}上网查了一下，用到了Javascript原型链污染攻击。用这个漏洞的前提是后端使用的语
阅读更多2024-11-18

【Python实战因果推断】24_倾向分4

Variance of IPW

相关文章