baidu TrustAI
Project description
安装 | 快速开始 | 可信分析功能 | 可信增强功能 | 使用示例
TrustAI是百度基于产业级深度学习平台『飞桨』(PaddlePaddle)开发的集可信分析和增强于一体的可信AI工具集,助力开发者提升模型效果和可信度,推动模型安全、可靠的落地于应用。
News 📢
- 🔥 2022.8.20 TrustAI发布可信增强能力及应用案例
- 🎉 2022.5.20 TrustAI首次发布!
👏可信分析功能
TrustAI提供特征级证据和实例级证据分析方法,全方位解释模型的预测,帮助开发者了解模型预测机制,以及协助使用者基于证据做出正确决策。
特征级证据分析
根据模型预测结果,从输入文本中提取模型预测所依赖的证据,即输入文本中支持模型预测的重要词。
应用示例见AI Studio - 基于TrustAI的中文情感特征级可信分析示例
关于方法更多详细内容可参考 - 特征级证据分析文档
实例级证据分析
从训练数据中找出对当前预测影响较大的若干实例数据作为预测证据。
应用示例见AI Studio - 基于TrustAI的中文情感实例级可信分析示例
关于方法更多详细内容可参考 - 实例级证据分析文档
💥可信增强功能
除了提供可信分析结果以外,TrustAI还包含多项增强功能,能够帮助开发者解决训练数据缺陷问题,用最小的标注成本获得最大幅度的效果提升。
解决训练数据存在脏数据的问题
TrustAI提供了脏数据(即标注质量差的数据)自动识别功能,帮助降低人工检查数据的成本。
如下图所示,在两个公开数据集上,TrustAI自动识别的脏数据比例远高于随机选择策略。
图1 不同策略识别出的脏数据比例
应用示例见AI Studio - 解决训练数据存在脏数据的问题
解决训练数据覆盖不足的问题
训练数据覆盖不足会导致模型在对应的测试数据上表现不好。TrustAI可识别因训练数据覆盖不足而导致的预测效果差的测试样本(这些样本构成的集合称为目标集),并帮助开发者从未标注数据中选择有效数据进行标注,提高训练数据覆盖度和模型效果。
如下图所示,在两个公开数据集上,TrustAI选择的有效数据对模型在目标数据上的效果提升远高于随机选择策略。
图2 目标集提升的效果
应用示例见AI Studio - 解决训练数据覆盖不足的问题
解决训练数据分布偏置的问题
神经网络模型会利用数据集中的偏置做预测,这会导致模型没有学会理解语言,鲁棒性差。TrustAI提供了分布修正和权重修正两种策略,在不需要人工介入的条件下,有效缓解数据偏置对模型训练的影响。
如下图所示,在两个公开的鲁棒性数据集上,TrustAI的权重修正和分布修正策略分别取得明显提升。
图3 偏置修正后模型在鲁棒性数据集上的效果
应用示例见AI Studio - 数据权重修正和数据分布修正
关于可信增强更多内容请阅读tutorials。
安装
依赖
python
: >=3.6.2paddlepaddle
: >=2.0
pip 安装
# 依赖paddlepaddle,推荐安装CUDA版本
pip install -U paddlepaddle-gpu
pip install -U trustai
源码编译
git clone git@github.com:PaddlePaddle/TrustAI.git
cd TrustAI
python setup.py install
快速开始
特征级证据分析
以Integrated Gradient方法为例,其调用方法如下所示:
from trustai.demo import DEMO
from trustai.interpretation import IntGradInterpreter
from trustai.interpretation import visualize
demo = DEMO('chnsenticorp')
# init demo model
model = demo.get_model()
tokens, model_inputs = demo("这个宾馆比较陈旧了")
# tokens: List[List[str]], [['[CLS]', '这', '个', '宾', '馆', '比', '较', '陈', '旧', '了', '[SEP]']]
# model_inputs: List[Paddle.Tensor],满足`logits = model(*model_inputs)`
# init interpreter
interpreter = IntGradInterpreter(model)
result = interpreter(model_inputs)
# result: List[IGResult], result[0].attribtions与tokens[0]一一对应,表示每一个token对预测结果的支持程度,即证据的支持度分数。
# result[0].attributions: [ 0.04054353, 0.12724458, -0.00042592, 0.01736268, 0.07130871, -0.00350687,
# 0.01605285, 0.04392833, 0.04841821, -0.00514487, 0.13098583]
# 可视化结果
html = visualize(result, words=tokens)
# TrustAI提供可视化输出,即根据输入特征的支持度,以不同颜色深度展示结果。颜色越深表示支持度越大,越浅表示支持度越小。
实例级证据分析
以Feature Similarity方法为例,其调用方法如下所示:
from trustai.demo import DEMO
from trustai.interpretation import FeatureSimilarityModel
demo = DEMO('chnsenticorp')
# init demo model
model = demo.get_model()
tokens, model_inputs = demo("房间设备比较陈旧,没五星标准 客人非常不满意")
# tokens: List[List[str]]
# model_inputs: List[Paddle.Tensor],满足`logits = model(*model_inputs)`
# get dataloader of train data, 满足`logits = model(*next(train_data_loader))`
train_data, train_dataloader = demo.get_train_data_and_dataloader()
# init interpreter
interpreter = FeatureSimilarityModel(model, train_dataloader, classifier_layer_name='classifier')
result = interpreter(model_inputs)
# result: List[ExampleResult], [ExampleResult(pred_label=0, pos_indexes=(7112, 1757, 4487), neg_indexes=(8952, 5986, 1715), pos_scores=(0.9454082250595093, 0.9445762038230896, 0.9439479112625122), neg_scores=(-0.2316494882106781, -0.23641490936279297, -0.23641490936279297))]
# ExampleResult.pos_indexes: List[int], 支持当前预测的训练数据在训练集中的索引
# ExampleResult.neg_indexes: List[int], 不支持当前预测的训练数据在训练集中的索引
# ExampleResult.pos_scores: List[float], 支持当前预测的训练数据的支持度
# ExampleResult.neg_scores: List[float], 不支持当前预测的训练数据的支持度
🚀使用示例
相关文献
参考论文
IntegratedGraients
: Axiomatic Attribution for Deep Networks, Mukund Sundararajan et al. 2017GradientShap
: A Unified Approach to Interpreting Model Predictions, Scott M. Lundberg et al. 2017Lime
: "Why Should I Trust You?": Explaining the Predictions of Any Classifier, Marco Tulio Ribeiro et al. 2016NormLime
: NormLime: A New Feature Importance Metric for Explaining Deep Neural Networks, Isaac Ahern et al. 2019Attention
: Attention is not explanation, S Jain et al. 2019Representer Pointer
:Representer point selection for explaining deep neural networks, Chih-Kuan Yeh et al. 2018Evaluation
: A Fine-grained Interpretability Evaluation Benchmark for Neural NLP, Wang Lijie, et al. 2022
学习材料
tutorials
: ACL 2020 tutorial: Interpretability and Analysis in Neural NLP | Videotutorials
: EMNLP 2020 Tutorial on Interpreting Predictions of NLP Models | Videotutorials
: NAACL 2021 tutorial:Fine-grained Interpretation and Causation Analysis in Deep NLP Models | VideoSurvey
: Teach Me to Explain: A Review of Datasets for Explainable Natural Language ProcessingSurvey
: Benchmarking and Survey of Explanation Methods for Black Box ModelsSurvey
: A Survey on the Explainability of Supervised Machine LearningBias
: Towards Debiasing NLU Models from Unknown BiasesBias
: Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU ModelsBias
: Learning to Learn to be Right for the Right ReasonsRobustness
: Can Rationalization Improve Robustness
引用
要引用 TrustAI 进行研究,请使用以下格式进行引用。
@article{wang2022fine,
title={A Fine-grained Interpretability Evaluation Benchmark for Neural NLP},
author={Wang, Lijie and Shen, Yaozong and Peng, Shuyuan and Zhang, Shuai and Xiao, Xinyan and Liu, Hao and Tang, Hongxuan and Chen, Ying and Wu, Hua and Wang, Haifeng},
journal={arXiv preprint arXiv:2205.11097},
year={2022}
}
致谢
我们实现的可信分析方法参考和依赖了InterpretDL项目,在此向InterpretDL的作者表示感谢。
LICENSE
TrustAI遵循Apache-2.0开源协议。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.