Open-source tool for data and AI practitioners to improve data quality for LLMs.
什么是Lilac?
Lilac是一个开源工具,旨在帮助数据和人工智能从业者通过改善数据质量来提升他们的产品。它允许用户搜索、量化和编辑用于大语言模型(LLM)的数据。Lilac提供多种功能,例如语义和关键词搜索、字段的编辑和比较、个人可识别信息(PII)检测、重复项识别、语言检测、自定义信号集成以及模糊概念搜索和优化。
如何使用 Lilac?
要开始使用Lilac,请使用pip安装:`pip install lilac`。然后,使用Python用户界面与您的数据进行交互。
Lilac 的核心功能
语义和关键词搜索
字段编辑和比较
个人可识别信息、重复项、语言检测或自定义信号
模糊概念搜索和优化
超快速的数据集计算
大数据集的聚类和标题处理
以高Token速率嵌入数据集
加速数据转换
Lilac