数据准备
DeepTutor 提供示例知识库和样例问题,帮助您快速上手。
示例知识库
我们在 Google Drive 上提供两个预构建的知识库:
1. 研究论文合集
5 篇研究论文(每篇 20-50 页)
来自我们实验室的前沿研究论文精选集,涵盖 RAG 和 Agent 领域。
包含论文:
- AI-Researcher - 自动化研究论文生成
- AutoAgent - 自主智能体框架
- RAG-Anything - 多模态 RAG 系统
- LightRAG - 简洁快速的 RAG
- VideoRAG - 基于 RAG 的视频理解
适用场景: 研究场景,广泛知识覆盖
2. 数据科学教材
8 章,296 页
来自加州大学伯克利分校的综合深度学习教材。
来源: Deep Representation Learning Book
涵盖主题:
- 神经网络基础
- 表示学习
- 深度学习架构
- 高级主题
适用场景: 学习场景,深度知识挖掘
下载与设置
步骤 1:下载
访问我们的 Google Drive 文件夹 并下载:
knowledge_bases.zip- 包含嵌入的预构建知识库questions.zip- 样例问题和使用示例(可选)
步骤 2:解压
将下载的文件解压到 data/ 目录:
DeepTutor/
├── data/
│ └── knowledge_bases/
│ ├── research_papers/ # 研究论文知识库
│ ├── data_science_book/ # 教材知识库
│ └── kb_config.json # 知识库配置
└── user/ # 用户数据(自动创建)步骤 3:验证
解压后,启动 DeepTutor 时您的知识库将自动可用。
嵌入兼容性
我们的示例知识库使用 text-embedding-3-large,dimensions = 3072。
如果您的嵌入模型具有不同的维度,您需要创建自己的知识库。
创建自定义知识库
支持的文件格式
| 格式 | 扩展名 | 说明 |
|---|---|---|
.pdf | 支持文本提取和版面分析 | |
| 文本 | .txt | 纯文本文件 |
| Markdown | .md | 支持格式化的 Markdown |
通过 Web 界面
- 导航到
http://localhost:3782/knowledge - 点击 "New Knowledge Base"
- 为您的知识库输入唯一名称
- 上传您的文档(单个或批量上传)
- 等待处理完成
处理时间
- 小文档(< 10 页):约 1 分钟
- 中等文档(10-100 页):约 5-10 分钟
- 大文档(100+ 页):可能需要更长时间
通过命令行
bash
# 使用文档初始化新知识库
python -m src.knowledge.start_kb init <kb_name> --docs <pdf_path>
# 向现有知识库添加文档
python -m src.knowledge.add_documents <kb_name> --docs <new_document.pdf>数据存储结构
所有用户数据存储在 data/ 目录中:
data/
├── knowledge_bases/ # 知识库存储
│ ├── <kb_name>/
│ │ ├── documents/ # 原始文档
│ │ ├── chunks/ # 分块内容
│ │ ├── embeddings/ # 向量嵌入
│ │ └── graph/ # 知识图谱数据
└── user/ # 用户活动数据
├── solve/ # 解题结果
├── question/ # 生成的题目
├── research/ # 研究报告
├── notebook/ # 笔记本记录
└── logs/ # 系统日志下一步: 本地安装 →
