Skip to content

数据准备

DeepTutor 提供示例知识库和样例问题,帮助您快速上手。

示例知识库

我们在 Google Drive 上提供两个预构建的知识库:

1. 研究论文合集

📄5 篇研究论文(每篇 20-50 页)

来自我们实验室的前沿研究论文精选集,涵盖 RAG 和 Agent 领域。

包含论文:

适用场景: 研究场景,广泛知识覆盖

2. 数据科学教材

📚8 章,296 页

来自加州大学伯克利分校的综合深度学习教材。

来源: Deep Representation Learning Book

涵盖主题:

  • 神经网络基础
  • 表示学习
  • 深度学习架构
  • 高级主题

适用场景: 学习场景,深度知识挖掘

下载与设置

步骤 1:下载

访问我们的 Google Drive 文件夹 并下载:

  • knowledge_bases.zip - 包含嵌入的预构建知识库
  • questions.zip - 样例问题和使用示例(可选)

步骤 2:解压

将下载的文件解压到 data/ 目录:

DeepTutor/
├── data/
│   └── knowledge_bases/
│       ├── research_papers/      # 研究论文知识库
│       ├── data_science_book/    # 教材知识库
│       └── kb_config.json        # 知识库配置
└── user/                         # 用户数据(自动创建)

步骤 3:验证

解压后,启动 DeepTutor 时您的知识库将自动可用。

嵌入兼容性

我们的示例知识库使用 text-embedding-3-largedimensions = 3072

如果您的嵌入模型具有不同的维度,您需要创建自己的知识库。

创建自定义知识库

支持的文件格式

格式扩展名说明
PDF.pdf支持文本提取和版面分析
文本.txt纯文本文件
Markdown.md支持格式化的 Markdown

通过 Web 界面

  1. 导航到 http://localhost:3782/knowledge
  2. 点击 "New Knowledge Base"
  3. 为您的知识库输入唯一名称
  4. 上传您的文档(单个或批量上传)
  5. 等待处理完成

处理时间

  • 小文档(< 10 页):约 1 分钟
  • 中等文档(10-100 页):约 5-10 分钟
  • 大文档(100+ 页):可能需要更长时间

通过命令行

bash
# 使用文档初始化新知识库
python -m src.knowledge.start_kb init <kb_name> --docs <pdf_path>

# 向现有知识库添加文档
python -m src.knowledge.add_documents <kb_name> --docs <new_document.pdf>

数据存储结构

所有用户数据存储在 data/ 目录中:

data/
├── knowledge_bases/              # 知识库存储
│   ├── <kb_name>/
│   │   ├── documents/            # 原始文档
│   │   ├── chunks/               # 分块内容
│   │   ├── embeddings/           # 向量嵌入
│   │   └── graph/                # 知识图谱数据
└── user/                         # 用户活动数据
    ├── solve/                    # 解题结果
    ├── question/                 # 生成的题目
    ├── research/                 # 研究报告
    ├── notebook/                 # 笔记本记录
    └── logs/                     # 系统日志

下一步: 本地安装 →

基于 AGPL-3.0 许可证发布