列式数据库ClickHouse学习总结

iceymoss 的个人博客 / 11 / 0 / 创建于 2年前

[toc]

ClickHouse

介绍

ClickHouse是一种开源的列式数据库管理系统（DBMS），专门设计用于大规模数据分析。它以高性能和扩展性而闻名，并且被广泛应用于各种数据分析和实时查询场景。

以下是ClickHouse的一些主要特点和优势：

列式存储：ClickHouse使用列式存储，将数据按列进行存储，而不是按行。这种存储方式在大规模数据分析中具有优势，因为它可以压缩数据、提升查询性能、减少IO操作等。
高性能：ClickHouse被设计为高性能的数据分析引擎。它通过并行处理和多核优化等技术，能够快速地执行各种复杂的查询操作。ClickHouse还支持数据分区和复制，以进一步提高查询的性能和可用性。
扩展性：ClickHouse可以轻松地横向扩展，以处理大规模的数据集和高并发的查询请求。它支持分布式架构和自动数据分片，可以将数据和查询负载分散到多个节点上，从而实现水平扩展。
实时查询：尽管ClickHouse主要用于数据分析，但它也能够支持实时查询。它提供了一种称为“近似精确度”的技术，可以在轻微的精度损失下快速计算结果，从而实现快速的实时查询。
SQL兼容性：ClickHouse支持标准SQL查询语言，使得用户可以使用熟悉的SQL语句来查询和分析数据。同时，ClickHouse还支持其他一些高级功能和扩展，例如窗口函数、数据聚合和数据转换等。

总的来说，ClickHouse是一个功能丰富的列式数据库系统，适用于大规模的数据分析和实时查询。它具有高性能、高扩展性和SQL兼容性等优势，被广泛应用于数据仓库、日志分析、实时报表等领域。

使用场景

ClickHouse的使用场景可以包括以下几个方面：

数据仓库：ClickHouse适用于构建数据仓库，用于存储和分析大规模的结构化和半结构化数据。它可以处理数十亿、甚至数万亿行的数据，支持复杂的查询和聚合操作。
实时分析：ClickHouse可以处理实时数据分析场景，包括实时查询、实时报表和仪表板等。它能够快速地处理大量的数据，并在几秒或几毫秒内返回查询结果。
日志分析：ClickHouse在处理日志分析方面表现出色。它可以处理海量的日志数据，并支持快速的搜索、过滤和聚合操作。这使得它成为实时监控和故障排查的理想选择。
时间序列数据分析：由于列式存储和高性能查询的支持，ClickHouse非常适用于处理大规模的时间序列数据。它可以用于监测系统、物联网设备、金融数据等领域。
分布式查询处理：ClickHouse支持分布式查询和数据复制，可以在多个节点之间分散查询负载，并提高查询的性能和可用性。这使得它可以应对大规模的并发查询和高吞吐量的应用场景。

总的来说，ClickHouse适用于需要处理大规模数据和高并发查询的数据分析场景。它在数据仓库、实时分析、日志分析和时间序列数据分析等方面具有广泛的应用。

存储引擎

ClickHouse使用了自己独特的列式存储引擎，称为MergeTree存储引擎，它是为高性能分析而设计的。

MergeTree存储引擎基于列式存储的原则。它将表中的每一列分别存储在独立的文件中，每个文件包含该列的所有值。这种存储方式使得ClickHouse在处理大规模数据时表现卓越，因为它可以只读取和处理需要的列，节省了对其他列的读取和解析。

MergeTree存储引擎支持对数据进行分区和排序。数据可以按照时间范围进行分区，每个分区内的数据按照一个或多个列进行排序。这些特性使得ClickHouse在处理时间序列数据时非常高效，可以快速地查询和分析特定时间段的数据。

此外，MergeTree存储引擎还支持数据压缩和多级索引。数据压缩可以减少存储空间的占用，并提高磁盘IO性能。多级索引可以加速数据的查找和过滤，提高查询的效率。

总的来说，MergeTree存储引擎是ClickHouse的核心组件，它采用了列式存储、分区、排序、数据压缩和多级索引等技术，使得ClickHouse在处理大规模数据和高性能查询方面具有优势。

安装(docker)

直接使用命令：

docker run -d --name clickhouse-server -p 8123:8123 -p 9000:9000 clickhouse/clickhouse-server:22.8.14.53

如果需要做数据持久化:

以下是在使用Docker安装ClickHouse时实现持久化的步骤：

创建数据目录：在主机上创建一个用于存储ClickHouse数据的目录。例如，您可以创建一个名为/path/to/clickhouse/data的目录。
运行容器时挂载数据目录：在运行ClickHouse容器时，使用-v参数来将主机上的数据目录挂载到容器内。运行以下命令来创建并启动ClickHouse容器，并挂载数据目录：

docker run -d --name clickhouse-server \
-p 8123:8123 -p 9000:9000 \
-v /path/to/clickhouse/data:/var/lib/clickhouse \
clickhouse/clickhouse-server:22.8.14.53

此命令将主机上的/path/to/clickhouse/data目录挂载到容器内的/var/lib/clickhouse目录上。这样可以确保容器内的数据持久化保存在主机上的指定位置。

验证持久化：等待容器启动后，可以使用以下命令验证数据是否持久化保存到了指定目录：

ls /path/to/clickhouse/data

如果你能看到ClickHouse数据文件和目录的列表，这意味着数据成功地持久保存在了主机上的数据目录中。

通过以上步骤，您已经成功地使用Docker安装并配置了持久化的ClickHouse实例。这将确保您的数据在容器重启或迁移时不会丢失。

简单实例

建表

当使用ClickHouse进行SQL操作时，首先需要创建一个用户信息的表。以下是一个示例的SQL语句，用于创建一个名为users的表，包含用户的姓名、年龄和电子邮件：

CREATE TABLE users (
    name String,
    age Int32,
    email Nullable(String)
) ENGINE = MergeTree()
ORDER BY name;

在该表的创建语句中，name列使用String数据类型存储用户姓名，age列使用Int32数据类型存储用户年龄，email列使用Nullable(String)数据类型存储用户电子邮件，允许为空值。表的引擎使用了MergeTree引擎，并按name列进行排序。

完成表的创建后，我们可以使用SQL命令对users表进行数据操作。以下是一些常见的操作示例：

插入数据

INSERT INTO users (name, age, email)
VALUES ('Alice', 25, 'alice@example.com');

INSERT INTO users (name, age)
VALUES ('Bob', 30);

查询数据

SELECT * FROM users;

SELECT name, age FROM users WHERE age > 25;

更新数据

ALTER TABLE users UPDATE age = age + 1 WHERE name = 'Alice';

删除数据

ALTER TABLE users DELETE WHERE name = 'Bob';

复杂表结构

定义表结构

CREATE TABLE IF NOT EXISTS pcp_product_view (
    event_id String,   //字符串
    name String,
    event_src String,
    created_at DateTime, //时间
    data Tuple (   //元组，内嵌
        user_id Int64,   //int类型
        product_id String,
        domain String,
        subdomain String,
        store_id Int64,
        retailer_id Int64,
    ),
    geoip Tuple (
        ip String,
        country String
    ),
    device Tuple (
        browser String,
        version String,
        os String
    ),
    headers Tuple (
        ev String,
        site String,
    ),
    retailer Tuple (
        id Int64,
        domain String,
    ),
    client Tuple (
        id String,
        web_id String,
        url String,
        timestamp_ms Int64
    ),
    store Tuple (
        id Int64,
        domain String,
    ),
    extension Tuple (
        id String,
        session_id String,
        serial_id Int64,
        version String
    ),
    tab Tuple (
        id Int64,
        session_id String,
        serial_id Int64,
        page_language String
    )
) engine = MergeTree PARTITION BY toYYYYMMDD(toDateTime(created_at, 'America/Los_Angeles'))
        ORDER BY created_at
        SETTINGS index_granularity = 8192;

添加字段

ALTER TABLE pcp_product_view ADD COLUMN user Tuple(id Int8) AFTER data;

GO操作CH

安装依赖

go get github.com/ClickHouse/clickhouse-go/v2

要使用Github上的clickhouse-go库来连接到ClickHouse，你需要做以下准备工作：

在Go项目中导入clickhouse-go库：

goCopy code
import (
    "github.com/ClickHouse/clickhouse-go/v2"
)

使用clickhouse-go库来建立到ClickHouse数据库的连接。你需要提供ClickHouse数据库的连接信息和凭据。以下是一个简单的示例：

func main() {
    // 配置ClickHouse连接信息
    dsn := "tcp://localhost:9000?database=your_database&username=default&password=your_password"

    // 建立到ClickHouse的连接
    conn, err := clickhouse.OpenConnection(dsn)
    if err != nil {
        log.Fatal(err)
    }
    defer conn.Close()

    // 在这里可以执行ClickHouse查询和操作
    // 例如：conn.ExecContext(ctx, "CREATE TABLE IF NOT EXISTS example_table (id Int32, name String)")

    // 更多操作和查询的示例可以在clickhouse-go库的文档中找到
}

在上面的示例中，我们通过clickhouse.OpenConnection(dsn)建立到ClickHouse数据库的连接，并通过defer conn.Close()在使用完连接后关闭连接。

请确保将示例中的your_database替换为你实际的数据库名称，your_password替换为你实际的密码。

这样就可以来操作clickhouse了。

该包提供了以下常用方法用于数据的增删改查操作：

Exec(query string, args …interface{}) error: 执行一个查询语句，无需返回结果。
Select(query string, args …interface{}) (sql.Rows, error): 执行SELECT查询，并返回查询结果的sql.Rows对象。
SelectRow(query string, args …interface{}) sql.Row: 执行SELECT查询，并返回查询结果的sql.Row对象。
Insert(table string, data map[string]interface{}) error: 插入数据到指定的表中，data是一个包含列名和对应值的map。
CopyFromReader(table string, reader io.Reader) (int, error): 从一个io.Reader读取数据，并将数据复制到指定的表中。
ExecContext(ctx context.Context, query string, args …interface{}) (sql.Result, error): 在指定的上下文中执行一个查询语句，无需返回结果。
InsertContext(ctx context.Context, table string, data map[string]interface{}) (sql.Result, error): 在指定的上下文中将数据插入到指定的表中。
SelectContext(ctx context.Context, query string, args …interface{}) (sql.Rows, error): 在指定的上下文中执行SELECT查询，并返回查询结果的sql.Rows对象。
SelectRowContext(ctx context.Context, query string, args …interface{}) sql.Row: 在指定的上下文中执行SELECT查询，并返回查询结果的sql.Row对象。
Begin() (*sql.Tx, error): 开始一个数据库事务。
WithTimeout(timeout time.Duration): 设置数据库操作的超时时间。

以上是一些常用的方法，用于在Go中进行ClickHouse数据库的增删改查操作。具体的使用方法和参数可以根据实际需求进行参考。

实例

func LogToCH(event string, req EventRequest) error {
    //获取到CH的连接
    CH, err := config.GetClickhouseConn(config.ClickHouse)
    if err != nil {
        log.Println("获取CH客户端失败:", err)
        return err
    }
    defer CH.Close()

    eventCh := ReqToEventCH(event, req)
    query := fmt.Sprintf("INSERT INTO %s (event_id, name, event_src,created_at, data, user, geoip, device, headers, retailer, client, store, extension, tab) VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?)", event)
    //执行插入操作
    stmt, err := CH.PrepareBatch(context.Background(), query)
    if err != nil {
        log.Println("插入预操作失败：", err)
        return err
    }
    for _, v := range eventCh {
        err = stmt.Append(v["event_id"], v["name"], v["event_src"], time.Now(), v["data"], v["user"], v["geoip"], v["device"], v["headers"], v["retailer"], v["client"], v["store"], v["extension"], v["tab"])
        if err != nil {
            log.Println("写入数据到CH失败：", err)
            return err
        }
    }
    err = stmt.Send()
    if err != nil {
        log.Println("发送失败：", err)
        return err
    }
    return nil
}

ch对数据结构要求非常的严格，必须数据类型和字段完全匹配

func ReqToEventCH(name string, req EventRequest) []map[string]interface{} {
    resp := make([]map[string]interface{}, 0)
    for _, v := range req.Events {
        data := make(map[string]interface{})

        if name == event001 {
            b, err := json.Marshal(v.Data)
            if err != nil {
                log.Println("转json失败")
                return nil
            }
            product := DataProductView{}
            err = json.Unmarshal(b, &product)
            if err != nil {
                log.Println("解json失败")
                return nil
            }

      //不同的data内部结构不同，需要判断
            data = productView(product)

    } else if{
      ……
    }
    events := map[string]interface{}{
            "event_id":   v.ID,
            "name":       name,
            "event_src":  v.EventSrc,
            "created_at": time.Now(),
            "data":       data,
            "user": map[string]interface{}{
                "id": int8(v.User.ID),
            },
            "geoip": map[string]interface{}{
                "ip":      v.Geoip.Ip,
                "country": v.Geoip.Country,
            },
            "retailer": map[string]interface{}{
                "id":         int64(v.Retailer.ID),
                "domain":     v.Retailer.Domain,
            },
            "client": map[string]interface{}{
                "id":           v.Client.ID,
                "url":          v.Client.URL,
                "web_id":       "",
                "timestamp_ms": int64(v.Client.TimestampMS),
            },
            "headers": map[string]interface{}{
                "ev":   req.EventHeaders.Header.Ev,
                "site": req.EventHeaders.Header.Site,
                "bl":   req.EventHeaders.Header.Bl,
            },
            "extension": map[string]interface{}{
                "id":         v.Extension.ID,
                "session_id": v.Extension.SessionID,
                "serial_id":  int64(v.Extension.SerialId),
                "version":    v.Extension.Version,
            },
            "device": map[string]interface{}{
                "browser": v.Device.Browser,
                "version": v.Device.Version,
                "os":      v.Device.Os,
            },
            "store": map[string]interface{}{
                "id":         int64(v.Store.ID),
                "domain":     v.Store.Domain,
                "subdomain":  v.Store.Subdomain,
            },
            "tab": map[string]interface{}{
                "id":            int64(v.Tab.ID),
                "session_id":    v.Tab.SessionID,
            },
        }
        resp = append(resp, events)
    }
    return resp
}

func productView(d DataProductView) map[string]interface{} {
    return map[string]interface{}{
        "user_id":         int64(d.UserId),
        "product_id":      d.ProductId,
        "domain":          d.Domain,
        "subdomain":       d.Subdomain,
        "store_id":        int64(d.StoreId),
        "retailer_id":     int64(d.RetailerId),
    }
}

总结

对应clickhouse的简单学习和使用我们了解这里就差不多了，当然还有更多的关于性能优化，索引等等这里就不介绍，对于使用CH其实都是使用SQL已经进行操作，所以SQL是很重要的，好吧本文也没什么值得学习的，就简单的介绍和使用了CH希望能加深你对它的了解。

数据库后端总结

本作品采用《CC 协议》，转载必须注明作者和本文链接

刻意学习

列式数据库ClickHouse学习总结

ClickHouse

介绍

使用场景

存储引擎

安装(docker)

简单实例

建表

插入数据

查询数据

更新数据

删除数据

复杂表结构

定义表结构

添加字段

GO操作CH

实例

总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

列式数据库ClickHouse学习总结

ClickHouse

介绍

使用场景

存储引擎

安装(docker)

简单实例

建表

插入数据

查询数据

更新数据

删除数据

复杂表结构

定义表结构

添加字段

GO操作CH

实例

总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录