MySQL Connectorでデータ量が多い場合に分割して取込している方いますか?
MySQL Connectorでデータ量(件数や1レコードあたりのサイズ)が多い場合に分割等何か工夫して取込している方いますでしょうか?どの様に行っているか参考にさせていただきたいです。
現在
select * from table_name where 条件;
という形でデータを取り込んでいるのですが、対象件数が数百万件あります。
ある時急に取込が10数分だったものが数時間レベルで遅くなり確認したところ
1撃で取れる件数(データ量)が多すぎてDB側がボトルネックになってしまっていました。
1撃で取れる件数を少なくすると解決できたため
select * from table_name where 条件 and 分割条件; -> dataset01
select * from table_name where 条件 and 分割条件; -> dataset02
・・・
select * from table_name where 条件 and 分割条件; -> dataset10
の様な形でconnectorの設定を沢山用意しスケジュール設定で同時刻に並行で走らせ
その後dataflow-ETLで結合(追加)で全件保持しているdatasetを作って解決させました。
ただ
・このやり方より良いものはあるか
・スケジュール変える時に全datasetの設定変更するの大変
・複数のdatasetがインプットのdataflowは実行のトリガーが設定しづらい(全てのdatasetをトリガーにすると実行中だったり何度も走ってしまうので全てのdatasetの取込が終わっただろうという時間にダミーのdatasetの更新をトリガーとしてdataflowをキックしています)
ということもあり、
もし、皆様の中で自分と同じような状況で「こういう方法でやっている」(早くて簡単)というものがあれば参考にしたいと思い質問させていただきました。
Comments
-
UNION ALLのような処理をするのであれば、
Blendで、DataFusionのタイプを「行を追加」でやる方が、
設定も簡単かつ実行のトリガーも気にしないで済みますし、更新時間も一瞬です。
あと気になったのですが、
where 条件の部分は、Indexを貼っているカラムを利用されていますか?
0
Categories
- All Categories
- 1.8K Product Ideas
- 1.8K Ideas Exchange
- 1.5K Connect
- 1.2K Connectors
- 300 Workbench
- 6 Cloud Amplifier
- 8 Federated
- 2.9K Transform
- 100 SQL DataFlows
- 616 Datasets
- 2.2K Magic ETL
- 3.9K Visualize
- 2.5K Charting
- 738 Beast Mode
- 57 App Studio
- 40 Variables
- 685 Automate
- 176 Apps
- 452 APIs & Domo Developer
- 47 Workflows
- 10 DomoAI
- 36 Predict
- 15 Jupyter Workspaces
- 21 R & Python Tiles
- 394 Distribute
- 113 Domo Everywhere
- 275 Scheduled Reports
- 6 Software Integrations
- 124 Manage
- 121 Governance & Security
- 8 Domo Community Gallery
- 38 Product Releases
- 10 Domo University
- 5.4K Community Forums
- 40 Getting Started
- 30 Community Member Introductions
- 108 Community Announcements
- 4.8K Archive