pytoolkit.datasets package

Submodules

pytoolkit.datasets.coco module

MS COCOデータセット関連。

以下の3ファイルを解凍した結果を格納しているディレクトリのパスを受け取って色々処理をする。

pytoolkit.datasets.coco.load_coco_od(coco_dir, use_crowded=False, verbose=True)[ソース]

COCOの物体検出のデータを読み込む。

参照

パラメータ
  • coco_dir (Union[str, os.PathLike]) --

  • use_crowded (bool) --

  • verbose (bool) --

戻り値の型

Tuple[pytoolkit.data.Dataset, pytoolkit.data.Dataset]

pytoolkit.datasets.ic_ module

画像分類関連。

pytoolkit.datasets.ic_.load_image_folder(data_dir, class_names=None, use_tqdm=True, check_image=False)[ソース]

画像分類でよくある、クラス名でディレクトリが作られた階層構造のデータ。

パラメータ
  • data_dir (Union[str, os.PathLike]) -- 対象ディレクトリ

  • class_names (Optional[Sequence[str]]) -- クラス名の配列

  • use_tqdm (bool) -- tqdmを使用するか否か

  • check_image (bool) -- 画像として読み込みチェックを行い、読み込み可能なファイルのみ返すか否か (遅いので注意)

戻り値

Dataset。metadata['class_names']にクラス名の配列。

戻り値の型

pytoolkit.data.Dataset

pytoolkit.datasets.ic_.load_trainval_folders(data_dir, swap=False)[ソース]

data_dir直下のtrainとvalをload_image_folderで読み込む。

pytoolkit.datasets.ic_.load_train1000()[ソース]

train with 1000なデータの読み込み。

参照

pytoolkit.datasets.ic_.load_imagenet(data_dir, verbose=True)[ソース]

ImageNet (ILSVRC 2012のClassification)のデータの読み込み。

パラメータ
  • data_dir (Union[str, os.PathLike]) -- ディレクトリ。(Annotations, Data, ImageSetが入っているところ)

  • verbose (bool) -- 読み込み状況をtqdmで表示するならTrue

pytoolkit.datasets.ic_.extract_class_balanced(dataset, num_classes, samples_per_class)[ソース]

クラスごとに均等に抜き出す。dataset.labelsは[0, num_classes)の値のndarrayを前提とする。

pytoolkit.datasets.keras module

tf.keras.datasets関連。 <https://tf.keras.io/datasets/>

pytoolkit.datasets.keras.load_mnist()[ソース]

MNIST.

pytoolkit.datasets.keras.load_fashion_mnist()[ソース]

Fashion-MNIST.

pytoolkit.datasets.keras.load_cifar10()[ソース]

CIFAR10.

pytoolkit.datasets.keras.load_cifar100()[ソース]

CIFAR100.

pytoolkit.datasets.samples module

tf.keras.datasets関連。 <https://tf.keras.io/datasets/>

pytoolkit.datasets.samples.load_sample_ic()[ソース]

画像分類のサンプルデータ。num_classes=2

pytoolkit.datasets.samples.load_sample_od()[ソース]

物体検出のサンプルデータ。num_classes=2

pytoolkit.datasets.sklearn module

sklearn.datasets関連。 <https://scikit-learn.org/stable/datasets/index.html>

pytoolkit.datasets.sklearn.load_boston()[ソース]

<https://scikit-learn.org/stable/datasets/index.html#boston-dataset>

pytoolkit.datasets.sklearn.load_lfw_pairs(*args, **kwargs)[ソース]

<https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_lfw_pairs.html#sklearn.datasets.fetch_lfw_pairs>

pytoolkit.datasets.ss module

セマンティックセグメンテーション関連。

pytoolkit.datasets.ss.load_cityscapes(data_dir, mode='fine')[ソース]

Cityscapes Dataset <https://www.cityscapes-dataset.com/>

パラメータ
  • mode (str) -- データの種類。"fine" or "coarse"。

  • data_dir (Union[str, os.PathLike]) --

戻り値の型

Tuple[pytoolkit.data.Dataset, pytoolkit.data.Dataset]

Dataset.metadata:
  • class_colors: 評価対象のクラスのRGB値。shape=(N, 3)

  • void_colors: 評価対象外のクラスのRGB値。shape=(M, 3)

pytoolkit.datasets.voc module

PASCAL VOCデータセット関連。

以下の3ファイルを解凍して出来たVOCdevkitディレクトリのパスを受け取って色々処理をする。

pytoolkit.datasets.voc.load_voc_od(voc_dir)[ソース]

PASCAL VOCの物体検出のデータを読み込む。(07+12 trainval / 07 test)

サンプル

train_set, val_set = tk.datasets.load_voc_od("/path/to/VOCdevkit")

パラメータ

voc_dir (Union[str, os.PathLike]) --

戻り値の型

Tuple[pytoolkit.data.Dataset, pytoolkit.data.Dataset]

pytoolkit.datasets.voc.load_voc_od_split(data_dir, split, use_difficult=True)[ソース]

VOC形式の物体検出のデータの読み込み。

パラメータ
  • data_dir (Union[str, os.PathLike]) --

  • split (str) --

  • use_difficult (bool) --

Module contents

データセットの読み込みなど。