VDGR/dataloader/dataloader_base.py

import torch
from torch.utils import data
import json
import os
import glog as log
import pickle

import torch.utils.data as tud
from pytorch_transformers.tokenization_bert import BertTokenizer

from utils.image_features_reader import ImageFeaturesH5Reader


class DatasetBase(data.Dataset):

    def __init__(self, config):

        if config['display']:
            log.info('Initializing dataset')

        # Fetch the correct dataset for evaluation
        if config['validating']:
            assert config.eval_dataset in ['visdial', 'visdial_conv', 'visdial_vispro', 'visdial_v09']
            if config.eval_dataset == 'visdial_conv':
                config['visdial_val'] = config.visdialconv_val
                config['visdial_val_dense_annotations'] = config.visdialconv_val_dense_annotations
            elif config.eval_dataset == 'visdial_vispro':
                config['visdial_val'] = config.visdialvispro_val
                config['visdial_val_dense_annotations'] = config.visdialvispro_val_dense_annotations
            elif config.eval_dataset == 'visdial_v09':
                config['visdial_val_09'] = config.visdial_test_09
                config['visdial_val_dense_annotations'] = None

        self.config = config
        self.numDataPoints = {}

        if not config['dataloader_text_only']:
            self._image_features_reader = ImageFeaturesH5Reader(
                config['visdial_image_feats'],
                config['visdial_image_adj_matrices']
                )

        if self.config['training'] or self.config['validating'] or self.config['predicting']:
            split2data = {'train': 'train', 'val': 'val', 'test': 'test'}
        elif self.config['debugging']:
            split2data = {'train': 'val', 'val': 'val', 'test': 'test'}
        elif self.config['visualizing']:
            split2data = {'train': 'train', 'val': 'train', 'test': 'test'}

        filename = f'visdial_{split2data["train"]}'
        if config['train_on_dense']:
            filename += '_dense'
        if self.config['visdial_version'] == 0.9:
            filename += '_09'

        with open(config[filename]) as f:
            self.visdial_data_train = json.load(f)
            if self.config.num_samples > 0:
                self.visdial_data_train['data']['dialogs'] = self.visdial_data_train['data']['dialogs'][:self.config.num_samples]
            self.numDataPoints['train'] = len(self.visdial_data_train['data']['dialogs'])

        filename = f'visdial_{split2data["val"]}'
        if config['train_on_dense'] and config['training']:
            filename += '_dense'
        if self.config['visdial_version'] == 0.9:
            filename += '_09'

        with open(config[filename]) as f:
            self.visdial_data_val = json.load(f)
            if self.config.num_samples > 0:
                self.visdial_data_val['data']['dialogs'] = self.visdial_data_val['data']['dialogs'][:self.config.num_samples]
            self.numDataPoints['val'] = len(self.visdial_data_val['data']['dialogs'])
        
        if config['train_on_dense']:
            self.numDataPoints['trainval'] = self.numDataPoints['train'] + self.numDataPoints['val']
        with open(config[f'visdial_{split2data["test"]}']) as f:
            self.visdial_data_test = json.load(f)
            self.numDataPoints['test'] = len(self.visdial_data_test['data']['dialogs'])

        self.rlv_hst_train = None
        self.rlv_hst_val = None
        self.rlv_hst_test = None

        if config['train_on_dense'] or config['predict_dense_round']:
            with open(config[f'visdial_{split2data["train"]}_dense_annotations']) as f:
                self.visdial_data_train_dense = json.load(f)
        if config['train_on_dense']:
            self.subsets = ['train', 'val', 'trainval', 'test']
        else:
            self.subsets = ['train','val','test']
        self.num_options = config["num_options"]
        self.num_options_dense = config["num_options_dense"]
        if config['visdial_version'] != 0.9:
            with open(config[f'visdial_{split2data["val"]}_dense_annotations']) as f:
                self.visdial_data_val_dense = json.load(f)
        else:
            self.visdial_data_val_dense = None
        self._split = 'train'
        self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', cache_dir=config['bert_cache_dir'])
        # fetching token indicecs of [CLS] and [SEP]
        tokens = ['[CLS]','[MASK]','[SEP]']
        indexed_tokens = self.tokenizer.convert_tokens_to_ids(tokens)
        self.CLS = indexed_tokens[0]
        self.MASK = indexed_tokens[1]
        self.SEP  = indexed_tokens[2]
        self._max_region_num = 37
        self.predict_each_round = self.config['predicting'] and self.config['predict_each_round']

        self.keys_to_expand = ['image_feat', 'image_loc', 'image_mask', 'image_target', 'image_label']
        self.keys_to_flatten_1d = ['hist_len', 'next_sentence_labels', 'round_id', 'image_id']
        self.keys_to_flatten_2d = ['tokens', 'segments', 'sep_indices', 'mask', 'image_mask', 'image_label', 'input_mask', 'question_limits']
        self.keys_to_flatten_3d = ['image_feat', 'image_loc', 'image_target', ]
        self.keys_other = ['gt_relevance', 'gt_option_inds']
        self.keys_lists_to_flatten = ['image_edge_indices', 'image_edge_attributes', 'question_edge_indices', 'question_edge_attributes', 'history_edge_indices', 'history_sep_indices']
        if config['stack_gr_data']:
            self.keys_to_flatten_3d.extend(self.keys_lists_to_flatten[:-1])
            self.keys_to_flatten_2d.append(self.keys_lists_to_flatten[-1])
            self.keys_to_flatten_1d.extend(['len_image_gr', 'len_question_gr', 'len_history_gr', 'len_history_sep'])
            self.keys_lists_to_flatten = []

        self.keys_to_list = ['tot_len']

        # Load the parse vocab for question graph relationship mapping
        if os.path.isfile(config['visdial_question_parse_vocab']):
            with open(config['visdial_question_parse_vocab'], 'rb') as f:
                self.parse_vocab = pickle.load(f)

    def __len__(self):
        return self.numDataPoints[self._split]
    
    @property
    def split(self):
        return self._split

    @split.setter
    def split(self, split):
        assert split in self.subsets
        self._split = split

    def tokens2str(self, seq):
        dialog_sequence = ''
        for sentence in seq:
            for word in sentence:
                dialog_sequence += self.tokenizer._convert_id_to_token(word) + " "
            dialog_sequence += ' </end> '
        dialog_sequence = dialog_sequence.encode('utf8')
        return dialog_sequence

    def pruneRounds(self, context, num_rounds):
        start_segment = 1
        len_context = len(context)
        cur_rounds = (len(context) // 2) + 1
        l_index = 0
        if cur_rounds > num_rounds:
            # caption is not part of the final input
            l_index = len_context - (2 * num_rounds)
            start_segment = 0   
        return context[l_index:], start_segment

    def tokenize_utterance(self, sent, sentences, tot_len, sentence_count, sentence_map, speakers):
        sentences.extend(sent + ['[SEP]'])
        tokenized_sent = self.tokenizer.convert_tokens_to_ids(sent)
        assert len(sent) == len(tokenized_sent), 'sub-word tokens are not allowed!'

        sent_len = len(tokenized_sent)
        tot_len += sent_len + 1 # the additional 1 is for the sep token
        sentence_count += 1
        sentence_map.extend([sentence_count * 2 - 1] * sent_len)
        sentence_map.append(sentence_count * 2) # for [SEP]
        speakers.extend([2] * (sent_len + 1))

        return tokenized_sent, sentences, tot_len, sentence_count, sentence_map, speakers

    def __getitem__(self, index):
        return NotImplementedError

    def collate_fn(self, batch):
        tokens_size = batch[0]['tokens'].size()
        num_rounds, num_samples = tokens_size[0], tokens_size[1]
        merged_batch = {key: [d[key] for d in batch] for key in batch[0]}

        if self.config['stack_gr_data']:
            if (len(batch)) > 1:
                max_question_gr_len = max([length.max().item() for length in merged_batch['len_question_gr']])
                max_history_gr_len = max([length.max().item() for length in merged_batch['len_history_gr']])
                max_history_sep_len = max([length.max().item() for length in merged_batch['len_history_sep']])
                max_image_gr_len = max([length.max().item() for length in merged_batch['len_image_gr']])

                question_edge_indices_padded = []
                question_edge_attributes_padded = []

                for q_e_idx, q_e_attr in zip(merged_batch['question_edge_indices'], merged_batch['question_edge_attributes']):
                    b_size, edge_dim, orig_len = q_e_idx.size()
                    q_e_idx_padded = torch.zeros((b_size, edge_dim, max_question_gr_len))
                    q_e_idx_padded[:, :, :orig_len] = q_e_idx
                    question_edge_indices_padded.append(q_e_idx_padded)

                    edge_attr_dim = q_e_attr.size(-1)
                    q_e_attr_padded = torch.zeros((b_size, max_question_gr_len, edge_attr_dim))
                    q_e_attr_padded[:, :orig_len, :] = q_e_attr
                    question_edge_attributes_padded.append(q_e_attr_padded)

                merged_batch['question_edge_indices'] = question_edge_indices_padded
                merged_batch['question_edge_attributes'] = question_edge_attributes_padded

                history_edge_indices_padded = []
                for h_e_idx in merged_batch['history_edge_indices']:
                    b_size, _, orig_len = h_e_idx.size()
                    h_edge_idx_padded = torch.zeros((b_size, 2, max_history_gr_len))
                    h_edge_idx_padded[:, :, :orig_len] = h_e_idx
                    history_edge_indices_padded.append(h_edge_idx_padded)
                merged_batch['history_edge_indices'] = history_edge_indices_padded

                history_sep_indices_padded = []
                for hist_sep_idx in merged_batch['history_sep_indices']:
                    b_size, orig_len = hist_sep_idx.size()
                    hist_sep_idx_padded = torch.zeros((b_size, max_history_sep_len))
                    hist_sep_idx_padded[:, :orig_len] = hist_sep_idx
                    history_sep_indices_padded.append(hist_sep_idx_padded)
                merged_batch['history_sep_indices'] = history_sep_indices_padded

                image_edge_indices_padded = []
                image_edge_attributes_padded = []
                for img_e_idx, img_e_attr in zip(merged_batch['image_edge_indices'], merged_batch['image_edge_attributes']):
                    b_size, edge_dim, orig_len = img_e_idx.size()
                    img_e_idx_padded = torch.zeros((b_size, edge_dim, max_image_gr_len))
                    img_e_idx_padded[:, :, :orig_len] = img_e_idx
                    image_edge_indices_padded.append(img_e_idx_padded)

                    edge_attr_dim = img_e_attr.size(-1)
                    img_e_attr_padded = torch.zeros((b_size, max_image_gr_len, edge_attr_dim))
                    img_e_attr_padded[:, :orig_len, :] = img_e_attr
                    image_edge_attributes_padded.append(img_e_attr_padded)

                merged_batch['image_edge_indices'] = image_edge_indices_padded
                merged_batch['image_edge_attributes'] = image_edge_attributes_padded

        out = {}
        for key in merged_batch:
            if key in self.keys_lists_to_flatten:
                temp = []
                for b in merged_batch[key]:
                    for x in b:
                        temp.append(x)
                merged_batch[key] = temp
    
            elif key in self.keys_to_list:
                pass
            else:
                merged_batch[key] = torch.stack(merged_batch[key], 0)
                if key in self.keys_to_expand:
                    if len(merged_batch[key].size()) == 3:
                        size0, size1, size2 = merged_batch[key].size()
                        expand_size = (size0, num_rounds, num_samples, size1, size2)
                    elif len(merged_batch[key].size()) == 2:
                        size0, size1 = merged_batch[key].size()
                        expand_size = (size0, num_rounds, num_samples, size1)
                    merged_batch[key] = merged_batch[key].unsqueeze(1).unsqueeze(1).expand(expand_size).contiguous()
                if key in self.keys_to_flatten_1d:
                    merged_batch[key] = merged_batch[key].reshape(-1)
                elif key in self.keys_to_flatten_2d:
                    merged_batch[key] = merged_batch[key].reshape(-1, merged_batch[key].shape[-1])
                elif key in self.keys_to_flatten_3d:
                    merged_batch[key] = merged_batch[key].reshape(-1, merged_batch[key].shape[-2], merged_batch[key].shape[-1])
                else:
                    assert key in self.keys_other, f'unrecognized key in collate_fn: {key}'

            out[key] = merged_batch[key]
        return out
Code release 2023-10-25 15:38:09 +02:00			`import torch`
			`from torch.utils import data`
			`import json`
			`import os`
			`import glog as log`
			`import pickle`

			`import torch.utils.data as tud`
			`from pytorch_transformers.tokenization_bert import BertTokenizer`

			`from utils.image_features_reader import ImageFeaturesH5Reader`


			`class DatasetBase(data.Dataset):`

			`def __init__(self, config):`

			`if config['display']:`
			`log.info('Initializing dataset')`

			`# Fetch the correct dataset for evaluation`
			`if config['validating']:`
			`assert config.eval_dataset in ['visdial', 'visdial_conv', 'visdial_vispro', 'visdial_v09']`
			`if config.eval_dataset == 'visdial_conv':`
			`config['visdial_val'] = config.visdialconv_val`
			`config['visdial_val_dense_annotations'] = config.visdialconv_val_dense_annotations`
			`elif config.eval_dataset == 'visdial_vispro':`
			`config['visdial_val'] = config.visdialvispro_val`
			`config['visdial_val_dense_annotations'] = config.visdialvispro_val_dense_annotations`
			`elif config.eval_dataset == 'visdial_v09':`
			`config['visdial_val_09'] = config.visdial_test_09`
			`config['visdial_val_dense_annotations'] = None`

			`self.config = config`
			`self.numDataPoints = {}`

			`if not config['dataloader_text_only']:`
			`self._image_features_reader = ImageFeaturesH5Reader(`
			`config['visdial_image_feats'],`
			`config['visdial_image_adj_matrices']`
			`)`

			`if self.config['training'] or self.config['validating'] or self.config['predicting']:`
			`split2data = {'train': 'train', 'val': 'val', 'test': 'test'}`
			`elif self.config['debugging']:`
			`split2data = {'train': 'val', 'val': 'val', 'test': 'test'}`
			`elif self.config['visualizing']:`
			`split2data = {'train': 'train', 'val': 'train', 'test': 'test'}`

			`filename = f'visdial_{split2data["train"]}'`
			`if config['train_on_dense']:`
			`filename += '_dense'`
			`if self.config['visdial_version'] == 0.9:`
			`filename += '_09'`

			`with open(config[filename]) as f:`
			`self.visdial_data_train = json.load(f)`
			`if self.config.num_samples > 0:`
			`self.visdial_data_train['data']['dialogs'] = self.visdial_data_train['data']['dialogs'][:self.config.num_samples]`
			`self.numDataPoints['train'] = len(self.visdial_data_train['data']['dialogs'])`

			`filename = f'visdial_{split2data["val"]}'`
			`if config['train_on_dense'] and config['training']:`
			`filename += '_dense'`
			`if self.config['visdial_version'] == 0.9:`
			`filename += '_09'`

			`with open(config[filename]) as f:`
			`self.visdial_data_val = json.load(f)`
			`if self.config.num_samples > 0:`
			`self.visdial_data_val['data']['dialogs'] = self.visdial_data_val['data']['dialogs'][:self.config.num_samples]`
			`self.numDataPoints['val'] = len(self.visdial_data_val['data']['dialogs'])`

			`if config['train_on_dense']:`
			`self.numDataPoints['trainval'] = self.numDataPoints['train'] + self.numDataPoints['val']`
			`with open(config[f'visdial_{split2data["test"]}']) as f:`
			`self.visdial_data_test = json.load(f)`
			`self.numDataPoints['test'] = len(self.visdial_data_test['data']['dialogs'])`

			`self.rlv_hst_train = None`
			`self.rlv_hst_val = None`
			`self.rlv_hst_test = None`

			`if config['train_on_dense'] or config['predict_dense_round']:`
			`with open(config[f'visdial_{split2data["train"]}_dense_annotations']) as f:`
			`self.visdial_data_train_dense = json.load(f)`
			`if config['train_on_dense']:`
			`self.subsets = ['train', 'val', 'trainval', 'test']`
			`else:`
			`self.subsets = ['train','val','test']`
			`self.num_options = config["num_options"]`
			`self.num_options_dense = config["num_options_dense"]`
			`if config['visdial_version'] != 0.9:`
			`with open(config[f'visdial_{split2data["val"]}_dense_annotations']) as f:`
			`self.visdial_data_val_dense = json.load(f)`
			`else:`
			`self.visdial_data_val_dense = None`
			`self._split = 'train'`
			`self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', cache_dir=config['bert_cache_dir'])`
			`# fetching token indicecs of [CLS] and [SEP]`
			`tokens = ['[CLS]','[MASK]','[SEP]']`
			`indexed_tokens = self.tokenizer.convert_tokens_to_ids(tokens)`
			`self.CLS = indexed_tokens[0]`
			`self.MASK = indexed_tokens[1]`
			`self.SEP = indexed_tokens[2]`
			`self._max_region_num = 37`
			`self.predict_each_round = self.config['predicting'] and self.config['predict_each_round']`

			`self.keys_to_expand = ['image_feat', 'image_loc', 'image_mask', 'image_target', 'image_label']`
			`self.keys_to_flatten_1d = ['hist_len', 'next_sentence_labels', 'round_id', 'image_id']`
			`self.keys_to_flatten_2d = ['tokens', 'segments', 'sep_indices', 'mask', 'image_mask', 'image_label', 'input_mask', 'question_limits']`
			`self.keys_to_flatten_3d = ['image_feat', 'image_loc', 'image_target', ]`
			`self.keys_other = ['gt_relevance', 'gt_option_inds']`
			`self.keys_lists_to_flatten = ['image_edge_indices', 'image_edge_attributes', 'question_edge_indices', 'question_edge_attributes', 'history_edge_indices', 'history_sep_indices']`
			`if config['stack_gr_data']:`
			`self.keys_to_flatten_3d.extend(self.keys_lists_to_flatten[:-1])`
			`self.keys_to_flatten_2d.append(self.keys_lists_to_flatten[-1])`
			`self.keys_to_flatten_1d.extend(['len_image_gr', 'len_question_gr', 'len_history_gr', 'len_history_sep'])`
			`self.keys_lists_to_flatten = []`

			`self.keys_to_list = ['tot_len']`

			`# Load the parse vocab for question graph relationship mapping`
			`if os.path.isfile(config['visdial_question_parse_vocab']):`
			`with open(config['visdial_question_parse_vocab'], 'rb') as f:`
			`self.parse_vocab = pickle.load(f)`

			`def __len__(self):`
			`return self.numDataPoints[self._split]`

			`@property`
			`def split(self):`
			`return self._split`

			`@split.setter`
			`def split(self, split):`
			`assert split in self.subsets`
			`self._split = split`

			`def tokens2str(self, seq):`
			`dialog_sequence = ''`
			`for sentence in seq:`
			`for word in sentence:`
			`dialog_sequence += self.tokenizer._convert_id_to_token(word) + " "`
			`dialog_sequence += ' </end> '`
			`dialog_sequence = dialog_sequence.encode('utf8')`
			`return dialog_sequence`

			`def pruneRounds(self, context, num_rounds):`
			`start_segment = 1`
			`len_context = len(context)`
			`cur_rounds = (len(context) // 2) + 1`
			`l_index = 0`
			`if cur_rounds > num_rounds:`
			`# caption is not part of the final input`
			`l_index = len_context - (2 * num_rounds)`
			`start_segment = 0`
			`return context[l_index:], start_segment`

			`def tokenize_utterance(self, sent, sentences, tot_len, sentence_count, sentence_map, speakers):`
			`sentences.extend(sent + ['[SEP]'])`
			`tokenized_sent = self.tokenizer.convert_tokens_to_ids(sent)`
			`assert len(sent) == len(tokenized_sent), 'sub-word tokens are not allowed!'`

			`sent_len = len(tokenized_sent)`
			`tot_len += sent_len + 1 # the additional 1 is for the sep token`
			`sentence_count += 1`
			`sentence_map.extend([sentence_count * 2 - 1] * sent_len)`
			`sentence_map.append(sentence_count * 2) # for [SEP]`
			`speakers.extend([2] * (sent_len + 1))`

			`return tokenized_sent, sentences, tot_len, sentence_count, sentence_map, speakers`

			`def __getitem__(self, index):`
			`return NotImplementedError`

			`def collate_fn(self, batch):`
			`tokens_size = batch[0]['tokens'].size()`
			`num_rounds, num_samples = tokens_size[0], tokens_size[1]`
			`merged_batch = {key: [d[key] for d in batch] for key in batch[0]}`

			`if self.config['stack_gr_data']:`
			`if (len(batch)) > 1:`
			`max_question_gr_len = max([length.max().item() for length in merged_batch['len_question_gr']])`
			`max_history_gr_len = max([length.max().item() for length in merged_batch['len_history_gr']])`
			`max_history_sep_len = max([length.max().item() for length in merged_batch['len_history_sep']])`
			`max_image_gr_len = max([length.max().item() for length in merged_batch['len_image_gr']])`

			`question_edge_indices_padded = []`
			`question_edge_attributes_padded = []`

			`for q_e_idx, q_e_attr in zip(merged_batch['question_edge_indices'], merged_batch['question_edge_attributes']):`
			`b_size, edge_dim, orig_len = q_e_idx.size()`
			`q_e_idx_padded = torch.zeros((b_size, edge_dim, max_question_gr_len))`
			`q_e_idx_padded[:, :, :orig_len] = q_e_idx`
			`question_edge_indices_padded.append(q_e_idx_padded)`

			`edge_attr_dim = q_e_attr.size(-1)`
			`q_e_attr_padded = torch.zeros((b_size, max_question_gr_len, edge_attr_dim))`
			`q_e_attr_padded[:, :orig_len, :] = q_e_attr`
			`question_edge_attributes_padded.append(q_e_attr_padded)`

			`merged_batch['question_edge_indices'] = question_edge_indices_padded`
			`merged_batch['question_edge_attributes'] = question_edge_attributes_padded`

			`history_edge_indices_padded = []`
			`for h_e_idx in merged_batch['history_edge_indices']:`
			`b_size, _, orig_len = h_e_idx.size()`
			`h_edge_idx_padded = torch.zeros((b_size, 2, max_history_gr_len))`
			`h_edge_idx_padded[:, :, :orig_len] = h_e_idx`
			`history_edge_indices_padded.append(h_edge_idx_padded)`
			`merged_batch['history_edge_indices'] = history_edge_indices_padded`

			`history_sep_indices_padded = []`
			`for hist_sep_idx in merged_batch['history_sep_indices']:`
			`b_size, orig_len = hist_sep_idx.size()`
			`hist_sep_idx_padded = torch.zeros((b_size, max_history_sep_len))`
			`hist_sep_idx_padded[:, :orig_len] = hist_sep_idx`
			`history_sep_indices_padded.append(hist_sep_idx_padded)`
			`merged_batch['history_sep_indices'] = history_sep_indices_padded`

			`image_edge_indices_padded = []`
			`image_edge_attributes_padded = []`
			`for img_e_idx, img_e_attr in zip(merged_batch['image_edge_indices'], merged_batch['image_edge_attributes']):`
			`b_size, edge_dim, orig_len = img_e_idx.size()`
			`img_e_idx_padded = torch.zeros((b_size, edge_dim, max_image_gr_len))`
			`img_e_idx_padded[:, :, :orig_len] = img_e_idx`
			`image_edge_indices_padded.append(img_e_idx_padded)`

			`edge_attr_dim = img_e_attr.size(-1)`
			`img_e_attr_padded = torch.zeros((b_size, max_image_gr_len, edge_attr_dim))`
			`img_e_attr_padded[:, :orig_len, :] = img_e_attr`
			`image_edge_attributes_padded.append(img_e_attr_padded)`

			`merged_batch['image_edge_indices'] = image_edge_indices_padded`
			`merged_batch['image_edge_attributes'] = image_edge_attributes_padded`

			`out = {}`
			`for key in merged_batch:`
			`if key in self.keys_lists_to_flatten:`
			`temp = []`
			`for b in merged_batch[key]:`
			`for x in b:`
			`temp.append(x)`
			`merged_batch[key] = temp`

			`elif key in self.keys_to_list:`
			`pass`
			`else:`
			`merged_batch[key] = torch.stack(merged_batch[key], 0)`
			`if key in self.keys_to_expand:`
			`if len(merged_batch[key].size()) == 3:`
			`size0, size1, size2 = merged_batch[key].size()`
			`expand_size = (size0, num_rounds, num_samples, size1, size2)`
			`elif len(merged_batch[key].size()) == 2:`
			`size0, size1 = merged_batch[key].size()`
			`expand_size = (size0, num_rounds, num_samples, size1)`
			`merged_batch[key] = merged_batch[key].unsqueeze(1).unsqueeze(1).expand(expand_size).contiguous()`
			`if key in self.keys_to_flatten_1d:`
			`merged_batch[key] = merged_batch[key].reshape(-1)`
			`elif key in self.keys_to_flatten_2d:`
			`merged_batch[key] = merged_batch[key].reshape(-1, merged_batch[key].shape[-1])`
			`elif key in self.keys_to_flatten_3d:`
			`merged_batch[key] = merged_batch[key].reshape(-1, merged_batch[key].shape[-2], merged_batch[key].shape[-1])`
			`else:`
			`assert key in self.keys_other, f'unrecognized key in collate_fn: {key}'`

			`out[key] = merged_batch[key]`
			`return out`