release code base

2024-02-20 16:31:21 +01:00 · 2024-02-20 16:31:21 +01:00 · efbd43fed1
commit efbd43fed1
70 changed files with 4923 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@ -0,0 +1,2 @@
 *.tar.gz filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@ -0,0 +1,90 @@
 <div align="center">
 <h1> OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog  </h1>
 **[Adnen Abdessaied][4], &nbsp; [Manuel von Hochmeister][5], &nbsp; [Andreas Bulling][6]** <br>  <br>
 **COLING 2024**, Turin, Italy <img src="misc/italy.png" width="3%" align="center"> <br>
 **[[Paper][7]]**
 ----------------
 <img src="misc/teaser.png" width="40%" align="middle"><br><br>
 </div>
 # Table of Contents
 * [Setup and Dependencies](#Setup-and-Dependencies)
 * [Download Data](#Download-Data)
 * [Training](#Training)
 * [Testing](#Testing)
 * [Results](#Results)
 * [Acknowledgements](#Acknowledgements)
 # Setup and Dependencies
 We implemented our model using Python 3.7, PyTorch 1.11.0 (CUDA 11.3, CuDNN 8.3.2) and PyTorch Lightning. We recommend to setup a virtual environment using Anaconda. <br>
 1. Install [git lfs][1] on your system
 2. Clone our repository to download a checpint of our best model and our code
   ```shell
   git lfs install
   git clone this_repo.git
   ```
 3. Create a conda environment and install dependencies
   ```shell
   conda create -n olvit python=3.7
   conda activate olvit
   conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch
   pip install pytorch-lightning==1.6.3 
   pip install transformers==4.19.2
   pip install torchtext==0.12.0
   pip install wandb nltk pandas 
    ```
 # Download Data
 1. [DVD][2] and [SIMMC 2.1][3] data are included in this repository and will be downloaded using git lfs  
 2. Setup the data by executing
   ```shell
   chmod u+x setup_data.sh
   ./setup_data.sh
    ```
 3. This will unpack all the data necessary in ```data/dvd/``` and ```data/simmc/``` 
 # Training
 We trained our model on 3 Nvidia Tesla V100-32GB GPUs. The default hyperparameters need to be adjusted if your setup differs from ours.
 ## DVD
 1. Adjust the config file for DVD according to your hardware specifications in ```config/dvd.json```
 2. Execute
 ```shell
 CUDA_VISIBLE_DEVICES=0,1,2 python train.py --cfg_path config/dvd.json
 ```
 3. Checkpoints will be saved in ```checkpoints/dvd/```
 ## SIMMC 2.1
 1. Adjust the config file for SIMMC 2.1 according to your hardware specifications in ```config/simmc.json```
 2. Execute
 ```shell
 CUDA_VISIBLE_DEVICES=0,1,2 python train.py --cfg_path config/simmc.json
 ```
 3. Checkpoints will be saved in ```checkpoints/simmc/```
 # Testing
 1. Execute
 ```shell
 CUDA_VISIBLE_DEVICES=0 python test.py --ckpt_path <PATH_TO_TRAINED_MODEL> --cfg_path <PATH_TO_CONFIG_OF_TRAINED_MODEL>
 ```
 # Results
 Training using the default config and a similar hardware setup as ours will result in the following performance
 ## DVD
 <img src="misc/results_dvd.png" width="100%" align="middle"><br><br>
 ## SIMMC 2.1
 <img src="misc/results_simmc.png" width="50%" align="middle"><br><br>
 # Acknowledgements
 Our work relied on the codebases of [DVD][2] and [SIMMC][3]. Thanks to the authors for sharing their code.
 [1]: https://git-lfs.com/
 [2]: https://github.com/facebookresearch/DVDialogues/
 [3]: https://github.com/facebookresearch/simmc2/
 [4]: https://perceptualui.org/people/abdessaied/
 [5]: https://www.linkedin.com/in/manuel-von-hochmeister-285416202/
 [6]: https://www.perceptualui.org/people/bulling/
 [7]: https://drive.google.com/file/d/1sDFfGpQ9E9NahT5gw8UjknWt3sNdxM7p/view?usp=sharing
--- a/checkpoints/dvd/.gitkeep
+++ b/checkpoints/dvd/.gitkeep
--- a/checkpoints/simmc/.gitkeep
+++ b/checkpoints/simmc/.gitkeep
--- a/config/init.py
+++ b/config/init.py
--- a/config/config.py
+++ b/config/config.py
@ -0,0 +1,26 @@
 import json
 import os
 def read_default_config():
    dirpath = os.path.dirname(__file__)
    path = os.path.join(dirpath, "default.json")
    with open(path) as config_file:
        config = json.load(config_file)
    return config
 def read_config(path):
    with open(path) as config_file:
        config = json.load(config_file)
    return config
 def update_nested_dicts(old_dict, update_dict):
    for key in update_dict:
        if key in old_dict:
            old_dict[key].update(update_dict[key])
        else:
            old_dict[key] = update_dict[key]
    return old_dict
--- a/config/default.json
+++ b/config/default.json
@ -0,0 +1,43 @@
 {
    "wandb": {
        "entity": "TO_BE_DEFINED",
        "name": "",
        "group": "",
        "tags": [],
        "project": "olvit"
    },
    "model": {
        "model_type": "base_model",
        "feature_type": "none", 
        "freeze_roberta": true,
        "v_emb_dim": 16,
        "dim_feedforward": 400,
        "n_heads": 9,
        "fc_dim": 128,
        "dropout_p": 0.1,
        "sample_rate_video": 10,
        "n_encoder_layers": 6,
        "add_choices_as_context": false,
        "use_pretrained_lm": false,
        "projection_as_in_aloe": false,
        "pretrained_lm_name": ""
    },
    "training": {
        "lr": 1e-4,
        "total_steps": 200000,
        "warmup_steps": 4000,
        "accumulate_grad_batches": 1,
        "batch_size": 128,
        "epochs": 40, 
        "seed": null
    },
    "datamodule": {
        "fea_dir": "data/dvd/monet_feats/",
        "data_dir": "data/dvd/dialogs/"
    }, 
    "checkpoint": {
        "checkpoint_folder": "checkpoints/",
        "checkpoint_file_name": "olvit"
    }
 }
--- a/config/dvd.json
+++ b/config/dvd.json
@ -0,0 +1,49 @@
 {
    "wandb": {
        "name": "olvit",
        "group": "dvd",
        "tags": [],
        "project": "olvit"
    },
    "model": {
        "model_type": "discriminative",
        "n_heads": 6,
        "v_emb_dim": 36,
        "dim_feedforward": 200,
        "dropout_p": 0.1,
        "fc_dim": 512,
        "sample_rate_video": 20,
        "n_transf_layers": 4,
        "use_pretrained_lm": true,
        "projection_as_in_aloe": true,
        "pretrained_lm_name": "distilroberta-base",
        "dataset": "dvd"
    },
    "extended_model": {
        "hist_len_for_state_gen": 7,
        "number_of_relevant_emb": 2,
        "num_layers_v_state": 2,
        "num_layers_d_state": 2,
        "combiner_option": "OptionA",
        "state_tracker_type": "Transformer",
        "use_v_state": true,
        "use_d_state": true,
        "n_heads_combiner_transformer": 8,
        "n_heads_state_tracker": 6,
        "dim_feedforward_v_transformer": 140,
        "dim_feedforward_d_transformer": 60
    },
    "training": {
        "lr": 1e-4,
        "warmup_steps": 4000,
        "total_steps": 200000,
        "batch_size": 128,
        "seed": 12345,
        "epochs": 1000 
    },
    "checkpoint": {
        "checkpoint_folder": "checkpoints/dvd",
        "checkpoint_file_name": "olvit"
    }
 }
--- a/config/simmc.json
+++ b/config/simmc.json
@ -0,0 +1,61 @@
 {
    "wandb": {
        "name": "olvit",
        "group": "simmc2",
        "tags": [],
        "project": "olvit"
    },
    "model": {
        "model_type": "generative",
        "dataset": "simmc2",
        "feature_type": "object_text_features",
        "object_feature_generator_dim": 50,
        "n_object_feature_generator_layers": 2,        
        "n_heads": 6,
        "v_emb_dim": 516,
        "emb_dim": 216,
        "dim_feedforward": 200,
        "dropout_p": 0.1,
        "fc_dim": 512,
        "sample_rate_video": 1,
        "n_encoder_layers": 4,
        "n_decoder_layers": 4,
        "use_pretrained_lm": true,
        "vocab_size": 50265,
        "projection_as_in_aloe": false,
        "pretrained_lm_name": "distilroberta-base"
    },
    "extended_model": {
        "hist_len_for_state_gen": 3,
        "number_of_relevant_emb": 2,
        "num_layers_v_state": 2,
        "num_layers_d_state": 2,
        "combiner_option": "OptionA",
        "state_tracker_type": "Transformer",
        "use_v_state": true,
        "use_d_state": true,
        "n_heads_combiner_transformer": 8,
        "n_heads_state_tracker": 6,
        "dim_feedforward_v_transformer": 140,
        "dim_feedforward_d_transformer": 60
    },
    "training": {
        "lr": 1e-4,
        "warmup_steps": 4000,
        "total_steps": 200000,
        "batch_size": 8,
        "seed": 12345,
        "epochs": 1000 
    },
    "datamodule": {
        "fea_dir": "data/simmc/visual_features_resnet50_simmc2.1.pt",
        "data_dir": "data/simmc/dialogs"
    }, 
    "checkpoint": {
        "checkpoint_folder": "checkpoints/simmc/",
        "checkpoint_file_name": "olvit",
        "output_path": "output/simmc/",
        "checkpoint_path": "TO_BE_DETERMINED"
    }
 }
--- a/data/dvd/dialogs.tar.gz
+++ b/data/dvd/dialogs.tar.gz
@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b1b58ee7af90b402eddbde8470dc0333b83ae293a90a93d26af3b8c39c2d9b0e
 size 395953476
--- a/data/dvd/monet_feats_part00.tar.gz
+++ b/data/dvd/monet_feats_part00.tar.gz
@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:933c88dbf854d11fca34c388b1b566096b4f9733abd2ded0a1d381b4b1c6a379
 size 1582620496
--- a/data/dvd/monet_feats_part01.tar.gz
+++ b/data/dvd/monet_feats_part01.tar.gz
@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:c07f88af54843010899ed1149d16343b9aeb38dbd2cb4e1977bb4c2436d461ec
 size 1582620496
--- a/data/simmc/dialogs.tar.gz
+++ b/data/simmc/dialogs.tar.gz
@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:65ed3852c6bbe9f3135558f1bfd3900e8c37ae9af7b8338b3535987408086ca6
 size 12956266
--- a/data/simmc/visual_features_resnet50_simmc2.1.pt
+++ b/data/simmc/visual_features_resnet50_simmc2.1.pt
@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:7f7aa24ce312e0cdbdb69021ce593aa985074e3ec88a737bc7af8060ff61d6a8
 size 81394479
--- a/misc/.gitkeep
+++ b/misc/.gitkeep
--- a/misc/italy.png
+++ b/misc/italy.png
--- a/misc/results_dvd.png
+++ b/misc/results_dvd.png
--- a/misc/results_simmc.png
+++ b/misc/results_simmc.png
--- a/misc/teaser.pdf
+++ b/misc/teaser.pdf
--- a/misc/teaser.png
+++ b/misc/teaser.png
--- a/output/.gitkeep
+++ b/output/.gitkeep
--- a/setup_data.sh
+++ b/setup_data.sh
@ -0,0 +1,16 @@
 cd data/dvd
 tar -xvzf dialogs.tar.gz
 cat monet_feats_part* > monet_feats.tar.gz
 tar -xvzf monet_feats.tar.gz
 rm dialogs.tar.gz
 rm monet_feats.tar.gz
 rm monet_feats_part00.tar.gz
 rm monet_feats_part01.tar.gz
 cd ../simmc
 tar -xvzf dialogs.tar.gz
 rm dialogs.tar.gz
 cd ../..
--- a/src/init.py
+++ b/src/init.py
--- a/src/combiner/option_a.py
+++ b/src/combiner/option_a.py
@ -0,0 +1,25 @@
 import pytorch_lightning as pl
 import torch
 class CombinerOptionA(pl.LightningModule):
    def __init__(self, config=None, model_input_dim=None, use_v_state=False, use_d_state=False):
        super().__init__()
        self.use_v_state = use_v_state
        self.use_d_state = use_d_state
    def forward(self, vision_emb, language_emb, language_emb_mask, v_state, d_state, dummy_word=None):
        if v_state is not None \
             and d_state is not None \
             and self.use_v_state \
             and self.use_d_state:
            output = torch.concat([v_state, d_state, vision_emb, language_emb], axis=1)
        elif d_state is not None and self.use_d_state:
            output = torch.concat([d_state, vision_emb, language_emb], axis=1)
        elif v_state is not None and self.use_v_state:
            output = torch.concat([v_state, vision_emb, language_emb], axis=1)
        else:
            output = torch.concat([vision_emb, language_emb], axis=1)
        if dummy_word is not None:
            output = torch.concat([dummy_word, output], axis=1)
        return output
--- a/src/combiner/option_b.py
+++ b/src/combiner/option_b.py
@ -0,0 +1,38 @@
 import pytorch_lightning as pl
 import torch
 class CombinerOptionB(pl.LightningModule):
    def __init__(self, config=None, model_input_dim=None, use_v_state=False, use_d_state=False):
        super().__init__()
        self.use_v_state = use_v_state
        self.use_d_state = use_d_state
    def append_state_to_emb(self, tensor, state):
        tiling_vector = [1, tensor.shape[1], 1]
        state_tensor_for_concatenation = torch.tile(state, tiling_vector)
        result = torch.concat([tensor, state_tensor_for_concatenation], axis=2)
        return result 
    def forward(self, dummy_word, video_emb, language_emb, language_emb_mask, v_state, d_state):
        # concatenate the video emb with the video state and the language emb with the dialogue state
        # if the stat is not used, concatenate itself   
        if v_state is not None \
             and d_state is not None \
             and self.use_v_state \
             and self.use_d_state:
            video_emb = self.append_state_to_emb(video_emb, v_state)
            language_emb = self.append_state_to_emb(language_emb, d_state)
        elif d_state is not None and self.use_d_state:
            video_emb = self.append_state_to_emb(video_emb, video_emb)
            language_emb = self.append_state_to_emb(language_emb, d_state)
        elif v_state is not None and self.use_v_state:
            video_emb = self.append_state_to_emb(video_emb, v_state)
            language_emb = self.append_state_to_emb(language_emb, language_emb)
        else:
            video_emb = self.append_state_to_emb(video_emb, video_emb)
            language_emb = self.append_state_to_emb(language_emb, language_emb)
        output = torch.concat([dummy_word, video_emb, language_emb], axis=1)
        return output
--- a/src/combiner/option_c.py
+++ b/src/combiner/option_c.py
@ -0,0 +1,69 @@
 import pytorch_lightning as pl
 import torch
 from torch import nn
 class CombinerOptionC(pl.LightningModule):
    def __init__(self, config, model_input_dim, use_v_state, use_d_state):
        super().__init__()
        self.config = config
        self.use_v_state = use_v_state
        self.use_d_state = use_d_state
        self.encoder_layer_d = nn.TransformerEncoderLayer(
            d_model=model_input_dim,
            dim_feedforward=self.config['dim_feedforward_d_transformer'],
            batch_first=True,
            nhead=self.config['n_heads_combiner_transformer']
        )
        self.encoder_layer_v = nn.TransformerEncoderLayer(
            d_model=model_input_dim,
            dim_feedforward=self.config['dim_feedforward_v_transformer'],
            batch_first=True,
            nhead=self.config['n_heads_combiner_transformer']
        )
    def prepare_inputs_for_transformers(self, video_emb, language_emb, language_emb_mask, v_state, d_state):
        # create masks for the language inputs (video seq should all be 301 frames long and dont need padding)
        d_input_mask = ~language_emb_mask # emb for pytorch needs to be True for masked tokens (opposite to huggingface mask)
        # if the dialogue state is used, add a column of Falses at the beeginngin of the tensor (state should be attended -> no mask)  
        if d_state is not None and self.use_d_state:
            zero_column = torch.zeros((d_input_mask.shape[0], 1), dtype=torch.bool, device=self.device)
            d_input_mask = torch.concat([zero_column, d_input_mask],axis=1)
        # prepare the input tensors for the different transformer layers depending on which state vectors should be used
        if v_state is not None \
             and d_state is not None \
             and self.use_v_state \
             and self.use_d_state:
            v_input = torch.concat([v_state, video_emb], axis=1)
            d_input = torch.concat([d_state, language_emb], axis=1)
        elif d_state is not None and self.use_d_state:
            v_input = video_emb
            d_input = torch.concat([d_state, language_emb], axis=1)
        elif v_state is not None and self.use_v_state:
            v_input = torch.concat([v_state, video_emb], axis=1)
            d_input = language_emb
        else:
            v_input = video_emb
            d_input = language_emb
        return v_input, d_input, d_input_mask
    def forward(self, dummy_word, video_emb, language_emb, language_emb_mask, v_state, d_state):
        # prepare the input tensors for the different transformer layers depending on which state vectors should be used
        v_input, d_input, d_input_mask = self.prepare_inputs_for_transformers(video_emb, language_emb, language_emb_mask, v_state, d_state)
        # apply the v transformer to the v input and the d transformer to the d input
        v_emb = self.encoder_layer_v(v_input)
        d_emb = self.encoder_layer_d(d_input, src_key_padding_mask=d_input_mask)
        # combine the output of the first 2 transformers and add the dummy word (cls token)
        # put the embedded video and dialog states at the beginning of the combined input
        v_state_emb = v_emb[:, 0, :].unsqueeze(1)
        d_state_emb = d_emb[:, 0, :].unsqueeze(1)
        combined_input = torch.concat([dummy_word, v_state_emb, d_state_emb, v_emb[:, 1:, :], d_emb[:, 1:, :]], axis=1)
        # create combined_input_mask based on the language_emb_mask
        return combined_input
--- a/src/data_modules/init.py
+++ b/src/data_modules/init.py
--- a/src/data_modules/dvd_data.py
+++ b/src/data_modules/dvd_data.py
@ -0,0 +1,55 @@
 import pytorch_lightning as pl
 import src.utils.dvd_codebase.data.data_handler as dh
 from  src.utils.dvd_codebase.configs.configs import *
 from transformers import AutoTokenizer
 import os
 class DVDData(pl.LightningDataModule):
    def __init__(self, config):
        super().__init__()
        args.batch_size = config['training']['batch_size']
        args.fea_dir = config['datamodule']['fea_dir']
        args.data_dir = config['datamodule']['data_dir']
        pretrained_lm_name = config['model']['pretrained_lm_name']
        # load dialogues 
        self.train_dials, self.train_vids = dh.load_dials(args, "train")
        self.val_dials, self.val_vids = dh.load_dials(args, "val")
        self.test_dials, self.test_vids = dh.load_dials(args, "test")
        # get vocabulary 
        self.vocab, self.answer_list = dh.get_vocabulary(self.train_dials, args)
        # self.answer_list =     ['0', '1', '10', '2', '3', '4', '5', '6', '7', '8', '9', 'False', 'True', 'blue', 'brown', 'cone', 'cube', 'cyan', 'cylinder', 'flying', 'flying,rotating', 'flying,rotating,sliding', 'flying,sliding', 'gold', 'gray', 'green', 'large', 'medium', 'metal', 'no action', 'purple', 'red', 'rotating', 'rotating,sliding', 'rubber', 'sliding', 'small', 'sphere', 'spl', 'yellow']
        train_vft = dh.load_video_features(args, self.train_vids)
        val_vft = dh.load_video_features(args, self.val_vids)
        test_vft = dh.load_video_features(args, self.test_vids)
        # create tokenizer
        if pretrained_lm_name != '':
            tokenizer = AutoTokenizer.from_pretrained(pretrained_lm_name)
            pad_token_id = tokenizer.convert_tokens_to_ids(tokenizer.pad_token) 
            self.vocab['<blank>'] = pad_token_id
            os.environ["TOKENIZERS_PARALLELISM"] = "false"
        else:
            tokenizer = None
        # load data
        self.train_dials = dh.create_dials(self.train_dials, self.vocab, self.answer_list, train_vft, args, tokenizer=tokenizer)
        self.val_dials = dh.create_dials(self.val_dials, self.vocab, self.answer_list, val_vft, args, tokenizer=tokenizer)
        self.test_dials = dh.create_dials(self.test_dials, self.vocab, self.answer_list, test_vft, args, tokenizer=tokenizer)
    def train_dataloader(self):
        dl, _ = dh.create_dataset(self.train_dials, self.vocab, "train", args)
        return dl
    def val_dataloader(self):
        dl, _ = dh.create_dataset(self.val_dials, self.vocab, "val", args)
        return dl
    def test_dataloader(self):
        dl, _ = dh.create_dataset(self.test_dials, self.vocab, "test", args)
        return dl
--- a/src/data_modules/simmc2_data.py
+++ b/src/data_modules/simmc2_data.py
@ -0,0 +1,95 @@
 import pytorch_lightning as pl
 from src.utils.simmc2_dataset.dataloader_dvd_model import Simmc2Dataset, VisualFeatureLoader
 from transformers import AutoTokenizer
 import argparse
 import os
 from torch.utils.data import DataLoader
 def parse_arguments():
    parser = argparse.ArgumentParser()
    parser.add_argument("--train_file", default='', help="Path to train file")
    parser.add_argument("--dev_file", default='', help="Path to dev file")
    parser.add_argument("--devtest_file", default='', help="Path to devtest file")
    parser.add_argument(
        "--visual_feature_path", default=None, help="Path to visual features"
    )
    parser.add_argument(
        "--visual_feature_size",
        type=int,
        default=516,
        help="Size of the visual features",
    )
    parser.add_argument(
        "--max_turns", type=int, default=5, help="Number of turns in history"
    )
    parser.add_argument(
        "--max_length", type=int, default=512, help="Maximum length in utterance"
    )
    parser.add_argument("--use_gpu", dest="use_gpu", action="store_true", default=True)
    args = parser.parse_args()
    return args
 class Simmc2Data(pl.LightningDataModule):
    def __init__(self, config):
        super().__init__()
        self.args = parse_arguments()
        self.args.train_file = os.path.join(config['datamodule']['data_dir'], 'simmc2.1_ambiguous_candidates_dstc11_train.json')
        self.args.dev_file = os.path.join(config['datamodule']['data_dir'], 'simmc2.1_ambiguous_candidates_dstc11_dev.json')
        self.args.devtest_file = os.path.join(config['datamodule']['data_dir'], 'simmc2.1_ambiguous_candidates_dstc11_devtest.json')
        self.args.teststd_file = os.path.join(config['datamodule']['data_dir'], 'simmc2.1_dials_dstc11_dev.json')
        self.args.visual_feature_path = config['datamodule']['fea_dir']
        pretrained_lm_name = config['model']['pretrained_lm_name']
        self.tokenizer = AutoTokenizer.from_pretrained(pretrained_lm_name)
        self.feature_loader = VisualFeatureLoader(
            feature_path=self.args.visual_feature_path,
            feature_size=self.args.visual_feature_size
        )
        self.config = config
    def train_dataloader(self):
        dataset = Simmc2Dataset(
            tokenizer=self.tokenizer,
            feature_loader=self.feature_loader,
            load_path=self.args.train_file,
            args=self.args
        )
        dl = DataLoader(
            dataset,
            batch_size=self.config['training']['batch_size'],
            shuffle=True,
            collate_fn=dataset.collate_fn,
        )
        return dl
    def val_dataloader(self):
        dataset = Simmc2Dataset(
            tokenizer=self.tokenizer,
            feature_loader=self.feature_loader,
            load_path=self.args.dev_file,
            args=self.args,
        )
        dl = DataLoader(
            dataset,
            batch_size=self.config['training']['batch_size'],
            shuffle=False,
            collate_fn=dataset.collate_fn,
        )
        return dl
    def test_dataloader(self):
        dataset = Simmc2Dataset(
            tokenizer=self.tokenizer,
            feature_loader=self.feature_loader,
            load_path=self.args.devtest_file,
            args=self.args,
        )
        dl = DataLoader(
            dataset,
            batch_size=self.config['training']['batch_size'],
            shuffle=False,
            collate_fn=dataset.collate_fn,
        )
        return dl
--- a/src/models/init.py
+++ b/src/models/init.py
--- a/src/models/base_model.py
+++ b/src/models/base_model.py
@ -0,0 +1,179 @@
 import pytorch_lightning as pl
 import torch
 from torch import nn
 from torch.optim import AdamW
 from src.utils.positional_encoding import PositionalEncoding
 from src.object_description_encoder.object_description_encoder import ObjectDescriptionEncoder
 import torchmetrics as metrics
 from transformers import get_cosine_schedule_with_warmup
 from transformers import AutoModel
 from src.combiner.option_a import CombinerOptionA
 from transformers import AutoTokenizer
 class TransformerModel(pl.LightningModule):
    def __init__(self, config, output_path=None):
        super().__init__()
        self.output_path = output_path
        self.config = config['model']
        self.train_config = config['training']
        self.train_acc = metrics.Accuracy('multiclass', num_classes=40)
        self.val_acc = metrics.Accuracy('multiclass', num_classes=40)
        self.test_acc = metrics.Accuracy('multiclass', num_classes=40)
        self.best_val_acc = 0
        self.loss_for_best_val_acc = 0
        self.best_train_acc = 0
        self.combiner = CombinerOptionA()
        self.initialize_text_encoder_and_feature_mapping()
        self.positional_encoder = PositionalEncoding(
            d_model=self.model_input_dim, dropout=self.config['dropout_p'], max_len=self.config['dim_feedforward']
        )
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=self.model_input_dim,
            batch_first=True,
            dropout=self.config['dropout_p'],
            dim_feedforward=self.config['dim_feedforward'],
            nhead=self.config['n_heads']
        )
        self.encoder = nn.TransformerEncoder(
            encoder_layer=encoder_layer,
            num_layers=self.config['n_encoder_layers'],
        )
        self.loss = nn.CrossEntropyLoss()
        if self.config['feature_type'] == 'object_text_features':
            self.object_description_encoder = ObjectDescriptionEncoder(
                d_model=self.config['v_emb_dim'],
                config=self.config
            )
            # maps the output from the pretrained lm to as smaller size used for the encoding of the object description (reduces transformer size)
            self.linear_projection_object_description = nn.Linear(self.pretrained_lm.config.hidden_size, self.config['v_emb_dim'])
        # tokenizer for translation from ids to text 
        self.tokenizer = AutoTokenizer.from_pretrained(self.config['pretrained_lm_name'])
    def initialize_text_encoder_and_feature_mapping(self):
        if self.config['use_pretrained_lm']:
            self.pretrained_lm = AutoModel.from_pretrained(
                self.config['pretrained_lm_name'],
                add_pooling_layer=False
            )
            self.pretrained_lm.eval()
            # don't train the paramteres of the pretrained lm
            self.pretrained_lm.config.training = True
            # for param in self.pretrained_lm.parameters():
            #     param.requires_grad = False
            # initialize the projection layers to map the embeddings to the correct input dim
            # either use the emb_dim as done in aloe (v_emb_dim * n_heads) or the emb_dim specified in the config 
            if self.config['projection_as_in_aloe']: 
                self.model_input_dim = self.config['n_heads'] * self.config['v_emb_dim']
                self.linear_projection_video = nn.Linear(self.config['v_emb_dim'], self.model_input_dim - 2)
                self.linear_projection_text = nn.Linear(self.pretrained_lm.config.hidden_size, self.model_input_dim - 2)
            else:
                # take embedding size from config and map the video features from their size to the chose emb size 
                self.linear_projection_video = nn.Linear(self.config['v_emb_dim'], self.config['emb_dim'] - 2)
                self.linear_projection_text = nn.Linear(self.pretrained_lm.config.hidden_size, self.config['emb_dim'] - 2)
                self.model_input_dim = self.config['emb_dim']
        else:
            # either use the emb_dim as done in aloe (v_emb_dim * n_heads) or the video_emb_dim (2 is either added or subtracted because of the input ids)
            if self.config['projection_as_in_aloe']: 
                self.model_input_dim = self.config['n_heads'] * self.config['v_emb_dim']
            else:
                self.model_input_dim = self.config['emb_dim']
            self.linear_projection_video = nn.Linear(self.config['v_emb_dim'], self.model_input_dim - 2)
            self.embed = nn.Embedding(num_embeddings=self.config['vocab_size'], embedding_dim=self.model_input_dim - 2)
    def append_ids(self, tensor, id_vector, axis):
        id_vector = torch.tensor(id_vector, device=self.device)
        for a in range(len(tensor.shape)):
            if a != axis:
                id_vector = torch.unsqueeze(id_vector, axis=a)
        tiling_vector = [s if i != axis else 1 for i, s in enumerate(tensor.shape)]
        id_tensor = torch.tile(id_vector, tiling_vector)
        return torch.concat([tensor, id_tensor], axis=axis)
    def downsample_video_emb(self, video_emb):
        return video_emb[:, ::self.config['sample_rate_video'], :, :]
    def unroll_video_emb(self, video_emb):
        video_emb = video_emb.permute(0, 1, 3, 2)
        return torch.reshape(video_emb, (video_emb.shape[0], -1, video_emb.shape[3]))
    def apply_pretrained_lm(self, query, query_mask):
        output = self.pretrained_lm(
            input_ids=query,
            attention_mask=query_mask
        )
        return output['last_hidden_state']
    def prepare_lang_emb(self, query, query_mask):
        # set maximum query length TODO ------ set param in config
        if query.shape[1] > 100:
            query = query[:, :100]
            query_mask = query_mask[:, :100]
        # apply pretrained language model to embed the query if specified
        if self.config['use_pretrained_lm']:
            lang_emb = self.apply_pretrained_lm(query, query_mask)
        else:
            lang_emb = self.embed(query)
        # Aloe uses an emb_dim of v_emb_dim * n_heads. Or use the emb_dim specified in the config 
        if self.config['use_pretrained_lm']:
            lang_emb = self.linear_projection_text(lang_emb)
        lang_emb = self.append_ids(lang_emb, [1, 0], 2)
        lang_emb = self.positional_encoder(lang_emb)
        return lang_emb
    def prepare_video_emb(self, video_emb):
        # shape: [batch, frames, v_emb_dim, objects]
        video_emb = self.downsample_video_emb(video_emb)
        # unroll time dimension in object dimension (only take every _ frame) - shape: [batch, objects x frames, v_emb_dim + 2]
        video_emb = self.unroll_video_emb(video_emb)
        # video_emb need to be projected to either the size of the language emb or the emb_size given by v_emb_dim * n_heads (As done in the Aloe paper)
        #if self.config['use_pretrained_lm'] or self.config['projection_as_in_aloe']:
        video_emb = self.linear_projection_video(video_emb)
        video_emb = self.append_ids(video_emb, [0, 1], 2)
        video_emb = self.positional_encoder(video_emb)
        return video_emb
    def forward(self, batch):
        output = self.answer_query(batch.query, batch.query_mask, batch.vft)
        return output
    def configure_optimizers(self):
        opt = AdamW(self.parameters(), lr=self.train_config['lr'])
        sched = get_cosine_schedule_with_warmup(
            opt, 
            num_warmup_steps=self.train_config['warmup_steps'],
            num_training_steps=self.train_config['total_steps'],
        )
        return {
            'optimizer': opt,
            'lr_scheduler': {
                'scheduler': sched,
                'interval': 'step'
            }
        }
--- a/src/models/discriminative_model.py
+++ b/src/models/discriminative_model.py
@ -0,0 +1,137 @@
 from src.models.state_tracker_model import StateTrackerModel
 import torch
 from torch import nn
 from src.utils.text_utils import translate_from_ids_to_text    
 import pandas as pd   
 class DiscriminativeModel(StateTrackerModel):
    def __init__(self, config, output_path=None):
        super().__init__(config, output_path=output_path)
        self.fc = nn.Linear(self.model_input_dim, self.config["fc_dim"])
        self.relu = nn.ReLU()
        self.output = nn.Linear(self.config["fc_dim"], 40)
    def apply_model(self, language_emb, language_emb_mask, video_emb, v_state=None, d_state=None, answer_emb=None, answer_mask=None, state_generation_mode=None):
        # analogous to the CLS token from BERT models 
        dummy_word = torch.zeros(self.model_input_dim, requires_grad=True, device=self.device)
        dummy_word = torch.tile(dummy_word, (language_emb.shape[0], 1, 1))
        # combine state and embeddings
        input = self.combiner(
                video_emb,
                language_emb,
                language_emb_mask,
                v_state,
                d_state,
                dummy_word
        )
        # create input mask based on the language_emb_mask (complete video is unmasked)
        input_mask = torch.zeros((input.shape[0], input.shape[1]), device=self.device)
        offset = 1
        if v_state is not None: offset += 1 
        if d_state is not None: offset += 1 
        # offset is caused by cls token and state vectors
        if self.config['model_type'] == 'extended_model':
            # set offset to 1 if combiner B is used -> no state vectors as input. Instead concatenated with embeddings
            if self.ext_config['combiner_option'] == 'OptionB':
                offset = 1
        input_mask[:, video_emb.shape[1] + offset:] = ~language_emb_mask
        x = self.encoder(input, src_key_padding_mask=input_mask)
        # only pass transformed dummy word to the dense layers
        x = self.fc(x[:, 0, :])
        x = self.relu(x)
        output = self.output(x)
        return output
    def answer_query(self, query, query_mask, vft, v_state=None, d_state=None, answer=None, answer_mask=None, state_generation_mode=False):
        video_emb = self.prepare_video_emb(vft)
        lang_emb = self.prepare_lang_emb(query, query_mask)
        if answer is not None and answer_mask is not None:
            answer_emb = self.prepare_lang_emb(answer, answer_mask)
        else:
            answer_emb = None
        output = self.apply_model(lang_emb, query_mask, video_emb, v_state, d_state, answer_emb, answer_mask, state_generation_mode)
        return output
    def training_step(self, train_batch, batch_idx):
        train_batch.move_to_cuda()
        label = torch.squeeze(train_batch.answer)
        out = self.forward(train_batch)
        loss = self.loss(out, label)
        tr_acc = self.train_acc(out.softmax(dim=1), label)
        if tr_acc > self.best_train_acc:
            self.best_train_acc = tr_acc
        self.log("train_acc", tr_acc, prog_bar=True, on_step=False, on_epoch=True, batch_size=train_batch.query.shape[0])
        self.log("train_loss", loss, prog_bar=True, on_step=False, on_epoch=True, batch_size=train_batch.query.shape[0])
        print('train_loss: {} | train_acc: {}'.format(loss, tr_acc))
        return loss
    def validation_step(self, val_batch, batch_idx):
        val_batch.move_to_cuda()
        label = torch.squeeze(val_batch.answer)
        out = self.forward(val_batch)
        loss = self.loss(out, label)
        self.val_acc(out.softmax(dim=1), label)
        self.log("val_acc", self.val_acc, prog_bar=True, on_step=False, on_epoch=True, batch_size=val_batch.query.shape[0])
        self.log("val_loss", loss, prog_bar=True, on_step=False, on_epoch=True, batch_size=val_batch.query.shape[0])
        return {'val_loss': loss, 'val_acc': self.val_acc.compute()}
    def test_step(self, test_batch, batch_idx):
        test_batch.move_to_cuda()
        label = torch.squeeze(test_batch.answer)
        out = self.forward(test_batch)
        loss = self.loss(out, label)
        self.test_acc(out.softmax(dim=1), label)
        self.log("test_acc", self.test_acc, prog_bar=True, on_step=False, on_epoch=True, batch_size=test_batch.query.shape[0])
        self.log("test_loss", loss, prog_bar=True, on_step=False, on_epoch=True, batch_size=test_batch.query.shape[0])
        # save the results into a dictionary
        out = torch.argmax(out, dim=1)
        question_as_text = []
        for i in range(test_batch.query.shape[0]):
            question_ids = test_batch.query[i, :]
            question_as_text.append(translate_from_ids_to_text(question_ids, self.tokenizer))
        self.results['question'].extend(question_as_text)
        self.results['video_name'].extend(test_batch.video_name)
        self.results['qa_id'].extend(test_batch.qa_ids)
        self.results['q_type'].extend(test_batch.q_type)
        self.results['label'].extend(label.tolist())
        self.results['output'].extend(out.tolist())
        self.results['attribute_dependency'].extend(test_batch.attribute_dependency)
        self.results['object_dependency'].extend(test_batch.object_dependency)
        self.results['temporal_dependency'].extend(test_batch.temporal_dependency)
        self.results['spatial_dependency'].extend(test_batch.spatial_dependency)
        self.results['q_complexity'].extend(test_batch.q_complexity)
    def on_test_start(self):
        self.results = {
            'qa_id': [],
            'q_type': [],
            'label': [],
            'output': [],
            'attribute_dependency': [],
            'object_dependency': [],
            'temporal_dependency': [],
            'spatial_dependency': [],
            'q_complexity': [],
            # only needed for input output analysis
            'question': [],
            'video_name': []
        }
    def on_test_end(self):
       df = pd.DataFrame.from_dict(self.results)
       df.to_pickle(self.output_path)
--- a/src/models/generative_model.py
+++ b/src/models/generative_model.py
@ -0,0 +1,350 @@
 # code is partly inspired from https://pytorch.org/tutorials/beginner/translation_transformer.html
 from unittest import result
 from src.models.state_tracker_model import StateTrackerModel
 from src.utils.batch_interfaces import batch_interface_simmc2_to_dvd, batch_interface_avsd_to_dvd
 from dataclasses import dataclass
 import torch
 from torch import nn
 from torchtext.data.metrics import bleu_score
 import json
 import os
 from transformers import AutoTokenizer
 import nltk
 import numpy as np
 from src.utils.text_utils import normalize_sentence, translate_from_ids_to_text  
 class GenerativeModel(StateTrackerModel):
    def __init__(self, config, output_path=None):
        super().__init__(config, output_path=output_path)
        self.transformer = nn.Transformer(
            d_model=self.model_input_dim,
            batch_first=True,
            dropout=self.config['dropout_p'],
            dim_feedforward=self.config['dim_feedforward'],
            nhead=self.config['n_heads'],
            num_encoder_layers=self.config['n_encoder_layers'],
            num_decoder_layers=self.config['n_decoder_layers'],
            custom_encoder=self.encoder
        )
        self.prob_generator = nn.Linear(self.model_input_dim, self.config['vocab_size'])
        self.pad_id = 1
        self.unk_id = 3
        self.loss = nn.CrossEntropyLoss(ignore_index=self.pad_id)
        # tokenizer for translation from ids to text 
        self.tokenizer = AutoTokenizer.from_pretrained(self.config['pretrained_lm_name'])
        # ---TODO: Remove ------
        self.results = {} 
        self.epoch_count = 0
        # -----------------------
        self.batch_interface = batch_interface_simmc2_to_dvd
    def encode_object_descriptions(self, vft):
        #embed the object descriptions using bert and then create the object token using transformer layers
        if self.config['feature_type'] == "object_text_features":
            object_features = []
            for i in range(vft.shape[1]):
                object_description = vft[:, i, :]
                object_description_mask = (object_description != 1)
                embedded_object_description = self.apply_pretrained_lm(object_description, object_description_mask)
                #map embeddings to a smaller size (motivation: reduce transformer sice of object description encoder)
                embedded_object_description = self.linear_projection_object_description(embedded_object_description)
                #apply transformer to encode the object description
                object_token = self.object_description_encoder(embedded_object_description)
                object_features.append(object_token)
            object_features = torch.concat(object_features, dim=1)
            #add frame dimension (only one frame in this cas)
            object_features = object_features.unsqueeze(1)
            #bring the data to the format [batch_size x frames x emb_dim (desc_text_len) x obj_number]
            vft = object_features.permute(0, 1, 3, 2)
        return vft
    def create_target_mask(self, size):
        mask = torch.triu(torch.ones((size,size), device=self.device), 1)
        mask = mask.masked_fill(mask == 1, float('-inf'))   
        return mask
    def generate_prob_for_next_tokens(self, input, answer_emb, tgt_mask, input_mask, answer_mask):
        x = self.transformer.encoder(input, src_key_padding_mask=input_mask)
        dec_out = self.transformer.decoder(answer_emb, x, tgt_mask)
        probs = self.prob_generator(dec_out)
        return probs
    def generate_complete_answers(self, input, input_mask):
        # encode the complete batch of questions
        memory = self.transformer.encoder(input, src_key_padding_mask=input_mask)
        generated_answers = torch.ones(memory.shape[0], 40, dtype=torch.int) # 20 = max answer length, use unknown token ()
        # generate the answers for each individual question from the batch
        for i in range(memory.shape[0]):
            memory_i = memory[i, :, :]
            memory_i = memory_i.unsqueeze(0)
            answer_i = torch.zeros((1,1), dtype=torch.int, device=self.device) # Pass start token <s> to decoder as first input. From roberta vocab: <s>": 0, "</s>": 2
            for j in range(40): # 20 = max answer length
                answer_i_emb = self.prepare_lang_emb(answer_i, torch.ones((1, answer_i.shape[0]), device=self.device, dtype=torch.int16))             
                tgt_mask = self.create_target_mask(answer_i.shape[1])          
                decoder_output = self.transformer.decoder(answer_i_emb, memory_i, tgt_mask)
                prob = self.prob_generator(decoder_output[:, -1, :])
                next_word = prob.argmax()
                answer_i = torch.concat([answer_i, next_word.unsqueeze(0).unsqueeze(0)], dim=1)
                if next_word.item() == 2: # eos token in roberta vocab "</s>": 2
                    break
            generated_answers[i, :answer_i.shape[1] - 1] = answer_i[0, 1:]
        return generated_answers
    def apply_model(self, language_emb, language_emb_mask, video_emb, v_state=None, d_state=None, answer_emb=None, answer_mask=None, state_generation_mode=False):
        # combine state and embeddings
        input = self.combiner(
                video_emb,
                language_emb,
                language_emb_mask,
                v_state,
                d_state
        )
        # create input mask based on the language_emb_mask (complete video is unmasked)
        input_mask = torch.zeros((input.shape[0], input.shape[1]), device=self.device)
        offset = 0
        if v_state is not None: offset += 1 
        if d_state is not None: offset += 1 
        # offset is caused by state vectors
        input_mask[:, video_emb.shape[1] + offset:] = ~language_emb_mask
        tgt_mask = self.create_target_mask(answer_emb.shape[1])
        #-------TODO: Mask padded object embeddings when text based object embeddings are used -------------
        if self.mode == 'train' or state_generation_mode:
            probs = self.generate_prob_for_next_tokens(input, answer_emb, tgt_mask, input_mask, answer_mask)
            return probs
        elif self.mode == 'val':
            generated_answers = self.generate_complete_answers(input, input_mask)
            return generated_answers
    def prepare_answer_emb_and_mask(self, answer, answer_mask):
        mask = torch.tril(torch.ones((answer.shape[1], answer.shape[1]), device=self.device))
        mask = mask.unsqueeze(0)
        mask = mask.expand(answer.shape[0], -1, -1)
        answer_emb = self.apply_pretrained_lm(answer, mask)
        answer_emb = self.linear_projection_text(answer_emb)
        answer_emb = self.append_ids(answer_emb, [1, 0], 2)
        answer_emb = self.positional_encoder(answer_emb)
        # pytorch interprets True in a mask as padding 
        answer_mask = ~answer_mask
        answer_emb_final = answer_emb[:, :-1].detach()
        answer_mask_final = answer_mask[:, :-1].detach()
        return answer_emb_final, answer_mask_final
    def answer_query(self, query, query_mask, vft, v_state=None, d_state=None, answer=None, answer_mask=None, state_generation_mode=False):
        video_emb = self.prepare_video_emb(vft)
        lang_emb = self.prepare_lang_emb(query, query_mask)
        answer_emb, answer_mask = self.prepare_answer_emb_and_mask(answer, answer_mask)
        output = self.apply_model(lang_emb, query_mask, video_emb, v_state, d_state, answer_emb, answer_mask, state_generation_mode)
        return output
    def training_step(self, train_batch, batch_idx):
        train_batch = self.batch_interface(train_batch, feature_type=self.config['feature_type'])
        if self.config['feature_type'] == "object_text_features":
            train_batch.vft = self.encode_object_descriptions(train_batch.vft)
        logits = self.forward(train_batch)
        logits = logits.permute(0, 2, 1)
        # replace any unknown token (id = 3) with a padding token in order to also ignore them -> avoid model which outputs unk tokens
        train_batch.answer[train_batch.answer == 3] = 1
        loss = self.loss(logits, train_batch.answer[:, 1:]) # ignore padding 
        self.log("train_loss", loss, prog_bar=True, on_step=False, on_epoch=True, batch_size=train_batch.query.shape[0])
        return loss
    def get_next_token_pred_as_text_and_logits(self, batch):
        # set mode to train to get the logits instead of completely generated sentences
        self.mode = 'train'
        logits = self.forward(batch)
        logits = logits.permute(0, 2, 1)
        predicted_tokens = []
        for j in range(logits.shape[0]):
            l = logits[j, :, :]
            ids = [l[:, i].argmax().item() for i in range(l.shape[1])]
            text = translate_from_ids_to_text(ids, self.tokenizer)
            predicted_tokens.append(text)
        # set mode back to val 
        self.mode = 'val'
        return predicted_tokens, logits
    def calculate_bleu_score(self, generated_answer_ids, correct_answer):
        # calculate bleu score for the generated answers compared to the provided correct answers
        bleu4_scores = []
        all_generated_answers = []
        for i in range(generated_answer_ids.shape[0]):
            generated_answer = generated_answer_ids[i, :].tolist()
            generated_answer_text = translate_from_ids_to_text(generated_answer, self.tokenizer)
            all_generated_answers.append(generated_answer_text)
            correct_answer_text_i = correct_answer[i]
            score4 = nltk.translate.bleu_score.sentence_bleu(
                [normalize_sentence(correct_answer_text_i)],
                normalize_sentence(generated_answer_text),
                smoothing_function=nltk.translate.bleu_score.SmoothingFunction().method7    
            )
            bleu4_scores.append(score4)
        bleu4_score = np.mean(bleu4_scores) 
        return bleu4_score, all_generated_answers
    def translate_answer_ids_to_text(self, answer):
        correct_answer_text = []
        for i in range(answer.shape[0]):
            correct_answer_i = answer[i, :].tolist()
            correct_answer_text_i = translate_from_ids_to_text(correct_answer_i, self.tokenizer)
            correct_answer_text.append(correct_answer_text_i)
        return correct_answer_text
    def validation_step(self, val_batch, batch_idx):
        val_batch = self.batch_interface(val_batch, feature_type=self.config['feature_type'])
        if self.config['feature_type'] == "object_text_features":
            val_batch.vft = self.encode_object_descriptions(val_batch.vft)
        correct_answer_text = self.translate_answer_ids_to_text(val_batch.answer)
        generated_answer_ids = self.forward(val_batch)
        # calculate and log bleu score for the generated answers compared to the provided correct answers
        bleu4_score, generated_answers_text = self.calculate_bleu_score(generated_answer_ids, correct_answer_text)
        self.log('bleu4', bleu4_score, prog_bar=True, on_step=False, on_epoch=True, batch_size=generated_answer_ids.shape[0])    
        # calculate and log the validation loss based on the results from next token predicition (train mode needed)        
        predicted_tokens, logits = self.get_next_token_pred_as_text_and_logits(val_batch)        
        loss = self.loss(logits, val_batch.answer[:, 1:]) # ignore padding 
        self.log("val_loss", loss, prog_bar=True, on_step=False, on_epoch=True, batch_size=val_batch.query.shape[0])
        return {'next_token_predictions': predicted_tokens, 'generated_answers': generated_answers_text, 'correct_answers': correct_answer_text}
    def test_step(self, test_batch, batch_idx):
        dialog_id = test_batch['dialog_id']
        turn_id = test_batch['turn_id']
        test_batch = self.batch_interface(test_batch, feature_type=self.config['feature_type'])
        if self.config['feature_type'] == "object_text_features":
            test_batch.vft = self.encode_object_descriptions(test_batch.vft)
        correct_answer_text = self.translate_answer_ids_to_text(test_batch.answer)
        generated_answer_ids = self.forward(test_batch)
        # calculate and log bleu score for the generated answers compared to the provided correct answers
        bleu4_score, generated_answers_text = self.calculate_bleu_score(generated_answer_ids, correct_answer_text)
        self.log('bleu4', bleu4_score, prog_bar=True, on_step=False, on_epoch=True, batch_size=generated_answer_ids.shape[0])    
        # calculate and log the validation loss based on the results from next token predicition (train mode needed)        
        predicted_tokens, logits = self.get_next_token_pred_as_text_and_logits(test_batch)        
        loss = self.loss(logits, test_batch.answer[:, 1:]) # ignore padding 
        self.log("val_loss", loss, prog_bar=True, on_step=False, on_epoch=True, batch_size=test_batch.query.shape[0])
        return {'turn_id': turn_id, 'next_token_predictions': predicted_tokens, 'dialog_id': dialog_id, 'generated_answers': generated_answers_text, 'correct_answers': correct_answer_text}
    def test_epoch_end(self, outputs):
        if self.config['output_format'] == 'submission':
            responses = []
            for output in outputs:
                for t_id, d_id, answer in zip(output['turn_id'], output['dialog_id'], output['generated_answers']):
                    sample = {
                        'dialog_id': d_id,
                        'predictions': [
                            {
                                'turn_id': t_id,
                                'response': answer
                            }
                        ]
                    }
                    responses.append(sample)
            name = 'dstc11-simmc-devtest-pred-subtask-4-generation.json'
            with open(os.path.join(self.output_path, name), 'w') as file:
                json.dump(responses, file)        
        else:
            result_idx = 0
            for output in outputs:
                for j in range(len(output['next_token_predictions'])):
                    pred = " "
                    corr = " "
                    gen = " "
                    self.results[result_idx] = {
                        'next_token_pred': pred.join(output['next_token_predictions'][j]),
                        'generated_ans': gen.join(output['generated_answers'][j]),
                        'correct': corr.join(output['correct_answers'][j])
                    }
                    result_idx += 1
            name = f'epoch_{self.epoch_count}.json'
            with open(os.path.join(self.output_path, name), 'w') as file:
                json.dump(self.results, file)
    def validation_epoch_end(self, outputs):
        result_idx = 0
        for output in outputs:
            for j in range(len(output['next_token_predictions'])):
                pred = " "
                corr = " "
                gen = " "
                self.results[result_idx] = {
                    'next_token_pred': pred.join(output['next_token_predictions'][j]),
                    'generated_ans': gen.join(output['generated_answers'][j]),
                    'correct': corr.join(output['correct_answers'][j])
                }
                result_idx += 1
        name = f'epoch_{self.epoch_count}.json'
        with open(os.path.join(self.output_path, name), 'w') as file:
            json.dump(self.results, file)
        self.results = {}
        self.epoch_count += 1
    def on_train_epoch_start(self):
        self.mode = 'train' 
    def on_validation_epoch_start(self):
        self.mode = 'val'
    def on_test_epoch_start(self):
        self.mode = 'val'
--- a/src/models/state_tracker_model.py
+++ b/src/models/state_tracker_model.py
@ -0,0 +1,167 @@
 import pytorch_lightning as pl
 import torch
 from torch import nn
 from src.models.base_model import TransformerModel
 from src.utils.save_attention_weights import SaveOutput
 from src.utils.custom_transformer_encoder_layer import CustomTransformerEncoderLayer
 from src.state_trackers.video_state_tracker import VstLSTM
 from src.state_trackers.dialogue_state_tracker import DstLSTM
 from src.state_trackers.vst_transformer_based import VstTransformer
 from src.state_trackers.dst_transformer_based import DstTransformer
 from src.combiner.option_a import CombinerOptionA
 from src.combiner.option_b import CombinerOptionB
 from src.combiner.option_c import CombinerOptionC
 class StateTrackerModel(TransformerModel):
    def __init__(self, config, output_path=None):
        super().__init__(config, output_path=output_path)
        self.config = config['model']
        self.ext_config = config['extended_model']
        combine_state_and_emb_options = {
            'OptionA': CombinerOptionA,
            'OptionB': CombinerOptionB,
            'OptionC': CombinerOptionC,
        }
        state_tracker_options = {
            'Transformer': {
                'vst': VstTransformer,
                'dst': DstTransformer
            },
            'LSTM': {
                'vst': VstLSTM,
                'dst': DstLSTM
            }
        }
        # if option b is used the state vector is appended to each embedding -> input size for the transformers needs to double
        if self.ext_config['combiner_option'] == 'OptionB':
            self.model_input_dim *= 2
            # replace fc layer with a fitting one for the larger embeddings
            self.fc = nn.Linear(self.model_input_dim, self.config["fc_dim"])
        self.combiner = combine_state_and_emb_options[self.ext_config['combiner_option']](
            config = self.ext_config,
            model_input_dim = self.model_input_dim,
            use_v_state=self.ext_config['use_v_state'],
            use_d_state=self.ext_config['use_d_state']
        )
        encoder_layer = CustomTransformerEncoderLayer(
            d_model=self.model_input_dim,
            batch_first=True,
            dropout=self.config['dropout_p'],
            dim_feedforward=self.config['dim_feedforward'],
            nhead=self.config['n_heads']
        )
        self.encoder = nn.TransformerEncoder(
            encoder_layer=encoder_layer,
            num_layers=self.config['n_encoder_layers'],
        )
        self.save_output = SaveOutput()
        self.hook_handle = self.encoder.layers[-1].self_attn.register_forward_hook(self.save_output)
        if self.ext_config['use_v_state']:
            self.video_state_tracker = state_tracker_options[self.ext_config['state_tracker_type']]['vst'](
                self.model_input_dim,
                self.config['dropout_p'],
                self.ext_config
            )
        if self.ext_config['use_d_state']:
            self.dial_state_tracker = state_tracker_options[self.ext_config['state_tracker_type']]['dst'](
                self.model_input_dim,
                self.config['dropout_p'],
                self.ext_config
            )
        self.video_emb_start_idx = self.calculate_video_emb_start_idx()
    def calculate_video_emb_start_idx(self):
        video_emb_start_idx = 0
        if self.config['model_type'] == 'discriminative': video_emb_start_idx += 1
        if self.ext_config['use_v_state']: video_emb_start_idx += 1
        if self.ext_config['use_d_state']: video_emb_start_idx += 1
        return video_emb_start_idx
    def determine_relevant_obj_emb(self, attention_weights, vft):
        # determine index of maximum values 
        obj_emb = self.prepare_video_emb(vft)
        _, relevant_emb_indices = attention_weights[:, self.video_emb_start_idx:obj_emb.shape[1] + self.video_emb_start_idx].topk(k=self.ext_config['number_of_relevant_emb'], dim=1)
        relevant_emb = torch.zeros((obj_emb.shape[0], self.ext_config['number_of_relevant_emb'], obj_emb.shape[2]), device=self.device)
        for i in range(attention_weights.shape[0]):
            relevant_emb[i, :, :] = obj_emb[i, relevant_emb_indices[i, :]]
        return relevant_emb
    def get_attention_weights(self, n_vid_emb):
        if self.config['model_type'] in ['generative', 'ranking']:
            # get the attention weights from the query tokens and sum all of them
            query_start_idx = self.video_emb_start_idx + n_vid_emb
            attention_weights = self.save_output.outputs[1][:, query_start_idx:, :]
            attention_weights = attention_weights.sum(dim=1)
        elif self.config['model_type'] == 'discriminative':
            # get only the attention weights of the cls token
            attention_weights = self.save_output.outputs[1][:, 0, :]
        return attention_weights
    def forward(self, batch):
        # initialize the state vectors - initialize as none if we dont want to use them
        if self.ext_config['use_v_state']:
            video_state = torch.zeros((batch.query.shape[0], 1, self.model_input_dim), device=self.device)
        else: 
            video_state = None
        if self.ext_config['use_d_state']:
            dial_state = torch.zeros((batch.query.shape[0], 1, self.model_input_dim), device=self.device)
        else:
            dial_state = None
        # create the state vectors based on the previous n most recent dialogue turns
        hist_start_turn_state_gen = batch.turns.shape[1] - 1 - self.ext_config["hist_len_for_state_gen"]
        for dialogue_round in range(max(0, hist_start_turn_state_gen), batch.turns.shape[1]):
            question = batch.q_turns[:, dialogue_round, :]
            question_mask = batch.q_turns_mask[:, dialogue_round, :]
            qa_pair = batch.turns[:, dialogue_round, :]
            qa_pair_mask = batch.turns_mask[:, dialogue_round, :]
            # pass correct answer tokens to the decoder for training a generative model
            if self.config['model_type'] in ['generative', 'ranking']:
                answer = batch.a_turns[:, dialogue_round, :] 
                answer_mask = batch.a_turns_mask[:, dialogue_round, :]
                # the answer is not used, only the attention weights are relevant for state creation
                _ = self.answer_query(question, question_mask, batch.vft, video_state, dial_state, answer, answer_mask, state_generation_mode=True)
            else:
                _ = self.answer_query(question, question_mask, batch.vft, video_state, dial_state)
            # update the states
            if self.ext_config['use_v_state']:
                # get the attention weights from the last "answer_query" call and determine the relevant obj
                attention_weights = self.get_attention_weights(n_vid_emb=batch.vft.shape[1])
                relevant_obj_emb = self.determine_relevant_obj_emb(attention_weights, batch.vft)
                 # add ids to match the input size of the main transformer block
                video_state = self.video_state_tracker(relevant_obj_emb)
            if self.ext_config['use_d_state']:
                qa_pair_emb = self.prepare_lang_emb(qa_pair, qa_pair_mask)
                # add ids to match the input size of the main transformer block
                dial_state = self.dial_state_tracker(qa_pair_emb)
        # delete state of the state tracker
        if self.ext_config['use_v_state']:
            self.video_state_tracker.reset()
        if self.ext_config['use_d_state']:
            self.dial_state_tracker.reset()
        # answer the actual question
        # pass correct answer tokens to the decoder for training a generative model
        if self.config['model_type'] in ['generative', 'ranking']:
            output = self.answer_query(batch.query, batch.query_mask, batch.vft, video_state, dial_state, batch.answer, batch.answer_mask)
        else:
            output = self.answer_query(batch.query, batch.query_mask, batch.vft, video_state, dial_state)
        return output
--- a/src/object_description_encoder/object_description_encoder.py
+++ b/src/object_description_encoder/object_description_encoder.py
@ -0,0 +1,29 @@
 import pytorch_lightning as pl
 from torch import nn
 import torch
 class ObjectDescriptionEncoder(pl.LightningModule):
    def __init__(self, d_model, config):
        super().__init__()
        self.d_model = d_model
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=d_model,
            batch_first=True,
            dropout=config['dropout_p'],
            dim_feedforward=config['object_feature_generator_dim'],
            nhead=config['n_heads']
        )
        self.encoder = nn.TransformerEncoder(
            encoder_layer=encoder_layer,
            num_layers=config['n_object_feature_generator_layers']
        )
    def forward(self, input):
        object_description_embedding = torch.zeros((input.shape[0], 1, self.d_model), device=self.device)
        input = torch.concat([object_description_embedding, input], dim=1)
        output = self.encoder(input)
        object_description_embedding = output[:, 0, :]
        object_description_embedding = object_description_embedding.unsqueeze(1)
        return object_description_embedding
--- a/src/state_trackers/dialogue_state_tracker.py
+++ b/src/state_trackers/dialogue_state_tracker.py
@ -0,0 +1,32 @@
 import pytorch_lightning as pl
 from torch import nn
 import torch
 class DstLSTM(pl.LightningModule):
    def __init__(self, emb_dim, dropout, config):
        super().__init__()
        self.lstm_layer = nn.LSTM(
            input_size=emb_dim,
            hidden_size=emb_dim,
            num_layers=config['num_layers_d_state'],
            batch_first=True,
            dropout=dropout
        )
        self.h = None
        self.c = None
    def forward(self, input):
        if self.h is None:
            _, (self.h, self.c) = self.lstm_layer(input)
        else:
            _, (self.h, self.c) = self.lstm_layer(input, (self.h, self.c))
        output = torch.permute(self.h, (1, 0, 2))
        output = output[:, -1, :]
        output = output.unsqueeze(1)
        return output
    def reset(self):
        self.h = None
        self.c = None
--- a/src/state_trackers/dst_transformer_based.py
+++ b/src/state_trackers/dst_transformer_based.py
@ -0,0 +1,36 @@
 import pytorch_lightning as pl
 from torch import nn
 import torch
 class DstTransformer(pl.LightningModule):
    def __init__(self, emb_dim, dropout, config):
        super().__init__()
        self.emb_dim = emb_dim
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=emb_dim,
            batch_first=True,
            dropout=dropout,
            dim_feedforward=config['dim_feedforward_d_transformer'],
            nhead=config['n_heads_state_tracker']
        )
        self.encoder = nn.TransformerEncoder(
            encoder_layer=encoder_layer,
            num_layers=config['num_layers_d_state']
        )
        self.state_vector = None
    def forward(self, input):
        if self.state_vector is None:
            self.state_vector = torch.zeros((input.shape[0], 1, self.emb_dim), device=self.device)
        input = torch.concat([self.state_vector, input], dim=1)
        output = self.encoder(input)
        self.state_vector = output[:, 0, :]
        self.state_vector = self.state_vector.unsqueeze(1)
        return self.state_vector
    def reset(self):
        self.state_vector = None
--- a/src/state_trackers/video_state_tracker.py
+++ b/src/state_trackers/video_state_tracker.py
@ -0,0 +1,36 @@
 import pytorch_lightning as pl
 from torch import nn
 import torch
 class VstLSTM(pl.LightningModule):
    def __init__(self, emb_dim, dropout, config):
        super().__init__()
        self.lstm_layer = nn.LSTM(
            input_size=emb_dim,
            hidden_size=emb_dim,
            num_layers=config['num_layers_v_state'],
            batch_first=True,
            dropout=dropout
        )
        self.h = None
        self.c = None
    def forward(self, input):
        if self.h is None:
            _, (self.h, self.c) = self.lstm_layer(input)
        else:
            _, (self.h, self.c) = self.lstm_layer(input, (self.h, self.c))
        output = torch.permute(self.h, (1,0,2))
        output = output[:, -1, :]
        output = output.unsqueeze(1)
        return output
    def reset(self):
        self.h = None
        self.c = None
--- a/src/state_trackers/vst_transformer_based.py
+++ b/src/state_trackers/vst_transformer_based.py
@ -0,0 +1,39 @@
 import pytorch_lightning as pl
 from torch import nn
 import torch
 class VstTransformer(pl.LightningModule):
    def __init__(self, emb_dim, dropout, config):
        super().__init__()
        self.emb_dim = emb_dim
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=emb_dim,
            batch_first=True,
            dropout=dropout,
            dim_feedforward=1 + config['number_of_relevant_emb'],
            nhead=config['n_heads_state_tracker']
        )
        self.encoder = nn.TransformerEncoder(
            encoder_layer=encoder_layer,
            num_layers=config['num_layers_v_state']
        )
        self.state_vector = None
    def forward(self, input):
        if self.state_vector is None:
            self.state_vector = torch.zeros((input.shape[0], 1, self.emb_dim), device=self.device)
        input = torch.concat([self.state_vector, input], dim=1)
        output = self.encoder(input)
        self.state_vector = output[:, 0, :]
        self.state_vector = self.state_vector.unsqueeze(1)
        return self.state_vector
    def reset(self):
        self.state_vector = None
--- a/src/utils/init.py
+++ b/src/utils/init.py
--- a/src/utils/batch_interfaces.py
+++ b/src/utils/batch_interfaces.py
@ -0,0 +1,106 @@
 import torch
 from dataclasses import dataclass
 from typing import Optional
@dataclass
 class Batch:
    query: torch.Tensor
    query_mask: torch.Tensor
    vft: torch.Tensor
    turns: torch.Tensor
    turns_mask: torch.Tensor
    q_turns: torch.Tensor
    q_turns_mask: torch.Tensor
    a_turns: torch.Tensor
    a_turns_mask: torch.Tensor
    answer: torch.Tensor
    answer_mask: torch.Tensor
    answer_candidates: Optional[torch.Tensor] = None
    answer_candidates_mask: Optional[torch.Tensor] = None
 # ---- TODO: Replace with function for the Mask RCNN features ----
 def create_monet_like_vft(vft):
    target_dim = 36
    remainder = vft.shape[1] % target_dim
    vft = vft[:, :-remainder].reshape((vft.shape[0], -1, target_dim))
    vft = vft.unsqueeze(3)
    return vft
 def batch_interface_simmc2_to_dvd(batch, feature_type):
    if feature_type == 'resnet50':
        vft = batch['features']
        vft = vft.unsqueeze(3)
    elif feature_type == "object_text_features":
        vft = batch['object_features']
        # add frame dimension (only one frame in this cas)
        #vft = vft.unsqueeze(1)
        # bring the data to the format [batch_size x frames x emb_dim (desc_text_len) x obj_number]
        #vft = vft.permute(0, 1, 3, 2)
    batch_in_dvd_format = Batch(
        query=batch['query'],
        query_mask=(batch['query'] != 1),
        vft=vft, 
        turns=batch['turns'], 
        turns_mask=(batch['turns'] != 1), 
        q_turns=batch['q_turns'], 
        q_turns_mask=(batch['q_turns'] != 1),
        a_turns=batch['a_turns'], 
        a_turns_mask=(batch['a_turns'] != 1), 
        answer=batch['answer'].type(torch.int64),
        answer_mask=(batch['answer'] != 1),
        answer_candidates=batch['answer_candidates'],
        answer_candidates_mask=(batch['answer_candidates'] != 1)
    )
    return batch_in_dvd_format
 def batch_interface_avsd_to_dvd(batch, feature_type):
    # map question to query
    query = batch['ques'][:,-1, :]
    query_mask = (query != 1)
    # map vid_feat to vft
    # TODO: Use other video features ------!!!-------
    if feature_type == 'i3d':
        vft = create_monet_like_vft(batch['vid_feat'])
    else:
        vft = batch['vid_feat']
    q_turns = batch['ques'][:, :9, :]
    q_turns_mask = (q_turns != 1)
    index_tensor = batch['ans_ind'].unsqueeze(2)
    index_tensor = index_tensor.repeat(1,1,20)
    index_tensor = index_tensor.unsqueeze(2)
    a_turns = batch['opt'].gather(2, index_tensor)
    a_turns = a_turns.squeeze(2)
    # turns should only contain the previous questions (first 9 turns)
    a_turns, answer = a_turns.split([9, 1], dim=1)
    answer = answer.squeeze(1)
    a_turns_mask = (a_turns != 1)
    answer_mask = (answer != 1)
    # concat questions and a_turns to create turns tensor 
    turns = torch.concat((q_turns, a_turns), 2)
    turns_mask = (turns != 1)
    batch_in_dvd_format = Batch(
        query,
        query_mask,
        vft, 
        turns, 
        turns_mask, 
        q_turns, 
        q_turns_mask,
        a_turns,
        a_turns_mask, 
        answer,
        answer_mask
    )
    return batch_in_dvd_format
--- a/src/utils/custom_transformer_encoder_layer.py
+++ b/src/utils/custom_transformer_encoder_layer.py
@ -0,0 +1,84 @@
 # https://pytorch.org/docs/stable/_modules/torch/nn/modules/transformer.html#TransformerEncoderLayer
 from typing import Optional, Any, Union, Callable
 from torch import nn
 import torch
 from torch import Tensor
 from torch.nn import functional as F
 from torch.nn.modules import Module
 from torch.nn import MultiheadAttention
 #from nn.container import ModuleList
 #from ..init import xavier_uniform_
 from torch.nn import Dropout
 from torch.nn import Linear
 from torch.nn import LayerNorm
 class CustomTransformerEncoderLayer(Module):
    __constants__ = ['batch_first', 'norm_first']
    def __init__(self, d_model: int, nhead: int, dim_feedforward: int = 2048, dropout: float = 0.1,
                 activation: Union[str, Callable[[Tensor], Tensor]] = F.relu,
                 layer_norm_eps: float = 1e-5, batch_first: bool = False, norm_first: bool = False,
                 device=None, dtype=None) -> None:
        factory_kwargs = {'device': device, 'dtype': dtype}
        super().__init__()
        self.self_attn = MultiheadAttention(d_model, nhead, dropout=dropout, batch_first=batch_first,
                                            **factory_kwargs)
        # Implementation of Feedforward model
        self.linear1 = Linear(d_model, dim_feedforward, **factory_kwargs)
        self.dropout = Dropout(dropout)
        self.linear2 = Linear(dim_feedforward, d_model, **factory_kwargs)
        self.norm_first = norm_first
        self.norm1 = LayerNorm(d_model, eps=layer_norm_eps, **factory_kwargs)
        self.norm2 = LayerNorm(d_model, eps=layer_norm_eps, **factory_kwargs)
        self.dropout1 = Dropout(dropout)
        self.dropout2 = Dropout(dropout)
    def __setstate__(self, state):
        if 'activation' not in state:
            state['activation'] = F.relu
        super().__setstate__(state)
    def forward(self, src: Tensor, src_mask: Optional[Tensor] = None, src_key_padding_mask: Optional[Tensor] = None) -> Tensor:
        r"""Pass the input through the encoder layer.
        Args:
            src: the sequence to the encoder layer (required).
            src_mask: the mask for the src sequence (optional).
            src_key_padding_mask: the mask for the src keys per batch (optional).
        Shape:
            see the docs in Transformer class.
        """
        # see Fig. 1 of https://arxiv.org/pdf/2002.04745v1.pdf
        x = src
        if self.norm_first:
            x = x + self._sa_block(self.norm1(x), src_mask, src_key_padding_mask)
            x = x + self._ff_block(self.norm2(x))
        else:
            x = self.norm1(x + self._sa_block(x, src_mask, src_key_padding_mask))
            x = self.norm2(x + self._ff_block(x))
        return x
    # self-attention block
    def _sa_block(self, x: Tensor,
                  attn_mask: Optional[Tensor], key_padding_mask: Optional[Tensor]) -> Tensor:
        x = self.self_attn(x, x, x,
                           attn_mask=attn_mask,
                           key_padding_mask=key_padding_mask,
                           need_weights=True)[0]
        return self.dropout1(x)
    # feed forward block
    def _ff_block(self, x: Tensor) -> Tensor:
        x = self.linear2(self.dropout(self.activation(self.linear1(x))))
        return self.dropout2(x)
--- a/src/utils/dvd_codebase/init.py
+++ b/src/utils/dvd_codebase/init.py
--- a/src/utils/dvd_codebase/configs/configs.py
+++ b/src/utils/dvd_codebase/configs/configs.py
@ -0,0 +1,39 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 import argparse
 import logging
 import random
 import numpy as np
 parser = argparse.ArgumentParser()
 parser.add_argument('--debug', default=0, type=int, help='')
 # Data /projects/hochmeister/CATER-videos/features/per_video'
 #parser.add_argument('--fea-dir', default='/scratch/hochmeister/CATER-videos/features/monet_pretrained_on_clevr/per_video', type=str, help='Image feature files (.pkl)')
 #parser.add_argument('--data-dir', default='/scratch/hochmeister/DVDData/small_subset/', type=str,help='Path to training feature files')
 parser.add_argument('--output-dir', default='/scratch/abdessaied/projects/olvit/msc2022_hochmeister/checkpoints/avsd_code_testing', type=str,help='output path of model and params')
 parser.add_argument('--num-workers', default=20, type=int, help='')
 parser.add_argument('--device', default='0', type=str, help='')
 # Training 
 parser.add_argument('--num-epochs', '-e', default=15, type=int,help='Number of epochs')
 #parser.add_argument('--batch-size', '-b', default=85, type=int,help='Batch size in training')
 # others
 parser.add_argument('--verbose', '-v', default=0, type=int,help='verbose level')
 args, unknown = parser.parse_known_args()
 print(args)
 # Presetting
 if args.verbose >= 1:
    logging.basicConfig(level=logging.DEBUG, 
        format='%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s')
 else:
    logging.basicConfig(level=logging.INFO, 
        format='%(asctime)s %(levelname)s: %(message)s')
--- a/src/utils/dvd_codebase/data/init.py
+++ b/src/utils/dvd_codebase/data/init.py
--- a/src/utils/dvd_codebase/data/analysis_utils.py
+++ b/src/utils/dvd_codebase/data/analysis_utils.py
@ -0,0 +1,282 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 import glob, json, pdb
 from tqdm import tqdm
 import pandas as pd
 import copy, os
 def get_question_type(template, prior_template):
    last_node_type = template['nodes'][-1]['type']
    text = template['text'][0].lower()
    if 'same set of activities' in text: 
        qtype = 'compare action set'
    elif 'same sequence of activities' in text:
        qtype = 'compare action sequence'
    elif 'frequently' in text:
        qtype = 'compare int'
    elif 'how many times' in text:
        qtype = 'action count'
    elif 'how many' in text or 'what number' in text:
        qtype = 'obj count'
    elif 'is there' in text: 
        qtype = 'obj exist'
    elif 'what color' in text or 'what material' in text or 'what shape' in text or 'what size' in text:
        qtype = 'attr query'
    elif 'what type of action' in text or 'what is the' in text or 'what types of action' in text:
        qtype = 'action query'
    else:
        assert 'what about' in text
        qtype = get_question_type(prior_template, None)
    return qtype
 def get_question_subtype(template, prior_template):
    last_node_type = template['nodes'][-1]['type']
    text = template['text'][0].lower()
    if 'same set of activities' in text: 
        if 'how many' in text:
            qtype = 'compare action set (count)'
        else:
            qtype = 'compare action set (exist)'
    elif 'same sequence of activities' in text:
        if 'how many' in text:
            qtype = 'compare action seq (count)'
        else:
            qtype = 'compare action seq (exist)'
    elif 'frequently' in text:
        if 'as frequently' in text:
            qtype = 'compare int (equal)'
        elif 'less frequently' in text:
            qtype = 'compare int (less)'
        elif 'more frequently' in text:
            qtype = 'compare int (more)'
    elif 'how many times' in text:
        qtype = 'action count'
    elif 'how many' in text or 'what number' in text:
        qtype = 'obj count'
    elif 'is there' in text: 
        qtype = 'obj exist'
    elif 'what color' in text or 'what about its color' in text: 
        qtype = 'attr query (color)'
    elif 'what material' in text or 'what about its material'in text: 
        qtype = 'attr query (material)'
    elif 'what shape' in text or 'what about its shape' in text: 
        qtype = 'attr query (shape)'
    elif 'what size' in text or 'what about its size' in text: 
        qtype = 'attr query (size)'
    elif 'what type of action' in text or 'what is the' in text or 'what types of action' in text:
        if '<o>' in text:
            qtype = 'action query (by order)'
        elif '<f>' in text:
            qtype = 'ation query (by freq)'
        else:
            qtype = 'action query (all actions)'
    else:
        assert 'what about' in text
        assert 'color' not in text and 'size' not in text and \
                'shape' not in text and 'material' not in text
        qtype = get_question_subtype(prior_template, None)
    return qtype
 def get_question_complexity(turn, template_fn):
    template = turn['template']
    interval_type = template['interval_type']
    last_node_type = template['nodes'][-1]['type']
    second_last_node_type = template['nodes'][-2]['type']
    if interval_type == 'none': 
        return 'none'
    elif interval_type == 'atomic': 
        if 'one_hop' in template_fn:
            return 'atomic (spatial)'
        else:
            return 'atomic (non-spatial)'
        #return 'atomic'
    elif interval_type == 'compositional':
        return 'compositional'
 def get_accuracies_by_type(all_types, models, all_answers, all_results, output_file):
    types = sorted(set(all_types))
    accuracies = {} 
    for t in types:
        accuracies[t] = []
        for model in models:
            nb_corrects = 0 
            count = 0
            results = all_results[model]
            for a_idx, a in enumerate(all_answers):
                curr_type = all_types[a_idx]
                if curr_type != t: continue
                pred = results[a_idx]
                if str(pred) == str(a):
                    nb_corrects += 1 
                count += 1 
            acc = nb_corrects/count 
            accuracies[t].append(acc)  
    df = copy.deepcopy(accuracies)
    df['model'] = models
    df = pd.DataFrame(data=df, columns=['model'] + list(accuracies.keys()))
    df.to_csv(output_file)
    return types, accuracies, df
 def get_transfer_accuracies(all_types, models, all_answers, all_results, output_file, is_video_update=False, is_all=False): 
    accuracies = []
    for model in models:
        results = all_results[model]
        nb_corrects = 0 
        count = 0 
        for a_idx, a in enumerate(all_answers):
            if is_all:
                is_single_turn = True
                for k,v in all_types.items():
                    if v[a_idx] != 'none':
                        is_single_turn = False 
                        break
                if is_single_turn: continue 
            else:
                curr_type = all_types[a_idx]
                if is_video_update:
                    if curr_type != 'video_update': continue
                else:
                    if curr_type != 'yes': continue
            prior_pred_a = results[a_idx-1]
            prior_gt_a = all_answers[a_idx-1]
            if str(prior_pred_a) != str(prior_gt_a): continue  
            pred_a = results[a_idx]
            gt_a = all_answers[a_idx]
            if str(pred_a) == str(gt_a):
                nb_corrects += 1 
            count += 1 
        if count == 0:
            acc = 0
        else:
            #pdb.set_trace()
            acc = nb_corrects/count 
        accuracies.append(acc)
    df = {}
    df['accuracies'] = accuracies
    df['model'] = models
    df = pd.DataFrame(data=df, columns=['model', 'accuracies'])
    df.to_csv(output_file)
    return df 
 def get_start_end_time(period):
    start, end = period
    if start is None:
        start = 0
    else:
        start = start[-1]
    if end is None:
        end = 301
    else:
        end = end[-1]
    return start, end 
 def get_period_size(period):
    if period is None:
        return 0
    start, end = get_start_end_time(period)
    return end - start
 def get_overlap_period(curr_period, last_period, ratio=False):
    if curr_period is None:
        return -1 
    if last_period is None:
        return 0 
    s1, e1 = get_start_end_time(curr_period)
    s2, e2 = get_start_end_time(last_period)
    if s2<e1 and s1<e2:
        if ratio:
            return get_period_ratio_bin((min(e1,e2)-max(s1,s2))/(e2-s2))
        else:
            return (min(e1,e2)-max(s1,s2))
    else:
        return 0 
 def get_period_distance(curr_period, last_period, point='start'):
    if curr_period is None:
        return -1 
    if last_period is None: 
        return -1 
    s1, e1 = get_start_end_time(curr_period)
    s2, e2 = get_start_end_time(last_period)
    if point == 'start': 
        return abs(s1-s2)
    elif point == 'end':
        return abs(e1-e2) 
 def get_period_ratio_bin(ratio):
    if ratio == 0:
        return 0
    for n in range(0,10):
        if ratio*10>n:
            bin = n
        else:
            break
    return bin 
 def get_obj_turn_dist(used_objects, dependencies, template, turn_idx):
    all_dists = [0]
    if dependencies['object'] != 'none':
        if dependencies['object'] == 'earlier_unique':
            obj_id = str(template['earlier_unique_obj'])
            if obj_id not in used_objects:
                pdb.set_trace()
            turn_dist = turn_idx - used_objects[obj_id]['original_turn'] + 1
            all_dists.append(turn_dist)
    if dependencies['temporal'] != 'none':
        if 'earlier_unique' in dependencies['temporal']:
            obj_id = str(template['temporal_obj_id'])
            if obj_id not in used_objects:
                pdb.set_trace()
            turn_dist = turn_idx - used_objects[obj_id]['original_turn'] + 1
            all_dists.append(turn_dist)
    return max(all_dists)
 def get_stats(dials):
    videos = set()
    questions = set()
    for dial in dials: 
        for turn in dial:
            question = turn['question']
            video = '{}-{}'.format(turn['split'], turn['image_filename'])
            videos.add(video)
            questions.add(question)
    print('# videos: {}'.format(len(videos)))
    print("# dialogues: {}".format(len(dials)))
    print("# unique questions: {}".format(len(questions)))
    output = {
        '#videos': len(videos),
        '#dialogues': len(dials),
        '#unique questions': len(questions)
    }
    return output 
 def find_video_end_range(end_time):
    ranges = [0, 30, 60, 90, 120, 150, 180, 210, 240, 270]
    if end_time is None: 
        return 9
    for idx, r in enumerate(ranges):
        if end_time[-1] > r:
            curr_r = idx 
        else:
            return curr_r
    return 9
 def find_video_start_range(start_time):
    ranges = [400, 270, 240, 210, 180, 150, 120, 90, 60, 30]
    if start_time is None: 
        return 0
    for idx, r in enumerate(ranges):
        if start_time[-1] <= r:
            curr_r = 9-idx 
        else:
            return curr_r
    return 0
--- a/src/utils/dvd_codebase/data/data_handler.py
+++ b/src/utils/dvd_codebase/data/data_handler.py
@ -0,0 +1,264 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 import copy, logging, sys, time, os, pdb, random, glob, json
 import pickle as pkl
 import numpy as np
 from tqdm import tqdm
 from collections import Counter
 from functools import partial
 import nltk
 import torch 
 import torch.utils.data as Data
 from src.utils.dvd_codebase.data.dataset import *
 from src.utils.dvd_codebase.data.analysis_utils import *
 from src.utils.dvd_codebase.data.data_utils import *
 from src.utils.dvd_codebase.data.analysis_utils import get_question_subtype, get_question_complexity
 from transformers import AutoTokenizer
 def load_dials(args, split):
    files = []
    for video_split in ['all_actions', 'max2action']:
        files += glob.glob(args.data_dir + '{}_{}_*/*.json'.format(video_split, split))
    files = sorted(files)  # [:50]
    if args.debug:
        files = files[:100]
    all_dials = []
    vid_set = {}
    for file in tqdm(files, total=len(files)):
        dials = json.load(open(file))
        all_dials.extend(dials)
        video_split = dials[0][0]['split']
        vid = dials[0][0]['image'].replace('CLEVR', 'CATER')
        vid_key = '{}-{}'.format(video_split, vid)
        if vid_key not in vid_set:
            vid_set[vid_key] = '{}/{}/{}.pkl'.format(args.fea_dir, video_split, vid)
    return all_dials, vid_set
 def load_videos(args, vid_set):
    vid_fts = {}
    ft_dims = None
    size, stride = -1, -1
    segment_map = {}
    for vid_key, fea_file in tqdm(vid_set.items(), total=len(vid_set)):
        #fea_file = '{}/{}.pkl'.format(args.fea_dir, vid)        
        fea = pkl.load(open(fea_file, 'rb'))
        output = []
        for clip_idx, clip in enumerate(fea['clips']): 
            fea = clip['features']
            if len(fea.shape)==3:
                fea = fea.transpose(1, 2, 0)
            output.append(fea)
            start, end = clip['segment']
            if clip_idx not in segment_map:
                segment_map[clip_idx] = (start, end)
            if size == -1:
                size = end - start + 1
            if clip_idx>0 and stride == -1:
                stride = start - prior_start
            prior_start, prior_end = start, end 
        vft = np.asarray(output)
        vid_fts[vid_key] = vft 
        if ft_dims is None:
            ft_dims = vft.shape
    return vid_fts, ft_dims, size, stride, segment_map
 def load_video_features(args, vid_set):
    vid_fts = {}
    for vid_key, fea_file in tqdm(vid_set.items(), total=len(vid_set)):
        #fea_file = '{}/{}.pkl'.format(args.fea_dir, vid)        
        fea = pkl.load(open(fea_file, 'rb'))
        vid_fts[vid_key] = fea
    return vid_fts
 def get_vocabulary(dials, args, vocab=None):
    #answer_options = set()
    word_freq = {}
    for dialog in tqdm(dials, total=len(dials)):
        for turn in dialog:
            for word in nltk.word_tokenize(turn['question']):
                if word not in word_freq: word_freq[word] = 0
                word_freq[word] += 1                    
            answer = str(turn['answer'])
            #answer_options.add(answer)
            for word in nltk.word_tokenize(answer):
                if word not in word_freq: word_freq[word] = 0
                word_freq[word] += 1 
            program = turn['final_all_program']
            for n in program: 
                if n['type'] == 'identity': continue 
                if n['type'] not in word_freq: word_freq[n['type']] = 0
                word_freq[n['type']] += 1     
                if 'side_inputs' in n:
                    for side_input in n['side_inputs']:
                        for word in nltk.word_tokenize(side_input):
                            if word not in word_freq: word_freq[word] = 0
                            word_freq[word] += 1                           
    if vocab is not None: 
        unk_words = set()
        for word, freq in word_freq.items():
            if word not in vocab:
                unk_words.add(word)
        return unk_words 
    vocab = {'<unk>':0, '<blank>':1, '<sos>':2, '<eos>':3, '<eoo>': 4}
    for word, freq in word_freq.items():
        vocab[word] = len(vocab) 
    answer_options =  ['0', '1', '10', '2', '3', '4', '5', '6', '7', '8', '9', 'False', 'True', 'blue', 'brown', 'cone', 'cube', 'cyan', 'cylinder', 'flying', 'flying,rotating', 'flying,rotating,sliding', 'flying,sliding', 'gold', 'gray', 'green', 'large', 'medium', 'metal', 'no action', 'purple', 'red', 'rotating', 'rotating,sliding', 'rubber', 'sliding', 'small', 'sphere', 'spl', 'yellow']
    return vocab, answer_options 
 def answer_by_question_type(dials):
    qa_dist = {} 
    for dialog in dials:
        for turn_idx, turn in enumerate(dialog):
            answer = turn['answer']
            template = turn['template']
            if turn_idx > 0: 
                prior_template = dialog[turn_idx-1]['template']
            else:
                prior_template = None 
            qtype = get_question_subtype(template, prior_template)
            if qtype not in qa_dist:
                qa_dist[qtype] = {}
            if answer not in qa_dist[qtype]:
                qa_dist[qtype][answer] = 0
            qa_dist[qtype][answer] += 1 
    return qa_dist
 # Load text data
 def create_dials(dials, vocab, answer_list, vft_data, args, tokenizer=None):
    dialog_list = []
    qa_id = 0
    for dialog in tqdm(dials, total=len(dials)):
        if tokenizer is None:
            questions = [words2ids(t['question'], vocab) for t in dialog]
            answers = [words2ids(str(t['answer']), vocab) for t in dialog]
        else:
            questions = [words2ids_pretrained_lm(t['question'], vocab, tokenizer) for t in dialog]
            answers = [words2ids_pretrained_lm(str(t['answer']), vocab, tokenizer) for t in dialog]
        answer_output = [[answer_list.index(str(t['answer']))] for t in dialog]
        qa_pair = [np.concatenate((q,a)).astype(np.int32) for q,a in zip(questions, answers)]
        attribute_dependencies = []
        object_dependencies = []
        temporal_dependencies = []
        spatial_dependencies = []
        q_types = []
        q_complexities = []
        for i, t in enumerate(dialog):
            # determine the type of turn relation
            attribute_dependencies.append(t['turn_dependencies']['attribute'])
            object_dependencies.append(t['turn_dependencies']['object'])
            temporal_dependencies.append(t['turn_dependencies']['temporal'])
            spatial_dependencies.append(t['turn_dependencies']['spatial'])
            # determine the question type based on the template for analysis reasons 
            if i == 0:
                q_types.append(get_question_type(t['template'], None))
            else:
                q_types.append(get_question_type(t['template'], dialog[i-1]['template']))
            # get question complexity
            q_complexities.append(get_question_complexity(t, t['template_filename'] ))
        # get image name
        video_name = t['image']           
        vid_cutoffs = [t['template']['cutoff'] for t in dialog]
        gt_vid_periods = [t['template']['used_periods'][-1] for t in dialog]
        programs = [program2ids(t['final_all_program'], vocab) for t in dialog]
        states = [state2ids(t['template']['used_objects'], vocab) for t in dialog]
        vid = dialog[0]['image'].replace('CLEVR', 'CATER')
        vid_split = dialog[0]['split']
        vid_key = '{}-{}'.format(vid_split, vid)
        whole_vft_fea = vft_data[vid_key]
        turn_based_vft_fea = []
        # cutoff the unused vft data based on the vid_cutoffs
        for t_idx, t_cutoff in enumerate(vid_cutoffs):
            if t_cutoff is not None:
                t_vft_fea = whole_vft_fea[:t_cutoff[3], :, :]
            else:
                t_vft_fea = whole_vft_fea
            turn_based_vft_fea.append(t_vft_fea)
        for n in range(len(questions)): 
            start_turn_idx = 0 
            history = np.asarray([])
            turns = []
            q_turns = []
            a_turns = []
            for m in range(start_turn_idx, n):
                history = np.append(history, qa_pair[m])
                turns.append(qa_pair[m])
                q_turns.append(questions[m])
                a_turns.append(np.array(answer_output[m]))   
            question = questions[n]
            answer = answer_output[n]
            program = programs[n]
            state = states[n]
            gt_period = gt_vid_periods[n]
            q_type = q_types[n]
            attribute_dependency = attribute_dependencies[n]
            object_dependency = object_dependencies[n]
            temporal_dependency = temporal_dependencies[n]
            spatial_dependency = spatial_dependencies[n]
            q_complexity = q_complexities[n]
            vft_feat = turn_based_vft_fea[n]
            item = [vid_split, vid, qa_id, history, question, answer, turns, 
                    q_turns, a_turns, vft_feat, gt_period,
                    program, state, q_type, attribute_dependency, object_dependency,
                    temporal_dependency, spatial_dependency, video_name, q_complexity]
            dialog_list.append(item)
            qa_id += 1
    data = {'dialogs': dialog_list, 'vocab': vocab, 'answer': answer_list, 'features': []}
    return data 
 def create_dataset(data, vocab, split, args):
    out = {}
    keys = ['vid_split', 'vid', 'qa_id', 'history', 'question', 'answer', 'turns', 
            'q_turns', 'a_turns', 'vft', 'gt_period', 
            'program', 'state', 'q_type', 'attribute_dependency', 'object_dependency',
            'temporal_dependency', 'spatial_dependency', 'video_name', 'q_complexity']
    for key in keys:
        out[key] = []
    for dialog in data['dialogs']:
        out['vid_split'].append(dialog[0])
        out['vid'].append(dialog[1])
        out['qa_id'].append(dialog[2])
        out['history'].append(dialog[3])
        out['question'].append(dialog[4])
        out['answer'].append(dialog[5])
        out['turns'].append(dialog[6])
        out['q_turns'].append(dialog[7])
        out['a_turns'].append(dialog[8])
        out['vft'].append(dialog[9])
        out['gt_period'].append(dialog[10])
        out['program'].append(dialog[11])
        out['state'].append(dialog[12])
        out['q_type'].append(dialog[13])
        out['attribute_dependency'].append(dialog[14])
        out['object_dependency'].append(dialog[15])
        out['temporal_dependency'].append(dialog[16])
        out['spatial_dependency'].append(dialog[17])
        out['video_name'].append(dialog[18])
        out['q_complexity'].append(dialog[19])
    dataset = Dataset(out)         
    data_loader = torch.utils.data.DataLoader(dataset=dataset,
                                                  batch_size=args.batch_size,
                                                  shuffle=(split=='train'),
                                                  collate_fn=partial(collate_fn, vocab=vocab), 
                                                  num_workers=args.num_workers,
                                                  pin_memory=True)
    return data_loader, len(out['vid'])
--- a/src/utils/dvd_codebase/data/data_utils.py
+++ b/src/utils/dvd_codebase/data/data_utils.py
@ -0,0 +1,169 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 import copy
 import logging
 import sys
 import time
 import os
 import six
 import pickle
 import json
 import numpy as np
 import pdb 
 from tqdm import tqdm
 import torch 
 import nltk
 def subsequent_mask(size):
    "Mask out subsequent positions."
    attn_shape = (1, size, size)
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return torch.from_numpy(subsequent_mask) == 0
 def get_npy_shape(filename):
    with open(filename, 'rb') as f:
        if filename.endswith('.pkl'):
            shape = pickle.load(f).shape
        else:
            pdb.set_trace()
            major, minor = np.lib.format.read_magic(f)
            shape, fortran, dtype = np.lib.format.read_array_header_1_0(f)
    return shape
 def words2ids(str_in, vocab):
    words =  nltk.word_tokenize(str_in)
    sentence = np.ndarray(len(words)+2, dtype=np.int32)
    sentence[0]=vocab['<sos>']
    for i,w in enumerate(words):
        if w in vocab:
            sentence[i+1] = vocab[w]
        else:
            sentence[i+1] = vocab['<unk>']
    sentence[-1]=vocab['<eos>']
    return sentence
 def words2ids_pretrained_lm(str_in, vocab, tokenizer):
    # based on: https://medium.com/@dhartidhami/understanding-bert-word-embeddings-7dc4d2ea54ca
    text = tokenizer.cls_token + str_in + tokenizer.eos_token
    tokenized_text = tokenizer.tokenize(text)
    indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
    token_array = np.array([indexed_tokens])
    token_array = np.reshape(token_array, (-1,))
    return token_array
 def program2ids(program, vocab):
    sentence = []
    return np.asarray(sentence, dtype=np.int32)
    for n in program: 
        t = n['type']
        if t == 'identity': continue 
        if t not in vocab: 
            print(t)
            pdb.set_trace()
            #else:
            #    t = new_nodes[t]
        sentence.append(vocab[t])
        if 'side_inputs' in n:
            if len(n['side_inputs'])!=1: 
                assert type(n['side_inputs']) == str
                words = n['side_inputs']
            else:
                words = n['side_inputs'][0]
            words = nltk.word_tokenize(words)
            for word in words:
                if word in vocab:
                    sentence.append(vocab[word]) 
                else:
                    sentence.append(vocab['<unk>'])
    #if len(sentence)==0:
    #    pdb.set_trace()
    #    sentence=np.asarray([vocab['<eop>']])
    return np.asarray(sentence, dtype=np.int32)
 def state2ids_dot(state, dot_vocab, max_dot_size=10):
    ordered_attrs = ['<Z>', '<C>', '<M>', '<S>']
    ids = {}
    for a in ordered_attrs:
        ids[a] = []
        for o in range(max_dot_size):
            ids[a].append(dot_vocab[a]['<blank>'])
    if len(state)==0:
        return ids
    sorted_state = {k: v for k, v in sorted(state.items(), key=lambda item: item[1]['original_turn'])}
    state_idx = 0 
    for k,v in sorted_state.items():
        for a in ordered_attrs: 
            if a in v:
                ids[a][state_idx] = dot_vocab[a][v[a]]
        state_idx += 1 
    ids = {k:np.asarray(v, dtype=np.int32) for k,v in ids.items()}
    return ids 
 def state2ids(state, vocab):
    return np.asarray([], dtype=np.int32)
    if len(state)==0:
        return np.asarray([vocab['<eoo>']], dtype=np.int32)
    sentence = []
    ordered_attrs = ['<Z>', '<C>', '<M>', '<S>']
    #print(state)
    sorted_state = {k: v for k, v in sorted(state.items(), key=lambda item: item[1]['original_turn'])}
    for k,v in sorted_state.items():
        found_obj = False
        for a in ordered_attrs:
            if a in v:
                sentence.append(vocab[v[a]])
                found_obj = True
        if found_obj: 
            sentence.append(vocab['<eoo>'])
    if len(sentence)==0:
        return np.asarray([vocab['<eoo>']], dtype=np.int32)
    return np.asarray(sentence, dtype=np.int32)
 def get_vft_size_by_timestamp(time, segment_map, event_type='end', threshold=5):
    if time is None: 
        if event_type == 'end':
            return len(segment_map)-1
        else:
            return 0
    if event_type == 'end':
        segment_idx = -1
        for idx in range(len(segment_map)):
            segment_range = segment_map[idx]
            if segment_range[1]>time[-1]:
                segment_idx = idx-1
                break
        if segment_idx == -1:
            segment_idx = 0 
        return segment_idx
    else:
        segment_idx = -1
        for idx in range(len(segment_map)):
            segment_range = segment_map[idx]
            if segment_range[0]>=time[-1]:
                segment_idx = idx
                break
        if segment_idx == -1:
            segment_idx = len(segment_map)-1
        return segment_idx
 def get_vft_range_by_period(period, segment_map, eov):
    if period is None:
        return (0, eov)
    else:
        start_time, end_time = period
        start_vft = get_vft_size_by_timestamp(start_time, segment_map, 'start')
        end_vft = get_vft_size_by_timestamp(end_time, segment_map, 'end')
        if start_vft > end_vft:
            start_vft, end_vft = end_vft, start_vft
        return (start_vft, end_vft)
--- a/src/utils/dvd_codebase/data/dataset.py
+++ b/src/utils/dvd_codebase/data/dataset.py
@ -0,0 +1,255 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 import copy
 import logging
 import sys
 import time
 import os
 import six
 import pickle
 import json
 import numpy as np
 import pdb 
 from tqdm import tqdm
 import torch 
 import torch.utils.data as Data
 from torch.autograd import Variable
 from src.utils.dvd_codebase.data.data_utils import *
 class Dataset(Data.Dataset):
    def __init__(self, data_info):
        self.vid_split = data_info['vid_split']
        self.vid = data_info['vid']
        self.qa_id = data_info['qa_id']
        self.history = data_info['history']
        self.question = data_info['question']
        self.answer = data_info['answer']
        self.turns = data_info['turns']
        self.q_turns = data_info['q_turns']
        self.a_turns = data_info['a_turns']
        self.vft = data_info['vft']
        self.gt_period = data_info['gt_period']
        self.program = data_info['program']
        self.state = data_info['state']
        self.q_type = data_info['q_type']
        self.attribute_dependency = data_info['attribute_dependency']
        self.object_dependency = data_info['object_dependency']
        self.temporal_dependency = data_info['temporal_dependency']
        self.spatial_dependency = data_info['spatial_dependency']
        self.video_name = data_info['video_name']
        self.q_complexity = data_info['q_complexity']
    def __getitem__(self, index):
        item_info = {
            'vid_split': self.vid_split[index],
            'vid':self.vid[index], 
            'qa_id': self.qa_id[index],
            'history': self.history[index],
            'turns': self.turns[index],
            'q_turns': self.q_turns[index],
            'a_turns': self.a_turns[index],
            'question': self.question[index],
            'answer': self.answer[index],
            'vft': self.vft[index],
            'gt_period': self.gt_period[index],
            'program': self.program[index],
            'state': self.state[index],
            'q_type': self.q_type[index],
            'attribute_dependency': self.attribute_dependency[index],
            'object_dependency': self.object_dependency[index],
            'temporal_dependency': self.temporal_dependency[index],
            'spatial_dependency': self.spatial_dependency[index],
            'video_name': self.video_name[index],
            'q_complexity': self.q_complexity[index]
            }
        return item_info
    def __len__(self):
        return len(self.vid)
 class Batch:
    def __init__(self, vft, his, query, his_query, turns,
                 q_turns, a_turns, 
                 answer, vid_splits, vids, qa_ids, 
                 query_lens, his_lens, his_query_lens, 
                 dial_lens, turn_lens,
                 program, program_lens, state, state_lens,
                 vocab, q_type, attribute_dependency, object_dependency,
                 temporal_dependency, spatial_dependency, video_name, q_complexity):
        self.vid_splits = vid_splits
        self.vids = vids
        self.qa_ids = qa_ids
        self.size = len(self.vids)
        self.query = query
        self.query_lens = query_lens
        self.his = his
        self.his_lens = his_lens
        self.his_query = his_query
        self.his_query_lens = his_query_lens
        self.answer = answer
        self.vft = vft
        self.turns = turns 
        self.q_turns = q_turns
        self.a_turns = a_turns
        self.dial_lens = dial_lens
        self.turn_lens = turn_lens 
        self.q_type = q_type
        self.attribute_dependency = attribute_dependency
        self.object_dependency = object_dependency
        self.temporal_dependency = temporal_dependency
        self.spatial_dependency = spatial_dependency
        self.video_name = video_name
        self.q_complexity = q_complexity
        pad = vocab['<blank>']
        self.his_query_mask = (his_query != pad).unsqueeze(-2)
        self.query_mask = (query != pad)
        self.his_mask  = (his != pad).unsqueeze(-2)
        self.q_turns_mask = (q_turns != pad)
        self.turns_mask = (turns != pad)
        self.program = program
        self.program_lens = program_lens
        self.state = state
        self.state_lens = state_lens
    @staticmethod
    def make_std_mask(tgt, pad):
        tgt_mask = (tgt != pad).unsqueeze(-2)
        tgt_mask = tgt_mask & Variable(subsequent_mask(tgt.size(-1)).type_as(tgt_mask.data))
        return tgt_mask    
    def move_to_cuda(self):
        self.query = self.query.to('cuda', non_blocking=True)
        self.his = self.his.to('cuda', non_blocking=True)
        self.his_query = self.his_query.to('cuda', non_blocking=True)
        self.query_mask = self.query_mask.to('cuda', non_blocking=True)
        self.his_mask = self.his_mask.to('cuda', non_blocking=True)
        self.his_query_mask = self.his_query_mask.to('cuda', non_blocking=True)
        self.answer = self.answer.to('cuda', non_blocking=True)
        self.vft = self.vft.to('cuda', non_blocking=True) 
        self.turns = self.turns.to('cuda', non_blocking=True)
        self.turns_mask = self.turns_mask.to('cuda', non_blocking=True)
        self.q_turns = self.q_turns.to('cuda', non_blocking=True)
        self.q_turns_mask = self.q_turns_mask.to('cuda', non_blocking=True)
        self.a_turns = self.a_turns.to('cuda', non_blocking=True)
        self.program = self.program.to('cuda', non_blocking=True)
        self.state = self.state.to('cuda', non_blocking=True)            
    def to_cuda(self, tensor):
        return tensor.cuda()
 def collate_fn(data, vocab):
    def pad_monet_videos(seqs, pad_token):
        lengths = [s.shape[0] for s in seqs]
        max_length = max(lengths)
        output = []
        for seq in seqs:
            result = torch.ones((max_length, seq.shape[1], seq.shape[2])) * pad_token
            result[:seq.shape[0]] = seq 
            output.append(result)
        return output
    def pad_seq(seqs, pad_token, return_lens=False, is_vft=False):
        lengths = [s.shape[0] for s in seqs]
        max_length = max(lengths)
        output = []
        for seq in seqs:
            if is_vft:
                if len(seq.shape)==4: # spatio-temporal feature
                    result = np.ones((max_length, seq.shape[1], seq.shape[2], seq.shape[3]), dtype=seq.dtype)*pad_token
                else:
                    result = np.ones((max_length, seq.shape[-1]), dtype=seq.dtype)*pad_token
            else:
                result = np.ones(max_length, dtype=seq.dtype)*pad_token
            result[:seq.shape[0]] = seq 
            output.append(result)
        if return_lens:
            return lengths, output
        return output 
    def pad_2d_seq(seqs, pad_token, return_lens=False, is_vft=False):
        lens1 = [len(s) for s in seqs]
        max_len1 = max(lens1)
        all_seqs = []
        for seq in seqs:
            all_seqs.extend(seq)
        lens2 = [len(s) for s in all_seqs]
        max_len2 = max(lens2)
        output = []
        all_lens = []
        for seq in seqs:
            if is_vft:
                result = np.ones((max_len1, max_len2, seq[0].shape[-1]))*pad_token
            else:
                result = np.ones((max_len1, max_len2))*pad_token
            turn_lens = np.ones(max_len1).astype(int)
            offset = max_len1 - len(seq) 
            for turn_idx, turn in enumerate(seq):
                #result[turn_idx,:turn.shape[0]] = turn
                # padding should be at the first turn idxs (Reason: result of last n turns is used for state creation)
                result[turn_idx + offset,:turn.shape[0]] = turn
                turn_lens[turn_idx] = turn.shape[0]
            output.append(result)
            all_lens.append(turn_lens)
        all_lens = np.asarray(all_lens)
        if return_lens:
            return lens1, all_lens, output
        return output
    def prepare_data(seqs, is_float=False):
        if is_float:
            return torch.from_numpy(np.asarray(seqs)).float()
        return torch.from_numpy(np.asarray(seqs)).long()
    item_info = {}
    for key in data[0].keys():
        item_info[key] = [d[key] for d in data]   
    pad_token = vocab['<blank>']
    h_lens, h_padded = pad_seq(item_info['history'], pad_token, return_lens=True)
    h_batch = prepare_data(h_padded)
    q_lens, q_padded = pad_seq(item_info['question'], pad_token, return_lens=True)
    q_batch = prepare_data(q_padded)
    hq = [np.concatenate([q,h]) for q,h in zip(item_info['history'], item_info['question'])]
    hq_lens, hq_padded = pad_seq(hq, pad_token, return_lens=True)
    hq_batch = prepare_data(hq_padded) 
    dial_lens, turn_lens, turns_padded = pad_2d_seq(item_info['turns'], pad_token, return_lens=True)
    _, _, q_turns_padded = pad_2d_seq(item_info['q_turns'], pad_token, return_lens=True)
    turns_batch = prepare_data(turns_padded)
    q_turns_batch = prepare_data(q_turns_padded)
    a_turns_padded = pad_2d_seq(item_info['a_turns'], pad_token)
    a_turns_batch = prepare_data(a_turns_padded)
    a_batch = prepare_data(item_info['answer'])
    #vft_lens, vft_padded = pad_seq(item_info['vft'], 0, return_lens=True, is_vft=True)        
    #vft_batch = prepare_data(vft_padded, is_float=True)
    vft_batch = item_info['vft']
    vft_batch_padded = pad_monet_videos(vft_batch, 0)
    vft_batch_padded = torch.stack(vft_batch_padded)
    p_lens, p_padded = pad_seq(item_info['program'], pad_token, return_lens=True)
    p_batch = prepare_data(p_padded)
    s_lens, s_padded = pad_seq(item_info['state'], pad_token, return_lens=True)
    s_batch = prepare_data(s_padded)
    batch = Batch(vft_batch_padded,  
                  h_batch, q_batch, hq_batch, turns_batch, q_turns_batch, a_turns_batch, a_batch, 
                  item_info['vid_split'], item_info['vid'], item_info['qa_id'], 
                  q_lens, h_lens, hq_lens,
                  dial_lens, turn_lens,
                  p_batch, p_lens, s_batch, s_lens,
                  vocab, item_info['q_type'], item_info['attribute_dependency'], item_info['object_dependency'],
                  item_info['temporal_dependency'], item_info['spatial_dependency'], item_info['video_name'],
                  item_info['q_complexity'])
    return batch
--- a/src/utils/dvd_codebase/exps_test/baseline/dvd.conf
+++ b/src/utils/dvd_codebase/exps_test/baseline/dvd.conf
--- a/src/utils/dvd_codebase/exps_test/baseline/dvd_params.txt
+++ b/src/utils/dvd_codebase/exps_test/baseline/dvd_params.txt
@ -0,0 +1,9 @@
 debug=1
 fea_dir=/workspace/hungle/data/dvd/video-classification-3d-cnn-pytorch/outputs/resnext_101/
 data_dir=/workspace/hungle/cater-dialog/question_generation/output/
 output_dir=exps_test//baseline/dvd
 num_workers=0
 device=0
 num_epochs=3
 batch_size=32
 verbose=0
--- a/src/utils/dvd_codebase/main.py
+++ b/src/utils/dvd_codebase/main.py
@ -0,0 +1,86 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 #!/usr/bin/env python
 import math
 import sys
 import time
 import os
 import json
 import numpy as np
 import pickle as pkl
 import threading
 import pdb 
 from tqdm import tqdm 
 import torch
 import torch.nn as nn
 from project.dvd_codebase.configs.configs import *
 import project.dvd_codebase.data.data_handler as dh
 def run_epoch(loader, epoch):
    it = tqdm(enumerate(loader),total=len(loader), desc="epoch {}/{}".format(epoch+1, args.num_epochs), ncols=0)
    for j, batch in it:  
        batch.move_to_cuda()
        pdb.set_trace()
 # load dialogues 
 logging.info('Loading dialogues from {}'.format(args.data_dir))
 train_dials, train_vids = dh.load_dials(args, 'train')
 logging.info('#train dials = {} # train videos = {}'.format(len(train_dials), len(train_vids)))
 val_dials, val_vids = dh.load_dials(args, 'val') 
 logging.info('#val dials = {} # val videos = {}'.format(len(val_dials), len(val_vids)))
 # load video features 
 logging.info('Loading video features from {}'.format(args.fea_dir))
 train_vft, vft_dims, clip_size, clip_stride, segment_map = dh.load_videos(args, train_vids)
 val_vft, _, _, _, _ = dh.load_videos(args, val_vids)
 logging.info('#video ft dims = {} clip size {} clip stride {}'.format(vft_dims, clip_size, clip_stride))
 # get vocabulary
 logging.info('Extracting vocabulary')
 vocab, answer_list = dh.get_vocabulary(train_dials, args)
 logging.info('#vocab = {} #answer candidates = {}'.
        format(len(vocab), len(answer_list)))
 logging.info('All answer candidates: {}'.format(answer_list))
 unk_words = dh.get_vocabulary(val_dials, args, vocab=vocab)
 logging.info('{} unknown words in val split: {}'.format(len(unk_words), unk_words))
 # question-answer distribution 
 qa_dist = dh.answer_by_question_type(train_dials)
 # save meta parameters
 path = args.output_dir + '.conf'
 with open(path, 'wb') as f:
    pkl.dump((vocab, answer_list, qa_dist, args), f, -1)
 path2 = args.output_dir + '_params.txt'
 with open(path2, "w") as f: 
    for arg in vars(args):
        f.write("{}={}\n".format(arg, getattr(args, arg)))
 # load data
 logging.info('Creating training instances')
 train_dials = dh.create_dials(train_dials, vocab, answer_list, segment_map, train_vft, args)
 logging.info('Creating validation instances')
 valid_dials = dh.create_dials(val_dials, vocab, answer_list, segment_map, val_vft, args)
 # make dataloaders 
 train_dataloader, train_samples = dh.create_dataset(train_dials, vocab, 'train', args)
 logging.info('#train sample = {} # train batch = {}'.format(train_samples, len(train_dataloader)))
 valid_dataloader, valid_samples = dh.create_dataset(valid_dials, vocab, 'val', args)
 logging.info('#train sample = {} # train batch = {}'.format(valid_samples, len(valid_dataloader)))
 epoch_counts = 0
 for epoch in range(args.num_epochs):
    # train on training data 
    logging.info('-------training--------')
    train_losses = run_epoch(train_dataloader, epoch)
    # test on validation data 
    logging.info('-------validation--------')
    valid_losses = run_epoch(valid_dataloader, epoch)
--- a/src/utils/dvd_codebase/run.sh
+++ b/src/utils/dvd_codebase/run.sh
@ -0,0 +1,43 @@
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the
 LICENSE file in the root directory of this source tree.
 """
 #input choices
 device=$1
 debug=$2                # true: test run with small datasets OR false: run with real datasets 
 num_epochs=50
 batch_size=32
 nb_workers=16
 # data setting 
 data_dir=/workspace/hungle/cater-dialog/question_generation/output/
 fea_dir=/workspace/hungle/data/dvd/video-classification-3d-cnn-pytorch/outputs/resnext_101/
 # output folder name
 expid=baseline
 if [ $debug = 1 ]; then 
    expdir=exps_test/$task/${expid}
    num_epochs=3
    nb_workers=0
    report_interval=10
 else
    expdir=exps/$task/${expid}                                          
 fi
 echo stage: $stage debug? $debug task: $task exp_dir: $expdir
 # training phase
 mkdir -p $expdir
 CUDA_VISIBLE_DEVICES=$device python main.py \
      --debug $debug \
      --fea-dir $fea_dir \
      --data-dir $data_dir \
      --output-dir $expdir/dvd \
      --num-epochs $num_epochs \
      --batch-size $batch_size \
      --num-workers $nb_workers \
--- a/src/utils/positional_encoding.py
+++ b/src/utils/positional_encoding.py
@ -0,0 +1,27 @@
 # https://github.com/pytorch/pytorch/issues/68407
 from torch import nn
 from torch import Tensor
 import torch
 import math
 class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_parameter('pe', nn.Parameter(pe, requires_grad=False))
    def forward(self, x):
        # positional encoding expects shape (seq_len, batch_size, emb_dim), (batch_size, seq_len, emb_dim) is given
        x = x.permute(1,0,2)
        x = x + self.pe[:x.size(0), :]
        x = x.permute(1,0,2)
        return self.dropout(x)
--- a/src/utils/save_attention_weights.py
+++ b/src/utils/save_attention_weights.py
@ -0,0 +1,8 @@
 #https://gist.github.com/airalcorn2/50ec06517ce96ecc143503e21fa6cb91
 class SaveOutput:
    def __init__(self):
        self.outputs = None
    def __call__(self, module, module_in, module_out):
        self.outputs = module_out
--- a/src/utils/simmc2_dataset/dataloader_dvd_model.py
+++ b/src/utils/simmc2_dataset/dataloader_dvd_model.py
@ -0,0 +1,233 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Dataloader for ambiguous candidates identification task on SIMMC 2.1.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import json
 import numpy as np
 import torch
 from torch.utils.data import Dataset
 from torch.nn.utils.rnn import pad_sequence
 def pad_seq(seqs, pad_token, return_lens=False, is_vft=False):
    lengths = [s.shape[1] for s in seqs]
    max_length = max(lengths)
    output = []
    for seq in seqs:
        if is_vft:
            if len(seq.shape)==4: # spatio-temporal feature
                result = torch.ones(((1, max_length), seq.shape[1], seq.shape[2], seq.shape[3]), dtype=seq.dtype)*pad_token
            else:
                result = torch.ones(((1, max_length), seq.shape[-1]), dtype=seq.dtype)*pad_token
        else:
            result = torch.ones((1, max_length), dtype=seq.dtype)*pad_token
        result[0, :seq.shape[1]] = seq 
        output.append(result)
    if return_lens:
        return lengths, output
    return output 
 def pad_2d_seq(seqs, pad_token, return_lens=False, is_vft=False):
    lens1 = [len(s) for s in seqs]
    max_len1 = max(lens1)
    all_seqs = []
    for seq in seqs:
        all_seqs.extend(seq)
    lens2 = [s.shape[1] for s in all_seqs]
    max_len2 = max(lens2)
    output = []
    all_lens = []
    for seq in seqs:
        if is_vft:
            result = torch.ones((max_len1, max_len2, seq[0].shape[-1]))*pad_token
        else:
            result = torch.ones((1, max_len1, max_len2))*pad_token
        #turn_lens = torch.ones(max_len1, dtype=np.int)
        offset = max_len1 - len(seq) 
        for turn_idx, turn in enumerate(seq):
            #result[turn_idx,:turn.shape[0]] = turn
            # padding should be at the first turn idxs (Reason: result of last n turns is used for state creation)
            result[0, turn_idx + offset,:turn.shape[1]] = turn
            #turn_lens[turn_idx] = turn.shape[0]
        output.append(result)
    return output
 class Simmc2Dataset(Dataset):
    def __init__(self, tokenizer, feature_loader, load_path, args, hidden_labels=False):
        self._tokenizer = tokenizer
        self._features = feature_loader
        self._args = args
        self._hidden_labels = hidden_labels
        print("Loading: {}".format(load_path))
        with open(load_path, "r") as file_id:
            self._raw_data = json.load(file_id)
        # Also read the source data for evaluation.
        with open(self._raw_data["source_path"], "r") as file_id:
            self.source_data = json.load(file_id)
        self._data = self._raw_data["data"]
        self.num_utterances = 2 * args.max_turns + 1
        self.num_instances = len(self._data)
        self.device = torch.cuda if args.use_gpu else torch
    def get_random_batch(self, batch_size):
        indices = np.random.randint(0, self.num_instances, batch_size)
        return self.get_indexed_data(indices)
    def get_entire_batch(self, batch_size):
        all_indices = np.arange(self.num_instances)
        for start in all_indices[::batch_size]:
            batch_indices = all_indices[start : start + batch_size]
            yield self.get_indexed_data(batch_indices)
    def __len__(self):
        return len(self._data)
    def collate_fn(self, batch):
        merged_batch = {key: [d[key] for d in batch] for key in batch[0]}
        out = {}
        for key in merged_batch:
            if key in ['query', 'answer']:
                seq = pad_seq(merged_batch[key], pad_token=1)
                out[key] = torch.concat(seq, dim=0)
            elif key in ['q_turns', 'a_turns', 'turns', 'object_features', 'answer_candidates']:
                if merged_batch[key][0] is not None:
                    seq = pad_2d_seq(merged_batch[key], pad_token=1)
                    out[key] = torch.concat(seq, dim=0).type(torch.int)
                else:
                    out[key] = None
            elif key in ['features']:
                #features = [f.unsqueeze(1) for f in merged_batch[key]]
                # pad video featues
                features = pad_sequence(merged_batch[key], batch_first=True)
                out[key] = features
            else:
                out[key] = merged_batch[key]
        return out
    def encode_turns(self, turns):
        encoded_turns = []
        for turn in turns:
            encoded_turn = self._tokenizer(
                turn,
                padding=True,
                max_length=self._args.max_length,
                return_tensors="pt",
                truncation=True,
            )
            encoded_turns.append(encoded_turn['input_ids'].type(torch.int))
        return encoded_turns
    def __getitem__(self, index):
        text_labels = []
        text_inputs = []
        dialog_ids = []
        turn_ids = []
        features = []
        object_maps = []
        # Add <USER> and <SYS> tokens.
        dialog_datum = self._data[index]
        #dialog = self._data[index]["input_text"]
        query = self._data[index]["query"]
        answer = self._data[index]["answer"]
        turns = self._data[index]["turns"]
        q_turns = self._data[index]["q_turns"]
        a_turns = self._data[index]["a_turns"]
        object_features = self._data[index]["object_metadata"]
        if "answer_candidates" in self._data[index].keys():
            answer_candidates = self._data[index]["answer_candidates"]
        else:
            answer_candidates = None
        if self._features:
            feature = self._features[dialog_datum["image_name"]]
        encoded_query = self._tokenizer(
            query,
            padding=True,
            max_length=self._args.max_length,
            return_tensors="pt",
            truncation=True,
        )['input_ids'].type(torch.int)
        encoded_answer = self._tokenizer(
            answer,
            padding=True,
            max_length=self._args.max_length,
            return_tensors="pt",
            truncation=True,
        )['input_ids'].type(torch.int)
        encoded_q_turns = self.encode_turns(q_turns)
        encoded_a_turns = self.encode_turns(a_turns)
        encoded_turns = self.encode_turns(turns)
        encoded_object_features = self.encode_turns(object_features)
        if "answer_candidates" in self._data[index].keys():
            encoded_answer_candidates = self.encode_turns(answer_candidates)
        else:
            encoded_answer_candidates = None
        # Pack the sample.
        sample = {
            "query": encoded_query,
            "answer": encoded_answer,
            "answer_candidates": encoded_answer_candidates,
            "turns": encoded_turns,
            "q_turns": encoded_q_turns,
            "a_turns": encoded_a_turns,
            "object_features": encoded_object_features,
            "dialog_id": dialog_datum["dialog_id"],
            "turn_id": dialog_datum["turn_id"],
            "features": feature,
        }
        return sample
 class VisualFeatureLoader:
    """Loads visual features for SIMMC 2.1 ambiguous candidate identification."""
    UNAVAILABLE_IMAGES = [
        "cloth_store_1416238_woman_20_6.png",
        "cloth_store_1416238_woman_19_0.png",
        "cloth_store_1416238_woman_4_8.png",
    ]
    def __init__(self, feature_path, feature_size):
        """Read the features from the path."""
        self._features = torch.load(feature_path)
        self._feature_size = feature_size
        self._zero_feature = torch.zeros((1, self._feature_size), dtype=torch.float)
    def __getitem__(self, label):
        """Get the feature given image label."""
        assert (
            label in self._features or label in self.UNAVAILABLE_IMAGES
        ), f"{label} not found!"
        if label in self.UNAVAILABLE_IMAGES:
            return self._zero_feature
        return self._features[label]
    def cuda(self):
        """Move the features to cuda."""
        self._zero_feature = self._zero_feature.cuda()
        for key, val in self._features.items():
            self._features[key] = val.cuda()
--- a/src/utils/simmc2_dataset/dataloader_finetune_mlm.py
+++ b/src/utils/simmc2_dataset/dataloader_finetune_mlm.py
--- a/src/utils/simmc2_dataset/dataloader_mlm_nsp.py
+++ b/src/utils/simmc2_dataset/dataloader_mlm_nsp.py
@ -0,0 +1,277 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Dataloader for ambiguous candidates identification task on SIMMC 2.1.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import json
 import numpy as np
 import torch
 from torch.utils.data import Dataset
 from torch.nn.utils.rnn import pad_sequence
 from random import shuffle
 from random import random as rand
 #from src.utils.vd_bert.loader_utils import get_random_word
 def pad_seq(seqs, pad_token, return_lens=False, is_vft=False):
    lengths = [s.shape[1] for s in seqs]
    max_length = max(lengths)
    output = []
    for seq in seqs:
        if is_vft:
            if len(seq.shape)==4: # spatio-temporal feature
                result = torch.ones(((1, max_length), seq.shape[1], seq.shape[2], seq.shape[3]), dtype=seq.dtype)*pad_token
            else:
                result = torch.ones(((1, max_length), seq.shape[-1]), dtype=seq.dtype)*pad_token
        else:
            result = torch.ones((1, max_length), dtype=seq.dtype)*pad_token
        result[0, :seq.shape[1]] = seq 
        output.append(result)
    if return_lens:
        return lengths, output
    return output 
 def pad_2d_seq(seqs, pad_token, return_lens=False, is_vft=False):
    lens1 = [len(s) for s in seqs]
    max_len1 = max(lens1)
    all_seqs = []
    for seq in seqs:
        all_seqs.extend(seq)
    lens2 = [s.shape[1] for s in all_seqs]
    max_len2 = max(lens2)
    output = []
    all_lens = []
    for seq in seqs:
        if is_vft:
            result = torch.ones((max_len1, max_len2, seq[0].shape[-1]))*pad_token
        else:
            result = torch.ones((1, max_len1, max_len2))*pad_token
        #turn_lens = torch.ones(max_len1, dtype=np.int)
        offset = max_len1 - len(seq) 
        for turn_idx, turn in enumerate(seq):
            #result[turn_idx,:turn.shape[0]] = turn
            # padding should be at the first turn idxs (Reason: result of last n turns is used for state creation)
            result[0, turn_idx + offset,:turn.shape[1]] = turn
            #turn_lens[turn_idx] = turn.shape[0]
        output.append(result)
    return output
 class Simmc2DatasetMlmNsp(Dataset):
    def __init__(self, tokenizer, feature_loader, load_path, args, hidden_labels=False):
        self._tokenizer = tokenizer
        self._features = feature_loader
        self._args = args
        self._hidden_labels = hidden_labels
        print("Loading: {}".format(load_path))
        with open(load_path, "r") as file_id:
            self._raw_data = json.load(file_id)
        # Also read the source data for evaluation.
        with open(self._raw_data["source_path"], "r") as file_id:
            self.source_data = json.load(file_id)
        self._data = self._raw_data["data"]
        self.num_utterances = 2 * args.max_turns + 1
        self.num_instances = len(self._data)
        self.device = torch.cuda if args.use_gpu else torch
    def conduct_mask(self, tokens, effective_length, start_id, end_id):
        # taken from https://github.com/salesforce/VD-BERT
        # For masked Language Models
        cand_pos = []
        special_pos = set()
        n_pred = min(self._args.max_n_masked, max(
            1, int(round(effective_length * self._args.p_mask))))
        # candidate positions of masked tokens
        for i, tk in enumerate(tokens):
            # only mask tokens_b (target sequence)
            # we will mask [SEP] as an ending symbol
            if (i >= start_id) and (tk != '[CLS]') and (tk != '[PAD]') and (i < end_id):
                cand_pos.append(i)
            else:
                special_pos.add(i)
        shuffle(cand_pos)
        masked_pos = cand_pos[:n_pred]
        masked_tokens = [tokens[pos] for pos in masked_pos]
        for pos in masked_pos:
            if self._args.finetune:
                tokens[pos] = '[MASK]'
                continue
            if rand() < 0.8:  # 80%
                tokens[pos] = '[MASK]'
            #elif rand() < 0.5:  # 10%
            #    tokens[pos] = get_random_word(self.vocab_words)
        # when n_pred < max_pred, we only calculate loss within n_pred
        masked_weights = [1] * len(masked_tokens)
        # Token Indexing
        input_ids = self._tokenizer.convert_tokens_to_ids(tokens)
        masked_ids = self._tokenizer.convert_tokens_to_ids(masked_tokens)
        if self._args.max_n_masked > n_pred:
            n_pad = self._args.max_n_masked - n_pred
            masked_ids.extend([0] * n_pad)
            masked_pos.extend([0] * n_pad)
            masked_weights.extend([0] * n_pad)
        assert len(masked_ids) == len(masked_pos) == len(masked_weights) == self._args.max_n_masked, \
            "[masked] id: %d, pos: %d, weights: %d" % (len(masked_ids), len(masked_pos), len(masked_weights))
        return input_ids, masked_ids, masked_pos, masked_weights
    def get_random_batch(self, batch_size):
        indices = np.random.randint(0, self.num_instances, batch_size)
        return self.get_indexed_data(indices)
    def get_entire_batch(self, batch_size):
        all_indices = np.arange(self.num_instances)
        for start in all_indices[::batch_size]:
            batch_indices = all_indices[start : start + batch_size]
            yield self.get_indexed_data(batch_indices)
    def __len__(self):
        return len(self._data)
    def collate_fn(self, batch):
        merged_batch = {key: [d[key] for d in batch] for key in batch[0]}
        out = {}
        for key in merged_batch:
            if key in ['qa_pair', 'q_len', 'q_turns_len', 'masked_pos', 'mask_labels', 'next_sentence_label', 'masked_weights']:
                seq = pad_seq(merged_batch[key], pad_token=1)
                out[key] = torch.concat(seq, dim=0)
            elif key in ['qa_turns']:
                if merged_batch[key][0] is not None:
                    seq = pad_2d_seq(merged_batch[key], pad_token=1)
                    out[key] = torch.concat(seq, dim=0).type(torch.int)
                else:
                    out[key] = None
            elif key in ['features']:
                #features = [f.unsqueeze(1) for f in merged_batch[key]]
                # pad video featues
                features = pad_sequence(merged_batch[key], batch_first=True)
                out[key] = features
            else:
                out[key] = merged_batch[key]
        return out
    def encode_turns(self, turns):
        encoded_turns = []
        for turn in turns:
            encoded_turn = self._tokenizer(
                turn,
                padding=True,
                max_length=self._args.max_length,
                return_tensors="pt",
                truncation=True,
            )
            # without cls and sep token 
            encoded_turns.append(encoded_turn['input_ids'][:, 1:-1].type(torch.int))
        return encoded_turns
    def __getitem__(self, index):
        dialog_datum = self._data[index]
        qa_pair = self._data[index]["qa_pair"]
        qa_turns = self._data[index]["qa_turns"]
        q_turns = self._data[index]["q_turns"]
        next_sentence_label = self._data[index]["next_sentence_label"]
        if self._features:
            feature = self._features[dialog_datum["image_name"]]
        # mask the qa_pair
        qa_pair_as_tokens = self._tokenizer.tokenize(qa_pair[0])
        if next_sentence_label[0] == 0:
            end_id = qa_pair_as_tokens.index('[SEP_1]')
            effective_length = end_id + 1
            start_id = 0
        else:
            end_id = len(qa_pair_as_tokens) - 1
            effective_length = len(qa_pair_as_tokens)
            start_id = 0
        if self._args.only_mask_ans:
            effective_length = len(qa_pair_as_tokens) - qa_pair_as_tokens.index('[SEP_1]')
            start_id = qa_pair_as_tokens.index('[SEP_1]')
        # get length of current and prv questions
        q_len = [qa_pair_as_tokens.index('[SEP_1]')]
        q_turns_len = [len(self._tokenizer.tokenize(q[0])) for q in q_turns]
        qa_pair_ids, masked_ids, masked_pos, masked_weights = self.conduct_mask(
            tokens=qa_pair_as_tokens,
            effective_length=effective_length,
            start_id = start_id,
            end_id=end_id
        )
        qa_turns_ids = self.encode_turns(qa_turns)
        # Pack the sample.
        sample = {
            "qa_pair": torch.tensor(qa_pair_ids).unsqueeze(0),
            "qa_turns": qa_turns_ids,
            "features": feature,
            "q_len": torch.tensor(q_len).unsqueeze(0),
            "q_turns_len": torch.tensor(q_turns_len).unsqueeze(0),
            "masked_pos": torch.tensor(masked_pos).unsqueeze(0),
            "mask_labels": torch.tensor(masked_ids).unsqueeze(0),
            "masked_weights": torch.tensor(masked_weights).unsqueeze(0),
            "next_sentence_label": torch.tensor(next_sentence_label).unsqueeze(0)
        }
        return sample
 class VisualFeatureLoader:
    """Loads visual features for SIMMC 2.1 ambiguous candidate identification."""
    UNAVAILABLE_IMAGES = [
        "cloth_store_1416238_woman_20_6.png",
        "cloth_store_1416238_woman_19_0.png",
        "cloth_store_1416238_woman_4_8.png",
    ]
    def __init__(self, feature_path, feature_size):
        """Read the features from the path."""
        self._features = torch.load(feature_path)
        self._feature_size = feature_size
        self._zero_feature = torch.zeros((1, self._feature_size), dtype=torch.float)
    def __getitem__(self, label):
        """Get the feature given image label."""
        assert (
            label in self._features or label in self.UNAVAILABLE_IMAGES
        ), f"{label} not found!"
        if label in self.UNAVAILABLE_IMAGES:
            return self._zero_feature
        return self._features[label]
    def cuda(self):
        """Move the features to cuda."""
        self._zero_feature = self._zero_feature.cuda()
        for key, val in self._features.items():
            self._features[key] = val.cuda()
--- a/src/utils/simmc2_dataset/dataloader_test_gen.py
+++ b/src/utils/simmc2_dataset/dataloader_test_gen.py
@ -0,0 +1,253 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Dataloader for ambiguous candidates identification task on SIMMC 2.1.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import json
 import numpy as np
 import torch
 from torch.utils.data import Dataset
 from torch.nn.utils.rnn import pad_sequence
 from random import shuffle
 from random import random as rand
 #from src.utils.vd_bert.loader_utils import get_random_word
 def pad_seq(seqs, pad_token, return_lens=False, is_vft=False):
    lengths = [s.shape[1] for s in seqs]
    max_length = max(lengths)
    output = []
    for seq in seqs:
        if is_vft:
            if len(seq.shape)==4: # spatio-temporal feature
                result = torch.ones(((1, max_length), seq.shape[1], seq.shape[2], seq.shape[3]), dtype=seq.dtype)*pad_token
            else:
                result = torch.ones(((1, max_length), seq.shape[-1]), dtype=seq.dtype)*pad_token
        else:
            result = torch.ones((1, max_length), dtype=seq.dtype)*pad_token
        result[0, :seq.shape[1]] = seq 
        output.append(result)
    if return_lens:
        return lengths, output
    return output 
 def pad_2d_seq(seqs, pad_token, return_lens=False, is_vft=False):
    lens1 = [len(s) for s in seqs]
    max_len1 = max(lens1)
    all_seqs = []
    for seq in seqs:
        all_seqs.extend(seq)
    lens2 = [s.shape[1] for s in all_seqs]
    max_len2 = max(lens2)
    output = []
    all_lens = []
    for seq in seqs:
        if is_vft:
            result = torch.ones((max_len1, max_len2, seq[0].shape[-1]))*pad_token
        else:
            result = torch.ones((1, max_len1, max_len2))*pad_token
        #turn_lens = torch.ones(max_len1, dtype=np.int)
        offset = max_len1 - len(seq) 
        for turn_idx, turn in enumerate(seq):
            #result[turn_idx,:turn.shape[0]] = turn
            # padding should be at the first turn idxs (Reason: result of last n turns is used for state creation)
            result[0, turn_idx + offset,:turn.shape[1]] = turn
            #turn_lens[turn_idx] = turn.shape[0]
        output.append(result)
    return output
 class Simmc2DatasetTest(Dataset):
    def __init__(self, tokenizer, feature_loader, load_path, args, hidden_labels=False):
        self._tokenizer = tokenizer
        self._features = feature_loader
        self._args = args
        self._hidden_labels = hidden_labels
        print("Loading: {}".format(load_path))
        with open(load_path, "r") as file_id:
            self._raw_data = json.load(file_id)
        # Also read the source data for evaluation.
        with open(self._raw_data["source_path"], "r") as file_id:
            self.source_data = json.load(file_id)
        self._data = self._raw_data["data"]
        self.num_utterances = 2 * args.max_turns + 1
        self.num_instances = len(self._data)
        self.device = torch.cuda if args.use_gpu else torch
    def conduct_mask(self, tokens, effective_length, start_id, end_id):
        # taken from https://github.com/salesforce/VD-BERT
        # For masked Language Models
        cand_pos = []
        special_pos = set()
        n_pred = min(self._args.max_n_masked, max(
            1, int(round(effective_length * self._args.p_mask))))
        # candidate positions of masked tokens
        for i, tk in enumerate(tokens):
            # only mask tokens_b (target sequence)
            # we will mask [SEP] as an ending symbol
            if (i >= start_id) and (tk != '[CLS]') and (tk != '[PAD]') and (i < end_id):
                cand_pos.append(i)
            else:
                special_pos.add(i)
        shuffle(cand_pos)
        masked_pos = cand_pos[:n_pred]
        masked_tokens = [tokens[pos] for pos in masked_pos]
        for pos in masked_pos:
            if self._args.finetune:
                tokens[pos] = '[MASK]'
                continue
            if rand() < 0.8:  # 80%
                tokens[pos] = '[MASK]'
            #elif rand() < 0.5:  # 10%
            #    tokens[pos] = get_random_word(self.vocab_words)
        # when n_pred < max_pred, we only calculate loss within n_pred
        masked_weights = [1] * len(masked_tokens)
        # Token Indexing
        input_ids = self._tokenizer.convert_tokens_to_ids(tokens)
        masked_ids = self._tokenizer.convert_tokens_to_ids(masked_tokens)
        if self._args.max_n_masked > n_pred:
            n_pad = self._args.max_n_masked - n_pred
            masked_ids.extend([0] * n_pad)
            masked_pos.extend([0] * n_pad)
            masked_weights.extend([0] * n_pad)
        assert len(masked_ids) == len(masked_pos) == len(masked_weights) == self._args.max_n_masked, \
            "[masked] id: %d, pos: %d, weights: %d" % (len(masked_ids), len(masked_pos), len(masked_weights))
        return input_ids, masked_ids, masked_pos, masked_weights
    def get_random_batch(self, batch_size):
        indices = np.random.randint(0, self.num_instances, batch_size)
        return self.get_indexed_data(indices)
    def get_entire_batch(self, batch_size):
        all_indices = np.arange(self.num_instances)
        for start in all_indices[::batch_size]:
            batch_indices = all_indices[start : start + batch_size]
            yield self.get_indexed_data(batch_indices)
    def __len__(self):
        return len(self._data)
    def collate_fn(self, batch):
        merged_batch = {key: [d[key] for d in batch] for key in batch[0]}
        out = {}
        for key in merged_batch:
            if key in ['qa_pair', 'masked_pos', 'mask_labels', 'next_sentence_label', 'masked_weights', 'q_len']:
                seq = pad_seq(merged_batch[key], pad_token=1)
                out[key] = torch.concat(seq, dim=0)
            elif key in ['qa_turns']:
                if merged_batch[key][0] is not None:
                    seq = pad_2d_seq(merged_batch[key], pad_token=1)
                    out[key] = torch.concat(seq, dim=0).type(torch.int)
                else:
                    out[key] = None
            elif key in ['answer']:
                out[key] = merged_batch[key]
            elif key in ['features']:
                #features = [f.unsqueeze(1) for f in merged_batch[key]]
                # pad video featues
                features = pad_sequence(merged_batch[key], batch_first=True)
                out[key] = features
            else:
                out[key] = merged_batch[key]
        return out
    def encode_turns(self, turns):
        encoded_turns = []
        for turn in turns:
            encoded_turn = self._tokenizer(
                turn,
                padding=True,
                max_length=self._args.max_length,
                return_tensors="pt",
                truncation=True,
            )
            # without cls and sep token 
            encoded_turns.append(encoded_turn['input_ids'][:, 1:-1].type(torch.int))
        return encoded_turns
    def __getitem__(self, index):
        dialog_datum = self._data[index]
        qa_pair = self._data[index]["qa_pair"]
        qa_turns = self._data[index]["qa_turns"]
        answer = self._data[index]["answer"]
        next_sentence_label = self._data[index]["next_sentence_label"]
        if self._features:
            feature = self._features[dialog_datum["image_name"]]
        qa_pair_as_tokens = self._tokenizer.tokenize(qa_pair[0])
        q_len = [qa_pair_as_tokens.index('[SEP_1]')]
        qa_pair_ids = self._tokenizer.convert_tokens_to_ids(qa_pair_as_tokens)
        qa_turns_ids = self.encode_turns(qa_turns)
        # Pack the sample.
        sample = {
            "answer": answer,
            "qa_pair": torch.tensor(qa_pair_ids).unsqueeze(0),
            "q_len": torch.tensor(q_len).unsqueeze(0),
            "qa_turns": qa_turns_ids,
            "features": feature
        }
        return sample
 class VisualFeatureLoader:
    """Loads visual features for SIMMC 2.1 ambiguous candidate identification."""
    UNAVAILABLE_IMAGES = [
        "cloth_store_1416238_woman_20_6.png",
        "cloth_store_1416238_woman_19_0.png",
        "cloth_store_1416238_woman_4_8.png",
    ]
    def __init__(self, feature_path, feature_size):
        """Read the features from the path."""
        self._features = torch.load(feature_path)
        self._feature_size = feature_size
        self._zero_feature = torch.zeros((1, self._feature_size), dtype=torch.float)
    def __getitem__(self, label):
        """Get the feature given image label."""
        assert (
            label in self._features or label in self.UNAVAILABLE_IMAGES
        ), f"{label} not found!"
        if label in self.UNAVAILABLE_IMAGES:
            return self._zero_feature
        return self._features[label]
    def cuda(self):
        """Move the features to cuda."""
        self._zero_feature = self._zero_feature.cuda()
        for key, val in self._features.items():
            self._features[key] = val.cuda()
--- a/src/utils/simmc2_dataset/format_data.py
+++ b/src/utils/simmc2_dataset/format_data.py
@ -0,0 +1,150 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Reads SIMMC 2.1 dataset, creates train, devtest, dev formats for ambiguous candidates.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import argparse
 import copy
 import json
 import os
 SPLITS = ["train", "dev", "devtest", "teststd"]
 def get_image_name(scene_ids, turn_ind):
    """Given scene ids and turn index, get the image name.
    """
    sorted_scene_ids = sorted(
        ((int(key), val) for key, val in scene_ids.items()),
        key=lambda x: x[0],
        reverse=True
    )
    # NOTE: Hardcoded to only two scenes.
    if turn_ind >= sorted_scene_ids[0][0]:
        scene_label = sorted_scene_ids[0][1]
    else:
        scene_label = sorted_scene_ids[1][1]
    image_label = scene_label
    if "m_" in scene_label:
        image_label = image_label.replace("m_", "")
    return f"{image_label}.png", scene_label
 def get_object_mapping(scene_label, args):
    """Get the object mapping for a given scene.
    """
    scene_json_path = os.path.join(
        args["scene_json_folder"], f"{scene_label}_scene.json"
    )
    with open(scene_json_path, "r") as file_id:
        scene_objects = json.load(file_id)["scenes"][0]["objects"]
    object_map = [ii["index"] for ii in scene_objects]
    return object_map
 def main(args):
    for split in SPLITS:
        read_path = args[f"simmc_{split}_json"]
        print(f"Reading: {read_path}")
        with open(read_path, "r") as file_id:
            dialogs = json.load(file_id)
        # Reformat into simple strings with positive and negative labels.
        # (dialog string, label)
        ambiguous_candidates_data = []
        for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
            turns = []
            q_turns = []
            a_turns = []
            for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
                query = [turn_datum["transcript"]]
                answer = [turn_datum["system_transcript"]]
                #annotations = turn_datum["transcript_annotated"]
                #if annotations.get("disambiguation_label", False):
                #label = annotations["disambiguation_candidates"]
                image_name, scene_label = get_image_name(
                    dialog_datum["scene_ids"], turn_ind
                )
                # If dialog contains multiple scenes, map it accordingly.
                object_map = get_object_mapping(scene_label, args)
                new_datum = {
                    "query": query,
                    "answer": answer,
                    "q_turns": copy.deepcopy(q_turns),
                    "a_turns": copy.deepcopy(a_turns),
                    "turns": copy.deepcopy(turns),
                    "dialog_id": dialog_datum["dialogue_idx"],
                    "turn_id": turn_ind,
                    #"input_text": copy.deepcopy(history),
                    #"ambiguous_candidates": label,
                    "image_name": image_name,
                    "object_map": object_map,
                }
                ambiguous_candidates_data.append(new_datum)                
                turns.append([turn_datum["transcript"] + turn_datum["system_transcript"]])
                q_turns.append(query)
                a_turns.append(answer)
                # Ignore if system_transcript is not found (last round teststd).
                # if turn_datum.get("system_transcript", None):
                #    history.append(turn_datum["system_transcript"])
        print(f"# instances [{split}]: {len(ambiguous_candidates_data)}")
        save_path = os.path.join(
            args["ambiguous_candidates_save_path"],
            f"simmc2.1_ambiguous_candidates_dstc11_{split}.json"
        )
        print(f"Saving: {save_path}")
        with open(save_path, "w") as file_id:
            json.dump(
                {
                    "source_path": read_path,
                    "split": split,
                    "data": ambiguous_candidates_data,
                },
                file_id
            )
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description=__doc__)
    parser.add_argument(
        "--simmc_train_json", default=None, help="Path to SIMMC 2.1 train"
    )
    parser.add_argument(
        "--simmc_dev_json", default=None, help="Path to SIMMC 2.1 dev"
    )
    parser.add_argument(
        "--simmc_devtest_json", default=None, help="Path to SIMMC 2.1 devtest"
    )
    parser.add_argument(
        "--simmc_teststd_json", default=None, help="Path to SIMMC 2.1 teststd (public)"
    )
    parser.add_argument(
        "--scene_json_folder", default=None, help="Path to SIMMC scene jsons"
    )
    parser.add_argument(
        "--ambiguous_candidates_save_path",
        required=True,
        help="Path to save SIMMC disambiguate JSONs",
    )
    try:
        parsed_args = vars(parser.parse_args())
    except (IOError) as msg:
        parser.error(str(msg))
    main(parsed_args)
--- a/src/utils/simmc2_dataset/format_data.sh
+++ b/src/utils/simmc2_dataset/format_data.sh
@ -0,0 +1,8 @@
 #!/bin/bash
 DATA_FOLDER="../../data/"
 python format_data.py \
    --simmc_train_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_train.json" \
    --simmc_dev_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_dev.json" \
    --simmc_devtest_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_devtest.json" \
    --scene_json_folder "/scratch/hochmeister/simmc2/data/public/" \
    --ambiguous_candidates_save_path "/scratch/hochmeister/simmc2/data/ambiguous_candidates/"
--- a/src/utils/simmc2_dataset/format_data_subtask4_b.py
+++ b/src/utils/simmc2_dataset/format_data_subtask4_b.py
@ -0,0 +1,224 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Reads SIMMC 2.1 dataset, creates train, devtest, dev formats for ambiguous candidates.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import argparse
 import copy
 import json
 import os
 import random
 SPLITS = ["train", "dev", "devtest", "teststd"]
 def get_image_name(scene_ids, turn_ind):
    """Given scene ids and turn index, get the image name.
    """
    sorted_scene_ids = sorted(
        ((int(key), val) for key, val in scene_ids.items()),
        key=lambda x: x[0],
        reverse=True
    )
    # NOTE: Hardcoded to only two scenes.
    if turn_ind >= sorted_scene_ids[0][0]:
        scene_label = sorted_scene_ids[0][1]
    else:
        scene_label = sorted_scene_ids[1][1]
    image_label = scene_label
    if "m_" in scene_label:
        image_label = image_label.replace("m_", "")
    return f"{image_label}.png", scene_label
 def get_object_mapping(scene_label, args):
    """Get the object mapping for a given scene.
    """
    scene_json_path = os.path.join(
        args["scene_json_folder"], f"{scene_label}_scene.json"
    )
    with open(scene_json_path, "r") as file_id:
        scene_objects = json.load(file_id)["scenes"][0]["objects"]
    object_map = [ii["index"] for ii in scene_objects]
    return object_map
 def dictionary_to_string(dictionary):
    result = ""
    for k, v in dictionary.items():
        result += k + ":"
        result += str(v) + " "
    return result
 def get_all_answers(dialogs):
    all_answers = []
    for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
        for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
            all_answers.append(turn_datum["system_transcript"])
    return all_answers
 def main(args):
    for split in SPLITS:
        read_path = args[f"simmc_{split}_json"]
        print(f"Reading: {read_path}")
        with open(read_path, "r") as file_id:
            dialogs = json.load(file_id)
        # load the metadata files
        with open(args["furniture_prefab_metadata"], "r") as file:
            furniture_metadata = json.load(file)
        with open(args["fashion_prefab_metadata"], "r") as file:
            fashion_metadata = json.load(file)
        # get all answer fromm all dialogues to sample answer candidates from for each dialogue iteration
        all_answers = get_all_answers(dialogs)
        # Reformat into simple strings with positive and negative labels.
        # (dialog string, label)
        ambiguous_candidates_data = []
        for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
            turns = []
            q_turns = []
            a_turns = []
            for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
                query = [turn_datum["transcript"]]
                answer = [turn_datum["system_transcript"]]
                answer_candidates = []
                # sample random answers from the list of all answers as answer candidates
                # sample n_answer_candidates - 1 wrong answer candidates from the list of all answers
                for _ in range(int(args["n_answer_candidates"]) - 1):
                    random_idx = random.randint(0, len(all_answers) - 1)
                    answer_candidates.append([all_answers[random_idx]])
                answer_candidates.insert(0, answer)
                #random.shuffle(answer_candidates)
                #annotations = turn_datum["transcript_annotated"]
                #if annotations.get("disambiguation_label", False):
                #label = annotations["disambiguation_candidates"]
                image_name, scene_id = get_image_name(
                    dialog_datum["scene_ids"], turn_ind
                )
                # load the scene files and get all the prefab pahts to get the object descriptions for each scene
                prefab_paths = []
                scene_path = os.path.join(args["scene_json_folder"], f"{scene_id}_scene.json")
                with open(scene_path, "r") as scene_file:
                    scene_data = json.load(scene_file)
                for scene in scene_data["scenes"]:
                    for object in scene["objects"]:
                        prefab_paths.append(object["prefab_path"])
                # get the metadata for all objects of the scene (prefab_paths)
                object_metadata = []
                for prefab_path in prefab_paths:
                    if scene_id[:11] in ["cloth_store", "m_cloth_sto"]:
                        object_dict = fashion_metadata[prefab_path]
                    elif scene_id[:7] == "wayfair":
                        object_dict = furniture_metadata[prefab_path]
                    object_str = dictionary_to_string(object_dict)
                    object_metadata.append([object_str])
                # If dialog contains multiple scenes, map it accordingly.
                #object_map = get_object_mapping(scene_label, args)
                new_datum = {
                    "query": query,
                    "answer": answer,
                    "answer_candidates": answer_candidates,
                    "q_turns": copy.deepcopy(q_turns),
                    "a_turns": copy.deepcopy(a_turns),
                    "turns": copy.deepcopy(turns),
                    "object_metadata": object_metadata,
                    "dialog_id": dialog_datum["dialogue_idx"],
                    "turn_id": turn_ind,
                    #"input_text": copy.deepcopy(history),
                    #"ambiguous_candidates": label,
                    "image_name": image_name,
                    #"object_map": object_map,
                }
                ambiguous_candidates_data.append(new_datum)                
                turns.append([turn_datum["transcript"] + turn_datum["system_transcript"]])
                q_turns.append(query)
                a_turns.append(answer)
                # Ignore if system_transcript is not found (last round teststd).
                # if turn_datum.get("system_transcript", None):
                #    history.append(turn_datum["system_transcript"])
        print(f"# instances [{split}]: {len(ambiguous_candidates_data)}")
        save_path = os.path.join(
            args["ambiguous_candidates_save_path"],
            f"simmc2.1_ambiguous_candidates_dstc11_{split}.json"
        )
        print(f"Saving: {save_path}")
        with open(save_path, "w") as file_id:
            json.dump(
                {
                    "source_path": read_path,
                    "split": split,
                    "data": ambiguous_candidates_data,
                },
                file_id
            )
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description=__doc__)
    parser.add_argument(
        "--simmc_train_json", default=None, help="Path to SIMMC 2.1 train"
    )
    parser.add_argument(
        "--simmc_dev_json", default=None, help="Path to SIMMC 2.1 dev"
    )
    parser.add_argument(
        "--simmc_devtest_json", default=None, help="Path to SIMMC 2.1 devtest"
    )
    parser.add_argument(
        "--simmc_teststd_json", default=None, help="Path to SIMMC 2.1 teststd (public)"
    )
    parser.add_argument(
        "--scene_json_folder", default=None, help="Path to SIMMC scene jsons"
    )
    parser.add_argument(
        "--ambiguous_candidates_save_path",
        required=True,
        help="Path to save SIMMC disambiguate JSONs",
    )
    parser.add_argument(
        "--fashion_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    parser.add_argument(
        "--furniture_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    parser.add_argument(
        "--n_answer_candidates", required=True,
        help="number of answer candidates for the ranking task"
    )
    try:
        parsed_args = vars(parser.parse_args())
    except (IOError) as msg:
        parser.error(str(msg))
    main(parsed_args)
--- a/src/utils/simmc2_dataset/format_data_subtask4_b.sh
+++ b/src/utils/simmc2_dataset/format_data_subtask4_b.sh
@ -0,0 +1,11 @@
 #!/bin/bash
 DATA_FOLDER="../../data/"
 python format_data_with_object_descriptions.py \
    --simmc_train_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_train.json" \
    --simmc_dev_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_dev.json" \
    --simmc_devtest_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_devtest.json" \
    --scene_json_folder "/scratch/hochmeister/simmc2/data/public/" \
    --ambiguous_candidates_save_path "/scratch/hochmeister/simmc2/data/subtask_4_b_data/"
    --fashion_prefab_metadata "/scratch/hochmeister/simmc2/data/fashion_prefab_metadata_all.json"
    --furniture_prefab_metadata "/scratch/hochmeister/simmc2/data/furniture_prefab_metadata_all.json"
    --n_answer_candidates 10
--- a/src/utils/simmc2_dataset/format_data_subtask4_mlm_nsp.py
+++ b/src/utils/simmc2_dataset/format_data_subtask4_mlm_nsp.py
@ -0,0 +1,207 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Reads SIMMC 2.1 dataset, creates train, devtest, dev formats for ambiguous candidates.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import argparse
 import copy
 import json
 import os
 import random
 SPLITS = ["train", "dev", "devtest", "teststd"]
 def get_image_name(scene_ids, turn_ind):
    """Given scene ids and turn index, get the image name.
    """
    sorted_scene_ids = sorted(
        ((int(key), val) for key, val in scene_ids.items()),
        key=lambda x: x[0],
        reverse=True
    )
    # NOTE: Hardcoded to only two scenes.
    if turn_ind >= sorted_scene_ids[0][0]:
        scene_label = sorted_scene_ids[0][1]
    else:
        scene_label = sorted_scene_ids[1][1]
    image_label = scene_label
    if "m_" in scene_label:
        image_label = image_label.replace("m_", "")
    return f"{image_label}.png", scene_label
 def get_object_mapping(scene_label, args):
    """Get the object mapping for a given scene.
    """
    scene_json_path = os.path.join(
        args["scene_json_folder"], f"{scene_label}_scene.json"
    )
    with open(scene_json_path, "r") as file_id:
        scene_objects = json.load(file_id)["scenes"][0]["objects"]
    object_map = [ii["index"] for ii in scene_objects]
    return object_map
 def dictionary_to_string(dictionary):
    result = ""
    for k, v in dictionary.items():
        result += k + ":"
        result += str(v) + " "
    return result
 def get_all_answers(dialogs):
    all_answers = []
    for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
        for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
            all_answers.append(turn_datum["system_transcript"])
    return all_answers
 def main(args):
    for split in SPLITS:
        read_path = args[f"simmc_{split}_json"]
        print(f"Reading: {read_path}")
        with open(read_path, "r") as file_id:
            dialogs = json.load(file_id)
        # get all answer fromm all dialogues to sample answer candidates from for each dialogue iteration
        all_answers = get_all_answers(dialogs)
        ambiguous_candidates_data = []
        for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
            q_turns = []
            a_turns = []
            qa_turns = []
            for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
                query = turn_datum["transcript"]
                answer = turn_datum["system_transcript"]
                # wrong answer is used to create false sample for nsp
                wrong_answer = random.choice(all_answers)
                qa_pair = query + '[SEP_1]' + answer + '[SEP]'
                wrong_qa_pair = query + '[SEP_1]' + wrong_answer + '[SEP]'
                image_name, scene_id = get_image_name(
                    dialog_datum["scene_ids"], turn_ind
                )
                # load the scene files and get all the prefab pahts to get the object descriptions for each scene
                prefab_paths = []
                scene_path = os.path.join(args["scene_json_folder"], f"{scene_id}_scene.json")
                with open(scene_path, "r") as scene_file:
                    scene_data = json.load(scene_file)
                for scene in scene_data["scenes"]:
                    for object in scene["objects"]:
                        prefab_paths.append(object["prefab_path"])
                # for each dialogue round add a sample with the correct answer and one with a random answer for nsp
                new_datum_correct_answer = {
                    "query": [query],
                    "answer": [answer],
                    "qa_pair": [qa_pair],
                    "next_sentence_label": [1],
                    "q_turns": copy.deepcopy(q_turns),
                    "a_turns": copy.deepcopy(a_turns),
                    "qa_turns": copy.deepcopy(qa_turns),
                    "dialog_id": dialog_datum["dialogue_idx"],
                    "turn_id": turn_ind,
                    "image_name": image_name,
                }
                new_datum_wrong_answer = {
                    "query": [query],
                    "answer": [wrong_answer],
                    "qa_pair": [wrong_qa_pair],
                    "next_sentence_label": [0],
                    "q_turns": copy.deepcopy(q_turns),
                    "a_turns": copy.deepcopy(a_turns),
                    "qa_turns": copy.deepcopy(qa_turns),
                    "dialog_id": dialog_datum["dialogue_idx"],
                    "turn_id": turn_ind,
                    "image_name": image_name,
                }
                ambiguous_candidates_data.append(new_datum_correct_answer)
                if args['create_false_samples_for_nsp']:                
                    ambiguous_candidates_data.append(new_datum_wrong_answer)  
                q_turns.append([query])
                a_turns.append([answer])
                qa_turns.append([qa_pair])
                # Ignore if system_transcript is not found (last round teststd).
                # if turn_datum.get("system_transcript", None):
                #    history.append(turn_datum["system_transcript"])
        print(f"# instances [{split}]: {len(ambiguous_candidates_data)}")
        save_path = os.path.join(
            args["ambiguous_candidates_save_path"],
            f"simmc2.1_ambiguous_candidates_dstc11_{split}.json"
        )
        print(f"Saving: {save_path}")
        with open(save_path, "w") as file_id:
            json.dump(
                {
                    "source_path": read_path,
                    "split": split,
                    "data": ambiguous_candidates_data,
                },
                file_id
            )
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description=__doc__)
    parser.add_argument(
        "--simmc_train_json", default=None, help="Path to SIMMC 2.1 train"
    )
    parser.add_argument(
        "--simmc_dev_json", default=None, help="Path to SIMMC 2.1 dev"
    )
    parser.add_argument(
        "--simmc_devtest_json", default=None, help="Path to SIMMC 2.1 devtest"
    )
    parser.add_argument(
        "--simmc_teststd_json", default=None, help="Path to SIMMC 2.1 teststd (public)"
    )
    parser.add_argument(
        "--scene_json_folder", default=None, help="Path to SIMMC scene jsons"
    )
    parser.add_argument(
        "--ambiguous_candidates_save_path",
        required=True,
        help="Path to save SIMMC disambiguate JSONs",
    )
    parser.add_argument(
        "--fashion_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    parser.add_argument(
        "--furniture_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    parser.add_argument(
        "--create_false_samples_for_nsp", action='store_true',
        help="if set, for each correct sample a wrong one is added"
    )
    try:
        parsed_args = vars(parser.parse_args())
    except (IOError) as msg:
        parser.error(str(msg))
    main(parsed_args)
--- a/src/utils/simmc2_dataset/format_data_with_obj_descriptions.py
+++ b/src/utils/simmc2_dataset/format_data_with_obj_descriptions.py
@ -0,0 +1,202 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Reads SIMMC 2.1 dataset, creates train, devtest, dev formats for ambiguous candidates.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import argparse
 import copy
 import json
 import os
 SPLITS = ["train", "dev", "devtest", "teststd"]
 def get_image_name(scene_ids, turn_ind):
    """Given scene ids and turn index, get the image name.
    """
    sorted_scene_ids = sorted(
        ((int(key), val) for key, val in scene_ids.items()),
        key=lambda x: x[0],
        reverse=True
    )
    # NOTE: Hardcoded to only two scenes.
    if turn_ind >= sorted_scene_ids[0][0]:
        scene_label = sorted_scene_ids[0][1]
    else:
        scene_label = sorted_scene_ids[1][1]
    image_label = scene_label
    if "m_" in scene_label:
        image_label = image_label.replace("m_", "")
    return f"{image_label}.png", scene_label
 def get_object_mapping(scene_label, args):
    """Get the object mapping for a given scene.
    """
    scene_json_path = os.path.join(
        args["scene_json_folder"], f"{scene_label}_scene.json"
    )
    with open(scene_json_path, "r") as file_id:
        scene_objects = json.load(file_id)["scenes"][0]["objects"]
    object_map = [ii["index"] for ii in scene_objects]
    return object_map
 def dictionary_to_string(dictionary):
    result = ""
    for k, v in dictionary.items():
        if k in ['assetType', 'color', 'pattern', 'sleeveLength', 'type']:
            continue
        result += k + ":"
        result += str(v) + " "
    return result
 def main(args):
    for split in SPLITS:
        read_path = args[f"simmc_{split}_json"]
        print(f"Reading: {read_path}")
        with open(read_path, "r") as file_id:
            dialogs = json.load(file_id)
        # load the metadata files
        with open(args["furniture_prefab_metadata"], "r") as file:
            furniture_metadata = json.load(file)
        with open(args["fashion_prefab_metadata"], "r") as file:
            fashion_metadata = json.load(file)
        # Reformat into simple strings with positive and negative labels.
        # (dialog string, label)
        ambiguous_candidates_data = []
        for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
            turns = []
            q_turns = []
            a_turns = []
            for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
                query = [turn_datum["transcript"]]
                if "system_transcript" not in turn_datum.keys():
                    continue
                answer = [turn_datum["system_transcript"]]
                #annotations = turn_datum["transcript_annotated"]
                #if annotations.get("disambiguation_label", False):
                #label = annotations["disambiguation_candidates"]
                image_name, scene_id = get_image_name(
                    dialog_datum["scene_ids"], turn_ind
                )
                # load the scene files and get all the prefab pahts to get the object descriptions for each scene
                prefab_paths = []
                scene_path = os.path.join(args["scene_json_folder"], f"{scene_id}_scene.json")
                with open(scene_path, "r") as scene_file:
                    scene_data = json.load(scene_file)
                for scene in scene_data["scenes"]:
                    for object in scene["objects"]:
                        prefab_paths.append(object["prefab_path"])
                # get the metadata for all objects of the scene (prefab_paths)
                object_metadata = []
                for prefab_path in prefab_paths:
                    if scene_id[:11] in ["cloth_store", "m_cloth_sto"]:
                        object_dict = fashion_metadata[prefab_path]
                    elif scene_id[:7] == "wayfair":
                        object_dict = furniture_metadata[prefab_path]
                    object_str = dictionary_to_string(object_dict)
                    object_metadata.append([object_str])
                # If dialog contains multiple scenes, map it accordingly.
                #object_map = get_object_mapping(scene_label, args)
                new_datum = {
                    "query": query,
                    "answer": answer,
                    "q_turns": copy.deepcopy(q_turns),
                    "a_turns": copy.deepcopy(a_turns),
                    "turns": copy.deepcopy(turns),
                    "object_metadata": object_metadata,
                    "dialog_id": dialog_datum["dialogue_idx"],
                    "turn_id": turn_ind,
                    #"input_text": copy.deepcopy(history),
                    #"ambiguous_candidates": label,
                    "image_name": image_name,
                    #"object_map": object_map,
                }
                ambiguous_candidates_data.append(new_datum)                
                turns.append([turn_datum["transcript"] + turn_datum["system_transcript"]])
                q_turns.append(query)
                a_turns.append(answer)
                # Ignore if system_transcript is not found (last round teststd).
                # if turn_datum.get("system_transcript", None):
                #    history.append(turn_datum["system_transcript"])
        print(f"# instances [{split}]: {len(ambiguous_candidates_data)}")
        save_path = os.path.join(
            args["ambiguous_candidates_save_path"],
            f"simmc2.1_ambiguous_candidates_dstc11_{split}.json"
        )
        print(f"Saving: {save_path}")
        with open(save_path, "w") as file_id:
            json.dump(
                {
                    "source_path": read_path,
                    "split": split,
                    "data": ambiguous_candidates_data,
                },
                file_id
            )
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description=__doc__)
    parser.add_argument(
        "--simmc_train_json", default=None, help="Path to SIMMC 2.1 train"
    )
    parser.add_argument(
        "--simmc_dev_json", default=None, help="Path to SIMMC 2.1 dev"
    )
    parser.add_argument(
        "--simmc_devtest_json", default=None, help="Path to SIMMC 2.1 devtest"
    )
    parser.add_argument(
        "--simmc_teststd_json", default=None, help="Path to SIMMC 2.1 teststd (public)"
    )
    parser.add_argument(
        "--scene_json_folder", default=None, help="Path to SIMMC scene jsons"
    )
    parser.add_argument(
        "--ambiguous_candidates_save_path",
        required=True,
        help="Path to save SIMMC disambiguate JSONs",
    )
    parser.add_argument(
        "--fashion_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    parser.add_argument(
        "--furniture_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    try:
        parsed_args = vars(parser.parse_args())
    except (IOError) as msg:
        parser.error(str(msg))
    main(parsed_args)
--- a/src/utils/simmc2_dataset/format_data_with_obj_descriptions.sh
+++ b/src/utils/simmc2_dataset/format_data_with_obj_descriptions.sh
@ -0,0 +1,10 @@
 #!/bin/bash
 DATA_FOLDER="../../data/"
 python format_data_with_object_descriptions.py \
    --simmc_train_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_train.json" \
    --simmc_dev_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_dev.json" \
    --simmc_devtest_json "/scratch/hochmeister/simmc2/data/simmc2.1_dials_dstc11_devtest.json" \
    --scene_json_folder "/scratch/hochmeister/simmc2/data/public/" \
    --ambiguous_candidates_save_path "/scratch/hochmeister/simmc2/data/ambiguous_candidates/"
    --fashion_prefab_metadata "/scratch/hochmeister/simmc2/data/fashion_prefab_metadata_all.json"
    --furniture_prefab_metadata "/scratch/hochmeister/simmc2/data/furniture_prefab_metadata_all.json"
--- a/src/utils/simmc2_dataset/format_data_with_obj_descriptions_devtest10.py
+++ b/src/utils/simmc2_dataset/format_data_with_obj_descriptions_devtest10.py
@ -0,0 +1,206 @@
 #! /usr/bin/env python
 """
 Copyright (c) Facebook, Inc. and its affiliates.
 All rights reserved.
 This source code is licensed under the license found in the LICENSE file in the
 root directory of this source tree.
 Reads SIMMC 2.1 dataset, creates train, devtest, dev formats for ambiguous candidates.
 Author(s): Satwik Kottur
 """
 from __future__ import absolute_import, division, print_function, unicode_literals
 import argparse
 import copy
 import json
 import os
 SPLITS = ["train", "dev", "devtest", "teststd"]
 def get_image_name(scene_ids, turn_ind):
    """Given scene ids and turn index, get the image name.
    """
    sorted_scene_ids = sorted(
        ((int(key), val) for key, val in scene_ids.items()),
        key=lambda x: x[0],
        reverse=True
    )
    # NOTE: Hardcoded to only two scenes.
    if turn_ind >= sorted_scene_ids[0][0]:
        scene_label = sorted_scene_ids[0][1]
    else:
        scene_label = sorted_scene_ids[1][1]
    image_label = scene_label
    if "m_" in scene_label:
        image_label = image_label.replace("m_", "")
    return f"{image_label}.png", scene_label
 def get_object_mapping(scene_label, args):
    """Get the object mapping for a given scene.
    """
    scene_json_path = os.path.join(
        args["scene_json_folder"], f"{scene_label}_scene.json"
    )
    with open(scene_json_path, "r") as file_id:
        scene_objects = json.load(file_id)["scenes"][0]["objects"]
    object_map = [ii["index"] for ii in scene_objects]
    return object_map
 def dictionary_to_string(dictionary):
    result = ""
    for k, v in dictionary.items():
        if k in ['assetType', 'color', 'pattern', 'sleeveLength', 'type']:
            continue
        result += k + ":"
        result += str(v) + " "
    return result
 def main(args):
    for split in SPLITS:
        read_path = args[f"simmc_{split}_json"]
        print(f"Reading: {read_path}")
        with open(read_path, "r") as file_id:
            dialogs = json.load(file_id)
        # load the metadata files
        with open(args["furniture_prefab_metadata"], "r") as file:
            furniture_metadata = json.load(file)
        with open(args["fashion_prefab_metadata"], "r") as file:
            fashion_metadata = json.load(file)
        # Reformat into simple strings with positive and negative labels.
        # (dialog string, label)
        ambiguous_candidates_data = []
        for dialog_id, dialog_datum in enumerate(dialogs["dialogue_data"]):
            turns = []
            q_turns = []
            a_turns = []
            dial_len = len(dialog_datum['dialogue'])
            for turn_ind, turn_datum in enumerate(dialog_datum["dialogue"]):
                query = [turn_datum["transcript"]]
                if "system_transcript" not in turn_datum.keys():
                    answer = ""
                else:
                    answer = [turn_datum["system_transcript"]]
                #annotations = turn_datum["transcript_annotated"]
                #if annotations.get("disambiguation_label", False):
                #label = annotations["disambiguation_candidates"]
                image_name, scene_id = get_image_name(
                    dialog_datum["scene_ids"], turn_ind
                )
                # load the scene files and get all the prefab pahts to get the object descriptions for each scene
                prefab_paths = []
                scene_path = os.path.join(args["scene_json_folder"], f"{scene_id}_scene.json")
                with open(scene_path, "r") as scene_file:
                    scene_data = json.load(scene_file)
                for scene in scene_data["scenes"]:
                    for object in scene["objects"]:
                        prefab_paths.append(object["prefab_path"])
                # get the metadata for all objects of the scene (prefab_paths)
                object_metadata = []
                for prefab_path in prefab_paths:
                    if scene_id[:11] in ["cloth_store", "m_cloth_sto"]:
                        object_dict = fashion_metadata[prefab_path]
                    elif scene_id[:7] == "wayfair":
                        object_dict = furniture_metadata[prefab_path]
                    object_str = dictionary_to_string(object_dict)
                    object_metadata.append([object_str])
                # If dialog contains multiple scenes, map it accordingly.
                #object_map = get_object_mapping(scene_label, args)
                new_datum = {
                    "query": query,
                    "answer": answer,
                    "q_turns": copy.deepcopy(q_turns),
                    "a_turns": copy.deepcopy(a_turns),
                    "turns": copy.deepcopy(turns),
                    "object_metadata": object_metadata,
                    "dialog_id": dialog_datum["dialogue_idx"],
                    "turn_id": turn_ind,
                    #"input_text": copy.deepcopy(history),
                    #"ambiguous_candidates": label,
                    "image_name": image_name,
                    #"object_map": object_map,
                }
                # only the last dialogue turns are used as samples for the test set
                if turn_ind == dial_len - 1:
                    ambiguous_candidates_data.append(new_datum)
                else:
                    turns.append([turn_datum["transcript"] + turn_datum["system_transcript"]])
                    q_turns.append(query)
                    a_turns.append(answer)
                # Ignore if system_transcript is not found (last round teststd).
                # if turn_datum.get("system_transcript", None):
                #    history.append(turn_datum["system_transcript"])
        print(f"# instances [{split}]: {len(ambiguous_candidates_data)}")
        save_path = os.path.join(
            args["ambiguous_candidates_save_path"],
            f"simmc2.1_ambiguous_candidates_dstc11_{split}.json"
        )
        print(f"Saving: {save_path}")
        with open(save_path, "w") as file_id:
            json.dump(
                {
                    "source_path": read_path,
                    "split": split,
                    "data": ambiguous_candidates_data,
                },
                file_id
            )
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description=__doc__)
    parser.add_argument(
        "--simmc_train_json", default=None, help="Path to SIMMC 2.1 train"
    )
    parser.add_argument(
        "--simmc_dev_json", default=None, help="Path to SIMMC 2.1 dev"
    )
    parser.add_argument(
        "--simmc_devtest_json", default=None, help="Path to SIMMC 2.1 devtest"
    )
    parser.add_argument(
        "--simmc_teststd_json", default=None, help="Path to SIMMC 2.1 teststd (public)"
    )
    parser.add_argument(
        "--scene_json_folder", default=None, help="Path to SIMMC scene jsons"
    )
    parser.add_argument(
        "--ambiguous_candidates_save_path",
        required=True,
        help="Path to save SIMMC disambiguate JSONs",
    )
    parser.add_argument(
        "--fashion_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    parser.add_argument(
        "--furniture_prefab_metadata", required=True,
        help="Path to the file with all metadata for fashion objects"
    )
    try:
        parsed_args = vars(parser.parse_args())
    except (IOError) as msg:
        parser.error(str(msg))
    main(parsed_args)
--- a/src/utils/text_utils.py
+++ b/src/utils/text_utils.py
@ -0,0 +1,15 @@
 import nltk
 def normalize_sentence(sentence):
    return nltk.tokenize.word_tokenize(sentence.lower())
 def translate_from_ids_to_text(ids, tokenizer):
    text = tokenizer.decode(ids)
    if '</s>' in text:
        text, pad = text.split('</s>', 1)
    if '<s>' in text:
        text = text[3:]
    #text_as_list = text.split(' ')
    return text
--- a/test.py
+++ b/test.py
@ -0,0 +1,71 @@
 from src.models.discriminative_model import DiscriminativeModel
 from src.models.generative_model import GenerativeModel
 from src.data_modules.dvd_data import DVDData
 from src.data_modules.simmc2_data import Simmc2Data
 from src.data_modules.avsd_data import AvsdData
 from pytorch_lightning import Trainer
 import pytorch_lightning as pl
 from pytorch_lightning.loggers import WandbLogger
 from pytorch_lightning import Trainer
 from pytorch_lightning.callbacks.lr_monitor import LearningRateMonitor
 import wandb
 from config.config import read_default_config, read_config, update_nested_dicts
 import argparse
 parser = argparse.ArgumentParser(description='Test script for OLViT')
 parser.add_argument(
    '--ckpt_path',
    type=str,
    help='Path to the checkpoint to be tested')
 parser.add_argument(
    '--cfg_path',
    type=str,
    help='Path to the config file of the selected checkpoint')
 if __name__ == '__main__':
    wandb.finish()
    args = parser.parse_args()
    chkpt_path = args.ckpt_path
    # read the default conifg and update the values with the experiment specific config
    config = read_default_config()
    experiment_config = read_config(args.cfg_path)
    config = update_nested_dicts(old_dict=config, update_dict=experiment_config)
    if 'output_path' not in config['checkpoint'].keys():
        raise Exception('no output path provided in config (full path for disc model only path to output folder for gen. model)')
    available_models = {
        'discriminative': DiscriminativeModel,
        'generative': GenerativeModel
    }
    data_modules = {
        'dvd': DVDData,
        'simmc2': Simmc2Data,
    }
    wandb_logger = WandbLogger(
        entity=config['wandb']['entity'],
        name=config['wandb']['name'],
        group=config['wandb']['group'],
        tags=config['wandb']['tags'],
        project=config['wandb']['project'],
        config=config
    )
    if config['training']['seed'] != None:
        pl.seed_everything(config['training']['seed'])
    trainer = Trainer(
        logger=wandb_logger,
        accelerator='gpu',
        devices=[0]
    )
    data = data_modules[config['model']['dataset']](config=config)
    model = available_models[config['model']['model_type']](config=config, output_path=config['checkpoint']['output_path'])
    trainer.test(model=model, ckpt_path=chkpt_path, dataloaders=data)
--- a/train.py
+++ b/train.py
@ -0,0 +1,95 @@
 from src.models.discriminative_model import DiscriminativeModel
 from src.models.generative_model import GenerativeModel
 from src.data_modules.dvd_data import DVDData
 from src.data_modules.simmc2_data import Simmc2Data
 from pytorch_lightning import Trainer
 import pytorch_lightning as pl
 from pytorch_lightning.loggers import WandbLogger
 from pytorch_lightning import Trainer
 from pytorch_lightning.callbacks.lr_monitor import LearningRateMonitor
 import wandb
 from config.config import read_default_config, read_config, update_nested_dicts
 import argparse
 parser = argparse.ArgumentParser(description='Train script for OLViT')
 parser.add_argument(
    '--cfg_path',
    default='config/dvd.json',
    type=str,
    help='Path to the config file of the selected checkpoint')
 if __name__ == '__main__':
    wandb.finish()
    args = parser.parse_args()
    # read the default conifg and update the values with the experiment specific config
    config = read_default_config()
    experiment_config = read_config(args.cfg_path)
    config = update_nested_dicts(old_dict=config, update_dict=experiment_config)
    available_models = {
        'discriminative': DiscriminativeModel,
        'generative': GenerativeModel
    }
    data_modules = {
        'dvd': DVDData,
        'simmc2': Simmc2Data,
    }
    monitor_score = {
        'discriminative': 'val_acc',
        'generative': 'bleu4'
    }
    checkpoint_cb = pl.callbacks.ModelCheckpoint(
        monitor=monitor_score[config['model']['model_type']], mode="max",
        save_top_k=1,     
        dirpath=config["checkpoint"]["checkpoint_folder"],
        filename=config["checkpoint"]["checkpoint_file_name"],
        every_n_epochs=1  
    )
    lr_monitor_cb = LearningRateMonitor(
        logging_interval='step'
    )
    callbacks = []
    callbacks.append(checkpoint_cb)
    callbacks.append(lr_monitor_cb)
    wandb_logger = WandbLogger(
        offline=True,
        entity=config['wandb']['entity'],
        name=config['wandb']['name'],
        group=config['wandb']['group'],
        tags=config['wandb']['tags'],
        project=config['wandb']['project'],
        config=config
    )
    if config['training']['seed'] != None:
        pl.seed_everything(config['training']['seed'])
    trainer = Trainer(
        logger=wandb_logger,
        # detect_anomaly=True,
        accelerator='gpu',
        devices=[0],
        fast_dev_run=False,
        max_epochs=config['training']['epochs'],
        check_val_every_n_epoch=1,
        log_every_n_steps=1,
        strategy=pl.strategies.ddp.DDPStrategy(find_unused_parameters=False),
        accumulate_grad_batches=config['training']['accumulate_grad_batches'],
        precision=32,
        callbacks=callbacks
    )
    data = data_modules[config['model']['dataset']](config=config)
    if 'output_path' in config['checkpoint'].keys():
        model = available_models[config['model']['model_type']](config=config, output_path=config['checkpoint']['output_path'])
    else:
        model = available_models[config['model']['model_type']](config=config)
    trainer.fit(model, data)
		`@ -0,0 +1,2 @@`
							`*.tar.gz filter=lfs diff=lfs merge=lfs -text`
							`*.pt filter=lfs diff=lfs merge=lfs -text`