结构调整

vivienzou1 · LuoZhenzi · Aug 12, 2018 · Aug 12, 2018 · Aug 12, 2018 · Aug 12, 2018
commit 8ccc7d15852974186a18a3fe70c9a1b1e1003cfd
diff --git a/papers/QA模型/视觉问答-A-摘要.md → papers/QA-视觉问答-A-摘要.md b/papers/QA模型/视觉问答-A-摘要.md → papers/QA-视觉问答-A-摘要.md
diff --git a/papers/QA模型/视觉问答-A-综述.md → papers/QA-视觉问答-A-综述.md b/papers/QA模型/视觉问答-A-综述.md → papers/QA-视觉问答-A-综述.md
@@ -93,7 +93,7 @@ Index
   >> 实例分割：[14]、[15]、[16]
 
 **标签歧义**
-<div align="center"><img src="../../assets/TIM截图20180908212911.png" height="" /></div>
+<div align="center"><img src="../assets/TIM截图20180908212911.png" height="" /></div>
 
   > 【图1】目标检测 和 语义分割
 - **语义分割**或**实例分割**都不足以全面理解整个场景；
@@ -123,7 +123,7 @@ Index
 #### DenseCap
 - DenseCap 全称为 Dense image captioning，它在一定程度上缓解了普适标题的问题；
 - DenseCap 会在图像的不同局部位置生成密集的注释；
-  <div align="center"><img src="../../assets/TIM截图20180908224213.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180908224213.png" height="" /></div>
 
 - 即使如此，这些短描述也存在自动评价的问题；
 - 此外，这些只针对局部信息的描述也不能提供空间信息或对象关系。
@@ -189,16 +189,16 @@ Index
 
 **COCO-VQA 的问题** 
 - 由于语言上的偏见，许多问题**无需使用图像**就能回答；
-  <div align="center"><img src="../../assets/TIM截图20180909132343.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180909132343.png" height="" /></div>
 
   - Q: "What color are the trees?" —— A: "green."
   - 在数据集中，这个问题出现了 73 次，其中 70 个的答案都是 "green"
 - 存在许多主观问题，没有准确的答案；
-  <div align="center"><img src="../../assets/TIM截图20180909132723.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180909132723.png" height="" /></div>
 
   - Q: "Would you like to fly in that?" —— A: "yes"(4), "No"(6)
 - 许多问题需要解释或冗长的描述，这类问题难以自动评价；
-  <div align="center"><img src="../../assets/TIM截图20180909133015.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180909133015.png" height="" /></div>
 
   - Q: "Why would you say this woman is strong?" —— A: "yes"(5), can lift up on arms, headstand, handstand, can stand on her head, she is standing upside down on stool.
 
@@ -215,7 +215,7 @@ Index
 - 包含两种模式：
   - **free-form method**：可以针对图像提出任意问题；人类标注者通常会趋向于提出类似的问题。
   - **regionspecific method**：针对图像的指定区域提问；
-    <div align="center"><img src="../../assets/TIM截图20180909161143.png" height="" /></div>
+    <div align="center"><img src="../assets/TIM截图20180909161143.png" height="" /></div>
 
     - Free form QA: What does the sky look like?
     - Region based QA: What color is the horse?
@@ -230,7 +230,7 @@ Index
 - 两类问题
   - ‘telling’ questions：答案是基于文本的
   - ‘pointing’ questions：以 Which 开头的问题，对于这些问题，算法必须在备选方案中选择正确的边界框。
-    <div align="center"><img src="../../assets/TIM截图20180909161708.png" height="" /></div>
+    <div align="center"><img src="../assets/TIM截图20180909161708.png" height="" /></div>
 
     - Q: Which object can you stab food with?
 
@@ -286,7 +286,7 @@ Index
 
 - **基于分类的基本框架**
   - **基于分类的 VQA 基本框架**
-    <div align="center"><img src="../../assets/TIM截图20180910135921.png" height="" /></div>
+    <div align="center"><img src="../assets/TIM截图20180910135921.png" height="" /></div>
 
 - 不同做法的差异主要体现在**如何整合图像和文本的特征**
 - **整合图像和问题特征的方法**
@@ -323,7 +323,7 @@ Index
 **[40]**
 - LSTM + GoogleNet;
 - 本文将图像特征拼接到问题的每个词之后，共同作为 LSTM 的输入；问题结束后的时间步被用于生成答案。
-  <div align="center"><img src="../../assets/TIM截图20180910220336.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180910220336.png" height="" /></div>
 
 **[33]**
 - Seq2Seq 生成模型，本文采用的是 Encoder-Decoder 框架
@@ -342,7 +342,7 @@ Index
 - 本文基于这样一个直觉（insight），通过问题可以预测**答案的类型**。
 - 基于此，将开放性问题转化为多选择问题；
 - skip-thought vectors + ResNet-152
-  <div align="center"><img src="../../assets/TIM截图20180911151229.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180911151229.png" height="" /></div>
 
 ## 基于 Attention 的模型
 > 相关论文： [63, 49, 52, 48, 54, 51, 46, 55]
@@ -358,7 +358,7 @@ Index
 - 一种是类似语义分割的方式，生成**边缘框**（Edge Boxes [68]），对每个框生成特征
 - 一种是使用**均匀网格**（**Uniform Grid**）把图像分成若干区域，然后利用 CNN 生成每个网格区域的图像特征，然后计算每个区域与问题中每个词的相关度得到 Attention 权重矩阵。
   > 这个过程实际上跟**卷积**本身很像。
-  <div align="center"><img src="../../assets/TIM截图20180911153132.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180911153132.png" height="" /></div>
 
 **Attention 的作用**
 
@@ -369,7 +369,7 @@ Index
 - 模型输入：所有 box 区域的 CNN 特征、问题特征、答案
 - 模型对每个候选答案生成一个分数，经过**排序**后得到最终答案
 - 打分部分由一个全连接层完成。
-  <div align="center"><img src="../../assets/TIM截图20180911164443.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180911164443.png" height="" /></div>
 
 **[51]** A focused dynamic attention model for visual question answering（FDA）
 - 模型建议只使用与问题相关的 box 区域。
@@ -380,7 +380,7 @@ Index
   - 然后使用 Word2Vec 计算问题中的单词与对象标签之间的相似度。
   - 只要相似度大于 0.5 则认为是相关的。
 - 问题和图像序列分别使用 LSTM 建模，得到特征后送入全连接层分类得到答案。
-  <div align="center"><img src="../../assets/TIM截图20180911163940.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180911163940.png" height="" /></div>
 
   - 在最后一个时间步，模型还输入了图像的全局特征，用于访问全局以及局部特征。
 
@@ -390,12 +390,12 @@ Index
 #### [49] Stacked Attention Networks for Image Question Answering（SAN）
 - 模型提取 VGG19 最后一个 Pooling 层的 feature map 作为区域特征，其大小为 `14*14*512`。
 - 相当于把原始 `448*448` 的图像均匀划分为 `14*14` 个网格（grid），每个网格使用一个 `512` 维的向量表示其特征。
-  <div align="center"><img src="../../assets/TIM截图20180911174700.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180911174700.png" height="" /></div>
 
 - **Attention 层**
   - Attention 层的主要作用是计算每个网格与问题的相关度
   - 公式：
-    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_cs&space;\begin{aligned}&space;h_A&=\tanh(W_I\cdot&space;v_I\oplus(W_Q\cdot&space;v_Q&plus;b_Q))\\&space;p_I&=\text{softmax}(W_p\cdot&space;h_A&plus;b_p)&space;\end{aligned}"><img src="../../assets/公式_20180911215014.png" height="" /></a></div>
+    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_cs&space;\begin{aligned}&space;h_A&=\tanh(W_I\cdot&space;v_I\oplus(W_Q\cdot&space;v_Q&plus;b_Q))\\&space;p_I&=\text{softmax}(W_p\cdot&space;h_A&plus;b_p)&space;\end{aligned}"><img src="../assets/公式_20180911215014.png" height="" /></a></div>
 
     > 其中 `vI: [14*14,512]` 为图像特征，`vQ: [512]` 为问题特征；最后 `pI: [14*14]` 即问题在每个网格处的关注度
 
@@ -420,14 +420,14 @@ Index
   - 在得到每个网格与问题的相关度后，对所有网格进行加权求和，从而得到整个图像加权后的全局特征；
   - 整合图像特征与问题特征后进行分类（本文采用整合方法为按位求和）
 
-    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_jvn&space;\begin{aligned}&space;\tilde{v}_I&=\sum_{i=1}^m&space;p_iv_i\\&space;u&=\tilde{v}_I&plus;v_Q&space;\end{aligned}"><img src="../../assets/公式_20180911224527.png" height="" /></a></div>
+    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_jvn&space;\begin{aligned}&space;\tilde{v}_I&=\sum_{i=1}^m&space;p_iv_i\\&space;u&=\tilde{v}_I&plus;v_Q&space;\end{aligned}"><img src="../assets/公式_20180911224527.png" height="" /></a></div>
 
 **Stacked Attention**（堆叠 Attention）
   - 对于复杂的问题，**单一的 Attention 层并不足以定位正确的答案预测区域**。
-    <div align="center"><img src="../../assets/TIM截图20180911222910.png" height="" /></div>
+    <div align="center"><img src="../assets/TIM截图20180911222910.png" height="" /></div>
 
   - 本文使用多个 Attention 层迭代上述过程
-    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_jvn&space;\begin{aligned}&space;\text{set}\quad&space;{\color{Red}u^{(0)}}&=v_Q,\quad&space;k=1,2,...,K\\&space;\text{then}\quad&space;h^{(k)}&=\tanh(W_I^{(k)}\cdot&space;{\color{Red}v_I}\oplus(W_Q^{(k)}\cdot{\color{Red}u^{(k-1)}}&plus;b_Q^{(k)}))\\&space;p^{(k)}&=\text{softmax}(W_p^{(k)}\cdot&space;h^{(k)}&plus;b_p^{(k)})\\&space;\tilde{v}_I^{(k)}&=\sum_{i=1}^m&space;p_i^{(k)}v_i\\&space;{\color{Red}u^{(k)}}&=\tilde{v}_I^{(k)}&plus;u^{(k-1)}&space;\end{aligned}"><img src="../../assets/公式_20180911225643.png" height="" /></a></div>
+    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_jvn&space;\begin{aligned}&space;\text{set}\quad&space;{\color{Red}u^{(0)}}&=v_Q,\quad&space;k=1,2,...,K\\&space;\text{then}\quad&space;h^{(k)}&=\tanh(W_I^{(k)}\cdot&space;{\color{Red}v_I}\oplus(W_Q^{(k)}\cdot{\color{Red}u^{(k-1)}}&plus;b_Q^{(k)}))\\&space;p^{(k)}&=\text{softmax}(W_p^{(k)}\cdot&space;h^{(k)}&plus;b_p^{(k)})\\&space;\tilde{v}_I^{(k)}&=\sum_{i=1}^m&space;p_i^{(k)}v_i\\&space;{\color{Red}u^{(k)}}&=\tilde{v}_I^{(k)}&plus;u^{(k-1)}&space;\end{aligned}"><img src="../assets/公式_20180911225643.png" height="" /></a></div>
 
     > 本文取 `K=2`
 
@@ -437,7 +437,7 @@ Index
   - `V = {v1, v2, .., vT}: [T, d_v]`，其中 v_i 为问题中每个词的词向量，`T` 表示问题的（最大）长度，不足该长度的补充全 0 词向量；
   - `S = {s1, s2, .., sL}: [L, d_s]`，其中 s_i 为每个网格的特征向量，`L` 表示网格数；
   - 则相关系数矩阵 `C: [T, L]` 为
-    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_jvn&space;C=V\cdot&space;(S\cdot&space;W_A&plus;b_A)^\mathsf{T}"><img src="../../assets/公式_20180911232200.png" height="" /></a></div>
+    <div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=\fn_jvn&space;C=V\cdot&space;(S\cdot&space;W_A&plus;b_A)^\mathsf{T}"><img src="../assets/公式_20180911232200.png" height="" /></a></div>
 
 - 基于以上想法，本文提出了两种模型 "One-Hop Model" 和 "Two-Hop Model"
   - One-Hop Model 使用整合后的问题特征和加权视觉特征来预测答案；
@@ -450,7 +450,7 @@ Index
 - **输入模块**
   - **文本问答**的输入为一系列**可能**与问题相关的**情景句子**（上下文）；
   - **视觉问答**的输入为**网格划分**后的图像，每一块网格作为**可能**与问题相关的**情景**
-    <!-- <div align="center"><img src="../../assets/TIM截图20180912202657.png" height="" /></div> -->
+    <!-- <div align="center"><img src="../assets/TIM截图20180912202657.png" height="" /></div> -->
 - **情景记忆模块**用于提取输入中的相关事实；每次迭代时更新内部记忆单元；
 - **回答模块**通过整合最终的记忆单元与问题的表示来生成答案（RNN）。
 
@@ -462,14 +462,14 @@ Index
   - **parallel co-attention** 同时关注问题和图像；
   - **alternative co-attention** 同时在关注问题或图像间交替进行；
 - 最终的答案通过由低到高依次融合三个层级的特征来预测。
-    <div align="center"><img src="../../assets/TIM截图20180912210803.png" height="" /></div>
+    <div align="center"><img src="../assets/TIM截图20180912210803.png" height="" /></div>
 
 #### [56] Dual attention networks for multimodal reasoning and matching
 - 本文的主要思想是允许问题于图像互相 Attention，从而直接关注关键词或关键区域。
   > 思想跟 co-attention 类似，但是做法不同。
 - 为了实现这一点，本文先将图像特征和问题特征整合为**记忆向量**（按位乘），然后利用该记忆向量**分别**对问题和图像构建 Attention 向量。
 - 该过程可以递归的进行，下一轮的输入为上一轮得到两个 Attention 向量；
-  <div align="center"><img src="../../assets/TIM截图20180912212748.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180912212748.png" height="" /></div>
 
   > 但是作者建议迭代 2 次即可。
 
@@ -485,8 +485,8 @@ Index
 - 本文使用了 Multimodal Compact Bilinear pooling（MCB）作为整个图像与问题特征的新方法；
 - 如果直接对图像和问题进行外积会导致特征维度不可控，因此 MCB 在一个**低维的空间**下进行外积运算；
 - 文本计算 Attention 的做法类似 [[49]](#49-stacked-attention-networks-for-image-question-answeringsan)，区别在于使用 **MCB 操作**代替**双线性 Attention**
-  > 双线性 Attention，即 `T·W·V`——使用一个权重矩阵 `W` 作为两个向量 `T` 和 `V` 的交互中介。
-  <div align="center"><img src="../../assets/TIM截图20180912230713.png" height="" /></div>
+  > 双线性 Attention，即 `Q·W·V`——使用一个权重矩阵 `W` 作为两个向量 `Q` 和 `V` 的交互中介。
+  <div align="center"><img src="../assets/TIM截图20180912230713.png" height="" /></div>
 
 - 本文模型是 2016 VQA 比赛的获胜模型
 

diff --git a/papers/QA模型/问答-A-摘要.md → papers/QA-问答-A-摘要.md b/papers/QA模型/问答-A-摘要.md → papers/QA-问答-A-摘要.md
@@ -15,6 +15,6 @@ Index
 
 - 本文将**动态记忆网络**（Dynamic Memory Networks, DMN）引入 QA 问题。
 - DMN 主要分为四个模块：问题模块、输入模块、情景记忆模块、回答模块
-  <div align="center"><img src="../../assets/TIM截图20180912115327.png" height="" /></div>
+  <div align="center"><img src="../assets/TIM截图20180912115327.png" height="" /></div>
 
   - 
diff --git a/papers/QA模型/README.md b/papers/QA模型/README.md
diff --git a/papers/README.md b/papers/README.md
@@ -1,6 +1,20 @@
 论文笔记
 ===
 
+Index
+---
+<!-- TOC -->
 
-## QA模型
-- 问答、机器阅读理解、视觉问答
+- [QA 模型](#qa-模型)
+  - [问答（QA） TODO](#问答qa-todo)
+  - [视觉问答（VisualQA, VQA）](#视觉问答visualqa-vqa)
+
+<!-- /TOC -->
+
+
+## QA 模型
+### 问答（QA） TODO
+
+### 视觉问答（VisualQA, VQA）
+- [综述](./QA-视觉问答-A-综述.md)
+- [摘要](./QA-视觉问答-A-摘要.md)
diff --git a/...：Locating Object Proposals from Edges.pdf → ...：Locating Object Proposals from Edges.pdf b/...：Locating Object Proposals from Edges.pdf → ...：Locating Object Proposals from Edges.pdf
diff --git a/...grained Visual Recognition.（双线性池化）.v6.pdf → ...grained Visual Recognition.（双线性池化）.v6.pdf b/...grained Visual Recognition.（双线性池化）.v6.pdf → ...grained Visual Recognition.（双线性池化）.v6.pdf
diff --git a/...f/[2015-NIPS].Skip-Thought Vectors.v1.pdf → ...f/[2015-NIPS].Skip-Thought Vectors.v1.pdf b/...f/[2015-NIPS].Skip-Thought Vectors.v1.pdf → ...f/[2015-NIPS].Skip-Thought Vectors.v1.pdf
diff --git a/...Compact Bilinear Pooling.（压缩双线性池化）.v2.pdf → ...Compact Bilinear Pooling.（压缩双线性池化）.v2.pdf b/...Compact Bilinear Pooling.（压缩双线性池化）.v2.pdf → ...Compact Bilinear Pooling.（压缩双线性池化）.v2.pdf
diff --git a/papers/QA模型/pdf/[2016].DenseCap.（李飞飞）.pdf → papers/pdf/[2016].DenseCap.（李飞飞）.pdf b/papers/QA模型/pdf/[2016].DenseCap.（李飞飞）.pdf → papers/pdf/[2016].DenseCap.（李飞飞）.pdf
diff --git a/...World Scenes based on Uncertain Input.pdf → ...World Scenes based on Uncertain Input.pdf b/...World Scenes based on Uncertain Input.pdf → ...World Scenes based on Uncertain Input.pdf
diff --git a/...o Answering Questions about Images.v7.pdf → ...o Answering Questions about Images.v7.pdf b/...o Answering Questions about Images.v7.pdf → ...o Answering Questions about Images.v7.pdf
diff --git a/...CCV].VQA：Visual Question Answering.v7.pdf → ...CCV].VQA：Visual Question Answering.v7.pdf b/...CCV].VQA：Visual Question Answering.v7.pdf → ...CCV].VQA：Visual Question Answering.v7.pdf
diff --git a/...diction for Visual Question Answering.pdf → ...diction for Visual Question Answering.pdf b/...diction for Visual Question Answering.pdf → ...diction for Visual Question Answering.pdf
diff --git a/...works for Image Question Answering.v2.pdf → ...works for Image Question Answering.v2.pdf b/...works for Image Question Answering.v2.pdf → ...works for Image Question Answering.v2.pdf
diff --git a/...ions for Visual Question Answering.v2.pdf → ...ions for Visual Question Answering.v2.pdf b/...ions for Visual Question Answering.v2.pdf → ...ions for Visual Question Answering.v2.pdf
diff --git a/...tion for Visual Question Answering.v2.pdf → ...tion for Visual Question Answering.v2.pdf b/...tion for Visual Question Answering.v2.pdf → ...tion for Visual Question Answering.v2.pdf
diff --git a/...ion Answering and Visual Grounding.v3.pdf → ...ion Answering and Visual Grounding.v3.pdf b/...ion Answering and Visual Grounding.v3.pdf → ...ion Answering and Visual Grounding.v3.pdf
diff --git a/...ual and Textual Question Answering.V1.pdf → ...ual and Textual Question Answering.V1.pdf b/...ual and Textual Question Answering.V1.pdf → ...ual and Textual Question Answering.V1.pdf
diff --git a/...tion for Visual Question Answering.v5.pdf → ...tion for Visual Question Answering.v5.pdf b/...tion for Visual Question Answering.v5.pdf → ...tion for Visual Question Answering.v5.pdf
diff --git a/...odel for Visual Question Answering.v1.pdf → ...odel for Visual Question Answering.v1.pdf b/...odel for Visual Question Answering.v1.pdf → ...odel for Visual Question Answering.v1.pdf
diff --git a/...n Answering Baselines.（数据偏差、Facebook）.pdf → ...n Answering Baselines.（数据偏差、Facebook）.pdf b/...n Answering Baselines.（数据偏差、Facebook）.pdf → ...n Answering Baselines.（数据偏差、Facebook）.pdf
diff --git a/...l Question Answering.（综述：数据、评价、算法）.v4.pdf → ...l Question Answering.（综述：数据、评价、算法）.v4.pdf b/...l Question Answering.（综述：数据、评价、算法）.v4.pdf → ...l Question Answering.（综述：数据、评价、算法）.v4.pdf
diff --git a/... Multimodal Reasoning and Matching.v2.pdf → ... Multimodal Reasoning and Matching.v2.pdf b/... Multimodal Reasoning and Matching.v2.pdf → ... Multimodal Reasoning and Matching.v2.pdf
diff --git a/...in Visual Question Answering.（数据集）.v3.pdf → ...in Visual Question Answering.（数据集）.v3.pdf b/...in Visual Question Answering.（数据集）.v3.pdf → ...in Visual Question Answering.（数据集）.v3.pdf
diff --git a/...duct for Low-rank Bilinear Pooling.v4.pdf → ...duct for Low-rank Bilinear Pooling.v4.pdf b/...duct for Low-rank Bilinear Pooling.v4.pdf → ...duct for Low-rank Bilinear Pooling.v4.pdf
diff --git a/...ks for Natural Language Processing.V5.pdf → ...ks for Natural Language Processing.V5.pdf b/...ks for Natural Language Processing.V5.pdf → ...ks for Natural Language Processing.V5.pdf