3月4日

基本要求是利用一个decoder去完成k-net分割任务和detr3D的3D探测任务

首先找相似点，对于图像的特征提取部分，k-net与detr3D共用；后面k-net使用kernel进行迭代，与instance/mask建立起映射；detr使用query进行迭代，与reference point建立起映射；后面迭代的过程依赖于网络实现。kernel和query都是比较稀疏的？

怎么结合？

继承k-net，kernel也负责产生reference point?多视角怎么处理？
继承k-net，不同图像中的统一物体的mask上采样得到detr3D的feature,来做3D探测。我觉得可行性是有的，而且能很好的结合多视角的信息，而且detr最后依旧是回到了图像上能体现bounding box区域信息的特征提取上，而车的mask就包含了这个信息。我觉得值得一试
继承detr3D,query原本输出的是点，现在输出mask?再拿mask做3D探测？和第二点类似
两者都要？还没想好

更远的胡思乱想：

车、道路的运动时连续的，时序信息能辅助分析，比如连续两帧图像，在采样时间够短的情况下有理由认为同一辆车在两张图片中的位置使相近的(在这辆车没有跑出视野之前，不过是环视相机的全景图，不知道实际怎么样)，怎么利用历史信息再说。但利用好了应该能简化运算，提高实时性
其实时序信息不仅仅能帮助目标检测，也能预测目标运行的方向，大致的速度？(如果有距离度量参数的话)。因为物体不可能瞬移，这是一个比较强的约束
车道线还没想好

4月11日

1.关于结合，可以采用k-net的思想，为detr3d最终采样到的local feature预测出一个mask,最后分割和检测任务都统一成预测kernel，kernel再分别与图像做卷积，全景分割的kernel卷积后得到的是分割的mask，而检测任务的kernel卷积得到的是检测的local feature，最后再用local feature去预测3维空间中的anchor box

潜在问题：

detr3D最终利用local feature预测3维空间中anchor box的机理何在？输入和输出之间的联系不够紧密，我觉得这种方式未必是最好的方式，依赖这种结构不一定能做到最优
分割问题注重的是语义信息，检测问题注重的是位置信息。虽然实例分割和检测任务有相关性，但在新的框架下这两者共享多少参数？有多少关联性，位置信息和语义信息怎么单独体现还是个问题

2.Loop-attention机制，基于环视相机的cross attention集成体

6个环视相机，那就做六次类似的cross attention，每个attention的输出作为下一个相机的key/query(本相机的作为另一个)，由此循环成一圈，为一个loop attention。可以利用最终的cross attention机制的输出结果去预测3D空间坐标？或者用最后6次的cross attention的输出连接在一起去预测3D空间坐标？或者用最后6次cross attention的输出结果去做应相机拍摄的图片的分割任务？

我认为loop attention的潜力：

是一种结合多尺度、空间信息的方式。既可以作为encoder，在多视角下提取空间的位置、语义信息，使用的时候需要将一个视角到另一个视角的变换矩阵一同输出。也可以作为decoder，类似cross attention的功能，但是能直接利用相邻视角相机、间接利用其它视角相机的信息。
联想到detr3D的query的做法,detr3D的query预测的是reference point，再将reference point格局变换矩阵映射回各个环视相机拍摄的图像上。这是一种多尺度信息的利用方法，但是我认为缺点很明显，一个是利用稀疏的点来关联视角这种高纬度的视觉信息是对空间一致性的一种浪费，没有很好挖掘视角之间的联系；其次，reference point不一定在每个相机中都有映射的点。但是两个相邻的环视相机肯定有交叉的地方。可以好好挖掘这部分的使用方法。

可以再拓展的地方：

与mask联系起来，相邻环视相机只提供与下一个相机同时看到的物体(利用mask做到)，能加速

潜在弱点:

很明显，太慢了，在6倍计算量的基础上即使有mask做加速也显得慢
剩下的没做实验，不好说

等之后做实验验证想法吧，具体能不能work看实验结果

starC

my ideas

3月4日

4月11日