Um processamento - Grupo de contador de dinheiro de Nantong

Scientific Reports volume 12, Artigo número: 14396 (2022) Citar este artigo

3220 Acessos

4 citações

5 Altmétrico

Detalhes das métricas

A demanda para processar grandes quantidades de dados gerados por câmeras de alta resolução de última geração motivou novas soluções de IA no dispositivo com eficiência energética. Os dados visuais nessas câmeras são geralmente capturados em tensões analógicas por uma matriz de pixels do sensor e, em seguida, convertidos para o domínio digital para processamento subsequente de IA usando conversores analógico-digital (ADC). Pesquisas recentes tentaram aproveitar a computação analógica/digital massivamente paralela e de baixo consumo de energia na forma de processamento próximo e no sensor, em que a computação de IA é realizada parcialmente na periferia da matriz de pixels e parcialmente em um local separado. CPU/acelerador de placa. Infelizmente, as imagens de entrada de alta resolução ainda precisam ser transmitidas entre a câmera e a unidade de processamento de IA, quadro a quadro, causando gargalos de energia, largura de banda e segurança. Para mitigar esse problema, propomos um novo paradigma de processamento em pixel na memória (P2M), que personaliza a matriz de pixels adicionando suporte para multicanal analógico, convolução multibit, normalização de lote e unidades lineares retificadas ( ReLU). Nossa solução inclui uma abordagem holística de co-projeto de algoritmo-circuito e o paradigma P2M resultante pode ser usado como um substituto imediato para incorporar as primeiras camadas de modelos de rede neural convolucional (CNN) com uso intensivo de memória em plataformas de sensores de imagem CMOS fabricadas em fundição . Nossos resultados experimentais indicam que o P2M reduz a largura de banda de transferência de dados de sensores e conversões analógicas para digitais em \({\sim }\,21\times\), e o produto de atraso de energia (EDP) incorrido no processamento de um modelo MobileNetV2 em um TinyML caso de uso para conjunto de dados de palavras de ativação visual (VWW) em até \(\matord {\sim }\,11\times\) em comparação com implementações padrão de processamento próximo ou no sensor, sem qualquer queda significativa na precisão do teste.

As atuais aplicações generalizadas de visão computacional, abrangendo vigilância1, gestão de desastres2, armadilhas fotográficas para monitorização da vida selvagem3, condução autónoma, smartphones, etc., são alimentadas pelos notáveis avanços tecnológicos nas plataformas de deteção de imagens4 e pelo campo cada vez melhor dos algoritmos de aprendizagem profunda5. No entanto, as implementações de hardware de plataformas de detecção e processamento de visão têm sido tradicionalmente segregadas fisicamente. Por exemplo, as atuais plataformas de sensores de visão baseadas na tecnologia CMOS atuam como entidades de transdução que convertem intensidades de luz incidente em valores de pixels digitalizados, através de um conjunto bidimensional de fotodiodos6. Os dados de visão gerados por esses sensores de imagem CMOS (CIS) são frequentemente processados em outro lugar em um ambiente de nuvem que consiste em CPUs e GPUs7. Essa segregação física leva a gargalos no rendimento, na largura de banda e na eficiência energética para aplicações que exigem a transferência de grandes quantidades de dados do sensor de imagem para o processador back-end, como detecção de objetos e rastreamento de imagens/vídeos de alta resolução.

Para resolver esses gargalos, muitos pesquisadores estão tentando aproximar o processamento inteligente de dados da fonte dos dados de visão, ou seja, mais perto do CIS, adotando uma de três abordagens amplas: processamento próximo ao sensor8,9, processamento no sensor10 e processamento em pixels11,12,13. O processamento próximo ao sensor visa incorporar um chip acelerador de aprendizado de máquina dedicado na mesma placa de circuito impresso8, ou mesmo empilhado em 3D com o chip CIS9. Embora isto permita o processamento dos dados do CIS mais próximo do sensor e não na nuvem, ainda sofre com os custos de transferência de dados entre o CIS e o chip de processamento. Por outro lado, as soluções de processamento no sensor10 integram circuitos digitais ou analógicos na periferia do chip do sensor CIS, reduzindo a transferência de dados entre o sensor CIS e os chips de processamento. No entanto, essas abordagens ainda exigem que os dados sejam transmitidos (ou lidos em paralelo) através de um barramento de matrizes de fotodiodos CIS para os circuitos de processamento periféricos . Em contraste, soluções de processamento em pixel, como 11,12,13,14,15, visam incorporar capacidades de processamento nos pixels CIS individuais. Os esforços iniciais concentraram-se na operação de convolução analógica em pixel, mas muitos exigem o uso de memórias não voláteis emergentes ou materiais 2D. Infelizmente, estas tecnologias ainda não estão maduras e, portanto, não são adequadas para a produção de fundição existente do CIS. Além disso, esses trabalhos não suportam operações de convolução multicanal e multibit, normalização de lote (BN) e unidades lineares retificadas (ReLU) necessárias para a maioria das aplicações práticas de aprendizado profundo. Além disso, trabalhos direcionados a hardware digital baseado em CMOS em pixel, organizado como matrizes de processadores de dados múltiplos de instrução única (SIMD) paralelos a pixels12, não suportam operação de convolução e, portanto, são limitados a cargas de trabalho de brinquedo, como reconhecimento de dígitos. Muitos desses trabalhos dependem de processamento digital que normalmente produz níveis mais baixos de paralelismo em comparação com suas alternativas analógicas em pixel. Em contraste, o trabalho em 13 aproveita a computação analógica paralela em pixels, em que os pesos de uma rede neural são representados como o tempo de exposição de pixels individuais. Sua abordagem exige que pesos sejam disponibilizados para manipular o tempo de exposição dos pixels por meio de pulsos de controle, levando a um gargalo na transferência de dados entre as memórias de peso e o conjunto de sensores. Assim, uma solução de processamento CIS in-situ, onde tanto os pesos quanto as ativações de entrada estão disponíveis em pixels individuais, que implementa com eficiência operações críticas de aprendizado profundo, como operações de convolução multibit e multicanal, BN e ReLU, permaneceu indefinida. Além disso, todas as soluções de computação em pixels existentes têm como alvo conjuntos de dados que não representam aplicações realistas de inteligência de máquina mapeadas em CIS de última geração. Especificamente, a maioria dos trabalhos existentes concentra-se em conjuntos de dados simplistas como MNIST12, enquanto poucos13 usam o conjunto de dados CIFAR-10 que possui imagens de entrada com uma resolução significativamente baixa (\(32\vezes 32\)), que não representa imagens capturadas por CIS de alta resolução de última geração.