Ir para conteúdo
Entre para seguir isso  
Visitante

Tópico oficial da análise de dados

Publicações recomendadas

Citação de ElliotReid13, há 16 minutos:

Vou mesmo ver isso então! O meu receio é que ao passar a usar data.tables em vez de data.frames me possa atrasar o processo de aprendizagem em Python. Até agora tenho conseguido conciliar o R e Python porque, com os Pandas instalados, a sintaxe é muito parecida e consigo evoluir nos dois em simultâneo. Mas nada como experimentar, tudo o que dê para poupar tempo e esforço é bem vindo! Obrigado Keyser ❤️

 

Ah , usas Pandas. Dá uma olhadela neste site para veres as diferenças: https://datascience-enthusiast.com/R/pandas_datatable.html

Editado por Keyser

Compartilhar este post


Link para o post

Coloco aqui alguns links com repositórios do github, com código e recursos úteis para data science/machine learning/data engineering:

Data Science:

https://github.com/bulutyazilim/awesome-datascience

Machine Learning:

https://github.com/josephmisiti/awesome-machine-learning

Data Visualization:

https://github.com/fasouto/awesome-dataviz

Data Analytics:

https://github.com/Aleyasen/awesome-oss-data-analytics

Data Engineering:

https://github.com/igorbarinov/awesome-data-engineering

Ao longo do meu curso, fui trabalhando com algumas ferramentas associadas a cada uma destas vertentes. Tive a oportunidade de usar o R, o Weka e o PowerBI em projetos de data mining e visualização de dados. Relativamente ao Machine Learning, a minha tese incidiu no desenvolvimento de um sistema de classificação de imagens de comprimidos recorrendo a frameworks de Deep Learning, neste caso o Keras e o Tensorflow. Acho que para quem interesse em ML, estas duas ferramentas são super úteis e bastante user friendly e rapidamente desenvolvem algo funcional. No entanto, apesar de ter gostado da experiência, não morro de amores pela onda.

Confesso que o que me desperta mais curiosidade é mesmo Data Engineering. Qualquer empresa tecnológica hoje em dia gera e consome quantidades absurdas de dados e são estes, como já aí disseram, o ouro de hoje em dia. Se alguém tiver experiência com isto que diga porque estou a precisar de uma orientação. Neste momento, encontro-me a aprender a utilizar message brokers (RabbitMQ) e tenciono aprender Kafka daqui a uns tempos. 

Todos estes conceitos podem soar a trendy e bandwagon, mas a verdade é que competências nestas áreas nos dias de hoje são super valorizadas e dão emprego praticamente garantido. 

Editado por Solero
  • Like 1

Compartilhar este post


Link para o post
Citação de Sumudica by Night, Em 24/04/2019 at 18:28:

O que usam para a representação gráfica?

Power BI, Excel, R...

Compartilhar este post


Link para o post

Só vi agora este tópico!

Trabalho actualmente com machine learning na área da saúde. Estou mais interessado na parte de R&D que na parte de deployment, scalling e data engineering, embora seja quase impossível escapar a isto na indústria. 

Fico contente por saber que há malta no fórum interessada nesta área!

  • Like 3

Compartilhar este post


Link para o post

Já alguém aqui fez a certificação de Power BI (70-778)?

Compartilhar este post


Link para o post
Citação de Goldesel, Em 30/04/2019 at 12:08:

Trabalho actualmente com machine learning na área da saúde.

Podes partilhar em que área? Farmacêutica?

Compartilhar este post


Link para o post
Citação de Luís Silvares, há 1 hora:

Podes partilhar em que área? Farmacêutica?

Neste momento, trabalho numa startup médica, com uma solução inteligente para o fitting de próteses do membro inferior.

Compartilhar este post


Link para o post

Pessoal, preciso de uma opinião vossa. Tenho ganho algum gosto por explorar a área de Data Engineering e vejo-me a trabalhar nesta área. No entanto, surgiu a oportunidade de integrar um novo projeto dentro da empresa, sendo que o meu cargo seria mais de Data Analyst/Data Scientist. Até que ponto consideram importante ter um background nesta área para singrar mais tarde em Data Engineering? Pessoalmente, estou tentado a aceitar pois para além de poder vir a ser super bem orientado por uma pessoa extremamente competente em Data Science, aprender a utilizar certas ferramentas como R, Python ou Shiny e a consolidar conhecimentos de Machine Learning e estatística pode me dar uma bagagem útil para mais tarde vir a desempenhar funções mais orientadas para data engineering. 

Na minha função atual consegui ganhar conhecimentos de BD (SQL e NoSQL), data warehousing e familiarizar-me com ETL (ODI, event processing, kafa, etc.), por isso acho que pode fazer sentido. O que acham?

Editado por Solero

Compartilhar este post


Link para o post

Não sendo da área (de data), parece-me uma boa opção. Isso com side-learning pode-te dar a base para daqui a 6meses/1 ano conseguires algo mais confortável. Ter alguém bastante qualificado para nos orientar é das melhores coisas que há.

  • Like 1

Compartilhar este post


Link para o post

Obrigado a ambos, pessoal. Se houver desenvolvimentos, posto aqui!

  • Like 1

Compartilhar este post


Link para o post

Já agora, em que é que as áreas diferem? A que tu gostarias e a proposta que tens.

Compartilhar este post


Link para o post

Interessante este topico.

 

Amanha venho para aqui chatear a malta, porque tenho que fazer a analise estatística de uma das partes aqui do serviço, e sinceramente isto está sempre uma cagada em 3 actos, queria deixar a coisa bonitinha e de facil compreensão para que o pessoal entenda de uma vez a m*rda que anda a fazer.

 

  • Like 2

Compartilhar este post


Link para o post
Citação de Bashir, Em 09/05/2019 at 01:03:

Já agora, em que é que as áreas diferem? A que tu gostarias e a proposta que tens.

Pensei que tinha respondido a isto, sorry!

A proposta que tenho é mais direcionada para a modelação, análise de dados, machine learning, etc. O chefe é formado em matemática, por isso, o forte dele será sempre nestas vertentes. No entanto, também tem a outra vertente de desenvolver o backend de serviços que vão suportar aplicações atuais e novas que entretanto vão surgir.

Enquanto que o data scientist/data analyst se preocupa com o conteúdo dos dados e o uso de ferramentas para os trabalhar e criar informação útil, o data engineer (o que eu me vejo a fazer), suporta o trabalho do anterior garantindo a infraestrutura e o fluxo dos dados. Enquanto que o data scientist usa o R, Python, pandas, Keras, etc. o engineer tem que dominar ferramentas como o Hadoop, Spark e possivelmente Azure ou AWS, dependendo do data lake da empresa. 

  • Like 1

Compartilhar este post


Link para o post

Não tinha conhecimento deste tópico, obrigado @Bashir.

@Solero, eu ia, nem que fosse para alargar o espectro da tua experiência de trabalho relacionado com dados. Assim cobres todas as principais vertentes, diria.

Deixo aqui o post que tinha metido no tópico da programação:

 

Citação de doom_master, há 6 horas:

:17_heart_eyes::17_heart_eyes:

Ando a pensar em dar uns toques em Data Science, que está na berra no mercado agora. Já trabalhei com machine learning na tese, mas sinto que ia muito à deriva das sugestões da minha orientadora, que era muito forte nisso, e não tenho muitas bases. Apanhei alguns cursos no Udemy (um deles pago, mas para o qual encontrei alternativa free) e outro recomendado por um colega de Data Science. Deixo em baixo os links:

https://freecoursesite.com/machine-learning-a-z-hands-on-python-r-in-data-science-2/

https://www.edx.org/course/machine-learning-fundamentals-3

 

Mais sugestões serão sempre bem-vindas 😄 

 

Meanwhile já saquei o primeiro curso inteiro e instalei o Python.

  • Like 2

Compartilhar este post


Link para o post
Citação de doom_master, Em 18/05/2019 at 02:00:

Não tinha conhecimento deste tópico, obrigado @Bashir.

@Solero, eu ia, nem que fosse para alargar o espectro da tua experiência de trabalho relacionado com dados. Assim cobres todas as principais vertentes, diria.

Deixo aqui o post que tinha metido no tópico da programação:

 

 

Meanwhile já saquei o primeiro curso inteiro e instalei o Python.

A minha experiência pessoal na Udemy é que os cursos não são muito bons quando comparados com outros websites. Acho que cursos do Coursera, Udacity e Edx são mais relevantes e melhor estruturados na área de Data Science, Python e Machine Learning. 

Citação de doom_master, há 13 horas:

https://www.humblebundle.com/books/artificial-intelligence-deep-learning-books

Malta mais por dentro da coisa, têm alguma opinião sobre o material deste bundle?

A opinião generalizada da Packt na internet é que os livros são de qualidade duvidosa. A maneira como eles contratam os autores sem qualquer experiência relevante é um pouco estranho. O que não quer dizer que não possa existir um ou outro interessante. Mas pessoalmente tentaria ficar por livros mais reconhecidos da área já que vais investir o teu tempo nisso. 

 

  • Like 1

Compartilhar este post


Link para o post

É o mesmo problema da udemy. O facto de teres muitos alunos, de teres reviews é muito relativo e muitas vezes 'aldrabado'. Basta estares em grupos de udemy no facebook (estou num de instrutores) e entre os próprios instrutores há uma partilha de free coupons que é basicamente um pedido de uma boa avaliação.

Isto a juntar o facto de não haver seleção e qualquer zé manel poder meter lá um curso e chamar-lhe de "The best machine learning algorithms of 2020 with jQuery" e tá o caldo entornado.

Seja como for, encontra-se lá conteudo decente.

  • Concordo! 1

Compartilhar este post


Link para o post

Já aqui alguém desenvolveu algo para fazer fuzzy matching? Vou fazer em Python com uma biblioteca chamada fuzzyuzzy e vou usar o pandas para trabalhar os ficheiros (tsv), sendo que o algoritmo que vou utilizar é o Levenshtein distances. Já li opiniões divergentes em relação à eficiência deste algoritmo para fazer match de strings, com base na similaridade, mas a maioria das que ouvi pareceu-me positiva e bastante straightforward.

 

Compartilhar este post


Link para o post
Citação de Solero, há 13 horas:

Já aqui alguém desenvolveu algo para fazer fuzzy matching? Vou fazer em Python com uma biblioteca chamada fuzzyuzzy e vou usar o pandas para trabalhar os ficheiros (tsv), sendo que o algoritmo que vou utilizar é o Levenshtein distances. Já li opiniões divergentes em relação à eficiência deste algoritmo para fazer match de strings, com base na similaridade, mas a maioria das que ouvi pareceu-me positiva e bastante straightforward.

  

Eu ando a implementar uma ferramenta (supostamente líder de mercado) que ootb faz fuzzy matching aplicando distância de Levenshtein. Não sei se te posso ajudar em algo específico, mas who knows.

Compartilhar este post


Link para o post

Ora então é o seguinte maltinha da analise de dados.

Vou tentar explicar isto desde o inicio que a coisa é um bocado "chata".

Aqui no meu serviço temos um sistema de envio de transfusões sanguíneas, em que as unidades são enviadas em contentores selados, que só abrem após a leitura de um chip RFID do enfermeiro, e depois da leitura de um segundo chip RFID colocado numa pulseira num doente. Os contentores alem de garantirem que as transfusões colocadas nos doentes correctos, também tem uma sonda de temperatura e suportam a introdução dos sinais vitais do doente.

De forma a reduzir o desperdício de papel e os custos de armazenamento, uma vez que por lei somos obrigados a guardar todos os registos durante 30 anos, a administração decidiu aproveitar as funcionalidades do sistema e cortar com o registos em papel, tendo determinado que é obrigatória a introdução dos sinais vitais no sistema.

Eu fiquei responsável para analise da base de dados trimestralmente, e atendendo às limitações do programa, tinha que a fazer essa analise à unha, ou seja abrir todas as transfusões, e analisar uma a uma, registando as ocorrência em papel que depois passava para um excel onde criava os gráfico e tentava dar algum sentido à coisa, era um trabalho aborrecido e propenso a erros, uma vez que a forma como os dados eram apresentados às vezes é confusa.

Entretanto depois de muito batalhar com o pessoal da informática, lá consegui que fizessem me exportassem a base de dados para um excel, de forma a conseguir fazer uma analise mais correcta, e deixei de perder semanas a perder apenas umas horas para fazer o mesmo trabalho.

Ora a minha questão é que tendo eu neste momento uma base dados com os últimos 2 anos, como é que eu consigo apresentar isto de forma a seja inteligível, e visualmente apelativo, porque o que tenho feito até agora é na melhor das hipóteses básico, ao nível de um miúdo do ciclo.

PS: Desculpem lá o testamento que pouco ou nada acrescenta, mas acho que serve para contextualizar a coisa e fazer com que eu me explique um pouco melhor.

Compartilhar este post


Link para o post
Citação de Bazuka, Em 04/06/2019 at 11:10:

Ora então é o seguinte maltinha da analise de dados.

Vou tentar explicar isto desde o inicio que a coisa é um bocado "chata".

Aqui no meu serviço temos um sistema de envio de transfusões sanguíneas, em que as unidades são enviadas em contentores selados, que só abrem após a leitura de um chip RFID do enfermeiro, e depois da leitura de um segundo chip RFID colocado numa pulseira num doente. Os contentores alem de garantirem que as transfusões colocadas nos doentes correctos, também tem uma sonda de temperatura e suportam a introdução dos sinais vitais do doente.

De forma a reduzir o desperdício de papel e os custos de armazenamento, uma vez que por lei somos obrigados a guardar todos os registos durante 30 anos, a administração decidiu aproveitar as funcionalidades do sistema e cortar com o registos em papel, tendo determinado que é obrigatória a introdução dos sinais vitais no sistema.

Eu fiquei responsável para analise da base de dados trimestralmente, e atendendo às limitações do programa, tinha que a fazer essa analise à unha, ou seja abrir todas as transfusões, e analisar uma a uma, registando as ocorrência em papel que depois passava para um excel onde criava os gráfico e tentava dar algum sentido à coisa, era um trabalho aborrecido e propenso a erros, uma vez que a forma como os dados eram apresentados às vezes é confusa.

Entretanto depois de muito batalhar com o pessoal da informática, lá consegui que fizessem me exportassem a base de dados para um excel, de forma a conseguir fazer uma analise mais correcta, e deixei de perder semanas a perder apenas umas horas para fazer o mesmo trabalho.

Ora a minha questão é que tendo eu neste momento uma base dados com os últimos 2 anos, como é que eu consigo apresentar isto de forma a seja inteligível, e visualmente apelativo, porque o que tenho feito até agora é na melhor das hipóteses básico, ao nível de um miúdo do ciclo.

PS: Desculpem lá o testamento que pouco ou nada acrescenta, mas acho que serve para contextualizar a coisa e fazer com que eu me explique um pouco melhor.

 Eu utilizaria o Power BI para o efeito. Não é necessário grande know-how técnico e facilmente consegues carregar a tua BD e manipular a informação e criar dashboards que te permitem visualizar a informação de forma bastante apelativa e simples. 

 

Compartilhar este post


Link para o post

Crie uma conta ou entre para comentar

Você precisa de ser membro desta comunidade para poder comentar

Criar uma conta

Registe-se na nossa comunidade. É fácil!

Criar nova conta

Entrar

Já tem uma conta? Faça o login.

Autentique-se agora
Entre para seguir isso  

×
×
  • Criar Novo...