Ir para conteúdo
ElliotReid13

Tópico oficial da análise de dados

Posts recomendados

Olá,

O nome do tópico é ridículo e pouco esclarecedor, e também nem estou seguro de que seja aqui o local mais indicado (ou mais visível). Mas até me lembrar de um nome melhor, acho engraçado ter aqui no fórum um ponto de encontro onde malta com diferentes percursos académicos e curiosidade pelo tratamento e análise de dados possa ir discutindo de tudo um pouco, desde estatística a programação, ferramentas/software, algoritmos, cursos online, meetups, oportunidades profissionais, notícias de IA, etc. O CMPT é tão diverso que tenho a certeza que já haverá por aqui malta que já trabalha na área ou que, como eu, também andam a aprender novas competências analíticas.

Já não é novidade nenhuma para ninguém que a minha "especialidade" é mais virada para a área financeira, mas os meus objetivos profissionais passam sobretudo pela parte dos investimentos e, como tal, ter mais competências analíticas será essencial a prazo para me distinguir dos meus pares e ser bem-sucedido profissionalmente. Cada vez mais vou vendo malta como eu, não só de finanças mas também de outras áreas, que tem também investido na sua formação de Business Intelligence e Analytics, por reconhecerem que uma boa parte das oportunidades profissionais que irão surgir num futuro próximo estarão relacionadas não só com o conhecimento e experiência prática na sua área de formação, mas que irão exigir novas competências na obtenção, tratamento e análise de dados e, partir daqui, conhecimentos na criação e/ou aplicação de modelo preditivos (Machine Learning e Deep Learning)

Como tal, aproveito para perguntar se já trabalham na área, se têm curiosidade, quais as competências que acham mais importante desenvolver e quais os melhores recursos para isso, datasets e desafios porreiros que tenham encontrado na net, etc.

 

EDIT: Já agora, apareceu-me isto no feed do Facebook, muito engraçado: https://www.agorize.com/en/challenges/xpsg?lang=en . Tenho pena de ainda não ter o conhecimento necessário para conseguir sequer criar um modelo funcional, mas para quem estiver mais avançado que eu, pode divertir-se ai um pouco.

 

Links úteis:

https://www.kaggle.com/ - comunidade internacional de data science, com recursos de aprendizagem de Python, SQL, ML, DL, etc., e uma série de competições;

https://youtu.be/9rDhY1P3YLA?list=PLrYbCKAfLOpeKYjox2h0qOulBUkIdaPJi - série de cursos online gratuitos para quem quer começar a desenvolver competências na área;

https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century - o artigo da praxe;

https://www.datascienceportugal.com/ - a comunidade portuguesa, dizem que os eventos são muito porreiros, mas ainda não fui a nenhum;

 

Se tiverem mais sugestões, força!

 

Editado por ElliotReid13
  • Like 4

Compartilhar este post


Link para o post

Elliot, sabendo programar, e sabendo 0 de data analysis, o que podias recomendar como projeto pessoal no caso de alguém querer aprender alguma coisa?

Diria que me podia adaptar, mesmo não querendo mudar de área (ainda gosto do que faço na web) mas gostava de sair um pouco da minha área de conforto em side projects.

Compartilhar este post


Link para o post

A piada da área é que é tão grande e tão diversa em ferramentas, que não se pode dizer que haja alguma coisa para aprender e que permita logo dar o salto. Ainda assim, se souberes alguma coisa de R ou Python (aqui precisas de algumas libraries simples, como NumPy, Pandas e MatPlotLib) já tens a base, assumindo que sabes o mínimo de estatística. Depois há ferramentas de visualização dos dados como Tableau, QlikView e Power BI. Por fim, tens de saber SQL, que é muito simples (mas existem muitas variantes, apesar de MySQL e SQL Server serem as mais comuns e praticamente iguais). Juntas uma ferramenta de cada grupo, e as consultoras não te largam mais a p*cha 😂

Compartilhar este post


Link para o post

Ate' eu que sou de mecanica de fluidos usei uma tecnica de Data Analysis para a minha tese de mestrado. Uma adaptacao/redefinicao de PCA (Principal component analysis) chamada POD (Proper orthogonal decomposition) que me permitiu decompor escoamentos caoticos em funcoes de tempo e espaco mais ou menos bem definidas. E' uma area interessantissima, infelizmente nao e' o que estou a fazer no meu doutoramento, mas acho que quando o acabar vou investir seriamente em aprender mais sobre isto. Pelo menos cursos de Python ja' tenho marcados.

  • Like 1

Compartilhar este post


Link para o post
Citação de ElliotReid13, há 3 horas:

A piada da área é que é tão grande e tão diversa em ferramentas, que não se pode dizer que haja alguma coisa para aprender e que permita logo dar o salto. Ainda assim, se souberes alguma coisa de R ou Python (aqui precisas de algumas libraries simples, como NumPy, Pandas e MatPlotLib) já tens a base, assumindo que sabes o mínimo de estatística. Depois há ferramentas de visualização dos dados como Tableau, QlikView e Power BI. Por fim, tens de saber SQL, que é muito simples (mas existem muitas variantes, apesar de MySQL e SQL Server serem as mais comuns e praticamente iguais). Juntas uma ferramenta de cada grupo, e as consultoras não te largam mais a p*cha 😂

Apesar de nunca ter usado Python/R penso que o problema não era por aí. Como disse, não é algo que pretenda investir em termos de mudar de carreira, mas aprender algo no meu tempo livre, mas encravo sempre na aplicabilidade disso. A nivel pessoal, ia tratar que dados? Confesso que não vi nada do género, por isso é que tou a falar à toa, mas sou capaz de dar uma chance a isso. Quanto mais não seja para brincar com Python. MySql e SQL Server estou confortável qb, não seria um problema.

Falando nisto, no mail da empresa tinha publicidade a isto hoje:

https://hackacity.eu/porto/

Compartilhar este post


Link para o post

Estava-me a registar nesse concurso do PSG só por curiosidade para saber os requesitos e fiquei triggered:

image.png.c31f22c98e7982c18e54450b6470be2e.png

Mas voltando ao assunto do tópico: Como já tinha dito num outro tópico é uma área que me desperta interesse, sendo eu da área da progamação. Durante a faculdade tive uma cadeira que usava R portanto estou à vontade. Queria fazer algo com o futebol/apostas mas tenho a consciência que as casas tem gente bem melhor que eu nessa área e portanto continuariam a ganhar e portanto tenho sempre adiado.

Editado por HappyKing

Compartilhar este post


Link para o post

pq e' que ficaste triggered?


(e assim comeca mais um topico destinado a discussoes que nao sao sobre o titulo do topico)

Compartilhar este post


Link para o post
Citação de Sandes., há 4 minutos:

pq e' que ficaste triggered?

Sou do grupo de pessoas que não percebe o Other numa questão daquele género ( Eu sei que isso está relacionado com o Third Gender). E nem sequer é ser mente fechada ou coisa parecida, lido bastante bem com isso mas secalhar sou eu que estou mal. Mas não quero ir por ai. Peço desculpa pelo off-topic e continuemos a discussão no tópico bastante interessante que o Elliot trouxe. 

Já agora Elliot: concordas que esta área poderá ser das áreas menos afetadas pela "robotização" da informática dado a parte humana que está sempre associada?

Editado por HappyKing

Compartilhar este post


Link para o post
Citação de Sandes., há 5 minutos:

pq e' que ficaste triggered?


(e assim comeca mais um topico destinado a discussoes que nao sao sobre o titulo do topico)

Porque só devia ter duas opções.

Compartilhar este post


Link para o post

Eu pensava que tinha sido claro, mas a minha pergunta nao queria de qualquer forma que houvesse resposta.So' achei um comentario desnecessario que poderia, la' est'a, criar discussao desnecessaria porque e' um assunto controverso que nada tem a ver com analise de dados.

 

Mas adiante, @ElliotReid13, estas ciente de algum uso de MATLAB para analise de dados? Alguma base de informacao porreira para isso?

Compartilhar este post


Link para o post

Obrigado pela thread e pelos links. Já me registei no kaggle para reavivar o Python. Este semestre tenho também uma cadeira sobre R e ando, nos tempos livres, a brincar um bocado com o Swirl.

@ElliotReid13 como foi a tua aprendizagem e o método? Aprendeste em casa ou na universidade? Que recursos utilizaste?

Compartilhar este post


Link para o post
Citação de Bashir, há 11 horas:

Apesar de nunca ter usado Python/R penso que o problema não era por aí. Como disse, não é algo que pretenda investir em termos de mudar de carreira, mas aprender algo no meu tempo livre, mas encravo sempre na aplicabilidade disso. A nivel pessoal, ia tratar que dados? Confesso que não vi nada do género, por isso é que tou a falar à toa, mas sou capaz de dar uma chance a isso. Quanto mais não seja para brincar com Python. MySql e SQL Server estou confortável qb, não seria um problema.

Falando nisto, no mail da empresa tinha publicidade a isto hoje:

https://hackacity.eu/porto/

 

Não deves dizer que a tua carreira não irá passar por aqui porque é muito difícil conseguires prever isso. Competências de análise de dados são cada vez mais importantes e transversais a todas as áreas, uma vez que as empresas têm conseguido recolher progressivamente mais e melhores dados que, quando devidamente analisados, se podem traduzir em informações muito relevantes quer na ótica do negócio, quer na ótica da melhoria de processos, quer na ótica da gestão de recurso, etc. Se o teu perfil é mais tecnológico, só tens a ganhar em aprender novas ferramentas que te permitirão expandir o teu "raio de ação" e, assim, também ter mais flexibilidade quanto ao tipo de oportunidades que poderás conseguir dentro do teu próprio ramo. Python, R ou Power BI são apenas algumas ferramentas que te podem ajudar a alavancar as tuas competências "base" e, por isso, o mais provável é que ambos possámos estar a aprender estas ferramentas e nunca concorrermos ao mesmo tipo de empregos 😉

Quanto aos dados a tratar, se estás a praticar Python ou R, vais acabar por usar uns daqueles datasets do Kaggle, Udacity ou outro site que tem montes de dados e que não me recordo do nome. Tipicamente, vejo malta que começa por esses dados mais genéricos e depois tenta aplicar o seu conhecimento num tema que ache mais interessante, cria um projeto no GitHub e usa isso como se fosse uma experiência profissional. Aliás, nas entrevistas que vou fazendo, nem falo do meu percurso académico, mas sim dos mini-projetos que faço sozinho por conta própria.

 

Citação de HappyKing, há 10 horas:

Já agora Elliot: concordas que esta área poderá ser das áreas menos afetadas pela "robotização" da informática dado a parte humana que está sempre associada?

 

Tenho dificuldades em ver esta área como estando no vácuo. Tu não podes ter apenas conhecimentos de estatística e programação para seres bom analista ou cientista. Tens de ter também algum conhecimento qualitativo de algumas das áreas onde vais trabalhar - de que me serve ser muito bom a sacar dados e a encontrar padrões se depois não consigo perceber o que significam esses padrões, o que significam para o negócio, ou como os comunicar às outras partes interessadas? No meu caso pessoal, eu continuo a ser um gajo de gestão/economia que, para além do conhecimento financeiro de base, tem umas noções de como usar dados do negócio para fazer análses descritivas, preditvas e prescritivas. Só pela perspetiva da estatística, matemática ou programação não teria como competir com malta de engenharia informática, mas comparando-me com a malta da minha área, tenho outras capacidades que me ajudam a distinguir-me dos restantes.

 

Citação de Sandes., há 10 horas:

Eu pensava que tinha sido claro, mas a minha pergunta nao queria de qualquer forma que houvesse resposta.So' achei um comentario desnecessario que poderia, la' est'a, criar discussao desnecessaria porque e' um assunto controverso que nada tem a ver com analise de dados.

 

Mas adiante, @ElliotReid13, estas ciente de algum uso de MATLAB para analise de dados? Alguma base de informacao porreira para isso?

 

Python ou R são as linguagens principais que tenho visto - a primeira é mais flexível (dadas as diferentes bibliotecas) e pode ser usada para desenvolvimento de software, web ou sistemas, daí ser mais popular; o R é mais estatístico e mais adequado à generalidade dos tratamentos de dados, mas mais limitado depois em termos de comunidade e outras aplicações. No entanto, vejo pedir muito outras linguagens, não só Matlab (com o qual nunca trabalhei, por isso não consigo ajudar), mas também Scala e Javascript. Existe um curso de machine learning muito famoso que, se não me engano, é feito com base numa linguagem muito semelhante ao Matlab (mas de borla), podes dar uma vista de olhos - https://www.coursera.org/learn/machine-learning

Não tenho bem a certeza se é esse em específico, mas basta pesquisar por Andrew Ng e ele é tipo o pai dos MOOCs de Machine/Deep Learning, toda a gente mais cedo ou mais tarde acaba por fazer algum curso dele.

 

Citação de Syn, há 7 horas:

Obrigado pela thread e pelos links. Já me registei no kaggle para reavivar o Python. Este semestre tenho também uma cadeira sobre R e ando, nos tempos livres, a brincar um bocado com o Swirl.

@ElliotReid13 como foi a tua aprendizagem e o método? Aprendeste em casa ou na universidade? Que recursos utilizaste?

Aprendi R na FEP durante duas semanas, e depois não peguei mais nisso até ao mestrado, onde usei um software semelhante (Stata). Com as bases de econometria e estatística, cheguei a fazer algumas regressões e perceber algumas regressões quando andava a fazer trading e um pouco nas apostas também. Quando começou este boom do data science, pareceu-me algo super interessante e com muito potencial para fazer uma carreira engraçada em startups e empresas financeiras (ou fundos) com uma vertente tecnológica forte e, portanto, comecei por aprender SQL e a mexer um bocadinho em R e, depois Python.

Entretanto surgiu a oportunidade de começar a trabalhar em BI há uns meses, no desenvolvimento de reports e de aplicações móveis que, não sendo nada de extraordinário, me permitiu livrar do rótulo de gajo de finanças, e me permite agora ir a entrevistas em, praticamente, todas as empresas para onde mando CV (onde exigem pouca experiência, claro). Em paralelo, comecei também uma pós-graduação na área - é uma oportunidade muito fixe porque me permite fazer networking, estruturar o meu processo de aprendizagem, aprender ferramentas que não conseguiria sozinho (licenças muito $$$) e, sobretudo, estar envolvido em projetos com dados reais de parceiros da universidade, e que vão ser quase "experiência profissional" tal a aplicabilidade dos processos e ferramentas usadas.

O objetivo agora é terminar este curso, completar um ano na consultora onde estou e, depois, dar o salto para Data Analyst/Scientist numa empresa por cá (tinha de ser uma porreira, tipo Prozis ou Farfetch) ou para a Alemanha, Noruega ou um país qualquer do norte onde há mais oportunidades que pessoal qualificado, e onde conseguiria juntar algum dinheiro mais rápido para me dedicar àquilo que quero fazer no futuro, que é trabalhar exclusivamente em investimentos financeiros.

  • Like 1

Compartilhar este post


Link para o post

@ElliotReid13 eu queria dizer que não é algo que eu queira investir o meu tempo neste momento de forma intensiva para concorrer a empregos disto. É óbvio que vejo a sua utilidade e sei a procura que neste momento está a ter, mas sabendo um pouco de PHP (mas não digo a ninguém XD), ter trabalhado com C#, JS e Angular faz com que não esteja desesperado por aprender algo super emergente para conseguir emprego. Mas como disse, tenho interesse, e como side project é algo que poderia funcionar. Penso imensas vezes em fazer algo como o sofascore mas com estatisticas(eles tambem tem) etc, mas parece-me algo enorme para pegar e fico sempre desanimado.

Compartilhar este post


Link para o post
Citação de Bashir, há 2 minutos:

@ElliotReid13 eu queria dizer que não é algo que eu queira investir o meu tempo neste momento de forma intensiva para concorrer a empregos disto. É óbvio que vejo a sua utilidade e sei a procura que neste momento está a ter, mas sabendo um pouco de PHP (mas não digo a ninguém XD), ter trabalhado com C#, JS e Angular faz com que não esteja desesperado por aprender algo super emergente para conseguir emprego. Mas como disse, tenho interesse, e como side project é algo que poderia funcionar. Penso imensas vezes em fazer algo como o sofascore mas com estatisticas(eles tambem tem) etc, mas parece-me algo enorme para pegar e fico sempre desanimado.

Imagino a trabalheira :4_joy:

Mas Python não podes dizer que é emergente, quando já é a linguagem mais utilizada (muito por conta da malta que está a dar os primeiros passos na programação, e começa a aprender por aqui). O R acredito que, com os teus conhecimentos, seja uma competência com importância marginal. Mas o resto anda tudo à volta de estatística, e é sempre bom saber de estatística :3_grin:

Compartilhar este post


Link para o post

O R tem vindo a ser cada vez mais utilizado.

Ranking TIOBE:

image.png.a0c27a9c3442f181bf7896e94856fb4b.png

O próprio MATLAB subiu bastante. Não será com certeza coincidência.

Compartilhar este post


Link para o post

O emergente era para toda a temática de Data Science cá em Portugal, que me parece tar a ter o boom agora. Já havia empresas a apostar, mas agora vê-se mais, muito mais. Python é algo que nunca surgiu a oportunidade de usar mas sei da sua utilidade.

Para já acho que me vou manter fiel a Javascript ❤️

Compartilhar este post


Link para o post

Esse programa que falas Elliot, o Octave, é essencialmente uma carbon copy do Matlab. É pena que a documentação, especialmente a nível de mpi e processamento paralelo, é um lixo comparada à do Matlab. Mas é o que eu tenho que no meu portátil pessoal, que não sou rico para ter licença de Matlab com esses addons 😄

Btw, @ElliotReid13 , achas que vale a pena o certificado da coursera? O curso farei de certeza, mas não sei se vale a pena investir as 60£ por um certificado de curso online. Alguém liga a estas m*rda?

Compartilhar este post


Link para o post

Acho que não vale muito a pena, a não ser que que não tenhas problemas de dinheiro. O que interessa é o conhecimento que retiras do curso e que depois podes aplicar na prática, sendo que em entrevistas irao sempre pegar pela tua experiência com machine learning (mesmo em projetos individuais, como me perguntaram na Feedzai) mais do que a tua formação. Esses certificados ficam bonitos no LinkedIn quando tens uns 10 ou 12 e as pessoas pensam que és um às, mas para a maioria das pessoas não faz sentido de todo.

Compartilhar este post


Link para o post
Citação de Bashir, Em 14/03/2019 at 17:10:

Quem quiser pagar o café por lá avise.

Parece que as inscrições acabaram ontem, bela m*rda. Ainda tentei juntar malta do meu curso mas, apesar do forte interesse, ninguém queria tirar um dia de férias para isto :4_joy:

Entretanto recebi uma resposta positiva ao meu CV por parte de um unicórnio tuga, lá terei de fazer testes online este fim-de-semana. É para uma posição com uma componente forte de Machine Learning, área em que ainda estou muito verdinho (reconheço os principais algoritmos, como funcionam e como servem, mas ainda não apliquei em nenhum projeto). Comecei a ler o 'Machine Learning with R' e é muito bom mesmo, até para quem quer começar a aprender e não percebe nada de R (os dois primeiros capítulos são altamente introdutórios, e depois entra nos algoritmos propriamente ditos, como Nearest Neighbours, K-Means, Decision Trees, Regressions, Random Forests, etc.).

Compartilhar este post


Link para o post
Citação de ElliotReid13, Em 11/03/2019 at 22:17:

Tenho dificuldades em ver esta área como estando no vácuo. Tu não podes ter apenas conhecimentos de estatística e programação para seres bom analista ou cientista. Tens de ter também algum conhecimento qualitativo de algumas das áreas onde vais trabalhar - de que me serve ser muito bom a sacar dados e a encontrar padrões se depois não consigo perceber o que significam esses padrões, o que significam para o negócio, ou como os comunicar às outras partes interessadas? No meu caso pessoal, eu continuo a ser um gajo de gestão/economia que, para além do conhecimento financeiro de base, tem umas noções de como usar dados do negócio para fazer análses descritivas, preditvas e prescritivas. Só pela perspetiva da estatística, matemática ou programação não teria como competir com malta de engenharia informática, mas comparando-me com a malta da minha área, tenho outras capacidades que me ajudam a distinguir-me dos restantes.  

Isto é a parte mais importante e o que realmente diferencia hoje no mercado de trabalho. Primeiro porque data science, machine learning e IA são buzzwords hoje em dia. Depois porque o pessoal acha que usar R é bué giro e para a frente mas na verdade estão só a aplicar umas funções e algoritmos que já existem e nada disto é rocket science. Mais hora de estudo menos hora de estudo e qualquer pessoa dentro do meio consegue meter aquilo a andar lendo uns tutoriais na net.

Como o Elliot diz o importante é literalmente tornar os dados informação relevante que mude a forma de pensar do negócio. Interpretar o resultado que foi obtido e ver como é que o que encontrámos vai impactar o negócio.

  • Like 1

Compartilhar este post


Link para o post
Citação de Keyser, Em 05/04/2019 at 12:45:

Programo em R com data.table em vez de dataframes. Melhor coisinha de sempre em termos de código e desempenho.

https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro.html

Dei uma vista de olhos rápida, mas não me parece ser fundamentalmente diferente dos data frames. Quais são as principais vantagens para ti?

  • Like 1

Compartilhar este post


Link para o post
Citação de Keyser, há 46 minutos:

É muito mais rápido se trabalhares com uma grande quantidade de dados, muito mais eficiente em termos de memória.

E a sintaxe é muito simples. Se tiveres tempo experimenta uns exemplos ou adaptando a algo que já tenhas:

https://www.listendata.com/2016/10/r-data-table.html

Vou mesmo ver isso então! O meu receio é que ao passar a usar data.tables em vez de data.frames me possa atrasar o processo de aprendizagem em Python. Até agora tenho conseguido conciliar o R e Python porque, com os Pandas instalados, a sintaxe é muito parecida e consigo evoluir nos dois em simultâneo. Mas nada como experimentar, tudo o que dê para poupar tempo e esforço é bem vindo! Obrigado Keyser ❤️

Compartilhar este post


Link para o post

Crie uma conta ou entre para comentar

Você precisa de ser membro desta comunidade para poder comentar

Criar uma conta

Registe-se na nossa comunidade. É fácil!

Criar nova conta

Entrar

Já tem uma conta? Faça o login.

Entrar agora

×