Matkalla kohti tekoälyä

Tekoäly on puheenaihe, joka ei tällä hetkellä esittelyä kaipaa. Aihe on kuitenkin IT-ammattilaisten maailmassa siinä mielessä poikkeuksellinen, että se on kiinnostava, lähestyttävä ja jopa kutkuttava myös suuren yleisön näkökulmasta. Ja niinpä tekoälystä kirjoitetaan nykyään paljon, kaikkialla ja kaikenlaista. Tekoälyn määrittely on vaikeaa alan tutkijoillekin, joten ymmärrettävästi moni tavallinen keskustelija ei tunnu ihan kauhean hyvin tietävän mistä puhuu, kun puhuu tekoälystä.

Haastattelin aiemmin tekoälyn uranuurtajaa, professori Timo Honkelaa hallitusammattilaisten yhdistyksen blogissa julkaistua kirjoitusta varten. Keskustelusta jäi mieleeni erityisesti ajatus, johon huomaan palaavani uudestaan ja uudestaan. Honkela vertasi tekoälyä käsitteenä supertietokoneisiin: molemmat ovat termejä, jotka kehityksen myötä pakenevat omaa määrittelyään.

Supertietokoneilla tarkoitetaan aina kunkin ajan kaikista tehokkaimpia tietokoneita – voidaan ajatella, että laskentakeskusten ylläpitämä Top500-lista maailman tehokkaimmista tietokoneista on samalla sanan supertietokone ajantasainen määritelmä. Et ole super, jos et ole listalla. Yksittäinen tietokonejärjestelmä ei pysy listattuna juurikaan viittä vuotta kauempaa, joten tässä mielessä supertietokoneen määritelmä uusiutuu noin viiden vuoden välein.

Kun termi tekoäly1  puretaan osiinsa, voidaan havaita, kuinka puhumme jostain ihmisen älykkyyden kaltaisesta asiasta, joka ei kuitenkaan ole ihmisälyä. Usein voidaan myös hyvin puhua pelkästä älykkyydestä: asiayhteydestä käy hyvin ilmi, että esimerkiksi älykoti ei omaa inhimillistä älykkyyttä, vaan sen sijaan on rakennettu erilaisten tekoälyjärjestelmien avulla.

Trendi ajan saatossa on ollut, että vaatimustaso ihmisen älykkyyden kaltaisuuden saavuttamiseen on noussut kussakin sovellusalueessa sitä mukaa, kun tekninen kehitys on edennyt. Esimerkiksi vielä vähän aikaa sitten automekaanikot usein puhuivat älylaatikoista, kun kyse oli melkein mistä tahansa auton sähköisestä ohjainmoduulista. Nämä laatikot olivat korvanneet aiemmat yksinkertaisemmat mekaaniset laitteet ja tuoneet auton toiminnan ohjaukseen hitusen monimutkaisempaa logiikkaa, jota siis älykkyydeksi kutsuttiin. Nyt kun autojen kehitys on saavuttamassa pisteen, jossa itsekseen ajavat robottiautot tulevat liikenteeseen, niin ajovalot automaattisesti päälle napsauttavaa ohjainpiiriä tuskin enää voidaan pitää esimerkkinä autoteollisuuden älykkäiden järjestelmien kehitysponnisteluista.

Tekoälytutkimus on kulkenut tietokoneiden kehityksen rinnalla aivan alusta alkaen, mutta tasaisen voittokulun sijaan tekoälyn historia on ollut varsinaista vuoristorataa nousuineen ja jyrkkine laskuineen. Omana erityisalueenaan tietokonepelien tekoäly on kuitenkin kehittynyt tasaisemmin läpi vuosikymmenten.

Tietokonepeleistä voidaan lukea tuttu kehityskulku: pari yksinkertaista loogista sääntöä riittivät liikuttamaan niitä kummituksia, jotka 1980-luvulla jahtasivat Pacman-otusta labyrintissa, kun taas nykyaikaisten pelien monimutkaisissa virtuaalisissa maastoissa tarvitaan kehittyneitä algoritmeja etsimään parhaita reittejä ja ohjaamaan hahmot esteiden ohi.

Vuonna 2016 AlphaGo-niminen tekoäly onnistui päihittämään maailman huippua edustaneen pelaajan eräänlaisena ihmisen peliälyn viimeisenä linnakkeena pidetyssä Go-pelissä. Tätä saavutusta varten tutkijat olivat yhdistelleet useita kehittyneitä koneoppimisen tekniikoita. Matka Pacmanista AlphaGo:hon on pitkä ja niissä käytetyt menetelmät ovat vaativuudessaan aivan eri tasoilla, mutta päämäärä on sama: luoda illuusio älykkäästä vastapuolesta.

Tietotekniikassa kaikki on aina ollut monimutkaisen logiikan ohjaamaa ja siksi lähtötasokin älykkyydelle on verrattain korkea. Reitinhakualgoritmit ja niihin perustuvat navigaattorit ovat meille jo arkipäivää, mutta toki aikoinaan varmasti tekivät moniin vaikutuksen. Tänä päivänä emme kuitenkaan usein enää osaa pitää tavallista navigaattoria älykkäänä, vaan odotamme, että älykkääksi kutsuttavan navigaattorin tulisi vähintään ymmärtää puhetta ja arvata puolesta sanasta, että mihin haluamme mennä.

Algoritmit ja automaatio ovat arkipäiväistyneet. Tietotekniikan suuret algoritmit ovat ehkä jo kirjoitettu. Tietotekniikan ja digitalisaation kehityksen jatkumiseksi tietokoneen älykkyys ei voi enää kulkea ohjelmoijan sormien kautta, vaan järjestelmien tulee kyetä oppimaan itse. Näin ollen tämän päivän tekoäly perustuu koneoppimiseen eli tietokonejärjestelmiin, jotka eivät tarvitse valmiita sääntöjä, vaan voivat oppia ne datasta.

Nykyisen tekoälyvallankumouksen käynnisti koneoppimisen sisällä tapahtunut edistysaskel, nimittäin niin kutsutun syväoppimisen menetelmien kehittyminen. Koneoppimisen perinteinen rajoite on ollut datan määrä. Jos kirjastossasi on vain yksi kirja, niin yleissivistyksesi ei kasva, vaikka luet sitä samaa kirjaa päivittäin. Opit kyllä varmasti ulkoa kaikki ladontavirheet, jokaisen aliluvun sivunumerot ja kahvitahrojen paikat.

Suurten tietomassojen saatavuus sekä oppimistehtäviin hyvin soveltuvien uudenlaisten GPU-laskentakiihdyttimien kehittyminen mahdollistivat sen, että tekoälyn eteen on voitu latoa hyllykilometreittäin mielekästä opeteltavaa. Nämä koneoppimisen ympäristön muutokset puhalsivat uutta eloa jo pidemmän aikaa sitten kehitettyihin neuroverkkomenetelmiin ja tarjosivat sen työkalupakin, jota tarvitaan seuraavien kehitysaskelten ottamiseen tekoälyn rintamalla.

Onkin siis hyvä muistaa, että tekoäly ei ole itsessään menetelmä tai teknologia. Paras määritelmä mielestäni on, että tekoäly tarkoittaa älykkäinä pidettävien toimintojen toteuttamista tietokoneella. Ja kuten edellä kävi ilmi, niin tuo älykkyyden rima nousee jatkuvasti eri sovelluskohteissa.

Voidaan ajatella, että tekoäly on kuin ilmansuunta. Talvipakkasia voidaan lähteä karkuun etelään ja sinne matkustaminen onnistuu monelle eri välineellä: esimerkiksi laivalla ja bussilla voi matkustaa Viron kylpylöihin, kun taas lentokoneella pääsee Välimeren kohteisiin. Toisaalta jos Kreikan saaristoon iskee ennätyskylmä talvi, niin ei auta, että ollaan jo Suomesta katsoen hyvin pitkällä etelässä. Matkaa täytyy jatkaa Pohjois-Afrikkaan lämpimämpien säiden toivossa.

Myös tekoälykompassin osoittamaan suuntaan olemme matkanneet jo monin eri välinein, aina perusalgoritmiikasta erilaisiin koneoppimisen ja tiedonlouhinnan menetelmiin. Voidaan kuitenkin varmuudella sanoa, että kovin pitkällä emme tuolla matkalla ole ja tulemme vielä tarvitsemaan monia uusia matkustusvälineitä.

Kun etelään matkaamista jatkaa riittävän kauan, niin lopulta pääsee perille. Ensimmäisenä sinne saapui Roald Amundsenin retkikunta ja nyt etelänavasta on tullut usean suomalaisenkin hiihtovaelluksen kohde. Tekoälyn osalta se suuri filosofinen kysymys on, että onko tekoäly pelkästään suunta, vai myös lopulta kohde? Kun olemme tehneet matkaa riittävän kauan, niin tulemmeko lopulta perille? Ja mikä meitä siellä odottaa?

1 Tekoälyn sijaan oikeampi termi olisi keinoäly. Laitteista puhuttaessa teko-alku viittaa laitteeseen, joka jäljittelee esikuvaansa toiminnaltaan ja ulkonäöltään. Keinoälyn kaltaisia termejä puolestaan ovat esimerkiksi keinomunuainen ja keinohorisontti, jotka eivät vastaa esikuvansa ulkoista olemusta. Tekoäly on kuitenkin vakiintuneempi ja kirjoittaja mieluusti tyytyy siihen, että termin kieliasu on hieman epätarkka, kunhan käsitys varsinaisesta asiasta sanan takana tarkentuisi.

Introducing the Rahti container cloud

If you follow CSC on social media you might have noticed a recent announcement about a new service based on OKD/Kubernetes called Rahti. This new service allows you to run your own software packaged in Docker containers on a shared computing platform. The most typical use case is web applications of all sorts. In this blog post I will provide additional context for the announcement and more detail and examples about what Rahti is and why it’s useful.

CSC has been running cloud computing services for a while. The first pilot systems were built in 2010 so the tenth anniversary of cloud computing at CSC is coming up next year. All of CSC’s previous offerings in this area – cPouta, ePouta and their predecessors – have been Infrastructure as a Service (IaaS) clouds. In this model, users can create their own virtual servers, virtual networks to connect those servers and virtual disks to store persistent data on the servers. This gives you a lot of flexibility as you get to choose your own operating system and what software to run on that operating system and how. The flip side is that after you get your virtual servers, you are on your own in terms of managing their configuration.

Rahti takes a different approach. Instead of a virtual machine, the central concept is an application. The platform itself provides many of the things that you would need to manage yourself in more flexible IaaS environments. For example:

  • Scaling up applications by adding replicas
  • Autorecovery in case of hardware failures
  • Rolling updates for a set of application replicas
  • Load balancing of traffic to multiple application replicas

Not having to manage these yourself means you can get your applications up and running faster and  don’t have to spend as much time maintaining them. What enables this is standardization of the application container and the application lifecycle. In IaaS clouds you have a lot of choice in terms of how you want to make your application fault tolerant and scalable. There are many software products available that you can install and configure yourself to achieve this. With Rahti and other Kubernetes platforms, there is one standard way. This simplifies things greatly while still providing enough flexibility for most use cases.

Based on the description above you might think that Rahti fits into the Platform as a Service (PaaS) service model. While there are many similarities, traditional PaaS platforms have typically been limited in terms of what programming languages, library versions and tools are supported. It says so right in the NIST Definition of Cloud Computing: “The capability provided to the consumer is to deploy onto the cloud infrastructure consumer-created or acquired applications created using programming languages, libraries, services, and tools supported by the provider.” These limitations are largely not there in Rahti or other Kubernetes platforms: if it runs in a Docker container, it most likely also runs (or can be made to run) in Rahti. You are free to choose your own programming language and related libraries and tooling yourself.

Setting up Spark in Rahti

One of the big benefits of Rahti is that complex distributed applications that would be difficult to install and configure on your own on virtual machines can be packaged into templates and made available for a large number of users. This means figuring out how to run the application has to be done only once – end users can simply take the template, make a few small customizations and quickly get their own instance running. You are of course also free to create your own templates and run your own software.

One example of a distributed application that can be difficult to install and manage is Apache Spark.   It is a cluster software meant for processing large datasets. While it is relatively simple to install it on a single machine, using it that way would defeat the point of running Spark in the first place: it is meant for tasks that are too big for a single machine to handle. Clustered installations on the other hand mean a lot of additional complications: you need to get the servers to communicate with each other, you need to make sure the configuration of the cluster workers is (and stays) somewhat identical and you need to have some way to scale the cluster up and down depending on the size of your problem – and the list goes on.

Let’s see how one can run Spark in Rahti. The template that we use in Rahti is available on GitHub and the credit for it goes to my colleagues Apurva Nandan and Juha Hulkkonen. And yes, I know that is actually the Hadoop logo.

First select “Apache Spark” from a catalog of applications:

You can also find other useful tools in the catalog such as databases and web servers. After selecting Apache Spark, you’ll get this dialog:

Click next and enter a few basic configuration options. There are many more that you can customize if you scroll down, but most can be left with their default values:

After filling in a name for the cluster, a username and a password, click “Create” and go to the overview page to see the cluster spinning up. After a short wait you’ll see a view like this:


The overview page shows different components of the Spark cluster: one master, four workers and a Jupyter Notebook for a frontend to the cluster. These run in so called “pods” that are a collection of one or more containers that share the same IP address. Each worker in the Spark cluster is its own pod and the pods are distributed by Rahti on separate servers.

From the overview page you can get information about the status of the cluster, monitor resource usage and add more workers if needed. You can also find a URL to the Jupyter Notebook web interface at the top and if you expand the master pod view you can find a URL to the Spark master web UI. These both use the username and password you specified when creating the cluster.

If you need a more powerful cluster you can scale it up by adding more workers. Expand the worker pod view and click the up arrow next to the number of pods a few times:

You can then follow the link from the overview page to Jupyter Notebook which acts as a frontend for the Spark cluster.

And that’s all there is to it! The process for launching other applications from templates is very similar to the Spark example above. The plan for the future is to add more of these templates to Rahti for various types of software in addition to the ones that are already there.

If you’re interested in learning more about Rahti, you can find info at the Rahti website or you can contact servicedesk@csc.fi.

Photo: Adobe Stock

 

 

Collaboration first: The CSC open source policy

Recently, the CSC policy for free and open source software was posted without any celebration. It is under our Github organization and you can check it out at:

https://github.com/CSCfi/open-source-policy

Our tuned down approach stemmed from the fact that not much changed with the adoption of the policy. It pretty much stated the already established approach to endorsing open source software in our daily work.  The paths of CSC and open source have crossed from the very beginning, when we were in the happy position to offer the platform for distributing the very first version of the Linux operating system – and were of course early adopters of Linux in our operations.

CSC is a non-profit state enterprise embracing free and open source software throughout the operations and development. For us, open source software together with open data and open interfaces are the essential building blocks of sustainable digital ecosystems. CSC employees haven’t been shy of using and producing open source, but we still wanted to codify the current de facto practices and to encourage employees to go on supporting open source.

The major decision when formulating the policy was to put special emphasis on collaboration. We’ve been involved in dozens of open source projects and seen the realities of community building efforts. Community building is hard work.

The policy aims to encourage practices that in the best possible way encourage collaboration and contributing within the open source community. We find that the best way to do it is to embrace the licensing practices of the surrounding community. For some types of applications it might mean GPL licensing, where as increasingly the norm has been to use permissive licenses and to not enforce contributor agreements.

We have been happy contributors to projects such as OpenStack and felt extremely delighted to be also in the receiving side when working as main developers of software such as Elmer and Chipster. Every contribution counts and even the smallest ones usually carry some expertise or insight that broadens the scope of the project.

Finally, the policy aims to be concise and practical. It should offer guidance to everyday working life of CSC people who are part of the large open source community. So we did not want to make it a monolithic document written in legal language that would have been foreign to almost all of the developers in the community.

Happy coding!

P.S. If you would like to use the policy or parts of it for your organization or project, please do so! It is licensed under CC-BY 4.0, so there are no restrictions on reuse. Obviously, this is the licensing recommendation for documentation we give in the policy!

Photo: Adobe Stock

Happy Retirement, Sisu!

Our trusted workhorse Sisu is ending its duty during this month after respectable almost seven years of operation.

Sisu started its service in the autumn of 2012 as a modest 245 Tflop/s system featuring 8-core Intel Sandy Bridge CPUs, reaching its full size in July 2014 with a processor upgrade to 12-core Intel Haswell CPUs and increasing the number of cabinets from 4 to 9. The final configuration totalled 1688 nodes and 1700 Tflop/s theoretical performance. At best, it was ranked the 37th fastest supercomputer in the world (Top500 November 2014 edition). It remained in among the 100 fastest systems in the world for three years, dropping to position #107 in the November 2017 list.

Throughout its service, Sisu proved itself as a very stable and performant system. The only major downtime took place when there was a major disaster that took down the shared Lustre filesystem.

During the course of years, Sisu provided over 1.7 billion core hours for Finnish researchers, playing a major role in several success stories in scientific computing in Finland. Just a couple of examples:

In addition to being a highly utilized and useful Tier-1 resource, it acted as a stepping stone for several projects that obtained the heavily competed PRACE Tier-0 access on the Piz Daint system in Switzerland and other largest European supercomputers. Without a credible national Tier-1 resource, establishing the skills and capacities for using Tier-0 resources would be hard if not impossible.

Sisu also spearheaded several technical solutions. It was among the first Cray XC supercomputers in the world with the new Aries interconnect. In the second phase it was equipped with Intel’s Haswell processors weeks before they had been officially released. It also heralded a change in hosting for CSC. Instead of the machine being placed in Espoo in conjunction with the CSC offices, it was located in an old papermill in Kajaani. This change has brought major environmental and cost benefits, and has been the foundation for hosting much larger machines.

Sisu was the fastest computer in Finland throughout its career, until last month when CSC’s new cluster system Puhti took over the title. Puhti will be complemented by the end of this year by Sisu’s direct successor Mahti, which will again hold the crown for some time. Puhti is currently under piloting use and becomes generally available during August, Mahti at the beginning of next year. Sisu has done its duty now and we wish it a happy retirement. Hats off!

 

Crunching NGS data on Pouta Cloud

Variant Calling

Modern next-generation sequencing technologies have revolutionized the research on genetic variants whose understanding hold a greater promise for therapeutic targets of human diseases. Many human diseases, such as cystic fibrosis, sickle cell disease and various kinds of cancers are known to be caused by genetic mutations. The identification of such mutations helps us diagnose diseases and discovery new drug targets. In addition, other relevent research includes topics such as human population separation history, species origin, animal and plant breading research.

Variant calling refers to the process of identifying variants from sequence data. There are mainly four kinds of variants: Single Nucleotide Polymorphism (SNP), short Insertion or deletion (Indel), Copy Number Variation (CNV) and Structural Variant (SV) (Figure 1).

Figure 1 The four most common types of variants.

Industry gold-standard for variant calling: GATK and Best Practices

To offer a high accurate and repeatable variant calling process, Broad Institute developed variant calling tools and its step-by-step protocol, named: Genome Analysis Toolkit (GATK) and Best Practices.

GATK is a multiplatform-capable toolset focusing on variant discovery and genotyping. It contains the GATK variant caller itself and it also bundles other genetic analysis tools like Picard. It comes with a well-established ecosystem that makes it able to perform multiple tasks related to variant calling, such as quality control, variation detection, variant filtering and annotation. GATK was originally designed and most suitable for germline short variant discovery (SNPs and Indels) in human genome data generated from Illumina sequencer. However, Broad Institute keeps developing its functions. Now, GATK also works for searching copy number variation and structure variation, both germline and somatic variants discovery and also genome data from other organisms and other sequencing technologies.

Figure 2 The GATK variant calling process.

GATK Best Practices is a set of reads-to-variants workflows used at the Broad Institute. At present, Best Practices contains 6 workflows: Data Pre-processing, Germline SNPs and Indels, Somatic SNVs and Indels, RNAseq SNPs and Indels, Germline CNVs and Somatic CNVs. (You can check the Best Practices introduction on forum and codes on github).

Although workflows are slightly different from one another, they all share mainly three steps: data pre-processing, variant discovery and additional steps such as variants filtering and annotation. (1) Data pre-processing is the starting step for all Best Practices workflows. It proceeds raw FASTQ or unmapped BAM files to analysis ready BAM files, which already aligned to reference genome, duplicates marked and sorted. (2) Variant discovery is the key step for variant calling. It proceeds analysis ready BAM files to variant calls in VCF format or other structured text-based formats. (3) Additional steps are not necessary for all workflows and they are tailored for the requirements of different downstream analysis of each workflow. Variants filtering and annotation are the two common choices.

GATK pipelining solution: WDL and Cromwell

It is great and time saving to have scripts to run analysis pipelines automatically. In the past, people used Perl or Scala to do this. However, it shows steep learning curve for non-IT people. Broad Institute solved this problem by introduced a new open source workflow description language, WDL. By using WDL script, you can easily define tasks and link them orderly to form your own workflow via simple syntax and human understandable logic. WDL is simple but powerful. It contains advanced features and control components for parallelism or running time and memory control. Also, WDL is a cross-platform language which can be ran both locally and on cloud.

Cromwell is the execution engine of WDL, which is written in Java and supports three types of platform: local machine, local cluster or computer farm accessed via a job scheduler or cloud. Its basic running environment is Java 8.

Write and run your own WDL script in 5 minutes with this quick start guide.

Run GATK4 on CSC Pouta Cloud and Taito

GATK3 was the most used version in the past. Now, GATK4 taking advantage of machine learning algorithm and Apache Spark tech presents faster speed, higher accuracy, parallelization and cloud infrastructure optimization.

The recommend way to perform GATK Best Practices is to combine GATK4, WDL script, Cromwell execution engine and Docker container. In CSC, Best Practices workflows are written in WDL, then run by Cromwell on Pouta cloud and relative tools such as GATK4, SAMtools and Python are called as Docker images to simplify software environment configuration.

CSC provides large amount of free computing/storage resources for academic use in Finland and facilitates efficient data transfer among its multiple computing platforms. cPouta and ePouta are the open shell IaaS clouds services at CSC. cPouta is the main production public cloud while ePouta is the private cloud which is suitable for sensitive data. They both own multiple virtual machine flavors, programmable API and Web UI, which enables users to generate and control their virtual machines online easily. They are suitable for various kinds of computational workloads, either HPC or genetic computing load.

In CSC, GATK4 Best Practices germline SNPs and Indels variants discovery workflow has been optimized and performance benchmarked on Pouta virtual machine (FASTQ, uBAM and GVCF files are acceptable input). Somatic SNVs and Indels variants discovery workflow is coming soon.

Besides using cloud infrastructure for GATK via launcing a virtual machine in Pouta with this tutorial, one can also use GATK in supercomputing cluster environment (e.g. on Taito with tutorial) by loading GATK module as below:

module load gatk-env

The detailed usage of instructions can be found in GATK user guide and the materials from the GATK course held in May 2019 at CSC can be found in “Variant analysis with GATK” course page.

You are welcome to test GATK tool in CSC environment and our CSC experts are glad to help you to optimize running parameters, set up virtual machine environment, estimate sample processing time and offer solutions for common error message.

Photo: Adobe Stock

CSC for sensitive data — because your data is worth it (and should be kept that way)

During past years, sensitive data has become one of the hottest of hot topics in the area of Finnish scientific data management discussion — and not least thanks to the European General Data Protection Regulation. At the same time, for nearly five years now, CSC has provided ePouta cloud platform for all sensitive data processing needs with quite substantial computing and storage capacity. From grounds up, this virtual private IaaS cloud solution has been designed to meet the national requirements for IT systems for protection level III (ST III) data.

While ePouta has been successful in providing our institutional customers a safe and robust platform for their sensitive data processing, it has lately become very clear that something more is desperately needed; something which is more easily adopted and accessed, something for individual researchers and research groups, and something more collaborative.

Now here, a problem arises; by definition sensitive data contains information which should only be processed either by explicit consent or a legitimate permission, and there are certain rules for such processing. Probably most notable ones of those rules — from researchers’ perspective — are requirements for data minimisation, pseudonymisation, encryption, safe processing and data disposal after its use.

Data minimisation and pseudonymisation relate directly to dataset definition. Minimisation means that only the data that is absolutely needed should be processed. For example, if the dataset includes information about persons' age but that information is not needed for the research, it should not be included in the dataset and should be removed from it before processing.

Pseudonymisation is a de-identification procedure by which personally identifiable information fields within a data record are replaced by one or more artificial identifiers, or pseudonyms.

Pseudonymisation differs from anonymisation in that pseudonymised data can be restored to its original state with the addition of information which then allows individuals to be re-identified again. Such re-identification codes must be kept separate from the pseudonymised data. Clearly then, these topics are something that the data owner or the researcher should take care of but for the rest, they seem to be more of a technical things and are something CSC should help with. And this is exactly where our sensitive data services step in.

You know the rules and so do I

The center piece for sensitive data services is storage. The data should be stored in such a way that unauthorised access is virtually impossible yet at the same time legitimate access is as easy as possible. Furthermore, the data should not disappear, corrupt, or leak out while being stored and used. Data owners should be able to easily store their sensitive data and be able to share it with only those users they grant permissions to.

CSC’s Sensitive Data Archive service is designed to fulfil all the requirements mentioned above and even some more. Instead of providing just regular storage space the new Sensitive Data Archive adds a service layer between the storage and the user applications. This service layer, called Data Access API, takes care of encryption and decryption of data on behalf of the user, which also offloads the encryption key management tasks from users.

Furthermore, the Data Access API ensures that the secured data is visible and accessible for only those users who have been granted to access it by the data owner. The processing environment, access mechanism and the sensitive data storage are all logically and physically separated from each other in order to ensure maximum security. This also makes the sensitive data platform flexible since compute and storage are not dependent on each other but the glue between them still makes it seamless and transparent for the user.

Take my hand, we’re off to secure data land

So, how does it work for the user then? Let’s first assume that the dataset a user is interested in has already been stored in the Sensitive Data Archive. The data is safely stored and it is findable by its public metadata but by no means it is accessible at this point — the user needs a permission for the dataset she needs for her research. Instead of traditional paper application sent to the dataset owner, she will apply through a web portal to a Resource Entitlement Management System, REMS, which will circulate the application with data owner(s). Once the application has been accepted a digital access token will be created, which is equivalent, e.g. to a passport and visa granting entry into a foreign country.

Now, when logging in to a sensitive data processing system, this digital access token will be transparently passed along with login information on the compute system. The Sensitive Data Archive’s Data Access API will query the token and, based on the information in it, will present the dataset in a read-only mount point on the local file system. Even though files seem just like your regular files on your file system they are actually a virtual presentation of the actual files. No single file has been copied into the compute system, yet they are accessible as any regular file. Once a file operation is acted upon a dataset file the Data Access API will fetch just the requested bits from the storage, decrypt them and hand out to the process requesting them — just like any other operating system call to any other file.

One added benefit directly derived from the usage of access tokens is the fact that they have a validity period — or they can be revoked by the data owner at any given time. Once the token expires the Data Access API will cut off the access to the files; they simply disappear from the compute system like a puff. Or the validity period can be easily extended, too. Thus, the data owner retains full control over the data she stored on the Sensitive Data Archive.

For data owner the procedure for storing the data is — if possible — even simpler. You just need to define metadata for your dataset and then enter it (either manually or automated through an API) into REMS and then upload your data. The upload tool will encrypt the data and send it to the archive, which will re-encrypt the data such that it truly is secure. Even you, as a data owner and submitter, are not able to read it back without granting yourself a permission first and using the Data Access API on our sensitive data compute systems.

Something old, something new, something browser’ed

So far so good, but the question has always been ePouta being too inflexible for individuals and smaller research groups, actually. Good news is that the Data Access API has been successfully demonstrated in ePouta and it will become a full-blown service later this year.

But even better news is that along with that there will be a whole new service for ePouta: a remote desktop connection for individual users.

Each user, or a group of users  if that’s the case, will get their very own private virtual cloud resource with Data Access API. And the best part of it is that it does not require any client software installations on users’ end. Just a reasonably modern web browser is enough, even a smartphone’s browser is sufficient (I have tested it, it works, even on 4G — but really, it is close to useless on such a small screen with touch input only).

Are we there yet?

While we haven’t really figured out yet how the project model goes, or how users can install the software they need — it is ePouta without external connections — and some other pretty important stuff for service processes, the technology is already there and becoming mature and robust enough that we’re confident in saying that ePouta Remote Desktop is a publicly available service later this year.

The end credits (which no one reads)

Early on with much planning put into our sensitive data model we realised that it is vital that we do not just develop a new fancy platform and then try to make everyone use it. Instead, we tried to team up and collaborate with partners with similar ambitions and focused on making as flexible a service as possible and use open standards as much as possible.

Developed in a joint effort with Nordic e-Infrastucture Collaboration’s (NeIC) Tryggve project and Centre for Genomic Regulation (CRG), the Data Access API is part of the Federated EGA concept designed to provide a general, distributed and secure storage for genomic data along the European Genome-Phenome Archive (EGA). But while genomic data has been the driving factor the API is actually data type agnostic and works for any data type, e.g. text, binary, video, etc.

In our future dreams anyone could install the Sensitive Data Archive and host their sensitive data by themselves but still make it available for access in ePouta Remote Desktop — something we’ve already tested with our Swedish partners, accessing two separate datasets stored in Finland and Sweden, used in ePouta Remote Desktop with a mobile phone at Oslo Airport…

Image: Adobe Stock

Spring School in Computational Chemistry - crash course to main methods and international networking

March has been the month for the Spring School in Computational Chemistry for last 8 years. This time the school was overbooked already in November so if you want to join next year, register early.

Correspondingly, we decided to accept more participants than before resulting in tight seating and parallel sessions also for the last day hands-ons of the School. 31 researchers from Europe and beyond spent four science-packed days in occasionally sunny Finland.

Three paradigms in three days

The foundations of the school - the introductory lectures and hands-on exercises of (classical) molecular dynamics and electronic structure theory - have been consistently liked and found useful and have formed the core with small improvements.

For the last four years we've integrated the latest research paradigm, i.e. data driven science, also known as, machine learning (ML) to the mix. This approach has been welcomed by the participants, in particular as the lectures and hands-on exercises given by Dr. Filippo Federici Canova from Aalto University have been tailored for computational chemistry and cover multiple approaches to model data. ML is becoming increasingly relevant, as one of the participants, Mikael Jumppanen, noted in his flash talk quoting another presentation from last year: "Machine learning will not replace chemists, but chemists who don't understand machine learning will be replaced."

The ML day culminated in the sauna lecture given by prof. Patrick Rinke from Aalto University. He pitted humans against different artificial intelligence "personalities". The competition was fierce, but us humans prevailed with a small margin - partly because we were better at haggling for scoring.

Food for the machines

This year we complemented the ML session with means to help create data to feed the algorithms. Accurate models require a lot of data, and managing hundreds or thousands of calculations quickly becomes tedious.

Marc Jäger from Aalto University introduced the relevant concepts, pros and cons of using workflows, spiced with the familiar hello world example. It was executed with FireWorks, a workflow manager popular in materials science. Once everyone had succeeded in helloing the world, Marc summarized that "this was probably the most difficult way of getting those words printed", but the actual point was, that if there is a workflow, or a complete workflow manager, which suits your needs, someone else has done a large part of the scripting work for you and you can focus on the benefits.

Workflow managers of course aren't a silver bullet beneficial in all research, but in case you need to run lots of jobs or linked procedures, automating and managing them with the right tool can increase productivity, document your work and reduce errors.

What to do with the raw data?

How do you make sense of the gigabytes of data produced by HPC simulations? It of course depends on what data you have. The School covered multiple tools to make sense of you data.

Visual inspection is a powerful tool in addition to averages, fluctuations and other numerical comparisons. MD trajectories or optimized conformations were viewed with VMD, electron density and structure were used to compute bonding descriptors using Multiwfn and NCIPLOT and a number of python scripts employing matplotlib for result visualization were given as real life examples on current tools.

To brute force of not to brute force?

Although computers keep getting faster, brute forcing research problems is not always the right way. In one of the parallel tracks on the last day, Dr. Luca Monticelli built on top of the MD lectures of the first day by presenting 6+1 enhanced sampling techniques to enable proper study of rare events.

The last one, coarse graining, strictly speaking is not an enhanced sampling method, but as it is orders of magnitude faster than atomistic simulations it can be used to equilibrate a system quickly enabling switching to atomistic detail from truly independent configurations.

Posters replaced with flash talks

The previous Spring Schools have included the possibility to present posters to facilitate the discussion among participants of one's own research with other participants and lecturers. Posters have helped to discover potential collaborations and new ideas to apply in one’s own research.

There is a lot of potential for collaboration as the School participants come from a highly diverse background as shown in the wordcloud below. The wordcloud is created from the descriptions filled in by the participants at the registration step.

Word Cloud: Scientific background of the participants.

One participant suggested in last year's feedback to replace the poster session with flash talks, which we now did. Each participant was asked to provide one slide to introduce the background, skills and scientific interests, and the slides were used in three minute flash talks to everyone else. The feedback was very positive, so we will likely continue with flash talks also in 2020.

Networking with researchers is yet another motivation to participate in the school. Philipp Müller from Tampere University of Technology took the initiative and proposed a LinkedIN group for the participants to keep in contact also after the school. This was realized on the spot and now the group has already most of the participants signed up.

As potential collaborations are discovered, the HPC-Europa3 programme, also presented in the School, can be used to fund 3-13 week long research visits. Or, if you choose your research visit to take place in Finland in March 2020, you could also participate to the School at the same time.

Whom do the participants recommend the School?

For the first time we asked the participants for their recommendation on who would benefit in participating in the school. The answers range from any under or post-grad student in the field to everyone who needs any computational skills. One participant also confessed that spending some time to learn elementary Python (as suggested) before the School would have been useful. The computational tools known to the participants at registration are collected to the picture below.

Word Cloud: Computational tools used by the participants.

The feedback also emphasized the quality of hands-ons, social events, and overall organization, while the pace of teaching sparked also criticism. This is understandable as the School covers a wide range of topics and therefore it is not possible to go very deep into details. Also, as the background of the participants is heterogeneous some topics are easier for some, but new to others. Partially this has been mitigated by organizing the hands-on sessions of the first two days in three parallel tracks with different difficulty.

The great majority of the participants was satisfied with all aspects of the school. Actually, our original aim has been to introduce the most important fundamental methods and some selected tools so that the participants are aware of them, and in case an opportunity to apply them comes, a deeper study will anyway be necessary.

Materials available online

Most of the lectures and hands-on materials are available on the School home page. The hands-on exercises in particular also also suitable for self study - take a look!

More about the topic:

 

Data for the future – CSC’s Data and PID policies

CSC develops, integrates and offers high-quality digital services and is committed to good data management. We believe that the future of the world and people will become better as a result of research, education and knowledge management. That's why we promote them to the best of our abilities and develop and provide internationally high-quality digital services. CSC’s strategic goals include enabling world-class data management and computing and maximizing the value of data.

Data is often too important and valuable to be handled carelessly. In their work our customers, especially researchers, are required to adhere to the FAIR data principles and to make their data Findable, Accessible, Interoperable and Re-usable. Furthermore, they need tools to enable proper data citation. This affects us as a service provider and puts expectations on our data management service development.

Our revised data policy and new policy for persistent identifiers support us in achieving our strategic goals and promote the best data management practices. These newly released policies oblige us to undertake appropriate institutional steps to help customers to safeguard the availability, usability and retention of their data and help us assure compliance with all applicable laws and regulations as well as internal requirements with respect to data management. The policy for persistent identifiers (often referred to as PIDs, the most commonly known are probably the DOI and URN identifiers) enables creation and management of globally unique unambiguous identifiers at CSC for our own processes and for those of our customers.

These documents are, in their first versions, mainly written for research dataset management, but as they represent generic level principles of good data management, they are aimed to cover and guide all data and information management at CSC including both customer-owned and CSC-owned data. In addition, these policies are living documents that will be reviewed regularly and revised when needed.

More information

CSC’s Data Policy

Data Policy in Finnish

CSC’s PID Policy

PID policy in Finnish

EU-hankkeessa kehitetään digitaalisia ratkaisuja tukemaan yksilöiden jatkuvaa oppimista

Näin eduskuntavaalivuoden 2019 käynnistyessä koulutuspoliittisen keskustelun keskiössä on jo hyvän aikaa ollut jatkuvan oppimisen mahdollistaminen kansalaisille.

Työelämän alati muuttuessa yhteiskunnan tulisi yhä joustavammin tarjota mahdollisuuksia kansalaisten uudelleenkouluttautumiseen (re-skilling). Toisaalta yhä suuremmaksi on kasvamassa myös tarve tukea työelämässä tapahtuvaa osaamisen kehittämistä (up-skilling). Lineaaristen ja aikaisemmin usein erillisten opinto-ja työurien sijaan tulevaisuudessa opiskelu ja työnteko limittyvät entistä tiiviimmin.

 
"Jatkuvasta oppimisesta puhutaan jo seuraavana koulutusreformina."
 

Ylipäätään aikuisväestön osaamisen elinikäisestä kehittämisestä on nuorten kouluttamisen rinnalla tulossa yhä tärkeämpi yhteiskunnallinen kehittämiskohde. Jatkuvasta oppimisesta puhutaan jo seuraavana koulutusreformina. Koulutusasteiden välinen yhteistyö tulee siis tulevaisuudessa tiivistymään entisestään ja yhteentoimivien IT-palveluiden tarve kasvaa.

Ratkaistavia kysymyksiä on kuitenkin vielä paljon: eikä vähäisimpänä rahoitusmallit. Kiinnostavaa on myös nähdä, missä määrin uudenlaisten digitaalisten palveluiden tukemana voidaan tehdä jo pitkään juhlapuheena olleesta elinikäisestä oppimisesta todellisuutta ja jokaisen kansalaisen arkea.


Henkilökohtainen osaamisprofiili oman osaamisen kehittämisen ytimenä

CSC koordinoi parhaillaan Euroopan komission DG Connect -pääosaston rahoittamaa Compleap-nimistä EU-hanketta, jossa rakennetaan ratkaisuja tähän hyvin ajankohtaiseen jatkuvan oppimisen tarpeeseen.

Yhteistyössä konsortion muiden partnereiden – Opetushallituksen, Oulun yliopiston, Jyväskylän koulutuskuntayhtymä Gradian ja Hollannin opetusministeriön alaisen erillisosasto DUOn kanssa – ollaan suunnittelemassa muun muassa uudenlaista, koulutusasterajat ylittävää digitaalista osaamisprofiilia ja sen prototyyppiä.

 
"Digitaalinen osaamisprofiili kokoaisi yhteen tällä hetkellä hyvin sirpaleisesti useisiin erilaisiin, usein koulutusastekohtaisiin profiileihin kootun tiedon."
 

Kansallisiin koulutustarjontapalveluihin kuten Suomessa Opintopolku.fi yhteyteen kytkettynä tämän kaltainen palvelu tukisi merkittävästä yksilöä opinto- ja urapolkujen suunnittelussa eri elämänvaiheissa. Nykyistä räätälöidymmän ja personoidumman palvelun kautta yksilön olisi helpompi löytää itselleen soveltuvaa tutkintokoulutusta ja tulevaisuudessa myös muita pienempiä opintomoduuleja kuten tutkinnonosia tai osaamismerkkejä.

Digitaalinen osaamisprofiili kokoaisi yhteen tällä hetkellä hyvin sirpaleisesti useisiin erilaisiin, usein koulutusastekohtaisiin profiileihin kootun tiedon. Siten se tukisi myös esimerkiksi opinto- ja uraohjaustyötä tekevien arkea vapauttaessaan aikaa esimerkiksi henkilökohtaiseen ohjaukseen sen sijaan, että joudutaan kartoittamaan yksilön lähtötilanne toistuvasti uudelleen.

Uuden palvelun prototyypin kehittäminen on hyvässä vauhdissa. Palvelua esiteltiin laajalle ja monipuoliselle sidosryhmällemme seminaarissamme Opetushallituksessa 4. joulukuuta.
 



Prototyyppi digitaalisesta osaamisprofiilista. Kuvituskuva.


Yhteistyötä yli hallinto- ja koulutusasterajojen

Varsinaisen yksilön osaamisen kehittämistä tukevan työkalupakin kehittelyn rinnalla Compleap-hankkeessa rakennetaan myös laajempaa kokonaiskuvausta jo olemassa olevien digipalveluiden ekosysteemistä. Kokonaisarkkitehtuurimenettelyn ja mallintamisen avulla pyritään siis tekemään näkyväksi digipalveluiden kokonaiskuvaa ja siten edistämään palveluiden yhteentoimivuutta.

Arkkitehtuurityön tavoitteena on tuottaa EU-tasolle viitekehys, joka voisi tukea digitaalisten palveluiden kehitystyötä niin EU-tasolla kuin yksittäisissä jäsenvaltioissa.

Suomen osalta jo tähän mennessä tehty työ on osoittanut, että kokonaisarkkitehtuuriajattelun ja yhteisten visualisointien kautta voidaan hallinnon- ja koulutusasterajat ylittävää yhteistyötä sujuvoittaa ja yhteentoimivuutta edistää. Näin voidaan rakentaa maailmaa, jossa eri toimijat yhdessä tuottavat palvelukokonaisuutta sen tärkeimmän eli elinikäisen oppijan parhaaksi sen sijaan, että yksittäisiä palveluita kehitettäisiin irrallaan, toisten tekemisistä tietämättömänä tai siitä välittämättä.

Vuoden 2019 lopulla päättyvässä hankkeessa kehitettäviä ratkaisuja tullaan pilotoimaan kuluvan vuoden aikana Suomessa ja kansainvälisesti. Hankkeen etenemistä voi seurata verkkosivuilla sekä Twitterissä @comp_leap.


Lisätietoja:

Antti Laitinen
projektipäällikkö, CSC
p.050 381 8669
antti.laitinen(at)csc.fi
 

 

BLOGIN KUVA: THINKSTOCK

Cloud Predictions for 2019


Last year I wrote my first cloud prediction blog post. I have to be honest, predicting “cloud” is a bit of a daunting task, so this year I'll explicitly focus on a more specific area: Cloud computing in research.

Please keep in mind, that these are the predictions of a polite, yet opinionated person, and not the company's.

First prediction: In 2019, the term Cloud will continue to be used both way too narrowly and way too widely. “Cloud means Kubernetes” and “Cloud means IaaS” are on the narrower spectrum, while European Open Science Cloud is on the wider one.
 

European Open Science Cloud (EOSC)

Let’s start with a big, visible topic. I can feel the heat of the directors breathing down my neck when I'm writing this section. So, yes, this is a quite political subject. However, EOSC is of course tightly connected with scientific cloud use, and these are my predictions, so let’s get started.

Congratulations to EOSC, which was officially launched last November! For many people, EOSC was some large ephemeral formless entity that does... something, on the political level. EOSC does have a list of actual services. But that’s pretty much it, a list of links. Should the cloud word even be included?

Well, yes and no. It’s understandable that kick-starting something on this scale takes a while, and as a lot of my colleagues can testify, I’m a big fan of “release early”. However, is it a “Cloud” yet?

No.

EOSC needs to solve the basic issues with a federated cloud marketplace. How are resources granted and paid for? How is the reporting done? Are the SLAs common? What AAI systems and principles are there, and can both users and providers integrate to them?

The services must be easily consumable by the users, and there must be clear integration points for the providers. Being a service catalog, and relying on tons of different contact points between vendors and users, where all pairings have different processes, is neither flexible nor fast. The process planning must be done thoroughly, with an eye on automatability. The resource provides must be in focus in this process planning, but they are less important than the end users.

 

 
”In 2019, the term Cloud will continue to be used both way too narrowly and way too widely."
 


Having the framework in place to connect services to user communities is a great goal. The real “C” of EOSC is a cloud (with at least some of the NIST definition of cloud characteristics (on-demand self-service, resource pooling, and measured service) for integrating services, users, and user communities. It’s not a Kubernetes or Nextcloud service for European scientists.

When a researcher who needs scientific IT resources can go to the EOSC site, find a suitable service, figure out the cost scheme for their use, and be able to get to work during the same day, EOSC will be successful.

EOSC is ambitious, and I’m afraid that too big early expectations will be detrimental to it. The hard problems (e.g. making Authorization, costs, contracts, SLAs and reporting trivial for customers and providers) must be solved, but it takes time. If EOSC can deliver good basic rules and tools for federation, with a focus on making it easy for end users, it will be a great step forward. Not only will the researchers benefit, but the providers gain benefits of scale by building services for larger audiences.

Will the “C” in EOSC be there in 2019? I doubt it, at least not a large part of it. Will EOSC be completely useless in 2019? No, but it will only be able to serve some selected use cases. I expect greater benefits to be reaped within 3–5 years, IF there’s active development in a good direction.
 

FPGAs and scientific code

Accelerators are not a new thing in data centers. Deep learning and cryptocurrency have made the largest waves when it comes to using GPGPUs for acceleration. However, they are not the only codes that benefit from acceleration. More and more other scientific codes are also using GPGPUs for acceleration.

It looks like the next step is FPGAs. Recently FPGAs have become available in commercial IaaS services. Generic accelerator support is also maturing in e.g. OpenStack with the Cyborg service.

FPGAs are often used for accelerating deep learning workloads. However, as with any other type of acceleration, a wide range of computation benefits from the FPGAs. I think we’ll see forays into the FPGA field more and more for scientific computation. Apart from the early adopters, the growth will probably be slow, as it is a new computing paradigm. However, cloud services will provide an easy way to dip your toes into this, for both application developers and users.
 

Scientific data storage

In many cases, scientific data storage usage still follows old patterns. Copy the data from a laptop/USB disk/lab server to a computing cluster/VM/etc. and compute on it. Copy the results somewhere, maybe back to the laptop, play around with them. Maybe you copy the data somewhere else for visualization, or further processing, and you juggle a few copies and versions, and try not to
mix them up.

These models aren’t really efficient, nor easy to use. The future workflows will revolve much more around the data itself. Either data is directly produced to, or you upload the data to a generally accessible storage, most likely an object storage service.

As the data is accessible from wherever you need, you’ll point the computational platforms to the data, and the data location won't change (except temporary copies for computational purposes) throughout the whole analysis workflow.

As these data services are accessible from anywhere you need to, it makes it easy to combine tools from many different provides, which can poke at the data no matter where they are produced. A lot of tooling still needs to be built, but I expect that tools and processes will become mature and usable.

Again, this change will take time, as it needs changing user behavior. However, the rising demand for FAIR (Findable, Accessible, Interoperable, Reusable) principles for research data will probably accelerate this, since the same models make it easier to at least provide the “A” for FAIR.
 

Scientific OpenStacks

In my (anecdotal) experience, the amount of OpenStack installations by scientific infrastructure providers has had a significant growth last year.

The IaaS paradigm has made it easier to manage infrastructure more systematically, both for the customers and providers of the infrastructure. IaaS fills a different need that e.g. HPC clusters which have been traditionally run by scientific computational service providers.

While HPC clusters are somewhat easily usable by end-users, IaaS services provide a more generic infrastructure layer. However, for many scientific OpenStack use-cases (and I’m sure other use-cases too), IaaS is often still seen as an end-product to the users, rather than a generic improvement on infrastructure management.

The OpenStack Summit renamed itself to the Open Infrastructure Summit, as a reflection of the trend that OpenStack’s role is not merely a cloud product to be used, it’s a part of having a software defined infrastructure.

The focus has started moving from “Do we have an IaaS offering?” to “Is our whole IT infra software defined?”. In the latter question OpenStack is a part of the answer, but not the whole answer.

 

 
”This will have a big impact on the availability of scientific IT resources, but it will also push OpenStack itself a bit behind the scenes."
 



I think that many OpenStack installations for scientific use will follow this path. They will no longer be “an OpenStack installation for purpose X” but “Scientific IT resources, usable by X, Y, Z, and our organization is also by the way running our web pages there.”

It will take some time, as it does require quite a high level of maturity from the organization. This will have a big impact on the availability of scientific IT resources, but it will also push OpenStack itself a bit behind the scenes.

That’s not a bad thing, since the services built on top of the open infrastructure are more interesting than the infrastructure itself.

Except of course to cloud-geeks like me.


PICTURE: ADOBE STOCK

Supercomputing-konferenssi Teksasissa oli suurempi kuin koskaan

Sanonta Everything is big in Texas piti paikkansa myös tämän vuoden Supercomputing-konferenssissa (SC18), joka on suurteholaskentaan, tietoverkkoihin, tallennukseen ja data-analyysiin keskittyvä vuotuinen Yhdysvalloissa järjestettävä konferenssi. Järjestyksessään 30:s konferenssi keräsi yhteen ennätykselliset yli 13 000 osallistujaa ympäri maailmaa Dallasiin, Teksasiin 11.–16. marraskuuta 2018. 

Myös CSC:ltä oli muutamia asiantuntijoita mukana kuulemassa ja oppimassa superlaskennan viimeisimpiä trendejä ja teknologioita sekä tapaamassa yhteistyökumppaneita aikataulullisesti hyvin tiiviin viikon aikana. Itse olin mukana edustamassa eurooppalaista suurteholaskennan infrastruktuuri PRACEa (Partnership for Advanced Computing in Europe).

Superviikkoon kuului muun muassa näyttelyosasto valtavassa, noin neljäntoista jalkapallokentän kokoisessa messuhallissa. PRACEn messuständillä pidettiin viikon aikana 12 esitelmää muun muassa PRACEn tarjoamien laskentaresurssien avulla saavutetuista tieteellisistä tuloksista, uusimmasta Scientific Case -raportista ja PRACEn palvelu- ja koulutustarjonnasta.

Näytteilleasettajia konferenssissa oli yhteensä ennätykselliset 364 kappaletta.
 

PRACEn messuosasto SC18-konferenssissa Teksasin Dallasissa.


Muita tapahtuman superlatiiveja oli maailman tehokkain väliaikainen tietoverkko, SCinet, jonka tehokkuus oli 4,02 terabittiä sekunnissa. Vapaaehtoisvoimin toteutetun tietoverkon rakentamiseen käytettiin yli 100 kilometriä kaapelointia, ja sitä varten asennettiin 300 langattoman verkon tukiasemaa konferenssin messuhalliin. Tietoverkon hintalapuksi tuli 52 miljoonaa Yhdysvaltain dollaria.
 

Tekoälyä ja eksaflopseja

Konferenssin teknisen ohjelman sisällöt painottuivat tänä vuonna erityisesti tekoälyyn, etenkin koneoppimiseen, suurteholaskentaan liittyvän ohjelman lisäksi. Tekoälyn kehittämisen keskeinen edellytys on tehokas laskenta, jota tehdään supertietokoneilla.

Myös konferenssin pääpuhuja Erik Brynjolfssonin puheenvuoro ”HPC and Artificial Intelligence – Helping to Solve Humanity’s Grand Challenges” käsitteli suurteholaskennan ja tekoälyn mullistavaa voimaa etenkin maailmanlaajuisten ongelmien kuten ruokapulan ja erilaisten epidemioiden ratkaisemiseksi.
 

CSC:n seuraavan laskentaympäristön toimittaja Atosin messuosasto.


Suurteholaskennan osalta fokuksessa oli eksa-tason laskentaan siirtyminen. Yksi eksaflop tarkoittaa prosessorien laskentatehoa, joka vastaa 1018 (triljoona) liukulukulaskutoimitusta sekunnissa. Ensimmäisten eksa-tason supertietokoneiden odotetaan näkevän päivänvalon vuonna 2021, ja tähän liittyvien teknologioiden, algoritmien ynnä muiden asioiden kehitys on jo täydessä vauhdissa.

Konferenssissa julkaistiin myös uusin supertietokoneiden Top500-lista, jota dominoi Yhdysvaltain energiaministeriö viidellä top10-listasijoituksella. Kärkikymmenikköön kuului tällä erää kaksi eurooppalaista superkonetta, Sveitsissä sijaitseva Piz Daint -niminen supertietokone ja Saksassa sijaitseva SuperMUC-NG-supertietokone.

Myös suomalaisten tutkijoiden ja yritysten on mahdollista saada laskentaresursseja näiltä kahdelta Euroopan kärkikoneelta PRACEn resurssihaun kautta. Seuraava PRACE-laskentaresurssien haku alkaa 5. maaliskuuta 2019.­­­­
 


 

SC18-konferenssin satoa voi lukea Twitteristä aihetunnisteella #SC18. SC-konferenssisarjan eurooppalainen sisar ISC High Performance (International Supercomputing Conference) järjestetään 16.–20. kesäkuuta 2019 Frankfurtissa, Saksassa. Tutkimuspapereita konferenssiin voi jättää 12. joulukuuta 2018 saakka tapahtuman verkkosivujen kautta.

SC-konferenssin seuraava tapahtuma SC19 pidetään marraskuussa 2019 Denverissä, Yhdysvaltain Coloradossa.
 

Lue myös: CSC valitsi Atosin Suomen seuraavan supertietokoneen toimittajaksi

Oppimisanalytiikkaa edistämässä

Ymmärrystä oppimisanalytiikasta edistettiin 11.–12.10. EUNISin kansainvälisessä työpajassa, joka järjestettiin Aalto-yliopiston tiloissa Töölössä, Helsingissä. CSC oli mukana tukemassa tilaisuuden järjestämistä. Syksyiseen Helsinkiin paikalle saapui yli 70 osallistujaa kymmenestä maasta. Tapahtuma oli jatkoa viime vuonna Manchesterissa pidetylle tapahtumalle.

Oppimisanalytiikka on yksi tämän hetken keskeisimmistä teemoista koulutuksen kehittämisessä. Sen avulla edistetään opiskelijan oppimista, tarjotaan työkaluja opetuksen tueksi ja hyödynnetään arvioinnissa sekä osana tiedolla johtamista. Tärkeimpiä kysymyksiä tällä hetkellä ovatkin, mitä analytiikalla halutaan saavuttaa tai millaista parannusta sen hyödyntämisellä tavoitellaan. Muun muassa nämä kysymykset olivat työpajassa vahvasti esillä.

Tilaisuudessa osallistujat saivat oppimisanalytiikan asiantuntijoiden johdolla tutustua monipuolisesti analytiikan tarjoamiin mahdollisuuksiin. Keskeinen teema oli, miten analytiikka tukee koulutusta kokonaisuutena. Opetuksen ja oppimisen lisäksi analytiikkaa halutaan hyödyntää muun muassa johtamisen sekä organisaatiokehityksen tueksi. Esimerkiksi Aalto-yliopiston tavoitteena on olla vielä aiempaa enemmän tiedolla johdettu yliopisto. Analytiikka toimii tämän mahdollistajana.

Kiinnostusta ja intoa on laajalti, joten analytiikka tulee oppimiseenkin nyt vauhdilla ja sen hyödyntämisellä pystytään tulevaisuudessa tekemään uusia avauksia. Selkeänä viestinä oli kuitenkin, että tärkeää olisi pysähtyä ja tunnistaa tarpeet analytiikan käyttämiselle. Kysyä, mitä hyötyä analytiikasta on omalle organisaatiolle, opiskelijoille, opettajille, opetuksen kehittäjille ja johdolle; mihin analytiikan avulla halutaan päästä; ja mitkä analytiikan tuomat muutokset ovat organisaatioille tärkeitä.

Yksi mielenkiintoisista puheenvuoroista esitteli SHEILA-projektin, jonka tavoitteena on rakentaa eurooppalainen oppimisanalytiikan käytäntö. Analytiikka-asiat ovat osittain organisaatioiden sisäinen asia, mutta viitekehystyötä tehdään myös kansallisella tai jopa kansainvälisellä tasolla. Yi-Shan Tsai Edinburghin yliopistosta kertoi, että projektissa kehitetyt toimintatavat on koettu hyödyllisiksi. Pitäisikö meidän Suomessakin organisoitua paremmin analytiikan hyödyntämisen tueksi? Löytää yhdessä suunta, miten yhdistää algoritmit ja pedagogiikka toimivaksi kokonaisuudeksi? Työpajassa kävi jälleen ilmi, että heti alkuun tarvitaan määritelmä sille, mitä kaikkea oppimisanalytiikalla tarkoitetaan Suomessa tai mitä sillä ymmärretään.

Kansallinen oppimisanalytiikan viitekehystyö on alulla, ja sitä tehdään muun muassa opetus- ja kulttuuriministeriön alaisen analytiikkajaoston toimesta. Samalla kun organisaationne miettii omia tarpeitaan, olette tervetulleita osallistumaan työhön, jonka tavoitteena on luoda kansallisia suuntaviivoja oppimisanalytiikan hyödyntämiseen ja helpottaa sitä kautta analytiikan käyttöönottoa.

Keskustelu oppimisanalytiikasta jatkuu IT-päivien yhteydessä, Oulun ammattikorkeakoulun ja Oulun yliopiston yhdessä CSC:n kanssa järjestämässä esipäivässä 5.11.2018. Jatkuvan oppimisen digiloikka -foorumissa on tavoitteena kehittää ja yhdistää opiskelijoiden, opettajien ja tutkijoiden käyttöön parhaita digitaalisia palveluja ja oppimista tukevia ratkaisuja. Tällä kertaa teemoina ovat analytiikka ja liike- ja työelämän sekä koulutus- ja tutkimustoimijoiden yhteistyö.


Eurooppalaisten korkeakoulujen tietohallinnon yhteistyöorganisaatio EUNIS (European University Information Systems organisation) tuo yhteen korkeakoulutuksen tietotekniikan osaajat kehittämään ja jakamaan parhaita käytäntöjä tietojärjestelmiin liittyen. Yhteistyötä tehdään erityisesti EUNISin työryhmien kautta. www.eunis.org
 

Lisätietoja: 


Kuva: Kalle Kataila

Tutkimustietovaranto tarjoaa kokonaiskuvan tutkimusrahoituksesta

Tutkimusrahoitus on kuluvana syksynä näkynyt tiedotusvälineissä. On kirjoitettu vähenevästä julkisesta rahoituksesta, kerrottu yksityisten säätiöiden tuesta tieteelle ja nostettu esiin kilpaillun tutkimusrahoituksen merkitystä. Kuinka tutkimusta sitten rahoitetaan? Tutustutaanpa tarkemmin.

Suomen Akatemia rahoitti 970:ää hanketta vuonna 2017.
Sata suurinta säätiötä vastaa noin neljästä viidesosasta yksityisestä rahoituksesta.
Entäpä Business Finlandin rahoittama tutkimus? Tai Euroopan Unionista virtaava rahoitus?

Tietojen hakeminen nostaa epätoivon aaltoja. Tieto on sirpaleina rahoittajien ja yliopistojen omilla sivuilla eri muodoissa. Kokonaiskuvan hahmottaminen syö aikaa ja hermoja.

Tutkimustietovaranto ratkaisee ongelman. Vuoden 2018 loppuun mennessä rahoituspäätökset kokoava osa, hanketietovaranto, on valmiina kerryttämään tietoa kotimaisesta kilpaillusta tutkimusrahoituksesta. Rahoitustiedon yhdistyessä muuhun tutkimustietoon syntyy suomalaisesta tutkimuksesta tyhjentävä kuva. Varannosta tieto rahoituksesta virtaa yhdenmukaisena korkeakouluihin ja tutkimuslaitoksiin. Ensimmäisenä sinne saadaan tiedot julkisesta rahoituksesta ja vähitellen mukaan tulee myös yksityinen säätiörahoitus.

Lopulta tietovarannon research.fi-portaali palvelee jokaista tiedonjanoista. Kilpailtu rahoitus ilmestyy näytölle parilla hiirenklikkauksella ja tieteen rahoittajat pääsevät ansaitusti näkyville.

Rahoittajien kanssa kokonaisuutta hiotaan marraskuun lopun seminaarissa.

 

Research Information Hub offers a general view to research funding

Research funding has got media visibility during the autumn. There's been discussion about diminishing public funding and articles about funding by private foundations. How is research funded in Finland? Let's try few easy searches.

Academy of Finland funded 970 projects in 2017.
Hundred largest funders are responsible for roughly 80 % of private funding.
How about the relevance of funding by Business Finland? Or the share of EU grants?

Searching for complete, easily digestable picture of research funding is desperate work. Nuggets of information are on the homepages of universities and research funders in different forms. Trying to percieve the general view calls for nerves and wastes time.

Research Information Hub solves this problem. The funding database of the Hub accumulates data about Finnish competitive research funding and is planned to contain the bulk of it in the future. The funding database is ready to receive information at the end of 2018.  From the Hub this uniform information flows to the universities and other research organisations. At the start funding database contains mainly public funding but gradually includes private grants too.

Later when the Hub's portal - research.fi - comes online the comprehensive picture of research funding can be summoned on the screen with few mouse clicks. The portal services all curious minds and gives visibility to all research funders in Finland.

 

 

Suomen tulee olla digitalisaation suunnannäyttäjä

CSC:n tavoitteet ja tehtävät tulevalle hallitukselle pohjautuvat strategisiin linjauksiimme siitä, miten suomalaisen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon kilpailukykyä edistetään. Näiden sektoreiden toiminnan kehittäminen kestävällä tavalla on merkittävä tekijä koko Suomen kilpailukyvyn kannalta.

Suomi on edelläkävijä muun muassa avoimessa tieteessä sekä digitaalisessa oppimisessa ja opetuksessa. Myös datakeskusten osalta Suomella on loistavia kilpailuetuja. Näiden hyödyntäminen ja vahvistaminen tulee olla seuraavan hallituksen agendalla.

CSC haluaa, että Suomi panostaa jatkossakin tutkijoiden työkaluihin ja tutkimusinfrastruktuureihin. Esimerkkinä mainittakoon suuritehoinen laskenta, joka on välttämätön keino vaikkapa ilmastonmuutoksen aiheuttamiin haasteisiin vastaamisessa sekä uusien lääkeaineiden ja hoitojen kehittämisessä.

 
"Suomi on edelläkävijä muun muassa avoimessa tieteessä sekä digitaalisessa oppimisessa ja opetuksessa."
 

Tällä hallituskaudella osoitettu rahoitus datanhallinnan ja laskennan kehittämiselle on keskeinen panostus suomalaisen tutkimuksen kansainvälisen kilpailukyvyn ylläpitoon. On tärkeää, että rahoitus on tulevaisuudessa kestävällä pohjalla, ja siksi infrastruktuurit on päivitettävä säännöllisesti. Ilman tehokasta laskentaa ei ole myöskään tekoälyä tai data-analytiikkaa.

Data puolestaan on kullanarvoinen raaka-aine, jonka liikkuvuuteen, avoimeen saatavuuteen, uudelleenkäyttöön ja hyödyntämiseen tulee panostaa kaikilla sektoreilla. Kuitenkin niin, että se tapahtuu hallitusti, yhteisten pelisääntöjen puitteissa.

Dataa koskevan lainsäädännön tarkastelu on ulotettava läpi sektorirajojen ja esteet datan liikkuvuudelle tulee purkaa. Myös eksponentiaalisesti kasvavat osaamistarpeet datan osalta tulee huomioida kaikilla aloilla, myös opettajankoulutuksessa.

Osaaminen ylipäänsä on teema, jossa tarvitaan uudistumista: uudistuvan työelämän tarpeisiin on vastattava, ja siksi jatkuvan oppimisen reformia ja digitaalisten infrastruktuurien rakentamista oppimisen tueksi tulee jatkaa seuraavallakin hallituskaudella.

 
"Arktisen datakaapelin myötä Suomen on mahdollista profiloitua arktisena dataliikenteen ja -osaamisen solmukohtana."
 

Datakeskukset ovat Suomelle mahdollisuus, mutta eivät pelkästään infrastruktuurin muodossa vaan datakeskusekosysteemeinä, jotka rakentuvat useiden erilaisten toimijoiden yhteistyössä ja luovat synergioita sekä uusia työpaikkoja.

Suomen tuleekin jatkaa datakeskusinvestointien houkuttelemista ja ekosysteemien rakentamista – myös arktisen datakaapelin myötä Suomen on mahdollista profiloitua arktisena dataliikenteen ja -osaamisen solmukohtana. Hyödynnetään kilpailuetumme tässäkin asiassa!

Digitalisaation osalta tapahtuu paljon myös EU:ssa. Unioni valmistelee parhaillaan mittavia rahoitusohjelmia tutkimukselle, innovaatioille ja digitaalisille palveluille.

Suomalaisten toimijoiden menestymistä EU-rahalla tehtävässä kehitystyössä tulee tukea, jotta pääsisimme vähintään verrokkimaiden tasolle ja miksei ohikin, koska osaamista meiltä löytyy. Suomen tulee myös olla aktiivinen vaikuttaja EU:n rahoitusohjelmien strategisessa suunnittelussa.

CSC:n hallitusohjelmatavoitteet on tarkoitettu herättämään ajatuksia ja keskustelua. Kerromme mielellämme lisää ja annamme asiantuntemuksemme käyttöön Suomen kilpailukyvyn edistämiseksi. Ota yhteyttä!

#digisuomensuunta

Kuva: Adobe Stock

Keskustelua avoimen tieteen koordinoinnista

Avoin tiede ja tutkimus -hanke päättyi vuonna 2017 ja olemme itse kukin totuttautuneet hankkeen jälkeiseen elämään. Omalla kohdallani tämä tarkoittaa palaamista CSC:n viestintään ja avoimen tieteen jäämistä enemmänkin oman harrastuneisuuden varaan.

Tieteellisten seurain valtuuskunta (TSV) otti vastuun avoimen tieteen disseminaatiosta ja koordinoinnista ja se rakentaa tästä pysyvää toimintaa. TSV aloitti koordinaatiotyönsä neljällä suunnittelutilaisuudella, joista osallistuin itse Avoin julkaiseminen -tilaisuuteen 1.10.2018. Muiden tapaamisten teemoina olivat avoin data, avoin oppiminen ja avoin tiedeyhteisö.

Koordinaation toiminta ja rakenne hakevat muotoaan syksyn 2018 aikana. Lähtökohtaisesti itsenäinen tutkimusyhteisö koordinoi: tutkijat ovat keskiössä. Tavoitteena on luoda yhteisiä linjauksia, yhteistyötä, synergiaa ja kokonaiskuvaa sekä uusia avoimen tieteen tiekartta.

Tilaisuudessa esitetty luonnos organisaatiokaaviosta muistuttaa lumihiutaletta: keskellä on päätöksiä tekevä ydin, joka vaikuttaa vastavuoroisesti ja vahvasti neljän asiantuntijaryhmän kanssa (avoin julkaiseminen, avoin data, avoin oppiminen, avoin tutkimusyhteisö). Tämän hetken kaavailujen mukaan ytimeen kuuluu yliopistojen, ammattikorkeakoulujen, korkeakoulukirjastojen ja tutkimuslaitosten edustajia sekä tutkijajäseniä (Suomen yliopistojen rehtorineuvosto UNIFI, Ammattikorkeakoulujen rehtorineuvosto ARENE ja  Tutkimuslaitosten yhteenliittymä Tulanet).

Miksi avointa julkaisemista halutaan edistää?

Tilaisuuden 60 osallistujasta ja 60 etäosallistujasta kaikilla on pitkä kokemus avoimesta julkaisemisesta. Syyt, miksi avointa julkaisemista halutaan edistää, ovat hyvin selvillä.

Työskentelymuotona tilaisuudessa oli pienryhmäkeskustelut, joiden tulokset kirjattiin Google Sheetiin ja esitettyä ideoita pystyi kannattamaan. Äänestyksessä kannatetuimmiksi syiksi nousivat:

  • Tiedon demokratisointi
  • Tutkimustulokset tulevat nopeammin ja tehokkaammin yhteiskunnan eri toimijoiden käyttöön
  • Kustannusten alentaminen
  • Tutkijan/tutkimuksen parempi näkyvyys, ja meritoituminen

Koordinaatiotarpeet juuri nyt

Nyt päästiin asiaan, minkä huomasin välittömästä desibelitason noususta. Omassa keskusteluryhmässäni oli edustajia TSV:stä, tutkimuslaitoksista ja korkeakoulukirjastoista.  

Erotimme avoimessa julkaisemisessa pitkän ja lyhyen tähtäimen tavoitteet. Nyt tarvitaan ensisijaisesti avoimen julkaisujen määrän nostamista 100 prosenttiin (syyskuussa julkaistun PlanS-julkilausuman mukaan). Pidemmällä tähtäimellä kehitämme muita julkaisumuotoja artikkelien rinnalle ja pyrimme eroon suurista kaupallisista kustantajista.
 
Google Sheets-äänestyksessä kannatusta saivat seuraavat ideat:

  • Avointa julkaisemista tukevan lainsäädännön kehittäminen
  • Avoimen julkaisemisen kehittäminen huomioiden meritoitumisen monipuolistaminen, eri julkaisumuodot ja rahoituksen rakenne.
  • Kansallinen avoimen julkaisemisen politiikka ja periaatteet
  • Selkeät prosessit ja käytännöt avoimeen julkaisemiseen sekä koulutus

Itse jäin taas kerran miettimään kokonaisuutta, vaikka asia ei ole mitenkään uusi. Avoin julkaiseminen (sekä vihreän että kultaisen tien avoin julkaiseminen) sinänsä on aika helposti toteutettavissa, mutta se ei yksinään riitä. Meritoituminen ja rahoitusjärjestelmä perustuvat pitkälti artikkelimuotoiseen julkaisemiseen, lehtien impaktikertoimiin, viittausten määriin ja kustantajien järjestämään vertaisarviointiin. Muutettavaa on paljon. Tarvitaan uusia tapoja julkaista ja uusia tapoja mitata. Suuret kaupalliset tiedekustantajat puolustavat bisnestään ja haraavat kovasti muutosta vastaan, mutta muuttamalla järjestelmää ja tarjoamalla muita vaihtoehtoja tieteelliseen kommunikointiin voimme tehdä heistä tarpeettomia tai ainakin kohtuullisen hintaisia.

Käytännön menettelytavat

Avoimen tieteen uutiskirje lähetetään kerran kuussa. Tapaamisia pidetään välttämättöminä, joten koordinaatiotyössä kopioidaan RDA:n (Research Data Alliance) toimintamallia järjestämällä “plenaari” kahdesti vuodessa. Avoimen tieteen päivät järjestetään marraskuussa ja ilmoittautuminen avataan kohta.

Varsin yksimieleisesti omassa ryhmässämme kannatimme vahvaa yhteistä alustaa (avointiede.fi) ja sen kehittämistä sekä erilaisten yhteistyöalustojen käyttöä (eDuuni, Wikit, Google Docs) Kullekin parhaiten sopivimman yhteistyöalustan jättäisimme ryhmien päätettäväksi. Lopulliset tuotokset tulisivat jakoon aina avointiede.fi:n kautta. Viestinnässä some, varsinkin Twitter, on nyt tehokas väline. Kannattaa mennä sinne, missä ihmiset ovat jo.
 
Google Sheets -änestyksessä säännöllistä tapaamisia ja yhteistä alustaa pidettiin tärkeinä. Muita nousevia teemoja olivat kansallisten avoimuutta edistävien hankkeiden koordinointi EU-hankkeiden kanssa, halu saada kansallinen avoimen tieteen politiikka ja linjauksia/selkänojaa hintaneuvotteluille suurten kansainvälisten tiedekustantajien kanssa. Kielikysymyskin nousi esille. Tilaisuudessa kannatettiin suomen, ruotsin ja englannin huomioimista.

Lue lisää

Kamppailu avoimen julkaisemisen puolesta jatkuu

Tulevaisuuden kunnassa älyteknologia kohtaa tunneälyn

Kuntamarkkinoille, vuoden tärkeimpään kunta-alan tapahtumaan, kokoontuu vuosittain huomattava määrä kuntien, valtion ja muun julkisen hallinnon edustajia. Tänä vuonna paikalla on yli 7 000 vierailijaa, mikä näkyy ja kuuluu kauas.

Vilkkaasta puheensorinasta sekä ahtaasti sullottujen ständien ja väkijoukon määrästä päätellen osallistuminen on vaivan arvoista. Tunnelma on kuin markkinoilla konsanaan. Punapaitaiset oppaat ohjaavat eksyneitä oikeisiin paikkoihin lukuisissa eri kerroksissa.

Näyttelyn asettajia on kirjaimellisesti laidasta laitaan, koulutuspalveluista hyvinvointi- ja kuntoutuspalveluihin. Tietoiskujen aihepiirit vaihtelevat koulun sisäilmaongelmien kartoittamisesta keinoälyn mahdollisuuksiin hoivapalveluiden kehittämisessä.
 


 

Tuleva maakuntauudistus ja palvelutuotantorakenteen muutos näkyvät puheenvuoroissa ja esityksissä. Keskustelua herätellään muun muassa siitä, kuinka kuntien väliset ICT-palvelut tulisi organisoida uudelleen reformin myötä. Politikointi käy kuumana.

Oma viisihenkinen MPASSid-tiimimme kotiutuu pariksi päiväksi vähemmän hälyiseen kolmanteen kerrokseen. Sijainti ei lopulta ole ollenkaan huono, sillä paikalle vaeltaa tasainen virta kunta-alan henkilöstöä kysymään, mikäs se MPASSid oikein on ja mihin sillä pääsee.

Kerromme, että MPASSid on opetus- ja kulttuuriministeriön tarjoama jatkuvan oppimisen tunnistuspalvelu peruskouluille ja lukioille ja että palvelua operoi CSC. Vaikka kunnat eivät ainakaan toistaiseksi ole CSC:n suoria asiakkaita, peruskouluissa ja lukioissa on jo runsaasti MPASSid-palvelun käyttäjiä. Kuntamarkkinoiden aikana luku kasvaa kohisten. Uskallamme pian puhua peräti 200 000 käyttäjästä, sillä uusia sopimuksia solmitaan useita päivittäin.  

On hienoa huomata, että palvelulle löytyy jo sitoutuneita ja siinä hyötyä näkeviä käyttäjiä. Vaikka CSC ei organisaationa tai palveluntuottajana ole vielä tuttu kunta-alalla, käy mielessäni, että moni saattaa käyttää palveluitamme tietämättään.

 
"Uskallamme pian puhua peräti 200 000 MPASSid-tunnuksen käyttäjästä, sillä uusia sopimuksia solmitaan useita päivittäin."
 

Tapaamme jonkin verran lukioiden henkilökuntaa, joille MPASSid-palvelu on entuudestaan tuttu Examina-verkkopalvelun takia. Ylioppilastutkintolautakunta, Opetushallitus, Kopiosto ry ja Tuotos ry sopivat vastikään yhdessä, että lukioiden opettajat pääsevät käsiksi vanhoihin ylioppilaskokeiden aineistoihin Examinassa, johon tunnistaudutaan MPASSid-palvelun kautta. Tämä on saanutkin lukiot ja kunnat sankoin joukoin liikkeelle, ja se näkyy myös Kuntamarkkinoilla.

Koen, että on hyödyllistä ja mielenkiintoista tavata palvelun loppukäyttäjiä ja muita digitaalisia palveluja kehittäviä asiantuntijoita ja rakentaa yhdessä asiakasymmärrystä kuntien toiminnasta.

Kuntien tulevaisuudesta ja digitalisaatiosta keskustellaan tapahtumassa vilkkaasti. Erityisesti puheenvuorot älykunnista vetävät runsaasti väkeä, vaikka itse tietoiskujen anti jää joiltakin osin melko ohueksi.

Eräässä tietoiskussa kuntien edustajat tunnustavat älyteknologian olevan merkittävä osa kunnan tulevaisuutta. Osa myöntää, etteivät he tiedä, millaisia ratkaisuja tämä heidän kohdallaan tarkoittaa. Epävarmaa on myös, mitä konkreettisia muutoksia keinoälyn käyttöönotto osana digitaalisia palveluja tarkoittaa. Kunnissa tiedostetaan, että samalla kun päätöksenteko tapaa olla jäykkää, on tarve muutokselle kuitenkin suuri.
 


 

Eräs tilaisuudessa esiintyneistä teknologiayrityksistä tekee asiakastutkimusta kuntapalveluiden digitalisoinnin trendeistä. Tuloksista käy ilmi, että trendien vaikutus oman kunnan tai organisaation toimintaan on erittäin suuri. Kuntien tulevaisuus näyttää nojaavan älykaupungin kehittämiseen, prosessien automatisointiin sekä palvelukokemuksen, hyvinvoinnin, elinvoimaisuuden ja kilpailukyvyn parantamiseen. Eräässä tietoiskussa toivotaan, että digitalisaatio otetaan osaksi kunnan strategiaa ja etsitään rohkeasti uusia tapoja toimia.      

Totean ilolla, että CSC:n operoima käyttäjätunnistus istuu oivallisesti digitalisoituvissa kunnissa palvelukokemuksen, mobiiliteknologian ja ICT:n modernisoinnin kylkeen ratkaisuna, joka säästää aikaa olennaiseen – eli opetukseen. Jään innolla odottamaan, miten lokakuussa julkaistava, 20 uutta kuntaa sekä 20 uutta palvelua MPASSid-luottamusverkostoon etsivä kampanjamme otetaan kunnissa ja palveluyrityksissä vastaan.  

Katso haastattelu aiheesta KuntaTV:n verkkosivuilta.

Kirjoittaja on MPASSid-tunnistuspalvelun viestintävastaava.
 

Lue myös:

Kuvat: Adope Stock ja CSC

Research with sensitive data requires high legal, ethical and security standards

Modern medical science has been able to improve human health tremendously during the last decades. Many diseases are much better understood than before leading to better treatments and more effective drugs. And the advances are rapidly continuing as we speak, for example towards precision medicine tailored for the patient's individual genomic characteristics.

Biomedicine is just one of the fields in which research including the analysis of personal data allows researchers to make new discoveries. Other such areas are for example language research or social sciences, or any other field that studies humans or the society.

It is clear that the use of personal data in research must always be based on high legal and ethical standards, as well as high security of the data and analysis environments.

 
"Biomedicine is just one of the fields in which research including the analysis of personal data allows researchers to make new discoveries."
 

Collecting and managing personal data has received lot of attention in recent years not least because of the new EU legislation, the General data protection regulation GDPR, and its influence in member states’ national legislation. The GDPR makes several clarifications in how personal data can be processed, for instance data subject’s right to know about processing and right to be forgotten. These conditions translate into requirements that sensitive data service providers need to match.

The term personal data is used for data that relates to an identifiable individual, either directly or indirectly. Thus name, address, personal ID number and passport photo are clearly personal data, but so are also location information, health records, genetic information, economic status and so on.

When personal data is used in research the directly identifying information is typically first removed and replaced with a random identifier, so that the mapping between these new identifiers and real persons is not visible to researchers.

This procedure decreases risks of accidental identification of people in further processing, although the data is still considered as personal data. Such data sets are said to be pseudonymized.
 
At CSC we are developing and providing services for our research customers to manage sensitive data securely and reliably, in a way that it is accessible only for authorized persons. The purpose is to offer effective and reliable services for research on sensitive data in the same way as CSC has done for other research for decades.

We also want to support the process of bringing valuable data collections available for research.

 
"Such research needs a secure processing environment that has connections to various data sources."
 

Using legal terminology, CSC acts as a data processor whereas the data owner acts as a data controller. In practice this means that the owner defines who can access the data and under what conditions, and CSC provides tools and environment that are specially designed for secure data processing. CSC’s sensitive data services currently combine secure processing in ePouta cloud, secure data archiving and strict access control.

This platform has been used, for instance, to pilot combining health cohort data with health records as a pre-study for national genome center in Finland. However, CSC specializes in the secondary use of health data, meaning that aim is in supporting research, not the clinical care directly. More information on the management of sensitive data in CSC environment will be discussed in the webinar by CSC experts on 25 September 2018.
 
Taking biomedical research again as an example, novel research combining genomic data with health information, data from longitudinal studies, register data and so on can be used to study diseases on unprecedented accuracy leading to quicker diagnoses and personalized medicine.

Such research needs a secure processing environment that has connections to various data sources and that combines usability with high security and tight access control. This is what CSC is currently working on.

The development work is done in close collaboration with key European players in the field, for example within the European ELIXIR research infrastructure and the Nordic NeIC Tryggve collaboration.
 
Regardless of the international collaboration, CSC as national actor stores sensitive data only inside Finland and will not move it outside of country borders – unless specifically instructed and authorized by the data controller. CSC has no commercial interests in the data stored in CSC’s services, since CSC as a public institution is not aiming for financial profit. Instead CSC's mission is to benefit research and the Finnish society.

 

Picture: Adope Stock

 

Kamppailu avoimen julkaisemisen puolesta jatkuu

Kävin ensimmäiset keskusteluni avoimesta julkaisemisesta nuorena tutkijana 90-luvun lopussa Tampereen yliopiston alakuppilassa. Keskustelua on käyty jo kauan ja kamppailu avoimen julkaisemisen puolesta jatkuu yhä.

Avointa julkaisemista on edistetty vuosien mittaan useilla aloitteilla, viimeisimpänä 4.9.2018 julkaistu 11 eurooppalaisen tutkimusrahoittajan muodostaman cOAlition S:n julistus Plan S, jossa vaaditaan kaikkia julkisrahoitteisen tutkimuksen tuottamia julkaisuja avoimesti saataville 1.1.2020 alkaen. Kuten tutkimusetiikan tutkija ja avoimen tieteen asiantuntija Heidi Laine blogissaan toteaa: “Plan S eroaa monista edeltäjistään siinä, että sen hihojen läpi siintävät lihasten ääriviivat. Rahoittajilla jos keillä on vipuvoimaa.”
 
Tietoisuutta tieteellisen kustantajien järjettömistä hinnoista on nostettu moneen otteeseen: esimerkkeinä Open Knowledge Finlandin No deal, no review -boikotti, Ruotsin ja Saksan Elsevier-sopimusten irtisanomiset, EU:n linjaukset ja OKM:n Avoin tiede ja tutkimus -hankkeen julkaisemat tieteellisten kustantajien hintatiedot 2010-2017.

Tieteellisestä kustantamisesta on tullut erittäin tuottoisaa liiketoimintaa. Suurimpien tieteellisten kustantajien liikevoitto on noin 30 – 40 prosenttia. Musiikkibisneksessä levy-yhtiöt pääsivät aluksi rahastamaan CD:llä, uudella digitaalisella tuotteella, mutta myöhemmin digitalisaation myötä ne menettivät sekä valtaansa että tulojansa. Sama digitalisaation megatrendi yhdistettynä kasvaviin avoimuuden vaatimuksiin tulee muuttamaan myös tieteellistä julkaisemista. Mikael Laakso esitti PHOS16-seminaarissa, että tieteellisten julkaisujen hinnat kääntyivät nousuun, kun ala keskittyi digitalisaation alkaessa 90-luvun puolivälissä. Vain suurilla kustantajilla oli varaa siirtyä digitaaliseen julkaisemiseen ja ala keskittyi viiteen suureen kustantajaan, jotka julkaisevat noin puolet maailman tutkimuksesta.

Tieteellinen julkaiseminen tulee väistämättä muuttumaan, koska digitalisaatio tarjoaa keinot ja kustantajien bisneslogiikka on kestämättömällä pohjalla: tutkimus on suurelta osin julkisrahoitteista, tutkijat kirjoittavat artikkelit ja hoitavat vertaisarvioinnin, joskus editoinninkin ja silti kustantajat myyvät tuotteen takaisin yliopistoille kovaan hintaan. Avoin julkaiseminen on koko ajan yleistymässä. Vuonna 2017 suomalaisten yliopistojen vertaisarvioiduista artikkeleista avoimesti julkaistujen osuus on noussut lähes 42 prosenttiin ja ammattikorkeakoulujen puolella vastaava luku on 56,2. (Lähde: Jyrki Ilva) Sopiva tavoite on luonnollisesti tasan 100 % ja epäilemättä  tulemme saamaan kultaisen tien avoimen julkaisemisen kohtuullisiksi neuvotelluin kirjoittajamaksuin ja rinnakkaisjulkaisemisen ilman embargoa tai vähintään lyhyellä embargoajalla.

Kehitys tuskin pysähtyy tähän, koska vihreän ja kultaisen tien julkaisemisessa on yksi yhteinen huono piirre: kumpikaan näistä ei poista kaupallisia kustantajia. Omana toiveenani on, että tiedeyhteisö ottaisi tieteellisen kommunikaation vahvasti omiin käsiinsä ja poistaisi turhan kaupallisen välistävetäjän. Fysiikan avoimella julkaisuarkisto arXivilla on jo yli 20 vuoden historia, yhteiskuntatieteiden vuonna 2016 perustettuun avoimeen julkaisuarkisto SocArXiv:iin on tallennettu noin 2700 preprinttiä ja yliopistoilla on omia julkaisuarkistojaan. Esillä on ollut ajatus, että artikkelien jakelu voitaisiin hoitaa julkaisuarkistojen kautta ja vertaisarviointi olisi hoidettavissa lisäämällä vertaisarvioituihin artikkeleihin laatuleimat. Tämä olisi varmasti hoidettavissa selvästi keskimääräistä 2000 euron kirjoittajamaksua halvemmalla.

Suomalaisten tieteellisten seurojen kustannustoiminta on hyvä esimerkki yhteisövetoisesta toiminnasta. Tieteellisten seurain valtuuskunnan ylläpitämällä Journal.fi-alustalla julkaistaan noin 60 avointa tieteellistä julkaisua. Aina on hyvä muistuttaa erikseen, että kovasti kritisoidut kansainväliset kustantajajätit ja kotimaiset kustantajina toimivat tieteelliset seurat ovat kaksi eri asiaa. Toinen näistä vetää välistä paljon rahaa ja toinen tekee pienellä budjetilla merkittävää työtä.

Olettaisin myös, että digitalisaatio tuo mukanaan myös perinteistä tieteellistä artikkelia parempia julkaisumuotoja. Artikkeli oli printtiaikana luonnollinen vaihtoehto ja nykyinen meritoitumisjärjestemä tukee artikkelimuotoista julkaisemista, mutta sen heikkoudet ovat ilmeiset. Esillä on ollut useita vaihtoehtoja. Tarjoaisiko tietokide paremman vaihtoehdon, tai wikipedia-tyyppinen Kaiken käsikirja? Olisiko Samuli Ollilan esittämä ajatus tutkimustulosten julkaisemisesta vertaisarvioituina GitHub-projekteina toteuttamiskelpoinen? Samassa paketissa olisi mukana käsikirjoitus, versionhallinta, kuvat, data ja käytetyt ohjelmistot?


Lisätietoja

Chapel – rinnakkaislaskentaan erikoistunut ohjelmointikieli

Chapel on moderni ohjelmointikieli rinnakkaislaskentaan. Se poikkeaa muista uusista ohjelmointikielistä Fortrania muistuttavalla syntaksillaan ja tehokkuudellaan. Kieli on käännettävä, mutta toisin kuin vaikkapa GNU-kääntäjissä, käyttäjän ei tarvitse osata kuvata laitteistoaan tarkasti käännösvaiheessa. Yksinkertainen -fast-optio riittää tuottamaan liki tuplaten nopeamman binäärin kuin GFortranin -Ofast -mavx2 -march=native.

Chapelista ei ole jaossa Windows-binäärejä, ja Linuxillekin se pitää itse lähdekoodista asentaa. Tämä voi olla syy siihen, että tämä blogikirjoitus on luultavasti ensimmäinen kerta, kun kuulet kielestä. Valmiiksi pakattuja asennuksia on vain Macille, kontille ja Crayn supertietokoneille. Vastineeksi asentaminen Linuxiin on kuitenkin erittäin yksinkertaista, ja Windows 10:ssä on WSL (Subsystem for Linux), jonne voisin kuvitella kielen sujahtavan helposti.
 

Mihin tarpeeseen?

Chapelia kannattaa käyttää, jos halutut kirjastot ovat kielen "Package Modules"-listassa. Erityisesti tarve Libcurlille eli tiedonsiirtokirjastolle – ohjelmalle, jonka avulla voi siirtää tiedostoja verkosta paikalliselle levylle tai toisin päin – voi iskeä nykyisin myös Fortran-koodareille, sillä verkossa olevaa tietoa tarvitsevat kaikki. Fortran on ajalta ennen internetiä, ja mielestäni on hiukan turhan perinteistä edelleen kirjoittaa sillä ohjelmia. 

Fortran poikkeaa syntaksiltaan merkittävästi uudemmista kielistä, mistä syystä siirtyminen uudempiin kieliin voi olla monelle vaikeaa. Chapel mahdollistaa siirtymän ja tuo samalla mukanaan ominaisuuksia, joita Fortranissa ei ole.

Chapelin suurin puute on sen rajoittuminen vain laskentaan. Lisp-ohjelmointikieltä joskus harrastaneena tiedän, että listalla voi tehdä kaiken, mutta vuonna 2018 kirjaston rajoittuminen listaan ei enää riitä. Itse en tulle Chapelia kirjoittamaan, koska käsittelen tietokannassa olevaa dataa, eikä kielessä ole tietokanta-ajureita. Tästä syystä en ole kirjoittanut Chapeliä riviäkään, ja kokemukseni rajoittuvat vain The Computer Language Benchmarks Game -pelin n-body Chapel -ohjelmaan. N-body on aurinkokuntasimulaattoriohjelma, jonka laskenta on erittäin perinteistä. Tästä syystä rinnakkaislaskennan mahdollistava Chapel oli ohjelmassa hyödyllinen.

 

Lisätietoa:

Chapel
Chapel GitHubissa

 

Kuva: Adobe Stock

— 20 Items per Page
Showing 1 - 20 of 84 results.

YOU MIGHT BE INTERESTED IN:

LATEST POSTS: LATEST POSTS:

ARCHIVE: