parallel.md

import numpy as np

def process_data(datafile):
    data = np.loadtxt(datafile)
    result = data.mean()
    return result

print(process_data('mydata.txt'))
import numpy as np
data = np.random.random((10000, 1000))
np.savetxt('mydata.txt', data)
import time

start  = time.time()
result = process_data('mydata.txt')
end    = time.time()

print(f'Total #seconds: {end - start}')
print(result)
%load_ext line_profiler
%lprun -f process_data process_data('mydata.txt')
import numpy as np
import joblib
import time
datasets = [np.random.random((91, 109, 91)) for i in range(10)]
def do_calculation(input_data):
    time.sleep(2)
    return input_data.mean()
with joblib.Parallel(n_jobs=-1) as pool:
    tasks   = [joblib.delayed(do_calculation)(d) for d in datasets]
    results = pool(tasks)
print(results)
def fit_model(indata, outdata, sliceidx):
    print(f'Fitting model at slice {sliceidx}')
    time.sleep(1)
    outdata[:, :, sliceidx] = indata[:, :, sliceidx, :].mean() + sliceidx
# Imagine that we have loaded this data from a file
data  = np.random.random((91, 109, 91, 50)).astype(np.float32)

# Pre-allocate space to store the fitted model parameters
model = np.memmap('model.mmap',
                  shape=(91, 109, 91),
                  dtype=np.float32,
                  mode='w+')

# Fit our model, processing slices in parallel
with joblib.Parallel(n_jobs=-1) as pool:
    pool(joblib.delayed(fit_model)(data, model, slc) for slc in range(91))

print(model)
import numpy      as np
import dask.array as da

data = da.random.random((1000, 1000, 1000, 20)).astype(np.float32)
data
m = data.mean()
m
print(m.compute())
def square(x):
    return x * x

def sum(values):
    total = 0
    for v in values:
        total = total + v
    return total
data   = [1, 2, 3, 4, 5]
output = []

for x in data:
    s = square(x)
    output.append(s)

total = sum(output)
print(total)
import dask

output = []
for x in data:
    a = dask.delayed(square)(x)
    output.append(a)

total = dask.delayed(sum)(output)
total.visualize()
total.compute()
import os
import shutil

os.makedirs('braindata', exist_ok=True)
for i in range(1, 6):
    shutil.copy('../../applications/fslpy/bighead.nii.gz', f'braindata/{i:02d}.nii.gz')
import fsl.wrappers as fw

def reorient(input, output):
    fw.fslreorient2std(input, output)
    return output

def fov(input, output):
    fw.robustfov(input, output)
    return output

def bet(input, output):
    fw.bet(input, output)
    return output
import glob
import dask
import fsl.data.image as fslimage

inputs = list(glob.glob('braindata/??.nii.gz'))
tasks  = []

for input in inputs:
    basename = fslimage.removeExt(input)
    r = dask.delayed(reorient)(input, f'{basename}_reorient.nii.gz')
    f = dask.delayed(fov)(r,          f'{basename}_fov.nii.gz')
    b = dask.delayed(bet)(f,          f'{basename}_brain.nii.gz')
    tasks.append(b)
dask.visualize(*tasks)
outputs = dask.compute(*tasks)
print(outputs)
from dask_jobqueue import SGECluster
cluster = SGECluster(cores=2, memory='16GB')
cluster.scale(jobs=5)
client = cluster.get_client()
import dask.array as da
data = da.random.random((1000, 1000, 1000, 10))
print(data.mean().compute())
subjectA/
    T1w.nii.gz
subjectB/
    T1w.nii.gz
subjectC/
    T1w.nii.gz
import os
import shutil

for subj in 'ABC':
    subjdir = f'mydata/subject{subj}'
    os.makedirs(subjdir, exist_ok=True)
    shutil.copy('../../applications/fslpy/bighead.nii.gz', f'{subjdir}/T1w.nii.gz')
%%writefile mydata.tree
subject{subject}
    T1w.nii.gz          (t1)
    T1w_brain.nii.gz    (t1_brain)
    T1w_fov.nii.gz      (t1_fov)
    T1w_reorient.nii.gz (t1_reorient)
from fsl.wrappers import bet, fslreorient2std, robustfov
from fsl_pipe import Pipeline, In, Out

def reorient(t1 : In, t1_reorient : Out):
    fslreorient2std(t1, t1_reorient)

def fov(t1_reorient : In, t1_fov : Out):
    robustfov(t1_reorient, t1_fov)

def brain_extract(t1_fov : In, t1_brain : Out):
    bet(t1_fov, t1_brain)
pipe = Pipeline()
pipe(reorient)
pipe(fov)
pipe(brain_extract)
pipe = Pipeline()

@pipe
def reorient(t1 : In, t1_reorient : Out):
    ...
from file_tree import FileTree
tree = FileTree.read('mydata.tree', './mydata/').update_glob('t1')
jobs = pipe.generate_jobs(tree)
jobs.run()
jobs.run(method='dask')
for dataset in mydata/sub-*; do
  fsl_sub ./my_processing_script.py ${dataset} --jobram 16
done
echo "./my_processing_script.py mydata/sub-01"  > tasks.txt
echo "./my_processing_script.py mydata/sub-02" >> tasks.txt
echo "./my_processing_script.py mydata/sub-03" >> tasks.txt
echo "./my_processing_script.py mydata/sub-04" >> tasks.txt
echo "./my_processing_script.py mydata/sub-05" >> tasks.txt
from glob import glob
from fsl.wrappers import fsl_sub

for dataset in glob('mydata/sub-*'):
    fsl_sub(f'./my_processing_script.py ${dataset}', jobram=16)
from fsl.data.image import removeExt
from fsl.wrappers import bet
from glob import glob

for t1 in glob('braindata/??.nii.gz'):
    t1 = removeExt(t1)
    bet(t1, f'{t1}_brain', submit={'jobram':16})
from fsl.data.image import removeExt
from fsl.wrappers import robustfov, bet
from glob import glob

for t1 in glob('braindata/??.nii.gz'):
    t1 = removeExt(t1)
    jid = robustfov(t1, f'{t1}_fov', submit=True)
    bet(f'{t1}_fov', f'{t1}_brain', submit={'jobram':16, 'jobhold' : jid})